홍콩 과학 기술 대학교의 연구팀과 중국 과학 기술 대학교 (University of China of China of China)는 공동으로 개방형 게임 비디오를 생성하고 대화식으로 제어 할 수있는 확산 컨버터 모델 인 GameGen-X 모델을 공동으로 개발했습니다. GameGen-X는 혁신적인 캐릭터, 동적 환경 및 복잡한 작업을 포함하는 게임 비디오를 생성 할뿐만 아니라 사용자의 멀티 모드 지침 (예 : 텍스트 및 키보드 작업)에 따라 실시간으로 게임 컨텐츠를 조정하여 사용자가 디자인의 재미를 경험할 수 있습니다. 게임 자체. 이 연구 결과는 게임 개발 분야에서 AI의 주요 획기적인 획기적인 것으로 나타 났으며 게임 컨텐츠 생성을위한 새로운 가능성을 제공합니다.
GameGen-X는 혁신적인 캐릭터, 역동적 인 환경, 복잡한 행동 및 다양한 이벤트 생성을 포함하여 다양한 게임 엔진 기능을 시뮬레이션 할 수있는 오픈 월드 게임 비디오를 자체적으로 생성 할 수 있으며, 당신과 상호 작용하여 존재의 즐거움을 경험할 수 있습니다. 게임 계획.
GameGen-X의 하이라이트 중 하나는 상호 작용의 제어 성입니다. 현재 게임 클립을 기반으로 미래 콘텐츠를 예측하고 변경하여 게임 플레이 시뮬레이션을 가능하게합니다.
사용자는 구조화 된 텍스트 지침 및 키보드 제어와 같은 멀티 모달 제어 신호를 통해 생성 된 컨텐츠에 영향을 줄 수 있으므로 문자 상호 작용 및 장면 내용을 제어 할 수 있습니다.
GameGen-X를 훈련시키기 위해 연구원들은 최초의 대형 오픈 월드 게임 비디오 데이터 세트 인 Ogamedata를 구성했습니다. 이 데이터 세트에는 150 개가 넘는 게임에서 다른 게임의 백만 개 이상의 비디오 클립이 포함되어 있으며 GPT-4O를 사용하여 유익한 텍스트 설명을 생성합니다.
GameGen-X의 교육 프로세스는 기본 모델 사전 훈련 및 교육용 미세 조정의 두 단계로 나뉩니다. 첫 번째 단계에서, 모델은 텍스트-비디오 생성 및 비디오 연속 작업을 통해 미리 훈련되어 고품질의 장기 오픈 도메인 게임 비디오를 생성 할 수 있습니다.
두 번째 단계에서 대화식 제어 성을 달성하기 위해 연구원들은 게임과 관련된 멀티 모달 제어 신호 전문가를 통합하는 InstructNet 모듈을 설계했습니다.
InstructNet을 사용하면 모델을 사용하면 사용자 입력을 기반으로 잠재적 표현을 조정하여 처음으로 비디오 생성에서 문자 상호 작용 및 장면 컨텐츠 제어를 통합 할 수 있습니다. 명령 미세 조정 중에는 InstructNet 만 업데이트되며 미리 훈련 된 기본 모델은 동결되어 모델이 생성 된 비디오 컨텐츠의 다양성과 품질을 잃지 않고 대화식 제어 성을 통합 할 수 있습니다.
실험 결과에 따르면 GameGen-X는 고품질 게임 컨텐츠를 생성하는 데 효과가 있으며 다른 오픈 소스 및 비즈니스 모델보다 우수한 환경 및 캐릭터에 대한 탁월한 제어 기능을 제공합니다.
물론,이 AI는 아직 초기 단계에 있으며 게임 계획을 진정으로 대체하기 전에 갈 길이 멀다. 그러나 그 출현은 의심 할 여지없이 게임 개발에 새로운 가능성을 가져옵니다. 게임 컨텐츠 설계 및 개발에 대한 새로운 접근 방식을 제공하여 전통적인 렌더링 기술을위한 보조 도구로 생성 모델의 잠재력을 보여주고, 창의적 생성 및 대화식 기능을 효과적으로 통합하여 미래의 게임 개발 가능성에 새로운 것을 가져옵니다.
프로젝트 주소 : https://gamegen-x.github.io/
GameGen-X는 아직 개발 초기 단계에 있지만 게임 비디오 생성 및 상호 작용 제어의 뛰어난 성능은 게임 업계에서 AI 기술을 적용 할 수있는 광범위한 전망을 나타냅니다. 앞으로 Gamegen-X는 게임 개발자에게 훌륭한 보조원이되어 게임 산업의 혁신적인 개발을 홍보 할 것으로 예상됩니다.