ai game devtools 다운로드 - ai game devtools 소스 코드 다운로드

AI 게임 개발 도구(AI-GDT) ?

AI 게임

여기에서는 LLM, 에이전트, 코드, 작성자, 이미지, 텍스처, 셰이더, 3D 모델, 애니메이션, 비디오, 오디오, 음악, 노래하는 음성 및 분석을 포함한 최신 AI 게임 개발 도구를 추적합니다.

프로젝트 목록

도구(AI LLM)

원천	설명	종이	게임 엔진	유형
에이전트GPT	? 브라우저에서 자율 AI 에이전트를 조립, 구성 및 배포하세요.			도구
AI명령	Unity Editor와 ChatGPT 통합.		단일성	도구
AIOS	LLM 에이전트 운영 체제.			도구
AI 과학자	AI 과학자: 완전 자동화된 개방형 과학적 발견을 향하여.	arXiv		도구
어시스턴트 CLI	ChatGPT 서비스를 사용하기 위한 편리한 CLI 도구			도구
자동 GPT	GPT-4를 완전히 자율적으로 만들기 위한 실험적인 오픈 소스 시도입니다.			도구
베이비AGI	이 Python 스크립트는 AI 기반 작업 관리 시스템의 예입니다.			도구
?? 아기AGI UI	BabyAGI UI는 ChatGPT와 같은 웹 앱에서 babyagi를 사용하여 더 쉽게 실행하고 개발할 수 있도록 설계되었습니다.			도구
백천-7B	Baichuan에서 개발한 대규모 7B 사전 학습 언어 모델입니다.			도구
바이촨-13B	Baichuan Intelligent Technology가 개발한 13B 대형 언어 모델입니다.			도구
바이촨 2	Baichuan Intelligent Technology가 개발한 일련의 대규모 언어 모델입니다.			도구
비셩	Bisheng은 차세대 AI 애플리케이션을 위한 개방형 LLM DevOps 플랫폼입니다.			도구
캐릭터-LLM	롤플레잉을 위한 훈련 가능한 에이전트입니다.	arXiv		도구
채팅개발	소프트웨어 개발을 위한 의사소통 에이전트.	arXiv		도구
ChatGPT-API-통합	ChatGPT 채팅 완료 API를 Unity의 순수 C#에 바인딩합니다.		단일성	도구
채팅GPTForUnity	화합을 위한 ChatGPT.		단일성	도구
채팅RWKV	ChatRWKV는 ChatGPT와 비슷하지만 RWKV(100% RNN) 언어 모델과 오픈 소스로 구동됩니다.			도구
채팅위안	중국어와 영어 대화를 위한 대규모 언어 모델.			도구
중국어-LLaMA-알파카-3	(중국어 Llama-3 LLM)은 Meta Llama 3에서 개발되었습니다.			도구
크롬-GPT	데스크톱에서 Chrome을 제어하는 AutoGPT 에이전트입니다.			도구
CogVLM	강력한 오픈 소스 시각적 언어 기반 모델인 CogVLM.	arXiv		도구
코어넷	심층 신경망 훈련을 위한 라이브러리입니다.			도구
코스모스	Cosmos는 로봇 공학 및 AV 연구소에서 물리적 AI 개발을 가속화하기 위해 월드 기반 모델, 토크나이저 및 비디오 처리 파이프라인으로 구성된 월드 모델 개발 플랫폼입니다.			법학대학원
DBRX	DBRX는 Databricks에서 훈련한 대규모 언어 모델입니다.			도구
DCLM	언어 모델을 위한 DataComp.	arXiv		도구
DeepSeek-V3	DeepSeek-V3는 총 671B 매개변수와 각 토큰에 대해 37B가 활성화된 강력한 MoE(Mixture-of-Experts) 언어 모델입니다.	arXiv		법학대학원
데모GPT	Llama 2의 강력한 기능을 갖춘 자동 Gen-AI 앱 생성기			도구
디자인2코드	프런트엔드 엔지니어링 자동화			도구
데비카	Devika는 Agentic AI 소프트웨어 엔지니어입니다.			도구
데본	오픈 소스 쌍 프로그래머.			도구
도라	한 번에 하나의 메시지로 강력한 웹사이트를 생성합니다.			도구
플로와이즈	LangchainJS를 사용하여 UI를 드래그 앤 드롭하여 맞춤형 LLM 흐름을 구축하세요.			도구
쌍둥이자리	Gemini는 처음부터 텍스트, 이미지, 비디오, 오디오 및 코드 전반에 걸쳐 원활하게 추론하는 다중 모드를 위해 구축되었습니다.			도구
아체	Gemma는 Google Gemini 모델을 만드는 데 사용된 연구와 기술을 바탕으로 구축된 경량의 최첨단 개방형 모델 제품군입니다.			도구
gemma.cpp	Google Gemma 모델을 위한 경량의 독립형 C++ 추론 엔진입니다.			도구
GLM-4	GLM-4-9B는 Zhipu AI가 출시한 GLM-4 시리즈의 최신 세대 사전 훈련 모델의 오픈 소스 버전입니다.			도구
GPT4모두	코드, 스토리, 대화를 포함한 대규모의 깔끔한 보조 데이터 컬렉션에 대해 훈련된 챗봇입니다.			도구
GPT-4o	GPT-4o("옴니"를 의미하는 "o")는 훨씬 더 자연스러운 인간-컴퓨터 상호 작용을 향한 한 단계입니다. 텍스트, 오디오, 이미지 및 비디오의 모든 조합을 입력으로 받아들이고 텍스트, 오디오 및 이미지의 모든 조합을 생성합니다. 출력.			도구
GPT스크립트	자연어로 LLM 앱을 개발하세요.			도구
그록-1	3,140억 매개변수 Mixture-of-Experts 모델인 Grok-1의 가중치 및 아키텍처.			도구
포옹채팅	커뮤니티 최고의 AI 채팅 모델을 모든 사람이 사용할 수 있도록 만듭니다.			도구
Hugging Face API Unity 통합	이 Unity 패키지는 Hugging Face Inference API에 대한 사용하기 쉬운 통합을 제공하므로 개발자는 Unity 프로젝트 내에서 Hugging Face AI 모델에 액세스하고 사용할 수 있습니다.		단일성	도구
이미지 바인드	ImageBind 하나의 삽입 공간으로 모두 바인딩	arXiv		도구
인덱스-1.9B	SOTA 경량 다국어 LLM.			도구
InteractML-Unity	Unity3D용 대화형 기계 학습 시각적 스크립팅 프레임워크인 InteractML.		단일성	도구
InteractML-언리얼 엔진	언리얼 엔진에 머신러닝을 접목합니다.		언리얼 엔진	도구
인턴LM	InternLM은 70억 개의 매개변수 기본 모델, 실제 시나리오에 맞춘 채팅 모델 및 교육 시스템을 오픈 소스로 제공했습니다.	arXiv		도구
InternLM-XComposer	InternLM-XComposer2는 자유로운 형식의 텍스트-이미지 구성 및 이해력이 뛰어난 획기적인 VLLM(시각 언어 대형 모델)입니다.	arXiv		도구
1월	AI를 데스크탑으로 가져오세요.			도구
라미니	Lamini를 사용하면 모든 엔지니어링 팀이 RLHF 및 자체 데이터 미세 조정을 통해 범용 LLM보다 뛰어난 성능을 발휘할 수 있습니다.			도구
라미니-LM	LaMini-LM은 ChatGPT에서 추출되고 258만 명령의 대규모 데이터 세트로 훈련된 작고 효율적인 언어 모델 모음입니다.			도구
랭체인	LangChain은 언어 모델을 기반으로 하는 애플리케이션을 개발하기 위한 프레임워크입니다.			도구
랭플로우	⛓️ LangFlow는 흐름을 실험하고 프로토타입화하는 손쉬운 방법을 제공하기 위해 반응 흐름으로 설계된 LangChain용 UI입니다.			도구
라바그	Large Action Model 프레임워크로 자동화를 자동화합니다.			도구
여우원숭이	언어 에이전트를 위한 개방형 기반 모델.			도구
렙톤 AI	AI 서비스 구축을 단순화하는 Python 프레임워크입니다.			도구
Lit-LLaMA	nanoGPT 기반의 LLaMA 언어 모델 구현. 플래시 어텐션, Int8 및 GPTQ 4비트 양자화, LoRA 및 LLaMA-Adapter 미세 조정, 사전 훈련을 지원합니다.			도구
llama2-webui	어디서나(Linux/Windows/Mac) GPU 또는 CPU에서 Gradio UI를 사용하여 Llama 2를 로컬로 실행하세요.			도구
라마 3	공식 Meta Llama 3 GitHub 사이트.			도구
라마 3.1	Llama는 개발자, 연구원 및 기업이 생성 AI 아이디어를 구축, 실험 및 책임감 있게 확장할 수 있도록 설계된 액세스 가능한 개방형 LLM(대형 언어 모델)입니다.			도구
LLaSM	대규모 언어 및 음성 모델.			도구
LLM 답변 엔진	Next.js, Groq, Mixtral, Langchain, OpenAI, Brave & Serper를 사용하여 Perplexity에서 영감을 받은 답변 엔진을 구축하세요.			도구
llm.c	간단한 원시 C/CUDA를 사용한 LLM 교육입니다.			도구
LLUnity	LLM을 사용하여 Unity에서 캐릭터를 만들어보세요!		단일성	도구
LLocalSearch	LLocalSearch는 LLM 에이전트를 사용하여 완전히 로컬로 실행되는 검색 엔진입니다.			도구
논리게임해결사	AI, 딥 러닝 및 컴퓨터 비전을 사용하여 논리 게임을 해결하는 Python 도구입니다.			도구
롱라이터	LongWriter: Long Context LLM에서 10,000개 이상의 단어 생성을 활용합니다.	arXiv		도구
대형 월드 모델(LWM)	LWM(Large World Model)은 범용 대규모 컨텍스트 다중 모드 자동 회귀 모델입니다.	arXiv		도구
루미나-T2X	Lumina-T2X는 Text to Any Modality Generation을 위한 통합 프레임워크입니다.	arXiv		도구
메타GPT	다중 에이전트 프레임워크			도구
MiniCPM-2B	끝측 LLM은 Llama2-13B보다 성능이 뛰어납니다.			도구
MiniGPT-4	고급 대형 언어 모델을 통한 비전 언어 이해 향상.	arXiv		도구
MiniGPT-5	생성적 보켄(Generative Voken)을 통한 인터리브 비전 및 언어 생성.	arXiv		도구
믹스트랄 8x7B	고품질의 희박한 전문가 조합.	arXiv		도구
미스트랄 7B	현재까지 최고의 7B 모델인 Apache 2.0.			도구
미스트랄 라지	Mistral Large는 새로운 최첨단 텍스트 생성 모델입니다. 이는 최고 수준의 추론 능력에 도달합니다.			도구
MLC LLM	모든 사람이 모든 사람의 장치에서 기본적으로 AI 모델을 개발, 최적화 및 배포할 수 있도록 지원합니다.			도구
모비라마	정확하고 가볍고 완전 투명한 GPT를 향하여.	arXiv		도구
MoE-LLaVA	대규모 비전-언어 모델을 위한 전문가의 혼합.	arXiv		도구
모시	Moshi는 실험적인 대화형 AI입니다.			도구
모시	Moshi: 실시간 대화를 위한 음성 텍스트 기반 모델입니다.			도구
이끼	Fudan University의 오픈 소스 도구로 강화된 대화형 언어 모델입니다.			도구
mPLUG-올빼미?	모듈화는 다중 양식을 통해 대규모 언어 모델을 강화합니다.	arXiv		도구
네모트론-4	8조 개의 텍스트 토큰으로 훈련된 150억 매개변수의 대규모 다국어 언어 모델입니다.	arXiv		도구
넥스트-GPT	임의대다 다중 모드 대형 언어 모델.			도구
OLMo	개방형 언어 모델	arXiv		도구
OmniLMM	강력한 성능과 효율적인 배포를 위한 대규모 다중 모드 모델입니다.			도구
OneLLM	모든 양식을 언어에 맞추는 하나의 프레임워크.	arXiv		도구
오픈 어시스턴트	OpenAssistant는 작업을 이해하고, 타사 시스템과 상호 작용하고, 이를 위해 동적으로 정보를 검색할 수 있는 채팅 기반 도우미입니다.			도구
오픈데빈	자율 AI 소프트웨어 엔지니어.			도구
오리온-14B	Orion-14B는 14B 기초 LLM과 일련의 모델을 포함하는 모델 제품군입니다.	arXiv		도구
팬더	중국 현장에서의 지속적인 사전 학습을 위해 Llama-7B, -13B, -33B, -65B를 기반으로 하는 해외 중국어 오픈 소스 대규모 언어 모델입니다.			도구
퍼플렉시카	AI 기반 검색 엔진.			도구
파이	개인적인 도움과 정서적 지원을 위해 설계된 AI 챗봇입니다.			도구
Qwen1.5	Qwen1.5는 Qwen의 향상된 버전입니다.			도구
Qwen2	Qwen2는 Alibaba Cloud Qwen 팀이 개발한 대규모 언어 모델 시리즈입니다.			도구
Qwen-7B	Alibaba Cloud가 제안하는 Qwen-7B(통义千问-7B) 채팅 및 사전 훈련된 대규모 언어 모델의 공식 저장소입니다.			도구
RepoAgent	RepoAgent는 프로젝트를 문서화하는 지능적인 방법을 제공하는 것을 목표로 하는 LLM(대형 언어 모델)에 의해 구동되는 오픈 소스 프로젝트입니다.	arXiv		도구
새니티 AI 엔진	Unity 게임 개발 도구용 Sanity AI 엔진.		단일성	도구
검색GPT	? ChatGPT를 인터넷에 연결하기			도구
공유GPT4V	더 나은 캡션으로 대규모 다중 모드 모델 개선.			도구
스카이워크	Skywork 시리즈 모델은 3.2TB의 고품질 다국어(주로 중국어 및 영어) 및 코드 데이터로 사전 학습되었습니다.			도구
안정LM	안정성 AI 언어 모델.	arXiv		도구
스탠포드 알파카	지시를 따르는 LLaMA 모델.			도구
텍스트 생성 웹 UI	LLaMA, llama.cpp, GPT-J, OPT 및 GALACTICA와 같은 대규모 언어 모델을 실행하기 위한 gradio 웹 UI입니다.			도구
TinyChat엔진	온디바이스 LLM 추론 라이브러리.			도구
툴벤치	도구 학습을 위한 대규모 언어 모델을 훈련, 제공 및 평가하기 위한 개방형 플랫폼입니다.			도구
유니티 채팅GPT	Unity ChatGPT 실험.		단일성	도구
Unity OpenAI-API 통합	openai GPT-3 언어 모델과 ChatGPT API를 Unity 프로젝트에 통합합니다.		단일성	도구
언리얼 엔진 5 라마 LoRA	소규모의 로컬 교육이 가능한 LLM을 사용하여 차세대 문서화 도구를 만들 수 있는 가능성을 보여주는 개념 증명 프로젝트입니다.		언리얼 엔진	도구
언리얼GPT	GPT3/4로 구동되는 언리얼 엔진 5 에디터 유틸리티 위젯 모음입니다.		언리얼 엔진	도구
비디오-LLaVA	투영 전 정렬을 통해 통일된 시각적 표현을 학습합니다.	arXiv		도구
웹GPT	WebGPU를 사용하여 브라우저에서 GPT 모델을 실행합니다.			도구
웹3-GPT	AI로 스마트 계약 배포			도구
워드GPT	? ChatGPT의 강력한 기능을 Microsoft Word로 가져오세요			도구
XAgent	복잡한 작업 해결을 위한 자율 LLM 에이전트.			도구
이	개발자가 처음부터 훈련한 일련의 대규모 언어 모델입니다.			도구
01 프로젝트	오픈 소스 언어 모델 컴퓨터입니다.			도구

^ 목차로 돌아가기 ^

게임(에이전트)

원천	설명	종이	유형
AgentBench	LLM을 에이전트로 평가하기 위한 종합 벤치마크.	arXiv	대리인
상담원 그룹 채팅	더 나은 집단적 창발적 행동을 유도하기 위한 대화형 그룹 채팅 시뮬라크라.	arXiv	대리인
K요원	스스로 진화하고 모듈식인 자동 에이전트 AGI입니다.		대리인
에이전트 범위	더 쉬운 방법으로 LLM 기반 다중 에이전트 애플리케이션 구축을 시작해 보세요.	arXiv	대리인
AgentSims	대규모 언어 모델 평가를 위한 오픈 소스 샌드박스.		대리인
AI 타운	AI 타운은 AI 캐릭터가 살고, 채팅하고, 사교 활동을 하는 가상 마을입니다.		대리인
애니메이션.gf	CharacterAI의 로컬 및 오픈 소스 대안.		게임
아스트로케이드	AI로 게임 만들기		게임
원자 에이전트	Atomic Agents 프레임워크는 모듈식으로 확장 가능하고 사용하기 쉽게 설계되었습니다.		대리인
자동 에이전트	자동 에이전트 생성을 위한 프레임워크.		대리인
자동 생성	차세대 대규모 언어 모델 애플리케이션을 활성화합니다.	arXiv	대리인
행동	Behaviac은 게임 AI 개발의 프레임워크입니다.		뼈대
생물군계	Biomes는 Next.js, Typescript, React 및 WebAssembly와 같은 웹 기술을 사용하여 웹용으로 구축된 오픈 소스 샌드박스 MMORPG입니다.		게임
생각의 버퍼	대규모 언어 모델을 사용한 사고 증강 추론.	arXiv	대리인
바이저 에이전트	모두를 위한 쉽고 빠른 분산 에이전트 프레임워크입니다.		대리인
고양이 마을	AC(h)atGPT 기반 고양이 시뮬레이션.		대리인
고양이 마을	AC(h)atGPT 기반 고양이 시뮬레이션.		대리인
캐릭터GLM	대규모 언어 모델을 사용하여 중국어 대화형 AI 문자 사용자 정의.	arXiv	대리인
채팅개발	소프트웨어 개발을 위한 의사소통 에이전트.	arXiv	대리인
코그에이전트	CogAgent는 CogVLM을 기반으로 개선된 오픈 소스 시각적 언어 모델입니다.	arXiv	대리인
요람	일반 컴퓨터 제어를 향하여.		대리인
승무원AI	역할극 자율 AI 에이전트를 조정하기 위한 프레임워크입니다.		대리인
디파이하다	Dify는 오픈 소스 LLM 앱 구축 플랫폼입니다.		대리인
디지털 라이프 프로젝트	사회지능을 갖춘 자율적인 3D 캐릭터.	arXiv	대리인
모든 것-AI	당신의 완전히 능숙한 AI 기반 로컬 챗봇 도우미?.		대리인
구조	fabric은 AI를 사용하여 인간을 강화하기 위한 오픈 소스 프레임워크입니다.		대리인
패스트GPT	FastGPT는 LLM을 기반으로 구축된 지식 기반 플랫폼입니다.		대리인
fastRAG	효율적인 검색 확대 및 생성 프레임워크.		대리인
게임AISDK	이미지 기반 게임 AI 자동화 프레임워크입니다.		뼈대
GameNGen	확산 모델은 실시간 게임 엔진입니다.	arXiv	게임
게임젠오	GameGen-O: 오픈 월드 비디오 게임 세대.		게임
GenAgent	GenAgent: 자동화된 워크플로 생성으로 협업 AI 시스템 구축 - ComfyUI에 대한 사례 연구.	arXiv	대리인
생성 에이전트	인간 행동의 대화형 시뮬레이션.	arXiv	대리인
창세기	Genesis: 로봇 공학 및 그 이상을 위한 생성 및 범용 물리 엔진.		게임
요정	생성적 대화형 환경.		게임
기가맥스	런타임, LLM 기반 NPC.		게임
히포RAG	대규모 언어 모델을 위한 신경생물학적 영감을 받은 장기 기억.	arXiv	대리인
대화형 LLM 지원 NPC	Interactive LLM Powered NPCs는 모든 게임에서 NPC(비플레이어 캐릭터)와의 상호 작용을 완전히 변화시키는 오픈 소스 프로젝트입니다!		게임
IoA	협업 AI 에이전트를 위한 오픈 소스 프레임워크로, 다양한 분산 에이전트가 인터넷과 같은 연결을 통해 팀을 구성하고 복잡한 작업을 처리할 수 있도록 합니다.		대리인
KwaiAgents	LLM(대형 언어 모델)을 갖춘 일반화된 정보 검색 에이전트 시스템입니다.	arXiv	대리인
랭체인	프로토타입부터 프로덕션까지 LLM 지원서를 받으세요.		대리인
랭플로우	Langflow는 흐름을 실험하고 프로토타입화하는 손쉬운 방법을 제공하기 위해 반응 흐름으로 설계된 LangChain용 UI입니다.		대리인
랭그래프 스튜디오	LangGraph Studio는 복잡한 에이전트 애플리케이션의 시각화, 상호 작용 및 디버깅을 가능하게 하는 특수 에이전트 IDE를 제공하여 LLM 애플리케이션을 개발하는 새로운 방법을 제공합니다.		대리인
LARP	오픈 월드 게임을 위한 언어 에이전트 역할극.	arXiv	대리인
라마 에이전트 시스템	Llama Stack API의 에이전트 구성 요소입니다.		대리인
라마인덱스	LlamaIndex는 LLM 지원을 위한 데이터 프레임워크입니다.		대리인
마인드서치	? 웹 검색 엔진의 LLM 기반 다중 에이전트 프레임워크(예: Perplexity.ai Pro 및 SearchGPT).		대리인
에이전트 혼합물(MoA)	에이전트 혼합은 대규모 언어 모델 기능을 향상시킵니다.	arXiv	대리인
MMR롤	MMRole: 다중 모드 롤플레잉 에이전트 개발 및 평가를 위한 포괄적인 프레임워크입니다.	arXiv	대리인
Moonlander.ai	생성 AI를 사용하여 코딩 없이 3D 게임 제작을 시작해 보세요.		뼈대
MuG 확산	MuG Diffusion은 Stable Diffusion(가장 강력한 AIGC 모델 중 하나)을 기반으로 하고 음파를 통합하기 위해 대규모 수정을 거친 리듬 게임용 차트 작성 AI입니다.		게임
오아시스	Oasis는 Decart와 Etched가 개발한 대화형 세계 모델입니다. 확산 변환기를 기반으로 Oasis는 사용자 키보드 입력을 받아 자동 회귀 방식으로 게임플레이를 생성합니다.		게임
옴에이전트	복잡한 작업을 해결하기 위한 다중 모드 에이전트 프레임워크입니다.		대리인
오픈에이전트	현장의 언어 에이전트를 위한 개방형 플랫폼.		대리인
작	텍스트를 비디오 게임으로 바꾸는 AI 앱입니다.		게임
파이프캣	음성 및 다중 모드 대화형 AI를 위한 오픈 소스 프레임워크입니다.		대리인
Qwen 에이전트	Qwen-Agent는 Qwen의 지침 따르기, 도구 사용, 계획 및 메모리 기능을 기반으로 LLM 응용 프로그램을 개발하기 위한 프레임워크입니다.		대리인
라가스	Ragas는 RAG(Retrieval Augmented Generation) 파이프라인을 평가하는 데 도움이 되는 프레임워크입니다.		대리인
RPBench-자동	롤플레잉을 위한 LLM 평가를 위한 자동화된 파이프라인입니다.		게임
시마	3D 가상 환경을 위한 일반 AI 에이전트입니다.		대리인
StoryGames.ai	꿈꾸는 사람들을 위한 AI가 게임을 만듭니다.		게임
SWE 에이전트	에이전트 컴퓨터 인터페이스는 소프트웨어 엔지니어링 언어 모델을 활성화합니다.	arXiv	대리인
태스크젠	LLM 에이전트의 StrictJSON 출력을 기반으로 구축된 작업 기반 에이전트 프레임워크입니다.		대리인
텐에이전트	TEN Agent는 OpenAI Realtime API, RTC와 통합된 세계 최초의 실시간 다중 모드 에이전트이며 날씨 확인, 웹 검색, 비전 및 RAG 기능을 갖추고 있습니다.		대리인
번역 대행	리플렉션 워크플로를 사용한 에이전트 번역.		대리인
지저귀다	Twitter Personality는 Twitter 핸들을 분석하여 Wordware AI Agent를 사용하여 개인화된 성격 프로필을 생성하는 웹 애플리케이션입니다.		대리인
무제한	Unbounded: 캐릭터 생활 시뮬레이션의 생성적 무한 게임.	arXiv	게임
비디오2게임	단일 비디오에서 실시간, 대화형, 사실적 및 브라우저 호환 환경을 제공합니다.	arXiv	게임
V-IRL	실생활에 가상 지능을 접목합니다.	arXiv	대리인
웹디자인에이전트	웹디자인에 사용되는 에이전트입니다.		대리인
XAgent	복잡한 작업 해결을 위한 자율 LLM 에이전트.		대리인

^ 목차로 돌아가기 ^

암호

원천	설명	종이	게임 엔진	유형
AI 코드 번역기	AI를 사용하여 코드를 한 언어에서 다른 언어로 번역하세요.			암호
aiXcoder-7B	aiXcoder-7B 코드 대규모 언어 모델.			암호
블럽	bloop은 Rust로 작성된 빠른 코드 검색 엔진입니다.			암호
채피터	Jupyter 노트북의 ChatGPT 코드 해석기.			암호
코드GeeX	개방형 다국어 코드 생성 모델.	arXiv		암호
코드지X2	더욱 강력한 다국어 코드 생성 모델.			암호
코드지X4	CodeGeeX4: 개방형 다국어 코드 생성 모델.			암호
코드젠	CodeGen은 프로그램 합성을 위한 오픈 소스 모델입니다. TPU-v4에서 학습되었습니다. OpenAI Codex와 경쟁합니다.	arXiv		암호
코드Gen2	프로그램 합성을 위한 CodeGen2 모델.	arXiv		암호
코드 라마	Code Llama는 Llama 2를 기반으로 하는 코드를 위한 대규모 언어 모델입니다.			암호
코드TF	최첨단 코드 LLM을 위한 원스톱 변환기 라이브러리.			암호
코드T5	코드 이해 및 생성을 위한 공개 코드 LLM.			암호
커서	새로운 유형의 편집기에서 GPT-4를 사용하여 코드를 작성, 편집하고 채팅하세요.			암호
DeepSeek 코더	DeepSeek Coder: 코드가 스스로 작성되도록 하세요.	arXiv		암호
오픈AI 코덱스	OpenAI Codex는 GPT-3의 후속 버전입니다.			암호
팬더AI	Pandas AI는 생성 인공 지능 기능을 Pandas에 통합하여 데이터 프레임을 대화형으로 만드는 Python 라이브러리입니다.			암호
Roblox스크립터AI	RobloxScripterAI는 Roblox용 AI 기반 코드 생성 도구입니다.		로블록스	암호
사이킷-LLM	향상된 텍스트 분석 작업을 위해 ChatGPT와 같은 강력한 언어 모델을 scikit-learn에 원활하게 통합합니다.			암호
소타나	오픈 소스 소프트웨어 개발 도우미.	arXiv		암호
안정적인 코드 3B	엣지에서의 코딩.			암호
스타코더	? StarCoder는 소스 코드와 자연어 텍스트에 대해 훈련된 언어 모델(LM)입니다.	arXiv		암호
스타코더 2	StarCoder2는 Stack v2의 600개 이상의 프로그래밍 언어와 Wikipedia, Arxiv 및 GitHub 문제와 같은 일부 자연어 텍스트에 대해 훈련된 코드 생성 모델(3B, 7B 및 15B) 제품군입니다.	arXiv		암호
유니티젠 AI	UnityGen AI는 AI 기반 Unity용 코드 생성 플러그인입니다.		단일성	암호
무효의	Void는 오픈 소스 Cursor 대안입니다. 최고의 AI 도구로 코드를 작성하고, 데이터를 완벽하게 제어하고, 강력한 AI 기능에 액세스하세요.			암호

^ 목차로 돌아가기 ^

작가

원천	설명	유형
AI 작가	AI는 소설을 쓰고, 판타지와 로맨스 웹 기사를 생성합니다. 중국의 사전 훈련된 생성 모델입니다.	작가
Notebook.ai	Notebook.ai는 작가, 게임 디자이너, 롤플레이어가 멋진 우주와 그 안의 모든 것을 창조할 수 있는 도구 세트입니다.	작가
소설	AI 기반 자동 완성 기능을 갖춘 Notion 스타일 WYSIWYG 편집기입니다.	작가
소설AI	AI를 활용하여 독특한 이야기, 스릴 넘치는 이야기, 매혹적인 로맨스를 손쉽게 구성하거나 그냥 장난을 쳐보세요.	작가

^ 목차로 돌아가기 ^

영상

원천	설명	종이	게임 엔진	유형
아무문	제로샷 개체 수준 이미지 사용자 정의.	arXiv		영상
AnyText	다국어 시각적 텍스트 생성 및 편집.	arXiv		영상
오토스튜디오	다중 회전 대화형 이미지 생성에서 일관된 주제 제작.	arXiv		영상
블렌더-ControlNet	Blender에서 바로 ControlNet을 사용해보세요.		블렌더	영상
브리VL	비전과 언어 모델을 연결합니다.	arXiv		영상
고양이VTON	CatVTON: 확산 모델을 사용한 가상 시험에 필요한 것은 연결뿐입니다.	arXiv		영상
CLI파소	객체의 이미지를 스케치로 변환하여 다양한 추상화 수준을 허용하는 방법입니다.	arXiv		영상
클립 드롭	몇 초 만에 멋진 영상을 만들어보세요.			영상
ComfyUI	그래프/노드 인터페이스를 갖춘 강력하고 모듈식이며 안정적인 확산 GUI입니다.			영상
컨셉랩	확산 사전 제약 조건을 사용한 창의적 생성.	arXiv		영상
컨트롤넷	ControlNet은 추가 조건을 추가하여 확산 모델을 제어하는 신경망 구조입니다.	arXiv		영상
CSGO	CSGO: 텍스트-이미지 생성의 콘텐츠 스타일 구성.	arXiv		영상
DALL·E 2	DALL·E 2는 자연어 설명을 통해 사실적인 이미지와 예술 작품을 만들어 낼 수 있는 AI 시스템입니다.			영상
대시툰 스튜디오	Dashtoon Studio는 AI 기반 만화 제작 플랫폼입니다.			만화 잡지
DeepAI	DeepAI는 AI를 사용하여 창의성을 향상시키는 도구 모음을 제공합니다.			영상
딥플로이드 IF	StabilityAI의 DeepFloyd 연구소에서 만든 IF입니다.			영상
깊이 무엇이든 V2	깊이 무엇이든 V2	arXiv		영상
깊이 맵 라이브러리 및 포저	Automatic1111/stable-diffusion-webui용 Control Net 확장과 함께 사용하기 위한 깊이 맵 라이브러리입니다.			영상
선택하기 위해 확산	Virtual Try-All을 위한 잠재 확산 모델의 이미지 조건화 인페인팅 강화.	arXiv		영상
디스코 디퓨전	AI 아트 및 애니메이션 생성을 위한 노트북, 모델 및 기술의 프랑켄슈타인적 융합입니다.			영상
드래그GAN	생성 이미지 다양체의 대화형 점 기반 조작.	arXiv		영상
사물 그리기	Your Pocket에서 AI 지원 이미지 생성.			영상
DW 포즈	2단계 증류를 통한 효과적인 전신 자세 추정.	arXiv		영상
이지포토	귀하의 스마트 AI 사진 생성기.			영상
유량	이 저장소에는 Flux 잠재 정류 흐름 변환기를 사용하여 텍스트-이미지 및 이미지-이미지를 실행하기 위한 최소한의 추론 코드가 포함되어 있습니다.			영상
클릭을 따라가세요	짧은 프롬프트를 통한 오픈 도메인 지역 이미지 애니메이션.	arXiv		영상
푸커스	유도하고 생성하는 데 중점을 둡니다.			영상
GIF퓨전	Stable Diffusion을 사용하여 GIF 및 비디오를 만듭니다.			영상
고정 세그먼트 - 무엇이든	이미지, 텍스트 및 오디오 입력을 사용하여 모든 것을 자동으로 감지, 분할 및 생성합니다.	arXiv		영상
HivisionID사진	HivisionIDPhotos: 가볍고 효율적인 AI ID 사진 도구입니다.			영상
화	Hua는 Stable Diffusion 등을 갖춘 AI 이미지 편집기입니다.			영상
훈위안-DiT	세밀한 중국어 이해를 갖춘 강력한 다중 해상도 확산 변환기.	arXiv		영상
IC-라이트	IC-Light는 이미지의 조명을 조작하는 프로젝트입니다.			영상
표의 문자	사람들이 더욱 창의적이 되도록 돕습니다.			영상
이미지	Imagen은 입력 텍스트로부터 사실적인 이미지를 생성하는 AI 시스템입니다.			영상
img2img-터보	SD-Turbo를 사용한 원스텝 이미지 투 이미지.			영상
Img2Prompt	안정적인 확산 생성 이미지에서 메시지를 확인하세요.			영상
무한대	Infinity: 고해상도 이미지 합성을 위한 비트 단위 자동 회귀 모델링 스케일링.	arXiv		영상
인스턴트ID	몇 초 만에 제로샷 신원 보존 생성.	arXiv		영상
InternLM-XComposer2	InternLM-XComposer2는 자유로운 형식의 텍스트-이미지 구성 및 이해력이 뛰어난 획기적인 VLLM(시각 언어 대형 모델)입니다.	arXiv		영상
코알라	메모리 효율적이고 빠른 이미지 합성을 위한 잠재 확산 모델의 지식 증류에서 Self-Attention이 중요합니다.			영상
컬러스	Kolors: 사실적인 텍스트-이미지 합성을 위한 확산 모델의 효과적인 훈련.			영상
한국	유쾌한 AI 기반 디자인 도구를 사용하여 이미지와 비디오를 생성하세요.			영상
라비브릿지	텍스트-이미지 생성을 위해 다양한 언어 모델과 생성적 비전 모델을 연결합니다.	arXiv		영상
레이어확산	잠재투명성을 이용한 투명 이미지층 확산.	arXiv		영상
렉시카	Stable Diffusion은 검색 엔진을 표시합니다.			영상
라마젠	자기회귀 모델이 확산을 능가함: 확장 가능한 이미지 생성을 위한 Llama.	arXiv		영상
루미나-mGPT	Lumina-mGPT: 다중 모달 생성 사전 훈련을 통해 유연한 사실적 텍스트-이미지 생성을 조명합니다.	arXiv		영상
메타슈트	MetaShoot는 사진 스튜디오의 디지털 트윈으로, 언리얼 엔진용 플러그인으로 개발되어 모든 제작자가 가장 쉽고 빠른 방법으로 매우 사실적인 렌더링을 제작할 수 있는 능력을 제공합니다.		언리얼 엔진	영상
중간 여정	Midjourney는 새로운 사고 매체를 탐구하고 인류의 상상력을 확장하는 독립 연구소입니다.			영상
MIGC	MIGC: 텍스트-이미지 합성을 위한 다중 인스턴스 생성 컨트롤러.	arXiv		영상
모방브러시	참조 모방을 통한 제로샷 이미지 편집.	arXiv		영상
옴니젠	OmniGen: 통합 이미지 생성.	arXiv		영상
오모스트	Omost는 LLM의 코딩 능력을 이미지 생성(더 정확하게는 이미지 구성) 능력으로 전환하는 프로젝트입니다.			영상
Openpose 편집기	AUTOMATIC1111의 stable-diffusion-webui용 Openpose 편집기입니다.			영상
누구나 옷을 입으세요	모든 의류, 모든 사람을 위한 초고품질 가상 시착.			영상
페인트실행 취소	PaintsUndo: 디지털 페인팅의 드로잉 동작에 대한 기본 모델입니다.			영상
포토메이커	누적 ID 임베딩을 통해 사실적인 사람 사진을 사용자 정의합니다.	arXiv		영상
포토룸	AI 배경 생성기.			영상
플라스크	클라우드에서 AI 이미지 생성.			영상
프롬프트아트	발전기 허브.			영상
PuLID	대비 정렬을 통한 Pure 및 Lightning ID 사용자 정의.	arXiv		영상
서식 있는 텍스트를 이미지로	리치 텍스트를 사용한 표현력 있는 텍스트-이미지 생성.	arXiv		영상
RPG-확산마스터	텍스트-이미지 확산 마스터하기: PRG(다중 모드 LLM)를 사용한 캡션, 계획 및 생성.			영상
SEED-스토리	SEED-Story: 대규모 언어 모델을 사용한 다중 모드 장편 스토리 생성.	arXiv		영상
무엇이든 분할하세요	SAM(Segment Anything Model): 한 번의 클릭으로 모든 이미지의 모든 객체를 "잘라낼" 수 있는 Meta AI의 새로운 AI 모델입니다.	arXiv		영상
세그먼트 무엇이든 모델 2(SAM 2)	SAM 2: 이미지와 비디오의 모든 것을 분할합니다.	arXiv		영상
sd-webui-controlnet	ControlNet용 WebUI 확장.			영상
SDXL-번개	점진적 적대적 확산 증류.	arXiv		영상
SDXS	이미지 조건을 갖춘 실시간 1단계 잠재 확산 모델.			영상
안정.예술	Auto1111을 백엔드로 사용하는 Stable Diffusion용 Photoshop 플러그인(로컬 또는 Google Colab 사용)			영상
안정적인 캐스케이드	Stable Cascade는 Stage A, Stage B, Stage C의 세 가지 모델로 구성되며 이미지 생성을 위한 계단식을 나타내므로 "Stable Cascade"라는 이름이 붙었습니다.			영상
안정적인 확산	잠재 텍스트-이미지 확산 모델.			영상
안정-확산.cpp	순수 C/C++의 안정적인 확산.			영상
안정적인 확산 웹 UI	Stable Diffusion을 위한 Gradio 라이브러리 기반의 브라우저 인터페이스입니다.			영상
안정적인 확산 웹 UI	안정적인 확산을 위한 웹 기반 UI.			영상
안정적인 확산 WebUI 중국어	stable-diffusion-webui의 중국어 버전입니다.			영상
안정확산XL	텍스트에서 이미지를 생성합니다.	arXiv		영상
스테이블 디퓨전 XL 터보	실시간 텍스트-이미지 생성.			영상
안정확산 3.5	Stable Diffusion 3.5 공개 릴리스에는 Stable Diffusion 3.5 Large 및 Stable Diffusion 3.5 Large Turbo를 포함한 여러 모델 변형이 포함되어 있습니다.			영상
안정적인 기념일 로고	Stable Doodle은 간단한 그림을 역동적인 이미지로 변환하는 스케치-이미지 도구입니다.			영상
안정 스튜디오	Stability AI의 StableStudio			영상
스토리메이커	StoryMaker: 텍스트-이미지 생성에서 전체적으로 일관된 문자를 향하여.	arXiv		영상
스트림확산	실시간 대화형 생성을 위한 파이프라인 수준 솔루션.			영상
스타일드롭	모든 스타일의 텍스트-이미지 생성.	arXiv		영상
싱크드리머	단일 보기 이미지에서 다중 보기 일치 이미지 생성.	arXiv		영상
울트라편집	UltraEdit: 규모에 맞는 명령 기반의 세밀한 이미지 편집.	arXiv		영상
울트라픽셀	UltraPixel: 초고해상도 이미지 합성을 새로운 정점으로 발전시킵니다.	arXiv		영상
Unity ML 안정적인 확산	Unity의 Core ML 안정적인 확산.		단일성	영상
비스펑크 비전	텍스트-이미지 생성 플랫폼.			영상

^ 목차로 돌아가기 ^

조직

원천	설명	종이	게임 엔진	유형
CRM	컨벌루션 재구성 모델을 사용하여 단일 이미지를 3D 질감 메시로 변환합니다.	arXiv		조직
드림매트	형상 및 빛 인식 확산 모델을 사용한 고품질 PBR 재료 생성.	arXiv		조직
드림스페이스	텍스트 기반 파노라마 텍스처 전파로 방 공간을 꿈꾸세요.			조직
꿈의 질감	블렌더에 안정적인 확산 기능이 내장되어 있습니다. 간단한 텍스트 프롬프트를 통해 텍스처, 컨셉 아트, 배경 자산 등을 생성하세요.		블렌더	조직
인간을 가르치다	지침을 사용하여 애니메이션 3D 인간 텍스처 편집.	arXiv		조직
인텍스	통합 깊이 인식 인페인팅을 통한 대화형 텍스트-텍스처 합성.	arXiv		조직
LLaMA-메시	LLaMA-Mesh: 언어 모델과 3D 메시 생성 통합.	arXiv		망사
머티리얼세그3D	MaterialSeg3D: 3D 자산에 대한 2D 사전의 고밀도 재료 분할.	arXiv		조직
메쉬아무것도	MaterialSeg3D: 3D 자산에 대한 2D 사전의 고밀도 재료 분할.	arXiv		망사
신경안젤로	충실도가 높은 신경 표면 재구성.	arXiv		조직
페인트칠하기	Deep Convolutional Texture Map 최적화 및 물리적 기반 렌더링을 통한 텍스트-텍스처 합성.			조직
폴리캠	입력만으로 나만의 3D 텍스처를 만들어보세요.			조직
텍스퓨전	텍스트 기반 이미지 확산 모델을 사용하여 3D 텍스처 합성.	arXiv		조직
텍스트2텍스	확산 모델을 통한 텍스트 기반 텍스처 합성.	arXiv		조직
텍스처 연구소	AI가 생성한 텍스처. 텍스트 프롬프트를 사용하여 직접 생성할 수 있습니다.			조직
폴리와 함께	폴리로 텍스처를 만듭니다. 무료 온라인 편집기에서 AI로 3D 자료를 생성하거나 성장하는 커뮤니티 라이브러리를 검색하세요.			조직
X-메시	X-Mesh: 동적 텍스트 안내를 통해 빠르고 정확한 텍스트 기반 3D 스타일화를 향하여.	arXiv		조직

^ 목차로 돌아가기 ^

셰이더

원천	설명	종이	게임 엔진	유형
AI 셰이더	Unity용 ChatGPT 기반 셰이더 생성기.		단일성	셰이더

^ 목차로 돌아가기 ^

3D 모델

원천	설명	종이	게임 엔진	유형
애니메이션3D	Animate3D: 다중 뷰 비디오 확산을 통해 모든 3D 모델에 애니메이션을 적용합니다.	arXiv		3D
무엇이든-3D	세그먼트 - 무엇이든 + 3D. 무엇이든 3D로 들어 올리자.	arXiv		모델
Any2Point	Any2Point: 효율적인 3D 이해를 위해 모든 양식의 대형 모델을 지원합니다.	arXiv		3D
블렌더GPT	OpenAI의 GPT-4로 Blender를 제어하려면 영어 명령을 사용하세요.		블렌더	모델
블렌더-GPT	GPT3/4 + Whisper 통합으로 구동되는 올인원 블렌더 어시스턴트입니다.		블렌더	모델
봉쇄 연구소	텍스트 프롬프트에서 놀라운 360° 스카이박스 경험을 생성하기 위한 최고의 AI 기반 솔루션인 Skybox Lab을 통해 디지털 연금술이 현실이 됩니다.			모델
CF-3DGS	COLMAP-무료 3D 가우스 스플래팅.	arXiv		3D
캐릭터젠	CharacterGen: 다중 뷰 포즈 정규화를 통해 단일 이미지에서 효율적인 3D 캐릭터 생성.	arXiv		3D
채팅GPT-maya	개방형 AI를 활용하여 설명 지침에 따라 기본 작업을 수행하는 간단한 Maya 도구입니다.		마야	모델
시티드리머	무한한 3D 도시의 구성 생성 모델.	arXiv		3D
CSM	이미지와 비디오에서 3D 세계를 생성합니다.			3D
대시	언리얼 엔진으로 세계를 건설하는 부조종사.		언리얼 엔진	3D
드림카탈리스트	DreamCatalyst: 편집 가능성 및 ID 보존 제어를 통한 빠르고 고품질 3D 편집.	arXiv		3D
드림가우시안4D	생성적 4D 가우스 스플래팅.	arXiv		4D
먼지3R	기하학적인 3D 비전이 쉬워졌습니다.	arXiv		3D
3D를 교화하다	Edify 3D: 확장 가능한 고품질 3D 자산 생성.	arXiv		3D
갈라3D	GALA3D: 레이아웃 기반 생성 가우시안 스플래팅을 통한 텍스트-3D 복잡한 장면 생성을 지향합니다.	arXiv		3D
가우스Ctrl	GaussCtrl: 멀티뷰의 일관된 텍스트 기반 3D 가우스 스플래팅 편집.	arXiv		3D
가우시안큐브	3D 생성 모델링을 위한 구조화되고 명시적인 광도 표현.	arXiv		3D
가우시안드리머	Point Cloud Priors를 사용하여 텍스트에서 3D 가우스 스플래팅으로 빠르게 생성합니다.	arXiv		3D
지니랩스	AI-UGC로 게임을 강화하세요.			3D
하이파	고급 확산 안내를 통해 충실도가 높은 텍스트를 3D로 변환합니다.			모델
홀로드리머	HoloDreamer: 텍스트 설명을 통한 전체적인 3D 파노라마 세계 생성.	arXiv		3D
혼위안3D-1.0	Hunyuan3D-1.0: 텍스트-3D 및 이미지-3D 생성을 위한 통합 프레임워크.	arXiv		3D
인피니겐	절차적 생성을 사용한 무한한 사실적 세계.	arXiv		3D
지시-NeRF2NeRF	지침을 사용하여 3D 장면 편집.	arXiv		모델
인터랙티브3D	인터랙티브 3D 생성으로 원하는 것을 만들어 보세요.	arXiv		3D
등방성3D	단일 CLIP 임베딩을 기반으로 한 이미지-3D 생성.			3D
라떼3D	대규모 Amortized Text-To-Enhanced3D 합성.	arXiv		3D
사자	3D 형상 생성을 위한 잠재점 확산 모델.	arXiv		모델
루마 AI	생생한 3D로 캡처하세요. 타의 추종을 불허하는 포토리얼리즘, 반사, 디테일. VFX의 미래는 이제 모두를 위한 것입니다!			모델
루미네 AI	AI 기반 창의성.			3D
메이크잇3D	확산 사전을 통해 단일 이미지로부터 충실도 높은 3D 생성.	arXiv		모델
메시	AI로 멋진 3D 게임 자산을 만들어보세요.			3D
모션	마법의 3D AI 애니메이션 메이커.			3D
MV드림	3D 생성을 위한 다시점 확산.	arXiv		3D
엔비디아 인스턴트 NeRF	즉각적인 신경 그래픽 프리미티브: 빛처럼 빠른 NeRF 등.			모델
1-2-3-45	형태별 최적화 없이 45초 만에 단일 이미지를 3D 메시로 변환합니다.	arXiv		모델
페인트3D	조명이 없는 텍스처 확산 모델을 사용하여 무엇이든 3D로 칠할 수 있습니다.	arXiv		3D
패닉-3D	애니메이션 캐릭터 초상화의 양식화된 단일 뷰 3D 재구성.	arXiv		모델
포인트·E	3D 모델 합성을 위한 포인트 클라우드 확산.			모델
다작의몽상가	변주 점수 증류를 통해 충실도가 높고 다양한 텍스트를 3D로 생성합니다.	arXiv		모델
SF3D	SF3D: UV 언래핑(UV-unwrapping) 및 조명 분리(Illumination Disentanglement)를 통한 안정적이고 빠른 3D 메쉬 재구성.	arXiv		3D
모양	텍스트나 이미지를 기반으로 3D 개체를 생성합니다.	arXiv		모델
슬로이드	3D 모델링이 이보다 쉬웠던 적은 없었습니다.			모델
스플라인 AI	AI의 힘이 3차원으로 다가오고 있다. 프롬프트를 사용하여 개체, 애니메이션 및 텍스처를 생성합니다.			모델
안정적인 드림퓨전	Stable Diffusion text-to-2D 모델을 기반으로 하는 텍스트-3D 모델 Dreamfusion의 파이토치 구현입니다.			모델
SV3D	잠재 비디오 확산을 이용한 단일 이미지의 새로운 다중 뷰 합성 및 3D 생성.	arXiv		3D
타피	AI 텍스트를 3D 캐릭터 엔진으로 변환합니다.			모델
3D-GPT	대규모 언어 모델을 사용한 절차적 3D 모델링.	arXiv		3D
3D-LLM	3D 세계를 대규모 언어 모델에 주입.	arXiv		3D
3D프레소	비디오에 캡처된 객체의 3D 모델을 추출합니다.			모델
3DTopia	5분 이내에 텍스트를 3D로 생성합니다.	arXiv		3D
3DTopia-XL	3DTopia-XL: 원시 확산을 통해 고품질 3D 자산 생성을 확장합니다.	arXiv		3D
쓰리 스튜디오	3D 콘텐츠 생성을 위한 통합 프레임워크입니다.			모델
트리포SR	단일 이미지에서 빠른 피드포워드 3D 재구성을 위한 최첨단 오픈 소스 모델입니다.	arXiv		모델
독특한3D	단일 이미지에서 고품질의 효율적인 3D 메시 생성.	arXiv		3D
Unity가우시안스플래팅	Unity의 토이 가우스 스플래팅 시각화.		단일성	3D
ViVid-1-to-3	비디오 확산 모델을 사용한 새로운 뷰 합성.	arXiv		3D
복스크래프트	AI를 통해 즉시 사용 가능한 3D 모델 제작			3D
원더3D	Cross-Domain Diffusion을 사용하여 단일 이미지를 3D로 변환합니다.	arXiv		3D
0-1 대 3	하나의 이미지를 3D 객체로 제로샷합니다.	arXiv		모델

^ 목차로 돌아가기 ^

화신

원천	설명	종이	게임 엔진	유형
aniportrait	사진 초상화 애니메이션의 오디오 구동 합성.	arxiv		화신
침착한	명시 적 가상 문자에 대한 조건부 적대적 잠재 모델.	arxiv		화신
chatavatar	텍스트 안내에 따라 애니메이션 가능한 3D 얼굴의 점진적인 생성.			화신
chatdollkit	ChatDollkit을 사용하면 3D 모델을 챗봇으로 만들 수 있습니다.		단일성	화신
DreamTalk	표현적인 대화 헤드 세대가 확산 확률 모델을 충족시킬 때.	arxiv		화신
Duix	DUIX- 실리콘 기반 Digital Human SDK?			화신
에코미미틱	Echomimic : 편집 가능한 랜드 마크 조건을 통한 Lifelike 오디오 중심 초상화 애니메이션.	arxiv		화신
감각	감정이 강화 된 멀티 모달 원샷 헤드 아바타.			화신
e3 gen	효율적이고 표현력 있고 편집 가능한 아바타 세대.	arxiv		화신
Exavatar	Exavatar- 표현적인 전신 3D 가우스 아바타.	arxiv		화신
Geneavatar	단일 이미지에서 일반적인 표현식 볼륨 헤드 아바타 편집.	arxiv		화신
geneface ++	일반화되고 안정적인 실시간 3D 말하는 얼굴 생성.			화신
어이	초상화 이미지 애니메이션을위한 계층 적 오디오 중심 시각적 합성.	arxiv		화신
Hallo2	Hallo2 : 장기 및 고해상도 오디오 중심 초상화 이미지 애니메이션.	arxiv		화신
Headsculpt	텍스트로 3D 헤드 아바타 제작.	arxiv		화신
Intrinsicavatar	INTRINSICAVATAR : 명시 적 광선 추적을 통해 단안 비디오에서 역동적 인 인간의 물리 기반 역 렌더링.	arxiv		화신
linly-talker	디지털 아바타 대화 시스템.			화신
LivePortrait	LivePortrait : 스티칭 및 리 타겟팅 제어 기능을 갖춘 효율적인 초상화 애니메이션.	arxiv		화신
MotionGpt	LLM을 사용한 통합 운동-언어 생성 모델 인 외국어로서의 인간 운동.	arxiv		화신
Musepose	Musepose : 가상 인간 세대를위한 포즈 중심의 이미지 간 비디오 프레임 워크.			화신
Musetalk	잠재적 인 공간 인 페인팅을 통한 실시간 고품질 립 동기화.			화신
Musev	시각적 조건 병렬 거부를 가진 무한한 길이 및 고 충실도 가상 휴먼 비디오 생성.			화신
초상화 4D	합성 데이터를 사용하여 원샷 4D 헤드 아바타 합성 학습.	arxiv		화신
준비된 선수 나	사용자 정의 가능한 아바타를 며칠 안에 게임이나 앱에 통합하십시오.			화신
Rodinhd	Rodinhd : 확산 모델을 갖춘 고 충실도 3D 아바타 생성.	arxiv		화신
Styleavatar3d	고 충실도 3D 아바타 생성을 위해 이미지 텍스트 확산 모델을 활용합니다.	arxiv		화신
Text2Control3d	지오메트리 유도 텍스트-이미지 확산 모델을 사용하여 신경 방사선에서 제어 가능한 3D 아바타 생성.	arxiv		화신
topo4d	고 충실도 4D 헤드 캡처를위한 토폴로지 보존 가우스 플래팅.	arxiv		화신
Unityaiwithchatgpt	Unity를 기반으로 ChatGpt+UnityChan 음성 대화 형 디스플레이가 실현됩니다.		단일성	화신
vid2avatar	자체 감독 장면 분해를 통해 야생의 비디오에서 3D 아바타 재구성.	arxiv		화신
블로거	구현 된 아바타 합성을위한 복합 확산.			화신
Wild2Avatar	폐색 뒤에 인간을 렌더링합니다.	arxiv		화신

^ 목차로 돌아가기 ^

생기

원천	설명	종이	유형
누구나 애니메이션	캐릭터 애니메이션을위한 일관되고 제어 가능한 이미지 간 비디오 합성.	arxiv	생기
animateanything	모션 안내가있는 세밀한 오픈 도메인 이미지 애니메이션.	arxiv	생기
애니메이터	특정 튜닝없이 개인화 된 텍스트-이미지 확산 모델을 애니메이션하십시오.	arxiv	생기
animatelcm	4 단계 이내에 비디오 생성을 가속화합시다!	arxiv	생기
animate-x	Animate-X : 모션 표현이 향상된 범용 캐릭터 이미지 애니메이션.	arxiv	생기
animatezero	비디오 확산 모델은 제로 샷 이미지 애니메이터입니다.	arxiv	생기
animationgpt	게임 전투 모션 자산을 생성하기위한 AIGC 도구.		생기
Deforum	Deforum은 안정적인 확산을 활용하여 진화하는 AI 비주얼을 생성합니다.		생기
도면 스피프	Drawingspinup : 단일 캐릭터 도면의 3D 애니메이션.	arxiv	생기
꿈꾸는	확산 모델을 기반으로 한 휴먼 비디오 생성 프레임 워크.	arxiv	생기
페이스 퓨전	차세대 얼굴 Swapper 및 Enhancer.		생기
FreeInit	비디오 확산 모델의 초기화 간격 브리징.	arxiv	생기
geneface	일반화되고 고 충실도 오디오 중심 3D 말하는 얼굴 합성.	arxiv	생기
ID- 애니메이터	제로 샷 아이덴티티 보존 인간 비디오 생성.	arxiv	생기
마술	확산 모델을 사용하여 일관된 인간 이미지 애니메이션.	arxiv	생기
누와	Dragnuwa는 개방형 도메인 확산 기반 비디오 생성 모델은 제어 가능한 비디오 생성을 달성하기위한 입력으로 텍스트, 이미지 및 궤적 컨트롤을 취합니다.	arxiv	생기
누와 인파	Nuwa-Infinity는 주어진 텍스트, 이미지 또는 비디오 입력에서 고품질 이미지와 비디오를 생성하도록 설계된 멀티 모달 생성 모델입니다.		생기
Nuwa-XL	매우 긴 비디오 생성을위한 확산 건축에 대한 새로운 확산.		생기
옴니 애니메이션	AI는 높은 충실도 애니메이션을 생성했습니다.		생기
피아	텍스트-이미지 모델에서 플러그 앤 플레이 모듈을 통한 개인화 된 이미지 애니메이터.	arxiv	생기
Sadtalker	양식화 된 오디오 중심의 단일 이미지 말하는 얼굴 애니메이션에 대한 현실적인 3D 모션 계수 학습.	arxiv	생기
Sadtalker-Video-Lip-Sync	이 프로젝트는 비디오 립 합성을위한 Sadtalkers WAV2LIP를 기반으로합니다.		생기
안정적인 애니메이션	개발자를위한 강력한 텍스트-애니메이션 도구.		생기
탈 레프라	여러 문자를 지원하는 대화식 스토리 시각화 도구.	arxiv	생기
Tooncrafter	Tooncrafter : 생성 만화 보간.	arxiv	생기
wav2lip	야생에서 정확하게 립싱하는 비디오.	arxiv	생기
Wonder Studio	CG 문자를 자동으로 애니메이션, 조명 및 조명 및 작곡 장면으로 조정하는 AI 도구.		생기

^ 목차로 돌아가기 ^

시각적

원천	설명	종이	유형
Cambrian-1	Cambrian-1 : 멀티 모달 LLM의 완전히 개방적이고 비전 중심 탐사.	arxiv	멀티 모달 LLM
cogvlm2	LLAMA3-8B를 기반으로 한 GPT4V 레벨 오픈 소스 다중 모달 모델.		시각적
동료	함께 추적하는 것이 좋습니다.	arxiv	시각적
EVF-SAM	EVF-SAM : 텍스트 촉진 세그먼트에 대한 초기 비전 언어 융합.	arxiv	시각적
Facehi	함께 추적하는 것이 좋습니다.		시각적
Internlm-xcomposer2	Internlm-Xcomposer2는 자유 형식 텍스트 이미지 구성 및 이해력이 뛰어난 획기적인 비전 언어 대형 모델 (VLLM)입니다.	arxiv	시각적
캥거루	KANGAROO : 장기 텍스트 비디오 입력을 지원하는 강력한 비디오 언어 모델.		시각적
LGVI	멀티 모달 대형 언어 모델을 통한 언어 중심의 비디오를 향해.		시각적
llava ++	LLAMA-3 및 PHI-3으로 시각적 기능을 확장합니다.		시각적
llava-onevision	llava-onevision : 쉬운 시각적 작업 전송.	arxiv	시각적
Longva	언어에서 비전으로 긴 맥락 전달.	arxiv	시각적
마스크 비트	비디오 예측을위한 마스킹 된 시각적 사전 훈련.	arxiv	시각적
minicpm-llama3-v 2.5	휴대 전화의 GPT-4V 레벨 MLLM.		시각적
Moe-Llava	대규모 시력 모델을위한 전문가의 혼합.	arxiv	시각적
Motionllm	인간의 움직임과 비디오에서 인간의 행동을 이해합니다.	arxiv	시각적
pllava	비디오 밀도 캡션을 위해 이미지에서 비디오까지 매개 변수가없는 llava 확장.	arxiv	시각적
Qwen-VL	이해, 현지화, 텍스트 읽기 및 그 너머의 다목적 비전 언어 모델.	arxiv	시각적
사피엔스	사피엔스 : 인간 비전 모델을위한 기초.	arxiv	시각적
sharegpt4v	더 나은 캡션으로 대형 멀티 모달 모델을 개선합니다.	arxiv	시각적
독주	솔로 : 확장 가능한 비전 언어 모델링을위한 단일 변압기.	arxiv	시각적
비디오 ccam	Video-CCAM : 인과 관계 교차 마스크를 사용한 비디오 언어 이해 발전.		시각적
비디오-롤라 바	투영 전 정렬에 의한 통일 시각적 표현 학습.	arxiv	시각적
videollama 2	Video-LLM의 공간-시간 모델링 및 오디오 이해 발전.	arxiv	시각적
비디오 MME	비디오 분석에서 다중 모달 LLM의 최초의 포괄적 인 평가 벤치 마크.	arxiv	시각적
vitron	이해, 생성, 세분화, 편집을위한 통합 픽셀 레벨 비전 LLM.		시각적
빌라	VILA : 시각적 언어 모델에 대한 사전 훈련.	arxiv	시각적

^ 목차로 돌아가기 ^

동영상

원천	설명	종이	유형
360DVD	360도 비디오 확산 모델이있는 제어 가능한 파노라마 비디오 생성.	arxiv	동영상
애호가	이야기를 전하기위한 비디오 생성을 검색합니다.	arxiv	동영상
모든 장면에서 모든 것	Photorealistic 비디오 객체 삽입.		동영상
예술 • v	확산 모델을 가진 자동 중심 텍스트-비디오 생성.	arxiv	동영상
보조	아이디어를 생생하게하는 생성 비디오 플랫폼을 만나십시오.		동영상
Atomovideo	높은 충실도 이미지-비디오 생성.	arxiv	동영상
BackgroundRemover	백그라운드 리무버를 사용하면 무료 및 오픈 소스 인 간단한 명령 줄 인터페이스를 사용하여 AI를 사용하여 이미지와 비디오에서 배경을 제거 할 수 있습니다.		동영상
박스 미터	비디오 합성을위한 풍부하고 제어 가능한 동작을 생성합니다.	arxiv	동영상
Codef	시간적으로 일관된 비디오 처리를위한 컨텐츠 변형 필드.	arxiv	동영상
Cogvideo	텍스트 설명에서 비디오를 생성합니다.		동영상
Cogvideox	Cogvideox는 비디오 생성 모델의 오픈 소스 버전으로 清影에 상 동성입니다.		동영상
cogvlm	COGVLM은 강력한 오픈 소스 비주얼 언어 모델 (VLM)입니다.		시각적
콘	손으로 그린 애니메이션 캐릭터 시트 (ACS)의 생생한 춤 비디오.	arxiv	동영상
Decohere	촬영할 수없는 것을 만듭니다.		동영상
설명	설명은 간단하고 강력하며 재미있는 편집 방법입니다.		동영상
Diffutoon	확산 모델을 통한 고해상도 편집 가능한 툰 음영.	arxiv	동영상
돌고래	LLM을 기반으로하는 일반 비디오 상호 작용 플랫폼.		동영상
Domoai	Domoai로 창의성을 증폭시킵니다.		동영상
DreamCinema	DreamCinema : 무료 카메라와 3D 캐릭터가있는 영화 전송.	arxiv	동영상
다이나믹 레이프터	비디오 확산 사전으로 오픈 도메인 이미지를 애니메이션합니다.	arxiv	동영상
가장자리	우리는 자의적인 입력 음악에 충실한 상태로 현실적이고 육체적으로 플레 니가 가능한 춤을 만들 수있는 편집 가능한 댄스 세대를위한 강력한 방법 인 Edge를 소개합니다.	arxiv	동영상
이모	초상화 감정 감정 - 약한 조건에서 Audio2Video 확산 모델로 표현적인 초상화 비디오를 생성합니다.	arxiv	동영상
EMU 비디오	명시적인 이미지 컨디셔닝에 의해 텍스트-비디오 생성을 고려합니다.		동영상
에나	Etna는 짧은 텍스트 설명에 따라 해당 비디오 컨텐츠를 생성 할 수 있습니다.		동영상
요정	빠르게 병렬화 된 명령 유도 비디오-비디오-비디오 합성.		동영상
당신의 캔버스를 따르십시오	캔버스를 따르십시오 : 광범위한 컨텐츠 생성으로 고해상도 비디오가 돋보입니다.	arxiv	동영상
포즈를 따르십시오	포즈가없는 비디오를 사용한 포즈 유도 텍스트-비디오 생성.	arxiv	동영상
풀재 니	손가락 끝에있는 AI 제작 도구의 전체 제품군.		동영상
Gen-2	텍스트, 이미지 또는 비디오 클립으로 새로운 비디오를 생성 할 수있는 멀티 모달 AI 시스템.		동영상
생성 역학	생성 이미지 역학.		동영상
요정	생성 대화 형 환경.	arxiv	동영상
세대	마술처럼 AI로 비디오를 만듭니다.		동영상
젠트론	이미지 및 비디오 생성을위한 확산 변압기.		동영상
히겐	텍스트-비디오 생성을위한 계층 적 시공간 분리.		동영상
핫샷 -XL	HotShot-XL은 안정적인 확산 XL과 함께 작동하도록 훈련 된 AI 텍스트 간 GIF 모델입니다.		동영상
hunyuanvideo	Hunyuanvideo : 대규모 비디오 생성 모델을위한 체계적인 프레임 워크.	arxiv	동영상
이미지 비디오	텍스트 프롬프트가 주어지면, Imagen 비디오는 기본 비디오 생성 모델과 일련의 인터리브 공간 및 시간적 비디오 초기 해제 모델을 사용하여 고화질 비디오를 생성합니다.		동영상
instructvideo	인간의 피드백으로 비디오 확산 모델을 지시합니다.	arxiv	동영상
I2VGEN-XL	계단식 확산 모델을 통한 고품질 이미지 대 비디오 합성.	arxiv	동영상
라비	계단식 잠재 확산 모델을 사용한 고품질 비디오 생성.	arxiv	동영상
LTX 스튜디오	LTX Studio는 제작자, 마케팅 담당자, 영화 제작자 및 스튜디오를위한 전체적인 AI 중심 영화 제작 플랫폼입니다.		동영상
LTX- 비디오	LTX-Video는 실시간으로 고품질 비디오를 생성 할 수있는 최초의 DIT 기반 비디오 생성 모델입니다. 768x512 해상도에서 24 fps 동영상을 생성 할 수 있습니다.		동영상
Lumiere	비디오 생성을위한 시공간 확산 모델.	arxiv	동영상
LVDM	고 충실도 긴 비디오 생성을위한 잠재 비디오 확산 모델.	arxiv	동영상
MagicVideo	잠복 확산 모델을 사용한 효율적인 비디오 생성.	arxiv	동영상
MagicVideo-V2	다단계가 높은 비디오 생성.	arxiv	동영상
마법의 시간	제작자를위한 AI 비디오는 간단하게 만들었습니다.		동영상
Magvit-V2	Tokenizer는 시각적 생성의 핵심입니다.		동영상
Magvit	가면 생성 비디오 변압기.		동영상
Make-A-Video	Make-A-Video는 텍스트에서 비디오를 생성하는 최신 AI 시스템입니다.	arxiv	동영상
픽셀을 춤추십시오	고유 한 비디오 생성.	arxiv	동영상
비디오를 만들어	텍스트 및 구조 지침을 사용하여 맞춤형 비디오 생성.	arxiv	동영상
미세 신마	텍스트-비디오 생성을위한 분할 및 대문자 접근.	arxiv	동영상
미모	MIMO : 공간 분해 모델링을 갖춘 제어 가능한 문자 비디오 합성.	arxiv	동영상
미니 게미니	다중 양식 비전 언어 모델의 잠재력을 채굴합니다.		비전
mobilevidfactory	텍스트에서 모바일 장치를위한 자동 확산 기반 소셜 미디어 비디오 생성.		동영상
Mochi 1	Mochi 1은 예비 평가에서 고 충실도 모션과 강력한 신속한 준수를 가진 개방 된 최첨단 비디오 세대 모델입니다.		동영상
Mofa-Video	냉동 된 이미지-비디오 확산 모델에서 생성 모션 필드 적응을 통한 제어 가능한 이미지 애니메이션.	arxiv	동영상
MoneyPrinterturbo	큰 모델을 사용하여 한 번의 클릭으로 짧은 비디오를 생성하십시오.		동영상
Moonvalley	Moonvalley는 획기적인 새로운 텍스트-비디오 생성 AI 모델입니다.		동영상
모라	일반 비디오 세대를 위해 Sora와 더 비슷합니다.	arxiv	동영상
모프 스튜디오	텍스트-비디오 AI Magic을 사용하여 프롬프트를 통해 창의성을 나타냅니다.		동영상
모션 클론	MotionClone : 제어 가능한 비디오 생성을위한 훈련없는 모션 클로닝.	arxiv	동영상
MotionCtrl	비디오 생성을위한 통합적이고 유연한 모션 컨트롤러.	arxiv	동영상
모션 디렉터	텍스트-비디오 확산 모델의 모션 사용자 정의.	arxiv	동영상
MotionShop	비디오의 캐릭터를 3D 아바타로 교체하는 응용.		동영상
mov2mov	Automatic1111의 Mov2Mov 플러그인/안정적인 건류 webui.		동영상
MovieFactory	언어 및 이미지에 큰 생성 모델을 사용하는 텍스트의 자동 영화 제작.	arxiv	동영상
신경 프레임	시각 세계의 신디사이저를 발견하십시오.		동영상
절대로	세상을 만드십시오.		동영상
오픈-소라	모든 사람을위한 효율적인 비디오 제작을 민주화합니다.		동영상
오픈-소라	오픈-소라 계획.		동영상
페나키	시간이 지남에 따라 변경 될 수있는 프롬프트와 몇 분만큼 긴 비디오가있는 텍스트에서 비디오를 생성하는 모델.	arxiv	동영상
Pika Labs	Pika Labs는 AI와의 비디오 제작 경험에 혁명을 일으키고 있습니다.		동영상
픽셀링	Pixeling을 통해 고객은 이미지, 비디오 및 3D 모델을 포함하여 매우 정확하고 실제적이며 매우 제어 가능한 시각적 컨텐츠를 만들 수 있습니다.		동영상
pixverse	AI로 숨막히는 비디오를 만듭니다.		동영상
수분	창조는 쉽고 빠르며 재미있게 얻습니다.		동영상
재사용과 확산	텍스트-비디오 생성을위한 반복 거부.	arxiv	동영상
루이	Ruyi는 768의 해상도로 시네마틱 품질의 비디오를 생성 할 수있는 이미지 간 비디오 모델이며, 프레임 속도는 초당 24 프레임, 총 5 초 및 120 프레임입니다.		동영상
절름발이	자동화 된 단기/비디오 컨텐츠 생성을위한 실험 AI 프레임 워크.		동영상
쇼 -1	텍스트-비디오 생성을위한 픽셀 및 잠복 확산 모델과 결혼.	arxiv	동영상
스냅 비디오	텍스트-비디오 합성을위한 스케일링 시공간 변압기.	arxiv	동영상
소라	텍스트에서 비디오 생성.		동영상
소라웨 부이	Sorawebui는 오픈 소스 SORA 웹 클라이언트로서 사용자가 OpenAI의 SORA 모델로 텍스트에서 쉽게 비디오를 만들 수 있습니다.		동영상
안정적인 비디오	텍스트 중심의 일관성 인식 확산 비디오 편집.		동영상
안정적인 비디오 확산	안정적인 비디오 확산 (SVD) 이미지-비디오.		동영상
이야기 확산	장거리 이미지 및 비디오 생성에 대한 일관된 자체 변환.	arxiv	동영상
Streamingt2v	텍스트에서 일관되고 역동적이며 확장 가능한 긴 비디오 생성.	arxiv	동영상
스타일 크래프터	스타일 어댑터를 사용하여 양식화 된 텍스트-비디오 생성을 nhance.	arxiv	동영상
태트	시간 비수성 VQGAN 및 시간에 민감한 변압기를 사용한 긴 비디오 생성.		동영상
Text2Video-Zero	텍스트-이미지 확산 모델은 제로 샷 비디오 생성기입니다.	arxiv	동영상
TF-T2V	텍스트가없는 비디오로 텍스트-비디오 생성을 확장하기위한 레시피.	arxiv	동영상
토라	Tora : 비디오 생성을위한 궤적 지향 확산 변압기.	arxiv	동영상
트랙-모든 것	Track-anthing은 세그먼트 ally 및 xmem을 기반으로 비디오 객체 추적 및 세분화를위한 유연하고 대화식 도구입니다.	arxiv	동영상
Tune-A-Video	텍스트-비디오 생성을위한 이미지 확산 모델의 원샷 튜닝.	arxiv	동영상
Twelvelabs	인간과 같은 비디오를 이해하는 멀티 모달 AI.		동영상
univg	통합 모달 비디오 생성으로.		동영상
vchitect-2.0	VCHITECT-2.0 : 비디오 확산 모델을 스케일링하기위한 병렬 변압기.		동영상
Vgen	확산 모델에 대한 비디오 생성을위한 전체적인 비디오 생성 생태계.	arxiv	동영상
ViewCrafter	ViewCrafter : 고 충실도 소설 뷰 합성을위한 비디오 확산 모델을 길들이십시오.	arxiv	동영상
비디오 chatgpt	Video-Chatgpt는 비디오에 대한 의미있는 대화를 생성 할 수있는 비디오 대화 모델입니다.	arxiv	동영상
비디오 복합사	모션 제어 성이있는 구성 비디오 합성.	arxiv	동영상
videocrafter1	고품질 비디오 생성을위한 확산 모델을 개방하십시오.	arxiv	동영상
videocrafter2	고품질 비디오 확산 모델에 대한 데이터 제한 극복.	arxiv	동영상
videodrafter	LLM을 통한 컨텐츠 일관성 멀티 스케인 비디오 생성.	arxiv	동영상
videoelevator	다양한 텍스트-이미지 확산 모델로 비디오 생성 품질을 높입니다.	arxiv	동영상
videofactory	텍스트-비디오 생성에 대한 시공간 확산에서주의를 바꾸십시오.		동영상
비디오 겐	고화질 텍스트-비디오 생성을위한 참조 유도 잠재 확산 접근법.	arxiv	동영상
videolcm	비디오 잠재적 일관성 모델.	arxiv	동영상
비디오 LDM	잠복 : 고해상도 비디오 합성을 잠복 확산 모델로 정렬하십시오.	arxiv	동영상
비디오-롤라 바	투영 전 정렬에 의한 통일 시각적 표현 학습.	arxiv	동영상
videomamba	효율적인 비디오 이해를위한 상태 공간 모델.	arxiv	동영상
생각의 비디오	생각의 비디오 : 인식에서 인식에 이르기까지 단계별 비디오 추론.		동영상
videopoet	제로 샷 비디오 생성을위한 큰 언어 모델.	arxiv	동영상
보인 모션	단지 텍스트를 사용하여 현실적인 비디오를 만듭니다.		동영상
visualrwkv	VisualRWKV는 RWKV 언어 모델의 시각적 강화 버전으로 RWKV가 다양한 시각적 작업을 처리 할 수 있습니다.		시각적
V-JEPA	비디오 조인트 임베딩 예측 아키텍처.	arxiv	동영상
월트	확산 모델을 가진 사진 생성.	arxiv	동영상
9 개	Zeroscope Text-to-Video.		동영상

^ 목차로 돌아가기 ^

오디오

원천	설명	종이	유형
Academicodec	학술 연구를위한 오픈 소스 오디오 코덱 모델.		오디오
Amphion	오픈 소스 오디오, 음악 및 음성 생성 툴킷.	arxiv	오디오
아치 사운드	Pytorch에서 확산 모델을 사용한 오디오 생성.		오디오
아우디오스	자연어 프롬프트가있는 통합 오디오 생성.		오디오
오디오 편집	DDPM 반전을 사용하여 감독되지 않은 텍스트 기반 오디오 편집.	arxiv	오디오
오디오겐 코덱	일반 오디오를위한 낮은 압축 48kHz 스테레오 신경 오디오 코덱, 오디오 충실도를 최적화합니까?.		오디오
오디오 프트	연설, 음악, 소리 및 말하는 머리를 이해하고 생성합니다.	arxiv	오디오
Audiolcm	잠재적 인 일관성 모델을 가진 텍스트-오디오 생성.	arxiv	오디오
아우디로드	잠복 확산 모델을 가진 텍스트-오디오 생성.	arxiv	오디오
Audioldm 2	자체 감독 전 사전 조정으로 전체적인 오디오 생성 학습.	arxiv	오디오
auffusion	텍스트-오디오 생성을위한 확산 및 큰 언어 모델의 힘을 활용합니다.	arxiv	오디오
CTAG	신시사이저 프로그래밍을 통한 창의적인 텍스트-오디오 생성.		오디오
foleycrafter	Foleycrafter : Lifelike와 Synchronized Sound로 무음 비디오를 생생하게합니다.	arxiv	오디오
자석	단일 비 자극적 인 변압기를 사용하여 마스킹 오디오 생성.		오디오
메이크-오디오	프롬프트 강화 확산 모델을 갖춘 텍스트-오디오 생성.	arxiv	오디오
Make-an-audio 3	흐름 기반의 큰 확산 변압기를 통해 텍스트를 오디오로 변환합니다.	arxiv	오디오
신경 사운드	음향 전달을 통한 학습 기반 모달 사운드 합성.	arxiv	오디오
Optimizerai	제작자, 게임 제작자, 아티스트, 비디오 제작자를위한 사운드.		오디오
QWEN2-AUDIO	Qwen2-Audio Chat 및 Alibaba Cloud가 제안한 사전 예방 대형 오디오 언어 모델.	arxiv	오디오
2면에서	공간 공간에서 공간 사운드가 없습니다.	arxiv	오디오
사운드 스터	효율적인 평행 오디오 생성.	arxiv	오디오
안정적인 오디오	빠른 타이밍 조절 된 잠재 오디오 확산.		오디오
안정적인 오디오가 열립니다	안정적인 오디오 오픈 1.0은 텍스트 프롬프트에서 44.1kHz에서 가변 길이 (최대 47 초) 스테레오 오디오를 생성합니다.		오디오
동기화	SYNCFUSION : 멀티 모달 발병 동기화 비디오-아우 디오 폴리 합성.	arxiv	오디오
탱고	명령어 조정 된 LLM 및 잠재적 확산 모델을 사용한 텍스트-오디오 생성.		오디오
VTA-LDM	숨겨진 정렬을 가진 비디오 대 유비 디오 생성.	arxiv	오디오
Wavjourney	큰 언어 모델을 갖춘 구성 오디오 제작.	arxiv	오디오

^ 목차로 돌아가기 ^

음악

원천	설명	종이	유형
aiva	감정적 사운드 트랙 음악을 구성하는 인공 지능.		음악
Amper Music	Amper가 구동하는 맞춤형 음악 생성 기술.		음악
부미	생성 음악을 만듭니다. 세상과 공유하십시오.		음악
chatmusician	고유 한 음악 능력을 LLM으로 육성합니다.		음악
chord2melody	자동 음악 생성 AI.		음악
diff-bgm	비디오 배경 음악 생성을위한 확산 모델.	arxiv	음악
플럭스 머스 틱	FluxMusic : 정류 된 유량 변압기를 사용한 텍스트-음악 생성.	arxiv	음악
gptableton	GPT 응답을 처리하고 MIDI 노트를 Abletonosc 및 Python-OSC와 함께 Ableton 클립으로 전송하기위한 초안 스크립트.		음악
heymusic.ai	AI 음악 생성기		음악
음악에 대한 이미지	음악 생성기에 대한 AI 이미지는 인공 지능을 사용하여 이미지를 음악으로 변환하는 도구입니다.		음악
Jen-1	전 방향 확산 모델을 가진 텍스트 유도 보편적 음악 생성.		음악
주크 박스	음악을위한 생성 모델.	arxiv	음악
마젠타	Magenta는 예술과 음악을 만드는 과정에서 기계 학습의 역할을 탐구하는 연구 프로젝트입니다.		음악
멜로디	효율적인 신경 음악 생성		음악
무버트	AI 생성 음악.		음악
Musenet	10 개의 다른 악기로 4 분짜리 뮤지컬 작곡을 생성 할 수 있으며 국가에서 모차르트, 비틀즈까지 스타일을 결합 할 수있는 깊은 신경망.		음악
MusicGen	간단하고 제어 가능한 음악 생성.	arxiv	음악
musicldm	Beat-Synchronous Mixup 전략을 사용하여 텍스트-음악 생성의 참신함을 향상시킵니다.	arxiv	음악
음악LM	텍스트에서 음악 생성.	arxiv	음악
Riffusion 앱	Riffusion은 안정적인 확산으로 실시간 음악 생성을위한 앱입니다.		음악
소나토	Sonauto는 프롬프트, 가사 또는 멜로디를 모든 스타일로 전체 노래로 바꾸는 AI 음악 편집기입니다.		음악
사운드 로프	제작자를위한 AI 음악 생성기.		음악
사운드 ai	텍스트 간 및 무한 샘플 팩을 포함한 생성 AI 도구.		음악

^ 목차로 돌아가기 ^

노래하는 목소리

원천	설명	종이	유형
Diffsinger	얕은 확산 메커니즘을 통한 노래 음성 합성.	arxiv	노래하는 목소리
검색 기반-보이스-수정-부비	VITS 기반 사용하기 쉬운 SVC 프레임 워크.		노래하는 목소리
So-Vits-SVC	SoftVC Vits 노래 음성 변환.		노래하는 목소리
VI-SV	Vits와 Opencpop을 사용하여 노래하는 음성 합성을 개발하십시오. Visinger와는 다릅니다.		노래하는 목소리

^ 목차로 돌아가기 ^

연설

원천	설명	종이	게임 엔진	유형
응용 프로그램	최고의 음성 클로닝 도구, 타의 추종을 불허하는 힘, 모듈성 및 사용자 친화적 인 경험에 대해 세 심하게 최적화되었습니다.			연설
오요	텍스트 in. 오디오 출력.			연설
짖다	텍스트 프로모션 생성 오디오 모델.			연설
버트-VITS2	다국어 버트가있는 VITS2 백본.			연설
차트	차트는 매일 대화를위한 생성 음성 모델입니다.			연설
Clapspeech	대조적 인 언어 Audio 사전 훈련으로 텍스트 상황에서 프로디를 학습합니다.	arxiv		연설
cosyvoice	다국어 대형 음성 생성 모델, 추론, 훈련 및 배포 풀 스택 능력을 제공합니다.			연설
DEX-TTS	시간 변동성에 대한 스타일 모델링을 갖춘 확산 기반 표현 적 텍스트 음성.	arxiv		연설
감정	다중 보이스 및 프롬프트 제어 TTS 엔진.			연설
플리키	AI 음성으로 텍스트를 비디오로 바꾸십시오.			연설
GLM-4-VOICE	GLM-4-Voice는 Zhipu AI가 시작한 엔드 투 엔드 음성 모델입니다. GLM-4-Voice는 중국어와 영어 연설을 직접 이해하고 생성하며 실시간 음성 대화에 참여하며 사용자 지침에 따라 감정, 억양, 언어 속도 및 방언과 같은 속성을 변경할 수 있습니다.			연설
글로우 팅	단조로운 정렬 검색을 통한 텍스트 음성 연설의 생성 흐름.	arxiv		연설
gpt-sovits	강력한 소수의 음성 변환 및 텍스트 음성 변환 Webui.			연설
로보	Lovo는 수천 명의 제작자를위한 AI Voice Generator & Text to Speech 플랫폼입니다.			연설
Mahatts	오픈 소스 대형 음성 세대 모델.			연설
성냥개비	조건부 흐름이 일치하는 빠른 TTS 아키텍처.	arxiv		연설
Melotts	myshell.ai의 고품질 다국어 텍스트 음성 연설 라이브러리. 영어, 스페인어, 프랑스어, 중국어, 일본어, 한국어를 지원합니다.			연설
metavoice-1b	인간 수준의 음성 지능을위한 AI.			연설
나로 화	현실적인 텍스트를 사용하여 음성을 쉽게 만듭니다.			연설
미니 오노	MINI-OMNI : 언어 모델은 스트리밍을 생각하면서 듣고 이야기 할 수 있습니다. Mini-Omni는 오픈 소스 멀티 모드 대형 언어 모델입니다. 실시간 엔드 투 엔드 스피치 입력 및 스트리밍 오디오 출력 대화 기능을 특징으로합니다.	arxiv		연설
원샷-보이스 클로닝	unet-tts에서 한 샷 음성 복제 기반.			연설
OpenVoice	Myshell에 의해 즉각적인 음성 복제.			연설
과다	더 나은 TT를 위해 신경 변환기 위에 흐름을 두는 것.			연설
RealTimetts	RealTimetts는 실시간 응용 프로그램을 위해 설계된 최첨단 텍스트 음성 연사 (TTS) 라이브러리입니다.			연설
Sensevoice	SenseVoice는 자동 음성 인식 (ASR), 음성 언어 식별 (LID), 음성 감정 인식 (SER) 및 오디오 이벤트 감지 (AED)를 포함한 여러 음성 이해 기능을 갖춘 음성 기초 모델입니다.			연설
SpeechGpt	본질적인 교차 모달 대화 능력으로 대형 언어 모델에 권한을 부여합니다.	arxiv		연설
Speech-to-Text-GPT3-Unity	이것은 내가 OpenAi의 Unity에서 Whisper와 Chatgpt API를 사용하는 저장소입니다.		단일성	연설
안정적인 연설	안정성 AI의 텍스트 음성 연설 모델.			연설
안정	안정적인 확산에서 영감을 얻은 유량 매칭 및 DIT를 사용한 차세대 TTS 모델.			연설
Styletts 2	큰 언어 모델을 사용한 스타일 확산 및 대적 훈련을 통해 인간 수준의 텍스트 음성으로 향합니다.	arxiv		연설
거북이 .cpp	Tortoise.cpp : GGML 거북이 TTS 구현.			연설
거북이	품질에 중점을 둔 다중 음성 TTS 시스템.			연설
TTS Generation Webui	TTS Generation Webui (Bark, Musicgen, Tortoise, RVC, Vocos, Demucs).			연설
Vall-e	신경 코덱 언어 모델은 음성 신디사이저에 대한 제로 샷 텍스트입니다.	arxiv		연설
Vall-e x	자신의 목소리로 외국어를 말하십시오 : 교차 신경 코덱 언어 모델링	arxiv		연설
vocode	Vocode는 음성 기반 LLM 응용 프로그램을 구축하기위한 오픈 소스 라이브러리입니다.			연설
음성 상자	텍스트 유도 다국어 보편적 인 음성 생성 규모.	arxiv		연설
음성 크래프트	야생의 제로 샷 음성 편집 및 텍스트 음성 연설.			연설
속삭임	Whisper는 일반 목적 음성 인식 모델입니다.			연설
Whisperspeech	Whisper를 반전하여 구축 된 오픈 소스 텍스트 음성 시스템.			연설
xe-speech	비유로가 아닌 교차 감정적 텍스트 음성 연설 및 음성 변환의 공동 훈련 프레임 워크.			연설
XTTS	XTTS는 고급 텍스트 음성 연석 생성을위한 라이브러리입니다.			연설
Yourtts	제로 샷 멀티 스피커 TTS와 모든 사람을위한 제로 샷 음성 변환으로.	arxiv		연설
zmm-tts	자체 감독 된 개별 음성 표현에 조절 된 제로 샷 다국어 및 멀티 스피커 음성 합성.	arxiv		연설