ai game devtools下载 - ai game devtools源码下载

ai game devtools

Ai源码

1.0.0

下载

AI 游戏开发工具 (AI-GDT) ？

人工智能游戏

在这里我们将跟踪最新的AI游戏开发工具，包括LLM、Agent、Code、Writer、Image、Texture、Shader、3D Model、Animation、Video、Audio、Music、Singing Voice和Analytics。

项目清单

工具（人工智能法学硕士）

来源	描述	纸	游戏引擎	类型
代理GPT	？在浏览器中组装、配置和部署自主 AI 代理。			工具
人工智能指挥	ChatGPT 与 Unity 编辑器集成。		统一	工具
智能操作系统	LLM代理操作系统。			工具
人工智能科学家	人工智能科学家：迈向全自动开放式科学发现。	arXiv		工具
助理 CLI	使用 ChatGPT 服务的舒适 CLI 工具			工具
自动GPT	一项让 GPT-4 完全自治的实验性开源尝试。			工具
宝贝AGI	此 Python 脚本是人工智能驱动的任务管理系统的示例。			工具
??宝贝AGI用户界面	BabyAGI UI 旨在让 Babyagi 在 Web 应用程序（例如 ChatGPT）中更轻松地运行和开发。			工具
百川7B	百川开发的大规模7B预训练语言模型。			工具
百川13B	百川智能科技开发的13B大语言模型。			工具
百川2号	百川智能科技开发的一系列大型语言模型。			工具
毕升	Bisheng是一个面向下一代人工智能应用的开放式LLM DevOps平台。			工具
性格-法学硕士	可训练的角色扮演代理。	arXiv		工具
聊天开发	软件开发的通信代理。	arXiv		工具
ChatGPT-API-unity	将 ChatGPT 聊天完成 API 绑定到 Unity 上的纯 C#。		统一	工具
聊天GPTForUnity	ChatGPT 的统一。		统一	工具
聊天RWKV	ChatRWKV 类似于 ChatGPT，但由 RWKV（100% RNN）语言模型提供支持，并且是开源的。			工具
聊天园	中英文对话大语言模型。			工具
Chinese-LLaMA-Alpaca-3	（中国 Llama-3 法学硕士）从 Meta Llama 3 发展而来。			工具
Chrome-GPT	控制桌面上 Chrome 的 AutoGPT 代理。			工具
CogVLM	CogVLM，一个强大的开源视觉语言基础模型。	arXiv		工具
核心网	用于训练深度神经网络的库。			工具
宇宙	Cosmos 是一个世界模型开发平台，由世界基础模型、分词器和视频处理管道组成，可加速机器人和 AV 实验室物理 AI 的开发。			法学硕士
数据库接收	DBRX 是由 Databricks 训练的大型语言模型。			工具
直流LM	语言模型的 DataComp。	arXiv		工具
DeepSeek-V3	DeepSeek-V3 是一个强大的专家混合 (MoE) 语言模型，总参数为 671B，每个令牌激活 37B。	arXiv		法学硕士
演示GPT	Auto Gen-AI 应用程序生成器，具有 Llama 2 的强大功能			工具
设计到代码	自动化前端工程			工具
德维卡	Devika 是一名 Agentic AI 软件工程师。			工具
德文郡	开源结对程序员。			工具
朵拉	生成强大的网站，一次一个提示。			工具
流水	拖放 UI 以使用 LangchainJS 构建您的定制 LLM 流程。			工具
双子座	Gemini 是从头开始构建的多模态——跨文本、图像、视频、音频和代码无缝推理。			工具
芽	Gemma 是一系列轻量级、最先进的开放模型，基于用于创建 Google Gemini 模型的研究和技术而构建。			工具
宝石.cpp	适用于 Google Gemma 模型的轻量级独立 C++ 推理引擎。			工具
GLM-4	GLM-4-9B是智普AI推出的GLM-4系列最新一代预训练模型的开源版本。			工具
GPT4All	一个聊天机器人，接受了大量干净的助理数据的训练，包括代码、故事和对话。			工具
GPT-4o	GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步——它接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像的任意组合输出。			工具
GPT脚本	用自然语言开发法学硕士应用程序。			工具
格罗克-1	我们的 3140 亿参数混合专家模型 Grok-1 的权重和架构。			工具
拥抱聊天	让社区最好的人工智能聊天模型可供所有人使用。			工具
拥抱脸部 API Unity 集成	此 Unity 包为 Hugging Face Inference API 提供了易于使用的集成，允许开发人员在其 Unity 项目中访问和使用 Hugging Face AI 模型。		统一	工具
图像绑定	ImageBind 一个嵌入空间将它们全部绑定。	arXiv		工具
索引-1.9B	SOTA 轻量级多语言法学硕士。			工具
InteractML-Unity	InteractML，Unity3D 的交互式机器学习可视化脚本框架。		统一	工具
InteractML-虚幻引擎	将机器学习引入虚幻引擎。		虚幻引擎	工具
实习生LM	InternLM开源了70亿参数的基础模型、针对实际场景量身定制的聊天模型和训练系统。	arXiv		工具
实习生LM-X作曲家	InternLM-XComposer2 是一种突破性的视觉语言大型模型 (VLLM)，在自由格式文本图像合成和理解方面表现出色。	arXiv		工具
扬	将人工智能带入您的桌面。			工具
拉米尼	Lamini 允许任何工程团队通过 RLHF 和对自己的数据进行微调，从而超越通用的 LLM。			工具
LaMini-LM	LaMini-LM 是从 ChatGPT 中提炼出来的小型高效语言模型的集合，并在包含 258 万条指令的大规模数据集上进行训练。			工具
浪链	LangChain 是一个用于开发由语言模型支持的应用程序的框架。			工具
语言流	⛓️ LangFlow 是 LangChain 的 UI，采用 React-Flow 设计，提供一种轻松的方法来实验和原型流程。			工具
拉瓦格	使用大型动作模型框架实现自动化。			工具
狐猴	语言代理的开放基础模型。			工具
轻子人工智能	一个用于简化 AI 服务构建的 Pythonic 框架。			工具
利特-美洲驼	基于nanoGPT的LLaMA语言模型的实现。支持 Flash Attention、Int8 和 GPTQ 4bit 量化、LoRA 和 LLaMA-Adapter 微调、预训练。			工具
llama2-webui	从任何地方 (Linux/Windows/Mac) 在 GPU 或 CPU 上使用 gradio UI 本地运行 Llama 2。			工具
骆驼3	Meta Llama 3 官方 GitHub 网站。			工具
骆驼3.1	Llama 是一种易于访问、开放的大型语言模型 (LLM)，专为开发人员、研究人员和企业构建、实验和负责任地扩展其生成式 AI 想法而设计。			工具
LLaSM	大型语言和语音模型。			工具
LLM 答案引擎	使用 Next.js、Groq、Mixtral、Langchain、OpenAI、Brave 和 Serper 构建受困惑启发的答案引擎。			工具
LLM.c	使用简单、原始的 C/CUDA 进行法学硕士培训。			工具
法学硕士Unity	与法学硕士一起在 Unity 中创建角色！		统一	工具
本地搜索	LLocalSearch 是一个使用 LLM 代理的完全本地运行的搜索引擎。			工具
逻辑游戏解算器	一款利用人工智能、深度学习和计算机视觉解决逻辑游戏的 Python 工具。			工具
长作家	LongWriter：从长上下文法学硕士中释放 10,000 多个单词。	arXiv		工具
大世界模型 (LWM)	大世界模型 (LWM) 是一种通用的大上下文多模态自回归模型。	arXiv		工具
Lumina-T2X	Lumina-T2X 是文本到任何模态生成的统一框架。	arXiv		工具
元GPT	多代理框架			工具
迷你CPM-2B	端侧 LLM 的表现优于 Llama2-13B。			工具
迷你GPT-4	通过先进的大语言模型增强视觉语言理解。	arXiv		工具
迷你GPT-5	通过生成 Vokens 交错视觉和语言生成。	arXiv		工具
混合 8x7B	高质量的稀疏专家组合。	arXiv		工具
米斯特拉尔7B	迄今为止最好的 7B 模型，Apache 2.0。			工具
米斯特拉尔大号	Mistral Large 是一种新的尖端文本生成模型。它达到了顶级的推理能力。			工具
法学硕士	让每个人都能在每个人的设备上本地开发、优化和部署人工智能模型。			工具
移动骆驼	迈向准确、轻量、完全透明的 GPT。	arXiv		工具
教育部拉瓦	大型视觉语言模型的专家组合。	arXiv		工具
莫希	Moshi 是一个实验性对话式人工智能。			工具
莫希	Moshi：实时对话的语音文本基础模型。			工具
苔藓	复旦大学开源工具增强会话语言模型。			工具
mPLUG-Owl？	模块化使大型语言模型具有多模态性。	arXiv		工具
Nemotron-4	在 8 万亿个文本标记上训练的 150 亿参数大型多语言语言模型。	arXiv		工具
下一个GPT	任意对任意多模态大语言模型。			工具
OLMo	开放语言模型	arXiv		工具
全方位LMM	大型多模式模型可实现强大的性能和高效的部署。			工具
法学硕士	一种使所有形式与语言保持一致的框架。	arXiv		工具
打开助手	OpenAssistant 是一个基于聊天的助手，它可以理解任务，可以与第三方系统交互，并动态检索信息来执行此操作。			工具
开放德文	自主人工智能软件工程师。			工具
猎户座14B	Orion-14B 是一个模型家族，包括 14B 基础 LLM 和一系列模型。	arXiv		工具
熊猫	海外中文开源大语言模型，基于Llama-7B、-13B、-33B、-65B进行中文领域的持续预训练。			工具
佩普莱西卡	人工智能驱动的搜索引擎。			工具
圆周率	人工智能聊天机器人专为个人帮助和情感支持而设计。			工具
Qwen1.5	Qwen1.5是Qwen的改进版本。			工具
Qwen2	Qwen2是阿里云Qwen团队开发的大型语言模型系列。			工具
Qwen-7B	阿里云提出的Qwen-7B（通义千问-7B）聊天和预训练大语言模型的官方仓库。			工具
回购代理	RepoAgent 是一个由大型语言模型 (LLM) 驱动的开源项目，旨在提供一种智能方式来记录项目。	arXiv		工具
理智人工智能引擎	用于 Unity 游戏开发工具的 Sanity AI 引擎。		统一	工具
搜索GPT	？将 ChatGPT 连接到互联网			工具
分享GPT4V	通过更好的标题改进大型多模态模型。			工具
思凯沃	Skywork系列模型在3.2TB的高质量多语言（主要是中文和英文）和代码数据上进行预训练。			工具
稳定LM	稳定性人工智能语言模型。	arXiv		工具
斯坦福羊驼毛	遵循指令的 LLaMA 模型。			工具
文本生成 Web UI	用于运行 LLaMA、llama.cpp、GPT-J、OPT 和 GALACTICA 等大型语言模型的 gradio Web UI。			工具
小聊天引擎	设备上的 LLM 推理库。			工具
工具台	一个用于训练、服务和评估用于工具学习的大型语言模型的开放平台。			工具
Unity 聊天GPT	Unity ChatGPT 实验。		统一	工具
Unity OpenAI-API 集成	将openai GPT-3语言模型和ChatGPT API集成到Unity项目中。		统一	工具
虚幻引擎 5 骆驼 LoRA	一个概念验证项目，展示了使用小型、本地可培训的法学硕士创建下一代文档工具的潜力。		虚幻引擎	工具
虚幻GPT	由 GPT3/4 提供支持的虚幻引擎 5 编辑器实用程序小部件的集合。		虚幻引擎	工具
视频-LLaVA	通过投影前对齐学习联合视觉表示。	arXiv		工具
网络GPT	使用 WebGPU 在浏览器上运行 GPT 模型。			工具
Web3-GPT	使用 AI 部署智能合约			工具
字GPT	？将 ChatGPT 的强大功能引入 Microsoft Word			工具
X代理	用于解决复杂任务的自主 LLM 代理。			工具
彝族	由开发人员从头开始训练的一系列大型语言模型。			工具
01 项目	开源语言模型计算机。			工具

^ 返回目录 ^

游戏（代理）

来源	描述	纸	类型
代理工作台	评估法学硕士作为代理人的综合基准。	arXiv	代理人
代理群聊	交互式群聊拟像，可以更好地引发集体紧急行为。	arXiv	代理人
特工K	一种自我进化和模块化的自动 AGI。		代理人
代理范围	开始以更简单的方式构建 LLM 授权的多代理应用程序。	arXiv	代理人
特工模拟人	用于大型语言模型评估的开源沙箱。		代理人
人工智能小镇	AI Town 是一个虚拟城镇，AI 角色在此居住、聊天和社交。		代理人
动漫.gf	CharacterAI 的本地和开源替代品。		游戏
阿斯特罗卡德	用人工智能创建游戏		游戏
原子特工	Atomic Agents 框架被设计为模块化、可扩展且易于使用。		代理人
自动代理	自动代理生成的框架。		代理人
自动生成器	启用下一代大型语言模型应用程序。	arXiv	代理人
行为	Behaviac是游戏AI开发的框架。		框架
生物群落	Biomes 是一款使用 Next.js、Typescript、React 和 WebAssembly 等 Web 技术为 Web 构建的开源沙盒 MMORPG。		游戏
思想缓冲器	使用大型语言模型进行思想增强推理。	arXiv	代理人
拜泽代理	适合所有人的简单、快速、分布式代理框架。		代理人
猫镇	AC(h)atGPT 支持的猫模拟。		代理人
猫镇	AC(h)atGPT 支持的猫模拟。		代理人
角色GLM	利用大语言模型定制中文会话人工智能角色。	arXiv	代理人
聊天开发	软件开发的通信代理。	arXiv	代理人
协同代理	CogAgent是基于CogVLM改进的开源视觉语言模型。	arXiv	代理人
摇篮	迈向通用计算机控制。		代理人
船员人工智能	用于编排角色扮演、自主人工智能代理的框架。		代理人
迪菲	Dify 是一个开源 LLM 应用程序构建平台。		代理人
数字生活项目	具有社交智能的自主 3D 角色。	arXiv	代理人
一切-ai	您完全熟练的、人工智能驱动的本地聊天机器人助手？		代理人
织物	Fabric 是一个使用人工智能增强人类能力的开源框架。		代理人
快速GPT	FastGPT是一个建立在法学硕士基础上的知识平台。		代理人
快速RAG	高效的检索增强和生成框架。		代理人
游戏AI SDK	基于图像的游戏人工智能自动化框架。		框架
游戏生成器	扩散模型是实时游戏引擎。	arXiv	游戏
GameGen-O	GameGen-O：开放世界视频游戏生成。		游戏
基因代理	GenAgent：通过自动工作流生成构建协作人工智能系统 - ComfyUI 案例研究。	arXiv	代理人
生成代理	人类行为的交互式模拟。	arXiv	代理人
创世纪	Genesis：用于机器人及其他领域的生成式通用物理引擎。		游戏
精灵	生成交互环境。		游戏
吉克斯	运行时、LLM 驱动的 NPC。		游戏
河马拉格	受神经生物学启发的大型语言模型的长期记忆。	arXiv	代理人
交互式 LLM 支持的 NPC	Interactive LLM Powered NPCs 是一个开源项目，可以彻底改变您在任何游戏中与非玩家角色 (NPC) 的互动！		游戏
奥阿	用于协作人工智能代理的开源框架，使多样化的分布式代理能够通过类似互联网的连接来组队并处理复杂的任务。		代理人
快手代理	具有大型语言模型（LLM）的通用信息搜索代理系统。	arXiv	代理人
浪链	让您的法学硕士申请从原型到生产。		代理人
朗弗洛	Langflow 是 LangChain 的 UI，采用 React-flow 设计，提供一种轻松的方法来实验和原型流程。		代理人
LangGraph工作室	LangGraph Studio 提供了一种开发 LLM 应用程序的新方法，它提供了一个专门的代理 IDE，可以实现复杂代理应用程序的可视化、交互和调试。		代理人
拉普	开放世界游戏的语言代理角色扮演。	arXiv	代理人
骆驼代理系统	Llama Stack API 的代理组件。		代理人
骆驼指数	LlamaIndex 是 LLM 申请的数据框架。		代理人
心灵搜索	？基于 LLM 的网络搜索引擎多代理框架（如 Perplexity.ai Pro 和 SearchGPT）。		代理人
药剂混合物 (MoA)	混合代理增强了大型语言模型的能力。	arXiv	代理人
MMR角色	MMRole：用于开发和评估多模式角色扮演代理的综合框架。	arXiv	代理人
月球登陆者.ai	使用生成式 AI 无需任何编码即可开始构建 3D 游戏。		框架
穆格扩散	MuG Diffusion 是一种基于稳定扩散（最强大的 AIGC 模型之一）的节奏游戏图表 AI，并进行了大量修改以合并音频波。		游戏
绿洲	Oasis 是由 Decart 和 Etched 开发的互动世界模型。基于扩散变换器，Oasis 接收用户键盘输入并以自回归方式生成游戏玩法。		游戏
管理代理	用于解决复杂任务的多模式代理框架。		代理人
开放代理	野外语言代理的开放平台。		代理人
作品	一款将文本变成视频游戏的人工智能应用程序。		游戏
管道猫	用于语音和多模式会话人工智能的开源框架。		代理人
Qwen-代理	Qwen-Agent 是一个基于 Qwen 的指令遵循、工具使用、规划和记忆功能开发 LLM 应用程序的框架。		代理人
拉加斯	Ragas 是一个框架，可帮助您评估检索增强生成 (RAG) 管道。		代理人
RPBench-自动	用于评估法学硕士角色扮演的自动化管道。		游戏
西玛	适用于 3D 虚拟环境的多面手 AI 代理。		代理人
StoryGames.ai	人工智能为梦想家制作游戏。		游戏
SWE代理	代理计算机接口支持软件工程语言模型。	arXiv	代理人
任务生成器	基于 LLM 代理的 StrictJSON 输出的基于任务的代理框架。		代理人
十名代理	TEN Agent 是世界上第一个集成了 OpenAI Realtime API、RTC 的实时多模式代理，具有天气检查、网络搜索、视觉和 RAG 功能。		代理人
翻译代理	使用反射工作流程进行代理翻译。		代理人
叽叽喳喳	Twitter Personality 是一款 Web 应用程序，它可以分析您的 Twitter 句柄，以使用 Wordware AI Agent 创建个性化的个性档案。		代理人
无界	无界：角色生活模拟的生成无限游戏。	arXiv	游戏
视频游戏	来自单个视频的实时、交互式、真实且与浏览器兼容的环境。	arXiv	游戏
IRL	将虚拟智能融入现实生活。	arXiv	代理人
网页设计代理	用于网页设计的代理。		代理人
X代理	用于解决复杂任务的自主 LLM 代理。		代理人

^ 返回目录 ^

代码

来源	描述	纸	游戏引擎	类型
人工智能代码翻译器	使用人工智能将代码从一种语言翻译成另一种语言。			代码
aiXcoder-7B	aiXcoder-7B 代码大语言模型。			代码
布卢普	bloop 是一个用 Rust 编写的快速代码搜索引擎。			代码
查皮特	Jupyter 笔记本中的 ChatGPT 代码解释器。			代码
代码极X	开放的多语言代码生成模型。	arXiv		代码
代码吉X2	更强大的多语言代码生成模型。			代码
代码吉X4	CodeGeeX4：开放的多语言代码生成模型。			代码
代码生成器	CodeGen 是一个用于程序综合的开源模型。在 TPU-v4 上进行训练。与 OpenAI Codex 竞争。	arXiv		代码
代码生成2	用于程序综合的 CodeGen2 模型。	arXiv		代码
代码骆驼	Code Llama 是基于 Llama 2 的大型代码语言模型。			代码
代码TF	用于最先进代码 LLM 的一站式 Transformer 库。			代码
代码T5	用于代码理解和生成的开放代码法学硕士。			代码
光标	在新型编辑器中使用 GPT-4 编写、编辑和讨论您的代码。			代码
DeepSeek 编码器	DeepSeek Coder：让代码自己编写。	arXiv		代码
OpenAI 法典	OpenAI Codex 是 GPT-3 的后代。			代码
熊猫人工智能	Pandas AI 是一个 Python 库，它将生成人工智能功能集成到 Pandas 中，使数据帧具有对话性。			代码
RobloxScripterAI	RobloxScripterAI 是 Roblox 的人工智能代码生成工具。		罗布乐思	代码
Scikit-法学硕士	将 ChatGPT 等强大的语言模型无缝集成到 scikit-learn 中，以增强文本分析任务。			代码
索塔纳	开源软件开发助手。	arXiv		代码
稳定代码3B	在边缘编码。			代码
星码器	？ StarCoder 是一种基于源代码和自然语言文本训练的语言模型 (LM)。	arXiv		代码
星编码器2	StarCoder2 是一系列代码生成模型（3B、7B 和 15B），经过来自 Stack v2 的 600 多种编程语言以及一些自然语言文本（例如 Wikipedia、Arxiv 和 GitHub issues）的训练。	arXiv		代码
UnityGen人工智能	UnityGen AI 是 Unity 的 AI 驱动代码生成插件。		统一	代码
空白	Void 是一个开源 Cursor 替代品。使用最好的 AI 工具编写代码，保留对数据的完全控制，并访问强大的 AI 功能。			代码

^ 返回目录 ^

作家

来源	描述	类型
人工智能作家	AI写小说、生成玄幻言情网文等。中文预训练生成模型。	作家
Notebook.ai	Notebook.ai 是一套工具，可供作家、游戏设计师和角色扮演者创建宏伟的宇宙以及其中的一切。	作家
小说	概念式所见即所得编辑器，具有人工智能驱动的自动完成功能。	作家
小说人工智能	在人工智能的驱动下，轻松构建独特的故事、惊心动魄的故事、诱人的浪漫，或者只是闲逛。	作家

^ 返回目录 ^

图像

来源	描述	纸	游戏引擎	类型
任意门	零样本对象级图像定制。	arXiv		图像
任意文本	多语言视觉文本生成和编辑。	arXiv		图像
AutoStudio	在多轮交互式图像生成中制作一致的主题。	arXiv		图像
Blender-ControlNet	直接在 Blender 中使用 ControlNet。		混合器	图像
布里VL	连接视觉和语言模型。	arXiv		图像
卡特彼勒VTON	CatVTON：串联是您使用扩散模型进行虚拟试戴所需的全部。	arXiv		图像
CLI帕索	一种将对象图像转换为草图的方法，允许不同的抽象级别。	arXiv		图像
剪辑掉落	在几秒钟内创建令人惊叹的视觉效果。			图像
舒适用户界面	具有图形/节点界面的强大且模块化的稳定扩散 GUI。			图像
概念实验室	使用扩散先验约束的创意生成。	arXiv		图像
控制网	ControlNet 是一种通过添加额外条件来控制扩散模型的神经网络结构。	arXiv		图像
CSGO	CSGO：文本到图像生成中的内容样式组合。	arXiv		图像
达尔·E 2	DALL·E 2 是一个人工智能系统，可以根据自然语言的描述创建逼真的图像和艺术。			图像
达世通工作室	Dashtoon Studio 是一个人工智能驱动的漫画创作平台。			漫画
深度人工智能	DeepAI 提供了一套使用 AI 来增强您的创造力的工具。			图像
迪普弗洛伊德 IF	IF 由 StabilityAI 的 DeepFloyd 实验室提供。			图像
深度任意 V2	深度任意 V2	arXiv		图像
深度图库和poser	与Automatic1111/stable-diffusion-webui 的Control Net 扩展一起使用的深度图库。			图像
扩散选择	丰富虚拟试用潜在扩散模型中的图像条件修复。	arXiv		图像
迪斯科扩散	用于生成人工智能艺术和动画的笔记本、模型和技术的弗兰肯斯坦式融合。			图像
拖动GAN	生成图像流形上的交互式基于点的操作。	arXiv		图像
画东西	口袋里的人工智能辅助图像生成。			图像
动态姿态	通过两阶段蒸馏进行有效的全身姿势估计。	arXiv		图像
易照片	您的智能人工智能照片生成器。			图像
通量	该存储库包含最少的推理代码，可使用我们的 Flux 潜在整流流转换器运行文本到图像和图像到图像。			图像
跟随您的点击	通过简短提示进行开放域区域图像动画。	arXiv		图像
福库斯	专注于提示和生成。			图像
gif融合	使用稳定扩散创建 GIF 和视频。			图像
接地段任意	自动检测、分割和生成任何图像、文本和音频输入。	arXiv		图像
海威视ID照片	HivisionIDPhotos：一款轻量高效的AI证件照工具。			图像
华	Hua 是一款具有稳定扩散功能（以及更多功能）的 AI 图像编辑器。			图像
浑源-DiT	具有细粒度中文理解的强大多分辨率扩散变压器。	arXiv		图像
IC光	IC-Light 是一个控制图像照明的项目。			图像
表意文字	帮助人们变得更有创造力。			图像
图像	Imagen 是一个人工智能系统，可以根据输入文本创建逼真的图像。			图像
img2img-涡轮	使用 SD-Turbo 进行一步式图像到图像。			图像
Img2提示	从稳定的扩散生成的图像中获取提示。			图像
无限	Infinity：用于高分辨率图像合成的按位自回归建模。	arXiv		图像
即时ID	在几秒钟内完成零次身份保护生成。	arXiv		图像
实习生LM-XComposer2	InternLM-XComposer2 是一种突破性的视觉语言大型模型 (VLLM)，在自由格式文本图像合成和理解方面表现出色。	arXiv		图像
考拉	自注意力在潜在扩散模型的知识蒸馏中很重要，可实现内存高效和快速图像合成。			图像
科勒斯	Kolors：用于真实感文本到图像合成的扩散模型的有效训练。			图像
韩国房地产协会	使用令人愉快的人工智能设计工具生成图像和视频。			图像
拉维桥	连接不同的语言模型和生成视觉模型以生成文本到图像。	arXiv		图像
层扩散	使用潜在透明度的透明图像层扩散。	arXiv		图像
莱克西卡	稳定的扩散提示搜索引擎。			图像
骆马根	自回归模型击败扩散：用于可扩展图像生成的 Llama。	arXiv		图像
Lumina-mGPT	Lumina-mGPT：通过多模态生成预训练阐明灵活的真实感文本到图像生成。	arXiv		图像
元射击	MetaShoot 是摄影工作室的数字孪生，作为虚幻引擎的插件开发，使任何创作者都能够以最简单、最快的方式生成高度逼真的渲染。		虚幻引擎	图像
中途	Midjourney 是一个独立的研究实验室，致力于探索新的思维媒介并扩展人类的想象力。			图像
MIGC	MIGC：用于文本到图像合成的多实例生成控制器。	arXiv		图像
模仿笔刷	使用参考模仿进行零样本图像编辑。	arXiv		图像
奥尼金	OmniGen：统一图像生成。	arXiv		图像
奥莫斯特	Omost是一个将LLM的编码能力转换为图像生成（或更准确地说，图像合成）能力的项目。			图像
打开姿势编辑器	AUTOMATIC1111 的 stable-diffusion-webui 的 Openpose 编辑器。			图像
适合任何人	适合任何服装和任何人的超高质量虚拟试穿。			图像
绘画撤消	PaintsUndo：数字绘画中绘图行为的基本模型。			图像
照片制作者	通过堆叠 ID 嵌入定制逼真的人物照片。	arXiv		图像
照相馆	人工智能背景生成器。			图像
普拉斯克	云端人工智能图像生成。			图像
提示艺术	发电机中心。			图像
普利德	通过对比对齐进行 Pure 和 Lightning ID 定制。	arXiv		图像
富文本到图像	使用富文本生成富有表现力的文本到图像。	arXiv		图像
RPG-扩散大师	掌握文本到图像的扩散：使用多模态法学硕士 (PRG) 进行重述、规划和生成。			图像
SEED-故事	SEED-Story：具有大型语言模型的多模式长故事生成。	arXiv		图像
分割任何东西	Segment Anything Model (SAM)：Meta AI 的新 AI 模型，只需单击一下即可“剪切”任何图像中的任何对象。	arXiv		图像
分段任意模型 2 (SAM 2)	SAM 2：分割图像和视频中的任何内容。	arXiv		图像
SD-WebUI-ControlNet	ControlNet 的 WebUI 扩展。			图像
SDXL-闪电	渐进式对抗扩散蒸馏。	arXiv		图像
SDXS	具有图像条件的实时一步潜在扩散模型。			图像
稳定艺术	用于稳定扩散的 Photoshop 插件，以 Automatic1111 作为后端（本地或使用 Google Colab）。			图像
稳定级联	Stable Cascade由三个模型组成：Stage A、Stage B和Stage C，代表生成图像的级联，因此得名“Stable Cascade”。			图像
稳定扩散	潜在文本到图像的扩散模型。			图像
稳定扩散.cpp	纯 C/C++ 中的稳定扩散。			图像
稳定的扩散网页用户界面	基于 Gradio 库的浏览器界面，用于稳定扩散。			图像
稳定的扩散网页用户界面	基于 Web 的 UI，实现稳定扩散。			图像
稳定扩散WebUI中文	stable-diffusion-webui 中文版。			图像
稳定扩散XL	从文本生成图像。	arXiv		图像
稳定扩散 XL Turbo	实时文本到图像生成。			图像
稳定扩散3.5	Stable Diffusion 3.5 开放版本包括多个模型变体，包括 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo。			图像
稳定的涂鸦	Stable Doodle 是一款草图转图像工具，可将简单的绘图转换为动态图像。			图像
稳定工作室	Stability AI 的 StableStudio			图像
故事制作者	StoryMaker：在文本到图像生成中实现整体一致的角色。	arXiv		图像
流扩散	用于实时交互生成的管道级解决方案。			图像
风格下降	任何风格的文本到图像生成。	arXiv		图像
同步梦想家	从单视图图像生成多视图一致的图像。	arXiv		图像
超编辑	UltraEdit：基于指令的大规模细粒度图像编辑。	arXiv		图像
超像素	UltraPixel：将超高分辨率图像合成推向新高峰。	arXiv		图像
Unity ML 稳定扩散	Unity 上的 Core ML 稳定扩散。		统一	图像
维斯朋克愿景	文本到图像生成平台。			图像

^ 返回目录 ^

质地

来源	描述	纸	游戏引擎	类型
客户关系管理	使用卷积重建模型将单图像转换为 3D 纹理网格。	arXiv		质地
梦垫	使用几何和光感知扩散模型生成高质量的 PBR 材质。	arXiv		质地
梦想空间	通过文本驱动的全景纹理传播来梦想您的房间空间。			质地
梦幻纹理	Blender 内置稳定扩散。使用简单的文本提示创建纹理、概念艺术、背景资源等。		混合器	质地
指导人类	使用说明编辑动画 3D 人体纹理。	arXiv		质地
英特克斯	通过统一深度感知修复进行交互式文本到纹理合成。	arXiv		质地
骆驼网格	LLaMA-Mesh：将 3D 网格生成与语言模型统一。	arXiv		网
材质Seg3D	MaterialSeg3D：从 2D 先验中分割密集材质以获得 3D 资产。	arXiv		质地
网格任何东西	MaterialSeg3D：从 2D 先验中分割密集材质以获得 3D 资产。	arXiv		网
纽拉兰杰洛	高保真神经表面重建。	arXiv		质地
涂漆	通过深度卷积纹理图优化和基于物理的渲染进行文本到纹理合成。			质地
宝丽康	只需输入即可创建您自己的 3D 纹理。			质地
纺织融合	使用文本引导图像扩散模型合成 3D 纹理。	arXiv		质地
文本到文本	通过扩散模型进行文本驱动的纹理合成。	arXiv		质地
纹理实验室	AI 生成的纹理。您可以使用文本提示生成自己的。			质地
与聚	使用多边形创建纹理。在免费的在线编辑器中使用 AI 生成 3D 材料，或搜索我们不断增长的社区库。			质地
X-网格	X-Mesh：通过动态文本指导实现快速、准确的文本驱动 3D 风格化。	arXiv		质地

^ 返回目录 ^

着色器

来源	描述	纸	游戏引擎	类型
人工智能着色器	ChatGPT 支持的 Unity 着色器生成器。		统一	着色器

^ 返回目录 ^

3D模型

来源	描述	纸	游戏引擎	类型
动画3D	Animate3D：通过多视图视频扩散对任何 3D 模型进行动画处理。	arXiv		3D
任何 3D	分段-任何内容 + 3D。让我们将任何事物提升为 3D。	arXiv		模型
任意2点	Any2Point：支持任何模态大型模型以实现高效的 3D 理解。	arXiv		3D
搅拌机GPT	使用 OpenAI 的 GPT-4 使用英文命令来控制 Blender。		混合器	模型
Blender-GPT	一款由 GPT3/4 + Whisper 集成提供支持的一体化 Blender 助手。		混合器	模型
封锁实验室	Skybox Lab 实现了真正的数字炼金术 - 终极人工智能驱动的解决方案，可根据文本提示生成令人难以置信的 360° 天空盒体验。			模型
CF-3DGS	无 COLMAP 3D 高斯泼溅。	arXiv		3D
角色生成器	CharacterGen：通过多视图姿势规范化从单张图像高效生成 3D 角色。	arXiv		3D
聊天GPT-玛雅	简单的 Maya 工具，利用开放式 AI 根据描述性指令执行基本任务。		玛雅人	模型
城市梦想家	无界 3D 城市的组合生成模型。	arXiv		3D
CSM	从图像和视频生成 3D 世界。			3D
短跑	您在虚幻引擎中构建世界的副驾驶。		虚幻引擎	3D
梦想催化剂	DreamCatalyst：通过控制可编辑性和身份保留进行快速、高质量的 3D 编辑。	arXiv		3D
梦幻高斯4D	生成 4D 高斯泼溅。	arXiv		4D
DUSt3R	几何 3D 视觉变得简单。	arXiv		3D
埃迪3D	Edify 3D：可扩展的高质量 3D 资产生成。	arXiv		3D
GALA3D	GALA3D：通过布局引导的生成高斯泼溅实现文本到 3D 复杂场景生成。	arXiv		3D
高斯控制	GaussCtrl：多视图一致文本驱动的 3D 高斯泼溅编辑。	arXiv		3D
高斯立方体	用于 3D 生成建模的结构化且显式的辐射表示。	arXiv		3D
高斯梦想家	使用点云先验快速生成从文本到 3D 高斯泼溅。	arXiv		3D
精灵实验室	通过 AI-UGC 增强您的游戏能力。			3D
HIFA	高保真文本转 3D 以及先进的扩散指导。			模型
全息梦想家	HoloDreamer：根据文本描述生成整体 3D 全景世界。	arXiv		3D
混元3D-1.0	Hunyuan3D-1.0：文本转3D和图像转3D生成的统一框架。	arXiv		3D
英菲尼根	使用程序生成的无限真实世界。	arXiv		3D
指令-NeRF2NeRF	使用说明编辑 3D 场景。	arXiv		模型
互动3D	通过交互式 3D 生成创建您想要的内容。	arXiv		3D
各向同性三维	基于单个 CLIP 嵌入的图像到 3D 生成。			3D
拿铁3D	大规模摊销文本到增强型 3D 合成。	arXiv		3D
狮子	用于生成 3D 形状的潜点扩散模型。	arXiv		模型
亮度人工智能	以逼真的 3D 方式捕捉。无与伦比的真实感、反射和细节。视觉特效的未来就在眼前，属于每个人！			模型
发光人工智能	人工智能驱动的创造力。			3D
3D制作	使用扩散先验从单个图像创建高保真 3D。	arXiv		模型
网状	使用 AI 创建令人惊叹的 3D 游戏资产。			3D
动议	神奇的 3D AI 动画制作器。			3D
MV梦想	用于 3D 生成的多视图扩散。	arXiv		3D
NVIDIA 即时 NeRF	即时神经图形基元：快如闪电的 NeRF 等。			模型
一-2-3-45	45 秒内将任何单个图像转换为 3D 网格，无需针对每个形状进行优化。	arXiv		模型
绘画3D	使用无光照纹理扩散模型绘制任何 3D 物体。	arXiv		3D
PANiC-3D	根据动漫人物肖像进行风格化单视图 3D 重建。	arXiv		模型
点·E	用于 3D 模型合成的点云扩散。			模型
多产梦想家	通过变分分数蒸馏实现高保真和多样化的文本到 3D 生成。	arXiv		模型
SF3D	SF3D：通过 UV 展开和照明解缠进行稳定快速的 3D 网格重建。	arXiv		3D
形状	生成以文本或图像为条件的 3D 对象。	arXiv		模型
斯洛伊德	3D 建模从未如此简单。			模型
样条人工智能	人工智能的力量正在进入第三维度。使用提示生成对象、动画和纹理。			模型
稳定的梦境融合	文本转 3D 模型 Dreamfusion 的 pytorch 实现，由稳定扩散文本转 2D 模型提供支持。			模型
SV3D	使用潜在视频扩散从单个图像进行新颖的多视图合成和 3D 生成。	arXiv		3D
塔菲	AI 文本转 3D 字符引擎。			模型
3D-GPT	使用大型语言模型进行程序 3D 建模。	arXiv		3D
3D法学硕士	将 3D 世界注入大型语言模型中。	arXiv		3D
3Dpresso	提取视频中捕获的对象的 3D 模型。			模型
3DTopia	5 分钟内生成文本到 3D。	arXiv		3D
3DTopia-XL	3DTopia-XL：通过原始扩散扩展高质量 3D 资产生成。	arXiv		3D
三人工作室	3D 内容生成的统一框架。			模型
特里波SR	最先进的开源模型，用于从单个图像快速前馈 3D 重建。	arXiv		模型
独特的3D	从单个图像生成高质量且高效的 3D 网格。	arXiv		3D
UnityGaussianSplatting	Unity 中的玩具高斯泼溅可视化。		统一	3D
ViVid-1-to-3	使用视频扩散模型的新颖视图合成。	arXiv		3D
沃克斯克拉夫特	利用 AI 制作即用型 3D 模型。			3D
奇迹3D	使用跨域扩散将单图像转为 3D。	arXiv		3D
零一到三	零样本一张图像到 3D 对象。	arXiv		模型

^ 返回目录 ^

阿凡达

来源	描述	纸	游戏引擎	类型
动漫肖像	真实感肖像动画的音频驱动合成。	arXiv		阿凡达
冷静的	可定向虚拟角色的条件对抗潜在模型。	arXiv		阿凡达
聊天头像	在文本引导下渐进生成可动画 3D 面孔。			阿凡达
聊天娃娃套件	ChatdollKit 使您能够将 3D 模型制作成聊天机器人。		统一	阿凡达
梦话	当富有表现力的头部说话生成遇到扩散概率模型。	arXiv		阿凡达
杜伊克斯	Duix - 基于硅的数字人类 SDK ？			阿凡达
模仿回声	EchoMimic：通过可编辑的地标条件实现逼真的音频驱动肖像动画。	arXiv		阿凡达
EMO肖像	情感增强的多模态一次性头像。			阿凡达
E3代	高效、富有表现力且可编辑的头像生成。	arXiv		阿凡达
前阿凡达	ExAvatar - 富有表现力的全身 3D 高斯头像。	arXiv		阿凡达
基因阿凡达	从单个图像进行通用表达感知体积头部头像编辑。	arXiv		阿凡达
基因脸++	通用且稳定的实时 3D 说话人脸生成。			阿凡达
你好	用于肖像图像动画的分层音频驱动视觉合成。	arXiv		阿凡达
你好2	Hallo2：长时间、高分辨率音频驱动的肖像图像动画。	arXiv		阿凡达
头雕	用文本制作 3D 头部头像。	arXiv		阿凡达
内在化身	IntrinsicAvatar：通过显式光线追踪对单眼视频中的动态人体进行基于物理的逆渲染。	arXiv		阿凡达
林利语者	数字化身对话系统。			阿凡达
现场肖像	LivePortrait：具有拼接和重定向控制的高效肖像动画。	arXiv		阿凡达
运动GPT	人类运动作为外语，使用法学硕士的统一运动语言生成模型。	arXiv		阿凡达
缪斯姿势	MusePose：用于生成虚拟人的姿势驱动的图像到视频框架。			阿凡达
缪斯谈话	实时高质量唇部同步与潜在空间修复。			阿凡达
缪斯V	具有视觉条件并行去噪的无限长度和高保真虚拟人类视频生成。			阿凡达
肖像4D	使用合成数据学习 One-Shot 4D 头部头像合成。	arXiv		阿凡达
准备好玩家我	在几天内将可定制的头像集成到您的游戏或应用程序中。			阿凡达
罗丹HD	RodinHD：具有扩散模型的高保真 3D 头像生成。	arXiv		阿凡达
风格Avatar3D	利用图像文本扩散模型生成高保真 3D 头像。	arXiv		阿凡达
文本2控制3D	使用几何引导文本到图像扩散模型在神经辐射场中生成可控 3D 头像。	arXiv		阿凡达
地形4D	用于高保真 4D 头部捕获的拓扑保持高斯泼溅。	arXiv		阿凡达
UnityAIWithChatGPT	基于Unity，实现ChatGPT+UnityChan语音交互显示。		统一	阿凡达
视频头像	通过自监督场景分解从野外视频重建 3D 头像。	arXiv		阿凡达
视频博主	用于具体化身合成的多模态扩散。			阿凡达
狂野阿凡达	渲染遮挡背后的人类。	arXiv		阿凡达

^ 返回目录 ^

动画片

来源	描述	纸	类型
为任何人制作动画	用于角色动画的一致且可控的图像到视频合成。	arXiv	动画片
动画一切	具有运动引导的细粒度开放域图像动画。	arXiv	动画片
动画差异	无需特定调整即可制作个性化文本到图像扩散模型的动画。	arXiv	动画片
动画LCM	让我们在 4 步内加速视频生成！	arXiv	动画片
动画-X	Animate-X：具有增强运动表示的通用角色图像动画。	arXiv	动画片
动画零	视频扩散模型是零镜头图像动画师。	arXiv	动画片
动画GPT	用于生成游戏战斗动作资产的 AIGC 工具。		动画片
德福鲁姆	Deforum 利用稳定扩散来生成不断发展的 AI 视觉效果。		动画片
绘图旋转	DrawingSpinUp：单个角色绘图的 3D 动画。	arXiv	动画片
梦想搬家	基于扩散模型的人类视频生成框架。	arXiv	动画片
人脸融合	下一代换脸器和增强器。		动画片
自由初始化	弥合视频扩散模型中的初始化差距。	arXiv	动画片
基因脸	通用和高保真音频驱动的 3D 说话脸部合成。	arXiv	动画片
ID动画师	零镜头身份保护人类视频生成。	arXiv	动画片
魔法动画	使用扩散模型在时间上一致的人类图像动画。	arxiv	动画片
女娲	DragNUWA是一种基于扩散的开放域视频生成模型，以文本、图像和轨迹控制作为输入，实现可控视频生成。	arxiv	动画片
Nuwa-Infinity	NUWA-Infinity 是一种多模态生成模型，旨在根据给定的文本、图像或视频输入生成高质量的图像和视频。		动画片
女娲-XL	对于非常长的视频生成的扩散体系结构的一种新颖的扩散。		动画片
全向动画	AI产生了高保真动画。		动画片
PIA	您的个性化图像动画师通过文本到图像模型中的插件模块。	arXiv	动画片
悲伤语者	学习现实的3D运动系数，以进行程式化音频驱动的单图像面部动画。	arxiv	动画片
sadtalker-video-lip-sync	该项目基于sadtalkers wav2lip用于视频唇综合。		动画片
稳定的动画	开发人员的强大文本对动画工具。		动画片
Talecrafter	一个支持多个字符的交互式故事可视化工具。	arxiv	动画片
卡通工匠	Tooncrafter：生成卡通插值。	arxiv	动画片
声音2唇	在野外准确地唇部同步视频。	arxiv	动画片
奇迹工作室	一款 AI 工具，可自动将 CG 角色制作成动画、灯光并将其合成为真人场景。		动画片

^ 返回目录 ^

视觉的

来源	描述	纸	类型
Cambrian-1	Cambrian-1：对多模式LLM的完全开放，以视觉为中心的探索。	arxiv	多模式LLM
COGVLM2	基于Llama3-8B的GPT4V级开源多模式模型。		视觉的
Cotracker	最好一起跟踪。	arxiv	视觉的
电子取景器SAM	EVF-SAM：文本启动段的任何模型的早期视觉融合。	arxiv	视觉的
facehi	最好一起跟踪。		视觉的
internlm-xcomposer2	InternLM-Xcomposer2是一种开创性的视觉语言大型模型（VLLM），在自由形式的文本图像组成和理解中都出色。	arxiv	视觉的
袋鼠	Kangaroo：一个强大的视频模型，支持长篇小说视频输入。		视觉的
LGVI	通过多模式大语言模型实现语言驱动的视频修复。		视觉的
llava ++	通过Llama-3和Phi-3扩展视觉功能。		视觉的
LLaVA-OneVision	llava-onevision：简单的视觉任务传输。	arxiv	视觉的
长VA	长篇小说从语言转移到视觉。	arXiv	视觉的
面具	视频预测的掩盖视觉预训练。	arxiv	视觉的
迷你CPM-Llama3-V 2.5	手机上的GPT-4V级别MLLM。		视觉的
Moe-llava	大型视觉模型的专家的混合物。	arxiv	视觉的
运动法学硕士	了解人类动议和视频的人类行为。	arxiv	视觉的
PLLAVA	从图像到视频的无参数Llava扩展，以进行视频密集字幕。	arxiv	视觉的
Qwen-VL	一种多功能的视觉语言模型，用于理解，本地化，文本阅读以及其他方式。	arxiv	视觉的
智人	Sapiens：人类视觉模型基金会。	arxiv	视觉的
分享GPT4V	改善带有更好标题的大型多模式模型。	arxiv	视觉的
独奏	独奏：用于可扩展视觉模型的单个变压器。	arXiv	视觉的
视频卡姆	视频CCAM：通过因果交叉注意力面具推进视频语言理解。		视觉的
视频式	在投影前通过对齐来学习联合的视觉表示。	arxiv	视觉的
视频2	在视频插件中推进时空建模和音频理解。	arxiv	视觉的
视频MME	视频分析中多模式LLMS的首个全面评估基准。	arxiv	视觉的
威创	统一的像素级视觉LLM用于理解，生成，分割，编辑。		视觉的
维拉	Vila：关于视觉语言模型的预培训。	arxiv	视觉的

^ 返回目录 ^

视频

来源	描述	纸	类型
360DVD	具有360度视频扩散模型的可控全景视频生成。	arxiv	视频
Animate-A Store	检索录像的视频生成，用于讲述一个故事。	arxiv	视频
任何场景中的任何事物	逼真的视频对象插入。		视频
艺术•v	具有扩散模型的自动回归文本对视频生成。	arxiv	视频
辅助工具	满足使您的想法栩栩如生的生成视频平台。		视频
Atomovideo	高保真图像与视频生成。	arxiv	视频
背景去除剂	背景洗涤剂可让您使用AI从图像和视频中删除背景，并具有简单的命令行接口，该接口是免费和开源的。		视频
盒子模拟器	为视频综合生成丰富而可控的动作。	arxiv	视频
Codef	内容变形字段用于时间一致的视频处理。	arxiv	视频
齿轮视频	从文本说明中生成视频。		视频
科格视频X	Cogvideox是视频生成模型的开源版本，该版本与清影同源。		视频
COGVLM	COGVLM是一种强大的开源视觉语言模型（VLM）。		视觉的
conr	来自手绘动漫角色表（ACS）中的生动舞蹈视频。	arxiv	视频
装饰	创建无法拍摄的内容。		视频
描述	描述是一种简单，有力且有趣的编辑方式。		视频
差异	通过扩散模型的高分辨率编辑阴影。	arxiv	视频
海豚	一般视频互动平台基于LLM。		视频
多摩人工智能	通过Domoai扩大您的创造力。		视频
Dreamcinema	Dreamcinema：免费相机和3D字符的电影转移。	arxiv	视频
动态工匠	使用视频扩散先验来动画开放域图像。	arxiv	视频
边缘	我们引入了Edge，这是一种可编辑的舞蹈生成的强大方法，能够创造出逼真的，身体上的舞蹈，同时仍然忠于任意输入音乐。	arxiv	视频
欧洲经济组织	活着的表情肖像 - 在弱条件下使用Audio2Video扩散模型生成表现力的肖像视频。	arxiv	视频
EMU视频	通过明确的图像调节来分解文本对视频的生成。		视频
埃特纳火山	ETNA可以根据简短的文本描述生成相应的视频内容。		视频
仙女	快速并行指导引导的视频与视频合成。		视频
跟随您的谷歌	跟随您的谷歌：高分辨率的视频覆盖，并产生广泛的内容。	arxiv	视频
跟随你的姿势	使用无姿势的视频引导的姿势引导的文本对视频生成。	arXiv	视频
Fulljourney	您完整的AI创建工具的完整套件。		视频
第二代	一个多模式的AI系统，可以通过文本，图像或视频剪辑生成新颖的视频。		视频
生成动力学	生成图像动力学。		视频
精灵	生成互动环境。	arxiv	视频
玄武	神奇地用AI制作视频。		视频
绅士	图像和视频生成的扩散变压器。		视频
希根	用于文本到视频生成的层次时空分离。		视频
Hotshot-XL	Hotshot-XL是一种AI文本到GIF模型，该模型与稳定的扩散XL一起工作。		视频
Hunyuanvideo	Hunyuanvideo：大型视频生成模型的系统框架。	arxiv	视频
成像视频	给定文本提示，Imagen视频使用基本视频生成模型以及一系列交织的空间和时间视频超分辨率模型生成了高清视频。		视频
指令	用人类反馈指导视频扩散模型。	arxiv	视频
I2VGen-XL	通过级联扩散模型的高质量图像与视频合成。	arxiv	视频
拉维	具有级联潜扩散模型的高质量视频生成。	arxiv	视频
LTX工作室	LTX Studio 是一个面向创作者、营销人员、电影制作人和工作室的整体、人工智能驱动的电影制作平台。		视频
LTX-视频	LTX-VIDEO是第一个基于DIT的视频生成模型，可以实时生成高质量的视频。它可以生成分辨率为 768x512 的 24 FPS 视频，速度比观看视频的速度还要快。		视频
卢米埃尔	视频生成的时空扩散模型。	arxiv	视频
LVDM	高保真长期视频生成的潜在视频扩散模型。	arxiv	视频
MagicVideo	具有潜在扩散模型的有效视频生成。	arxiv	视频
MagicVideo-V2	多阶段高审美视频生成。	arxiv	视频
魔法时刻	创作者的AI视频变得简单。		视频
magvit-v2	令牌器是视觉生成的关键。		视频
马格维特	蒙版的生成视频变压器。		视频
制作video	Make-A-Video是一种最先进的AI系统，可以从文本中生成视频。	arXiv	视频
使像素跳舞	高动态视频生成。	arxiv	视频
制作您的视频	使用文本和结构指导定制的视频生成。	arxiv	视频
微氧化肿	文本到视频生成的分裂和争议方法。	arxiv	视频
多输入多输出	MIMO：可控制的角色视频综合，具有空间分解的建模。	arxiv	视频
迷你gemini	挖掘多模式视觉语言模型的潜力。		想象
MobileVidFactory	基于文本的移动设备的基于自动扩散的社交媒体视频生成。		视频
麻糬 1	Mochi 1是一种开放的最先进的视频生成模型，具有高保真运动，并且在初步评估中迅速遵守。		视频
MOFA-VIDEO	通过生成运动场适应在冷冻图像到视频扩散模型中的可控图像动画。	arxiv	视频
印钞机涡轮增压	使用大型模型单击一键生成简短的视频。		视频
月谷	Moonvalley是一种开创性的新文本与视频生成的AI模型。		视频
猜拳	更像是通才视频的Sora。	arxiv	视频
变形工作室	凭借我们的文本到视频AI魔术，通过提示来表现您的创造力。		视频
动态克隆	运动克隆：无训练运动克隆，可控制视频生成。	arxiv	视频
运动控制	视频生成的统一运动控制器。	arxiv	视频
运动导演	文本到视频扩散模型的运动定制。	arxiv	视频
动感工作室	用3D头像在视频中替换角色的应用。		视频
mov2mov	自动1111/稳定 - 扩散 - webui的MOV2MOV插件。		视频
moviefactory	使用大型生成模型从文本中创建自动电影，用于语言和图像。	arXiv	视频
神经框架	发现视觉世界的合成器。		视频
永无止境	创造你的世界。		视频
开放索拉	将所有人的有效视频制作民主化。		视频
开放索拉	开放式计划。		视频
费纳基	一个模型，用于从文本中生成视频，并带有可以随着时间的时间变化的提示，并且可以长达多分钟的视频。	arxiv	视频
皮卡实验室	皮卡实验室（Pika Labs）正在彻底改变AI的视频制作体验。		视频
像素	像素化合物使我们的客户能够创建高度精确，超现实和极为控制的视觉内容，包括图像，视频和3D模型。		视频
像素宇宙	使用AI创建令人叹为观止的视频。		视频
授粉	创造变得容易，快速和有趣。		视频
再利用和弥漫	迭代授予文本到视频生成。	arxiv	视频
如意	Ruyi是一种图像与视频模型，能够以768分辨率生成电影质量视频，每秒24帧的帧速率，总计5秒和120帧。		视频
短GPT	自动短/视频内容创建的实验AI框架。		视频
显示-1	将像素和潜在扩散模型嫁给文本到视频生成。	arxiv	视频
快照视频	用于文本对视频合成的时空变压器的缩放时空变压器。	arxiv	视频
索拉	从文本中创建视频。		视频
Sorawebui	Sorawebui是一个开源的Sora Web客户端，使用户可以轻松地使用OpenAI的Sora模型从文本中创建视频。		视频
StableVideo	文本驱动的一致性扩散视频编辑。		视频
稳定的视频扩散	稳定的视频扩散（SVD）图像到视频。		视频
故事扩散	长期图像和视频生成的一致自我注意力。	arxiv	视频
流媒体T2V	一致，动态和可扩展的长期视频生成。	arxiv	视频
Stylecrafter	使用样式适配器进行风格化的文本对视频生成。	arxiv	视频
TATS	长时间的视频生成，具有时间不足的VQGAN和时间敏感的变压器。		视频
text2Video-Zero	文本到图像扩散模型是零拍的视频生成器。	arXiv	视频
TF-T2V	通过无文本视频来扩展文本到视频的食谱。	arxiv	视频
虎	Tora：视频生成的面向轨迹的扩散变压器。	arxiv	视频
田径	Track-thing是基于段和XMEM的视频对象跟踪和分割的灵活而交互式工具。	arxiv	视频
Tune-a-video	对文本到视频生成的图像扩散模型的一声调整。	arxiv	视频
十二个	多模式的AI了解像人类这样的视频。		视频
Univg	迈向统一模式的视频生成。		视频
Vchitect-2.0	VCHITECT-2.0：用于扩展视频扩散模型的并行变压器。		视频
VGen	在扩散模型上建立视频生成的整体视频生成生态系统。	arxiv	视频
ViewCrafter	ViewCrafter：高保真新视图合成的驯服视频扩散模型。	arXiv	视频
视频聊天GPT	Video-Chatgpt是一个视频对话模型，能够生成有关视频的有意义的对话。	arxiv	视频
视频作曲家	组成视频综合具有运动可控性。	arxiv	视频
视频工匠1	开放扩散模型，用于高质量的视频生成。	arxiv	视频
视频工匠2	克服高质量视频扩散模型的数据限制。	arxiv	视频
Videodrafter	llm的内容一致的多场景视频生成。	arxiv	视频
视频宣传员	通过多功能文本到图像扩散模型提升视频生成质量。	arxiv	视频
视频效果	在时空扩散中将注意力转移到文本到视频生成中。		视频
视频生成器	高清文本到视频生成的参考引导的潜在扩散方法。	arxiv	视频
视频	视频潜在一致性模型。	arxiv	视频
视频LDMS	将您的潜伏期与潜在扩散模型相结合：高分辨率视频综合。	arxiv	视频
视频式	在投影前通过对齐来学习联合的视觉表示。	arxiv	视频
VideoMamba	有效的视频理解的状态空间模型。	arxiv	视频
思想视频	思想视频：从感知到认知的分步视频推理。		视频
Videopoet	零拍摄视频生成的大型语言模型。	arxiv	视频
Vispunk运动	仅使用文本创建现实的视频。		视频
VisualRWKV	VisualRWKV是RWKV语言模型的视觉增强版本，使RWKV能够处理各种视觉任务。		视觉的
V-JEPA	视频联合嵌入预测架构。	arXiv	视频
沃尔特	具有扩散模型的影片生成。	arXiv	视频
零镜	零镜文本到视频。		视频

^ 返回目录 ^

声音的

来源	描述	纸	类型
Accorementodec	用于学术研究的开源音频编解码器模型。		声音的
安菲翁	开源音频，音乐和语音生成工具包。	arxiv	声音的
档案馆	使用扩散模型的音频生成，在Pytorch中。		声音的
音频盒	自然语言提示的统一音频产生。		声音的
音频编辑	使用DDPM倒置，零射击无监督和基于文本的音频编辑。	arxiv	声音的
Audiogen编解码器	低压48KHz立体神经音频编解码器用于一般音频，优化了音频保真度？		声音的
audiogpt	理解和产生言语，音乐，声音和说话的头。	arxiv	声音的
audiolcm	具有潜在一致性模型的文本对审计生成。	arxiv	声音的
有声	具有潜在扩散模型的文本对审计生成。	arxiv	声音的
AudiOldm 2	通过自我监督的预处理学习整体音频产生。	arxiv	声音的
带走	利用扩散的力量和大型语言模型来生成文本。	arXiv	声音的
CTAG	通过合成器编程创造的文本对审计生成。		声音的
弗利·克拉夫特	Foleycrafter：将无声的视频带入栩栩如生和同步的声音。	arxiv	声音的
磁铁	使用单个非自动回应变压器掩盖了音频生成。		声音的
make-an-audio	具有及时增强扩散模型的文本对审计生成。	arxiv	声音的
Make-An-Audio 3	通过基于流量的大扩散变压器将文本转换为音频。	arxiv	声音的
神经肌	基于学习的模态声音合成，并具有声传递。	arxiv	声音的
优化器AI	创作者，游戏制作者，艺术家，视频制作者的声音。		声音的
Qwen2-音频	QWEN2-AUDIO聊天和Alibaba Cloud提出的大型音频语言模型。	arxiv	声音的
见2	零射击空间环境之间的空间声音。	arxiv	声音的
声音风暴	有效的平行音频产生。	arxiv	声音的
稳定的音频	快速计时条件的潜在音频扩散。		声音的
稳定的音频打开	稳定的音频打开1.0从文本提示下以44.1kHz生成可变长度（最高47s）的立体声音频。		声音的
融合	同步：多模式发作同步视频与原告Foley合成。	arxiv	声音的
探戈	使用指令调整的LLM和潜在扩散模型的文本对审计生成。		声音的
VTA-LDM	视频对审计产生，并带有隐藏的对齐。	arXiv	声音的
Wavjourney	具有大语言模型的组成音频创建。	arxiv	声音的

^ 返回目录 ^

音乐

来源	描述	纸	类型
艾瓦	人工智能构成情感配乐音乐。		音乐
安培音乐	自定义音乐发电技术由Amper提供支持。		音乐
布米	创建生成音乐。与世界分享。		音乐
Chatmusician	将内在的音乐能力促进LLM。		音乐
Chord2melody	自动音乐一代AI。		音乐
diff-bgm	视频背景音乐生成的扩散模型。	arxiv	音乐
Fluxmusic	Fluxmusic：带有整流流变压器的文本到音乐生成。	arXiv	音乐
gptableton	用于处理GPT响应并将MIDI注释发送到Ableton剪辑的脚本草案草案，并使用Abletonosc和Python-OSC发送。		音乐
Heymusic.ai	人工智能音乐生成器		音乐
图像到音乐	AI图像到音乐生成器是一种使用人工智能将图像转换为音乐的工具。		音乐
Jen-1	带有全向扩散模型的文本指导的通用音乐生成。		音乐
点唱机	音乐的生成模型。	arxiv	音乐
品红	Magenta是一个研究项目，探讨了机器学习在创作艺术和音乐过程中的作用。		音乐
旋律	高效的神经音乐发电		音乐
穆伯特	AI生成音乐。		音乐
musenet	一个深层的神经网络，可以通过10种不同的乐器产生4分钟的音乐作品，并且可以将各国到莫扎特与甲壳虫乐队的样式结合在一起。		音乐
音乐生成器	简单可控的音乐发电。	arxiv	音乐
Musicldm	使用节拍同步混合策略来增强文本到音乐生成的新颖性。	arxiv	音乐
音乐LM	从文本中产生音乐。	arxiv	音乐
即兴应用	Riffusion是一个具有稳定扩散的实时音乐发电的应用程序。		音乐
索纳托	Sonauto是一位AI音乐编辑器，以任何风格都将提示，歌词或旋律变成完整的歌曲。		音乐
Soundraw	AI音乐生成器的创造者。		音乐
敏感AI	生成的AI工具，包括文本对和无限的样品包。		音乐

^ 返回目录 ^

唱歌的声音

来源	描述	纸	类型
差异歌手	通过浅扩散机制唱歌声音合成。	arxiv	唱歌的声音
基于检索的语音转换WebUI	基于VIT的易于使用的SVC框架。		唱歌的声音
索维茨-SVC	SoftVC VITS 歌声转换。		唱歌的声音
VI-SVS	使用vits和opencpop来开发唱歌的语音综合；与Visinger不同。		唱歌的声音

^ 返回目录 ^

演讲

来源	描述	纸	游戏引擎	类型
应用程序	最终的语音克隆工具，可用于无与伦比的功率，模块化和用户友好的体验。			演讲
原枪	发短信。			演讲
吠	文本促进的生成音频模型。			演讲
伯特-VITS2	vits2骨干带有多语言伯特。			演讲
聊天TTS	Chattts是日常对话的生成语音模型。			演讲
拍手	从文本上下文中学习韵律，并具有对比性语言训练。	arxiv		演讲
舒适之声	多语言大语音生成模型，提供推理、训练和部署全栈能力。			演讲
dex-tts	基于扩散的表达文本到语音，并在时间变化上进行样式建模。	arxiv		演讲
表情语音	多语音和提示控制的 TTS 引擎。			演讲
弗利基	用AI声音将文本变成视频。			演讲
GLM-4-VOICE	GLM-4-VOICE是由Zhipu AI启动的端到端语音模型。 GLM-4-VOICE可以直接理解和生成中文和英语的演讲，进行实时的语音对话，并根据用户说明改变情感，语调，语音率和方言等属性。			演讲
发光TTS	通过单调对齐搜索搜索文本到语音的生成流。	arxiv		演讲
GPT-苏联	强大的少量语音转换和文本到语音 WebUI。			演讲
洛夫	LOVO 是成千上万创作者的首选人工智能语音生成器和文本转语音平台。			演讲
马哈特	开源大型语音生成模型。			演讲
Matcha-TTS	具有条件流量匹配的快速TTS架构。	arxiv		演讲
甜瓜语音合成	MyShell.ai 提供的高质量多语言文本转语音库。支持英语、西班牙语、法语、中文、日语和韩语。			演讲
元语音-1B	AI用于人类言语智能。			演讲
纳拉基特	使用逼真的文本来轻松创建配音。			演讲
迷你全向型	Mini-Omni：语言模型可以在流媒体中思考时听到，说话。 Mini-Omni是一种开源多模型大型语言模型，可以在思考时听到，谈论。具有实时端到端语音输入和流音频输出对话功能。	arxiv		演讲
一声音	一个射击的语音克隆基础在unet-tts上。			演讲
开放语音	Myshell即时的语音克隆。			演讲
溢出	将流量放在神经传感器的顶部，以获得更好的TT。			演讲
房地产	Realtimetts是为实时应用程序设计的最先进的文本到语音库（TTS）库。			演讲
SenseVoice	SenseVoice是一种语音基础模型，具有多种语音理解能力，包括自动语音识别（ASR），口语识别（LID），语音情感识别（SER）和音频事件检测（AED）。			演讲
语音GPT	赋予具有固有的跨模式对话能力的大型语言模型。	arxiv		演讲
语音到文本 - gpt3-统一	这是我使用Unity的Openai的Whisper和Chatgpt API的回购。		统一	演讲
稳定的演讲	稳定性AI的文本对语音模型。			演讲
Stabletts	下一代TTS模型使用流量匹配和DIT，灵感来自稳定扩散3。			演讲
风格TTS 2	通过大型语音语言模型，通过样式扩散和对抗性培训来实现人级文本到语音。	arxiv		演讲
乌龟	龟。			演讲
乌龟	多功能TTS系统接受质量的重点。			演讲
TTS生成WebUI	TTS Generation Webui（树皮，音乐Gen，Tortoise，RVC，Vocos，Demucs）。			演讲
瓦莱-E	神经编解码器的语言模型是语音合成器的零声文本。	arxiv		演讲
vall-e x	用自己的声音说外语：跨语性的神经编解码器语言建模	arxiv		演讲
声码	Vocode是用于构建基于语音的LLM应用程序的开源库。			演讲
语音盒	文本指导的多语言通用语音生成。	arXiv		演讲
声艺	零拍的语音编辑和野外文本语音。			演讲
耳语	Whisper 是一种通用语音识别模型。			演讲
窃窃私语	通过反转耳语构建的开源文本到语音系统。			演讲
XE语音	非自动回归跨语性情感文字到语音和语音转换的联合培训框架。			演讲
XTTS	XTTS是用于高级文本到语音生成的库。			演讲
Yourtts	朝着每个人的零声音多扬声器TT和零击语音转换。	arxiv		演讲
zmm-tts	零击的多语言和多语言语音综合以自我监督的离散语音表示为条件。	arxiv		演讲