ai game devtools
1.0.0
在这里我们将跟踪最新的AI游戏开发工具,包括LLM、Agent、Code、Writer、Image、Texture、Shader、3D Model、Animation、Video、Audio、Music、Singing Voice和Analytics。
来源 | 描述 | 纸 | 游戏引擎 | 类型 |
---|---|---|---|---|
代理GPT | ?在浏览器中组装、配置和部署自主 AI 代理。 | 工具 | ||
人工智能指挥 | ChatGPT 与 Unity 编辑器集成。 | 统一 | 工具 | |
智能操作系统 | LLM代理操作系统。 | 工具 | ||
人工智能科学家 | 人工智能科学家:迈向全自动开放式科学发现。 | arXiv | 工具 | |
助理 CLI | 使用 ChatGPT 服务的舒适 CLI 工具 | 工具 | ||
自动GPT | 一项让 GPT-4 完全自治的实验性开源尝试。 | 工具 | ||
宝贝AGI | 此 Python 脚本是人工智能驱动的任务管理系统的示例。 | 工具 | ||
??宝贝AGI用户界面 | BabyAGI UI 旨在让 Babyagi 在 Web 应用程序(例如 ChatGPT)中更轻松地运行和开发。 | 工具 | ||
百川7B | 百川开发的大规模7B预训练语言模型。 | 工具 | ||
百川13B | 百川智能科技开发的13B大语言模型。 | 工具 | ||
百川2号 | 百川智能科技开发的一系列大型语言模型。 | 工具 | ||
毕升 | Bisheng是一个面向下一代人工智能应用的开放式LLM DevOps平台。 | 工具 | ||
性格-法学硕士 | 可训练的角色扮演代理。 | arXiv | 工具 | |
聊天开发 | 软件开发的通信代理。 | arXiv | 工具 | |
ChatGPT-API-unity | 将 ChatGPT 聊天完成 API 绑定到 Unity 上的纯 C#。 | 统一 | 工具 | |
聊天GPTForUnity | ChatGPT 的统一。 | 统一 | 工具 | |
聊天RWKV | ChatRWKV 类似于 ChatGPT,但由 RWKV(100% RNN)语言模型提供支持,并且是开源的。 | 工具 | ||
聊天园 | 中英文对话大语言模型。 | 工具 | ||
Chinese-LLaMA-Alpaca-3 | (中国 Llama-3 法学硕士)从 Meta Llama 3 发展而来。 | 工具 | ||
Chrome-GPT | 控制桌面上 Chrome 的 AutoGPT 代理。 | 工具 | ||
CogVLM | CogVLM,一个强大的开源视觉语言基础模型。 | arXiv | 工具 | |
核心网 | 用于训练深度神经网络的库。 | 工具 | ||
宇宙 | Cosmos 是一个世界模型开发平台,由世界基础模型、分词器和视频处理管道组成,可加速机器人和 AV 实验室物理 AI 的开发。 | 法学硕士 | ||
数据库接收 | DBRX 是由 Databricks 训练的大型语言模型。 | 工具 | ||
直流LM | 语言模型的 DataComp。 | arXiv | 工具 | |
DeepSeek-V3 | DeepSeek-V3 是一个强大的专家混合 (MoE) 语言模型,总参数为 671B,每个令牌激活 37B。 | arXiv | 法学硕士 | |
演示GPT | Auto Gen-AI 应用程序生成器,具有 Llama 2 的强大功能 | 工具 | ||
设计到代码 | 自动化前端工程 | 工具 | ||
德维卡 | Devika 是一名 Agentic AI 软件工程师。 | 工具 | ||
德文郡 | 开源结对程序员。 | 工具 | ||
朵拉 | 生成强大的网站,一次一个提示。 | 工具 | ||
流水 | 拖放 UI 以使用 LangchainJS 构建您的定制 LLM 流程。 | 工具 | ||
双子座 | Gemini 是从头开始构建的多模态——跨文本、图像、视频、音频和代码无缝推理。 | 工具 | ||
芽 | Gemma 是一系列轻量级、最先进的开放模型,基于用于创建 Google Gemini 模型的研究和技术而构建。 | 工具 | ||
宝石.cpp | 适用于 Google Gemma 模型的轻量级独立 C++ 推理引擎。 | 工具 | ||
GLM-4 | GLM-4-9B是智普AI推出的GLM-4系列最新一代预训练模型的开源版本。 | 工具 | ||
GPT4All | 一个聊天机器人,接受了大量干净的助理数据的训练,包括代码、故事和对话。 | 工具 | ||
GPT-4o | GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合输出。 | 工具 | ||
GPT脚本 | 用自然语言开发法学硕士应用程序。 | 工具 | ||
格罗克-1 | 我们的 3140 亿参数混合专家模型 Grok-1 的权重和架构。 | 工具 | ||
拥抱聊天 | 让社区最好的人工智能聊天模型可供所有人使用。 | 工具 | ||
拥抱脸部 API Unity 集成 | 此 Unity 包为 Hugging Face Inference API 提供了易于使用的集成,允许开发人员在其 Unity 项目中访问和使用 Hugging Face AI 模型。 | 统一 | 工具 | |
图像绑定 | ImageBind 一个嵌入空间将它们全部绑定。 | arXiv | 工具 | |
索引-1.9B | SOTA 轻量级多语言法学硕士。 | 工具 | ||
InteractML-Unity | InteractML,Unity3D 的交互式机器学习可视化脚本框架。 | 统一 | 工具 | |
InteractML-虚幻引擎 | 将机器学习引入虚幻引擎。 | 虚幻引擎 | 工具 | |
实习生LM | InternLM开源了70亿参数的基础模型、针对实际场景量身定制的聊天模型和训练系统。 | arXiv | 工具 | |
实习生LM-X作曲家 | InternLM-XComposer2 是一种突破性的视觉语言大型模型 (VLLM),在自由格式文本图像合成和理解方面表现出色。 | arXiv | 工具 | |
扬 | 将人工智能带入您的桌面。 | 工具 | ||
拉米尼 | Lamini 允许任何工程团队通过 RLHF 和对自己的数据进行微调,从而超越通用的 LLM。 | 工具 | ||
LaMini-LM | LaMini-LM 是从 ChatGPT 中提炼出来的小型高效语言模型的集合,并在包含 258 万条指令的大规模数据集上进行训练。 | 工具 | ||
浪链 | LangChain 是一个用于开发由语言模型支持的应用程序的框架。 | 工具 | ||
语言流 | ⛓️ LangFlow 是 LangChain 的 UI,采用 React-Flow 设计,提供一种轻松的方法来实验和原型流程。 | 工具 | ||
拉瓦格 | 使用大型动作模型框架实现自动化。 | 工具 | ||
狐猴 | 语言代理的开放基础模型。 | 工具 | ||
轻子人工智能 | 一个用于简化 AI 服务构建的 Pythonic 框架。 | 工具 | ||
利特-美洲驼 | 基于nanoGPT的LLaMA语言模型的实现。支持 Flash Attention、Int8 和 GPTQ 4bit 量化、LoRA 和 LLaMA-Adapter 微调、预训练。 | 工具 | ||
llama2-webui | 从任何地方 (Linux/Windows/Mac) 在 GPU 或 CPU 上使用 gradio UI 本地运行 Llama 2。 | 工具 | ||
骆驼3 | Meta Llama 3 官方 GitHub 网站。 | 工具 | ||
骆驼3.1 | Llama 是一种易于访问、开放的大型语言模型 (LLM),专为开发人员、研究人员和企业构建、实验和负责任地扩展其生成式 AI 想法而设计。 | 工具 | ||
LLaSM | 大型语言和语音模型。 | 工具 | ||
LLM 答案引擎 | 使用 Next.js、Groq、Mixtral、Langchain、OpenAI、Brave 和 Serper 构建受困惑启发的答案引擎。 | 工具 | ||
LLM.c | 使用简单、原始的 C/CUDA 进行法学硕士培训。 | 工具 | ||
法学硕士Unity | 与法学硕士一起在 Unity 中创建角色! | 统一 | 工具 | |
本地搜索 | LLocalSearch 是一个使用 LLM 代理的完全本地运行的搜索引擎。 | 工具 | ||
逻辑游戏解算器 | 一款利用人工智能、深度学习和计算机视觉解决逻辑游戏的 Python 工具。 | 工具 | ||
长作家 | LongWriter:从长上下文法学硕士中释放 10,000 多个单词。 | arXiv | 工具 | |
大世界模型 (LWM) | 大世界模型 (LWM) 是一种通用的大上下文多模态自回归模型。 | arXiv | 工具 | |
Lumina-T2X | Lumina-T2X 是文本到任何模态生成的统一框架。 | arXiv | 工具 | |
元GPT | 多代理框架 | 工具 | ||
迷你CPM-2B | 端侧 LLM 的表现优于 Llama2-13B。 | 工具 | ||
迷你GPT-4 | 通过先进的大语言模型增强视觉语言理解。 | arXiv | 工具 | |
迷你GPT-5 | 通过生成 Vokens 交错视觉和语言生成。 | arXiv | 工具 | |
混合 8x7B | 高质量的稀疏专家组合。 | arXiv | 工具 | |
米斯特拉尔7B | 迄今为止最好的 7B 模型,Apache 2.0。 | 工具 | ||
米斯特拉尔大号 | Mistral Large 是一种新的尖端文本生成模型。它达到了顶级的推理能力。 | 工具 | ||
法学硕士 | 让每个人都能在每个人的设备上本地开发、优化和部署人工智能模型。 | 工具 | ||
移动骆驼 | 迈向准确、轻量、完全透明的 GPT。 | arXiv | 工具 | |
教育部拉瓦 | 大型视觉语言模型的专家组合。 | arXiv | 工具 | |
莫希 | Moshi 是一个实验性对话式人工智能。 | 工具 | ||
莫希 | Moshi:实时对话的语音文本基础模型。 | 工具 | ||
苔藓 | 复旦大学开源工具增强会话语言模型。 | 工具 | ||
mPLUG-Owl? | 模块化使大型语言模型具有多模态性。 | arXiv | 工具 | |
Nemotron-4 | 在 8 万亿个文本标记上训练的 150 亿参数大型多语言语言模型。 | arXiv | 工具 | |
下一个GPT | 任意对任意多模态大语言模型。 | 工具 | ||
OLMo | 开放语言模型 | arXiv | 工具 | |
全方位LMM | 大型多模式模型可实现强大的性能和高效的部署。 | 工具 | ||
法学硕士 | 一种使所有形式与语言保持一致的框架。 | arXiv | 工具 | |
打开助手 | OpenAssistant 是一个基于聊天的助手,它可以理解任务,可以与第三方系统交互,并动态检索信息来执行此操作。 | 工具 | ||
开放德文 | 自主人工智能软件工程师。 | 工具 | ||
猎户座14B | Orion-14B 是一个模型家族,包括 14B 基础 LLM 和一系列模型。 | arXiv | 工具 | |
熊猫 | 海外中文开源大语言模型,基于Llama-7B、-13B、-33B、-65B进行中文领域的持续预训练。 | 工具 | ||
佩普莱西卡 | 人工智能驱动的搜索引擎。 | 工具 | ||
圆周率 | 人工智能聊天机器人专为个人帮助和情感支持而设计。 | 工具 | ||
Qwen1.5 | Qwen1.5是Qwen的改进版本。 | 工具 | ||
Qwen2 | Qwen2是阿里云Qwen团队开发的大型语言模型系列。 | 工具 | ||
Qwen-7B | 阿里云提出的Qwen-7B(通义千问-7B)聊天和预训练大语言模型的官方仓库。 | 工具 | ||
回购代理 | RepoAgent 是一个由大型语言模型 (LLM) 驱动的开源项目,旨在提供一种智能方式来记录项目。 | arXiv | 工具 | |
理智人工智能引擎 | 用于 Unity 游戏开发工具的 Sanity AI 引擎。 | 统一 | 工具 | |
搜索GPT | ?将 ChatGPT 连接到互联网 | 工具 | ||
分享GPT4V | 通过更好的标题改进大型多模态模型。 | 工具 | ||
思凯沃 | Skywork系列模型在3.2TB的高质量多语言(主要是中文和英文)和代码数据上进行预训练。 | 工具 | ||
稳定LM | 稳定性人工智能语言模型。 | arXiv | 工具 | |
斯坦福羊驼毛 | 遵循指令的 LLaMA 模型。 | 工具 | ||
文本生成 Web UI | 用于运行 LLaMA、llama.cpp、GPT-J、OPT 和 GALACTICA 等大型语言模型的 gradio Web UI。 | 工具 | ||
小聊天引擎 | 设备上的 LLM 推理库。 | 工具 | ||
工具台 | 一个用于训练、服务和评估用于工具学习的大型语言模型的开放平台。 | 工具 | ||
Unity 聊天GPT | Unity ChatGPT 实验。 | 统一 | 工具 | |
Unity OpenAI-API 集成 | 将openai GPT-3语言模型和ChatGPT API集成到Unity项目中。 | 统一 | 工具 | |
虚幻引擎 5 骆驼 LoRA | 一个概念验证项目,展示了使用小型、本地可培训的法学硕士创建下一代文档工具的潜力。 | 虚幻引擎 | 工具 | |
虚幻GPT | 由 GPT3/4 提供支持的虚幻引擎 5 编辑器实用程序小部件的集合。 | 虚幻引擎 | 工具 | |
视频-LLaVA | 通过投影前对齐学习联合视觉表示。 | arXiv | 工具 | |
网络GPT | 使用 WebGPU 在浏览器上运行 GPT 模型。 | 工具 | ||
Web3-GPT | 使用 AI 部署智能合约 | 工具 | ||
字GPT | ?将 ChatGPT 的强大功能引入 Microsoft Word | 工具 | ||
X代理 | 用于解决复杂任务的自主 LLM 代理。 | 工具 | ||
彝族 | 由开发人员从头开始训练的一系列大型语言模型。 | 工具 | ||
01 项目 | 开源语言模型计算机。 | 工具 |
^ 返回目录 ^
来源 | 描述 | 纸 | 游戏引擎 | 类型 |
---|---|---|---|---|
代理工作台 | 评估法学硕士作为代理人的综合基准。 | arXiv | 代理人 | |
代理群聊 | 交互式群聊拟像,可以更好地引发集体紧急行为。 | arXiv | 代理人 | |
特工K | 一种自我进化和模块化的自动 AGI。 | 代理人 | ||
代理范围 | 开始以更简单的方式构建 LLM 授权的多代理应用程序。 | arXiv | 代理人 | |
特工模拟人 | 用于大型语言模型评估的开源沙箱。 | 代理人 | ||
人工智能小镇 | AI Town 是一个虚拟城镇,AI 角色在此居住、聊天和社交。 | 代理人 | ||
动漫.gf | CharacterAI 的本地和开源替代品。 | 游戏 | ||
阿斯特罗卡德 | 用人工智能创建游戏 | 游戏 | ||
原子特工 | Atomic Agents 框架被设计为模块化、可扩展且易于使用。 | 代理人 | ||
自动代理 | 自动代理生成的框架。 | 代理人 | ||
自动生成器 | 启用下一代大型语言模型应用程序。 | arXiv | 代理人 | |
行为 | Behaviac是游戏AI开发的框架。 | 框架 | ||
生物群落 | Biomes 是一款使用 Next.js、Typescript、React 和 WebAssembly 等 Web 技术为 Web 构建的开源沙盒 MMORPG。 | 游戏 | ||
思想缓冲器 | 使用大型语言模型进行思想增强推理。 | arXiv | 代理人 | |
拜泽代理 | 适合所有人的简单、快速、分布式代理框架。 | 代理人 | ||
猫镇 | AC(h)atGPT 支持的猫模拟。 | 代理人 | ||
猫镇 | AC(h)atGPT 支持的猫模拟。 | 代理人 | ||
角色GLM | 利用大语言模型定制中文会话人工智能角色。 | arXiv | 代理人 | |
聊天开发 | 软件开发的通信代理。 | arXiv | 代理人 | |
协同代理 | CogAgent是基于CogVLM改进的开源视觉语言模型。 | arXiv | 代理人 | |
摇篮 | 迈向通用计算机控制。 | 代理人 | ||
船员人工智能 | 用于编排角色扮演、自主人工智能代理的框架。 | 代理人 | ||
迪菲 | Dify 是一个开源 LLM 应用程序构建平台。 | 代理人 | ||
数字生活项目 | 具有社交智能的自主 3D 角色。 | arXiv | 代理人 | |
一切-ai | 您完全熟练的、人工智能驱动的本地聊天机器人助手? | 代理人 | ||
织物 | Fabric 是一个使用人工智能增强人类能力的开源框架。 | 代理人 | ||
快速GPT | FastGPT是一个建立在法学硕士基础上的知识平台。 | 代理人 | ||
快速RAG | 高效的检索增强和生成框架。 | 代理人 | ||
游戏AI SDK | 基于图像的游戏人工智能自动化框架。 | 框架 | ||
游戏生成器 | 扩散模型是实时游戏引擎。 | arXiv | 游戏 | |
GameGen-O | GameGen-O:开放世界视频游戏生成。 | 游戏 | ||
基因代理 | GenAgent:通过自动工作流生成构建协作人工智能系统 - ComfyUI 案例研究。 | arXiv | 代理人 | |
生成代理 | 人类行为的交互式模拟。 | arXiv | 代理人 | |
创世纪 | Genesis:用于机器人及其他领域的生成式通用物理引擎。 | 游戏 | ||
精灵 | 生成交互环境。 | 游戏 | ||
吉克斯 | 运行时、LLM 驱动的 NPC。 | 游戏 | ||
河马拉格 | 受神经生物学启发的大型语言模型的长期记忆。 | arXiv | 代理人 | |
交互式 LLM 支持的 NPC | Interactive LLM Powered NPCs 是一个开源项目,可以彻底改变您在任何游戏中与非玩家角色 (NPC) 的互动! | 游戏 | ||
奥阿 | 用于协作人工智能代理的开源框架,使多样化的分布式代理能够通过类似互联网的连接来组队并处理复杂的任务。 | 代理人 | ||
快手代理 | 具有大型语言模型(LLM)的通用信息搜索代理系统。 | arXiv | 代理人 | |
浪链 | 让您的法学硕士申请从原型到生产。 | 代理人 | ||
朗弗洛 | Langflow 是 LangChain 的 UI,采用 React-flow 设计,提供一种轻松的方法来实验和原型流程。 | 代理人 | ||
LangGraph工作室 | LangGraph Studio 提供了一种开发 LLM 应用程序的新方法,它提供了一个专门的代理 IDE,可以实现复杂代理应用程序的可视化、交互和调试。 | 代理人 | ||
拉普 | 开放世界游戏的语言代理角色扮演。 | arXiv | 代理人 | |
骆驼代理系统 | Llama Stack API 的代理组件。 | 代理人 | ||
骆驼指数 | LlamaIndex 是 LLM 申请的数据框架。 | 代理人 | ||
心灵搜索 | ?基于 LLM 的网络搜索引擎多代理框架(如 Perplexity.ai Pro 和 SearchGPT)。 | 代理人 | ||
药剂混合物 (MoA) | 混合代理增强了大型语言模型的能力。 | arXiv | 代理人 | |
MMR角色 | MMRole:用于开发和评估多模式角色扮演代理的综合框架。 | arXiv | 代理人 | |
月球登陆者.ai | 使用生成式 AI 无需任何编码即可开始构建 3D 游戏。 | 框架 | ||
穆格扩散 | MuG Diffusion 是一种基于稳定扩散(最强大的 AIGC 模型之一)的节奏游戏图表 AI,并进行了大量修改以合并音频波。 | 游戏 | ||
绿洲 | Oasis 是由 Decart 和 Etched 开发的互动世界模型。基于扩散变换器,Oasis 接收用户键盘输入并以自回归方式生成游戏玩法。 | 游戏 | ||
管理代理 | 用于解决复杂任务的多模式代理框架。 | 代理人 | ||
开放代理 | 野外语言代理的开放平台。 | 代理人 | ||
作品 | 一款将文本变成视频游戏的人工智能应用程序。 | 游戏 | ||
管道猫 | 用于语音和多模式会话人工智能的开源框架。 | 代理人 | ||
Qwen-代理 | Qwen-Agent 是一个基于 Qwen 的指令遵循、工具使用、规划和记忆功能开发 LLM 应用程序的框架。 | 代理人 | ||
拉加斯 | Ragas 是一个框架,可帮助您评估检索增强生成 (RAG) 管道。 | 代理人 | ||
RPBench-自动 | 用于评估法学硕士角色扮演的自动化管道。 | 游戏 | ||
西玛 | 适用于 3D 虚拟环境的多面手 AI 代理。 | 代理人 | ||
StoryGames.ai | 人工智能为梦想家制作游戏。 | 游戏 | ||
SWE代理 | 代理计算机接口支持软件工程语言模型。 | arXiv | 代理人 | |
任务生成器 | 基于 LLM 代理的 StrictJSON 输出的基于任务的代理框架。 | 代理人 | ||
十名代理 | TEN Agent 是世界上第一个集成了 OpenAI Realtime API、RTC 的实时多模式代理,具有天气检查、网络搜索、视觉和 RAG 功能。 | 代理人 | ||
翻译代理 | 使用反射工作流程进行代理翻译。 | 代理人 | ||
叽叽喳喳 | Twitter Personality 是一款 Web 应用程序,它可以分析您的 Twitter 句柄,以使用 Wordware AI Agent 创建个性化的个性档案。 | 代理人 | ||
无界 | 无界:角色生活模拟的生成无限游戏。 | arXiv | 游戏 | |
视频游戏 | 来自单个视频的实时、交互式、真实且与浏览器兼容的环境。 | arXiv | 游戏 | |
IRL | 将虚拟智能融入现实生活。 | arXiv | 代理人 | |
网页设计代理 | 用于网页设计的代理。 | 代理人 | ||
X代理 | 用于解决复杂任务的自主 LLM 代理。 | 代理人 |
^ 返回目录 ^
来源 | 描述 | 纸 | 游戏引擎 | 类型 |
---|---|---|---|---|
人工智能代码翻译器 | 使用人工智能将代码从一种语言翻译成另一种语言。 | 代码 | ||
aiXcoder-7B | aiXcoder-7B 代码大语言模型。 | 代码 | ||
布卢普 | bloop 是一个用 Rust 编写的快速代码搜索引擎。 | 代码 | ||
查皮特 | Jupyter 笔记本中的 ChatGPT 代码解释器。 | 代码 | ||
代码极X | 开放的多语言代码生成模型。 | arXiv | 代码 | |
代码吉X2 | 更强大的多语言代码生成模型。 | 代码 | ||
代码吉X4 | CodeGeeX4:开放的多语言代码生成模型。 | 代码 | ||
代码生成器 | CodeGen 是一个用于程序综合的开源模型。在 TPU-v4 上进行训练。与 OpenAI Codex 竞争。 | arXiv | 代码 | |
代码生成2 | 用于程序综合的 CodeGen2 模型。 | arXiv | 代码 | |
代码骆驼 | Code Llama 是基于 Llama 2 的大型代码语言模型。 | 代码 | ||
代码TF | 用于最先进代码 LLM 的一站式 Transformer 库。 | 代码 | ||
代码T5 | 用于代码理解和生成的开放代码法学硕士。 | 代码 | ||
光标 | 在新型编辑器中使用 GPT-4 编写、编辑和讨论您的代码。 | 代码 | ||
DeepSeek 编码器 | DeepSeek Coder:让代码自己编写。 | arXiv | 代码 | |
OpenAI 法典 | OpenAI Codex 是 GPT-3 的后代。 | 代码 | ||
熊猫人工智能 | Pandas AI 是一个 Python 库,它将生成人工智能功能集成到 Pandas 中,使数据帧具有对话性。 | 代码 | ||
RobloxScripterAI | RobloxScripterAI 是 Roblox 的人工智能代码生成工具。 | 罗布乐思 | 代码 | |
Scikit-法学硕士 | 将 ChatGPT 等强大的语言模型无缝集成到 scikit-learn 中,以增强文本分析任务。 | 代码 | ||
索塔纳 | 开源软件开发助手。 | arXiv | 代码 | |
稳定代码3B | 在边缘编码。 | 代码 | ||
星码器 | ? StarCoder 是一种基于源代码和自然语言文本训练的语言模型 (LM)。 | arXiv | 代码 | |
星编码器2 | StarCoder2 是一系列代码生成模型(3B、7B 和 15B),经过来自 Stack v2 的 600 多种编程语言以及一些自然语言文本(例如 Wikipedia、Arxiv 和 GitHub issues)的训练。 | arXiv | 代码 | |
UnityGen人工智能 | UnityGen AI 是 Unity 的 AI 驱动代码生成插件。 | 统一 | 代码 | |
空白 | Void 是一个开源 Cursor 替代品。使用最好的 AI 工具编写代码,保留对数据的完全控制,并访问强大的 AI 功能。 | 代码 |
^ 返回目录 ^
来源 | 描述 | 纸 | 游戏引擎 | 类型 |
---|---|---|---|---|
人工智能作家 | AI写小说、生成玄幻言情网文等。中文预训练生成模型。 | 作家 | ||
Notebook.ai | Notebook.ai 是一套工具,可供作家、游戏设计师和角色扮演者创建宏伟的宇宙以及其中的一切。 | 作家 | ||
小说 | 概念式所见即所得编辑器,具有人工智能驱动的自动完成功能。 | 作家 | ||
小说人工智能 | 在人工智能的驱动下,轻松构建独特的故事、惊心动魄的故事、诱人的浪漫,或者只是闲逛。 | 作家 |
^ 返回目录 ^
来源 | 描述 | 纸 | 游戏引擎 | 类型 |
---|---|---|---|---|
任意门 | 零样本对象级图像定制。 | arXiv | 图像 | |
任意文本 | 多语言视觉文本生成和编辑。 | arXiv | 图像 | |
AutoStudio | 在多轮交互式图像生成中制作一致的主题。 | arXiv | 图像 | |
Blender-ControlNet | 直接在 Blender 中使用 ControlNet。 | 混合器 | 图像 | |
布里VL | 连接视觉和语言模型。 | arXiv | 图像 | |
卡特彼勒VTON | CatVTON:串联是您使用扩散模型进行虚拟试戴所需的全部。 | arXiv | 图像 | |
CLI帕索 | 一种将对象图像转换为草图的方法,允许不同的抽象级别。 | arXiv | 图像 | |
剪辑掉落 | 在几秒钟内创建令人惊叹的视觉效果。 | 图像 | ||
舒适用户界面 | 具有图形/节点界面的强大且模块化的稳定扩散 GUI。 | 图像 | ||
概念实验室 | 使用扩散先验约束的创意生成。 | arXiv | 图像 | |
控制网 | ControlNet 是一种通过添加额外条件来控制扩散模型的神经网络结构。 | arXiv | 图像 | |
CSGO | CSGO:文本到图像生成中的内容样式组合。 | arXiv | 图像 | |
达尔·E 2 | DALL·E 2 是一个人工智能系统,可以根据自然语言的描述创建逼真的图像和艺术。 | 图像 | ||
达世通工作室 | Dashtoon Studio 是一个人工智能驱动的漫画创作平台。 | 漫画 | ||
深度人工智能 | DeepAI 提供了一套使用 AI 来增强您的创造力的工具。 | 图像 | ||
迪普弗洛伊德 IF | IF 由 StabilityAI 的 DeepFloyd 实验室提供。 | 图像 | ||
深度任意 V2 | 深度任意 V2 | arXiv | 图像 | |
深度图库和poser | 与Automatic1111/stable-diffusion-webui 的Control Net 扩展一起使用的深度图库。 | 图像 | ||
扩散选择 | 丰富虚拟试用潜在扩散模型中的图像条件修复。 | arXiv | 图像 | |
迪斯科扩散 | 用于生成人工智能艺术和动画的笔记本、模型和技术的弗兰肯斯坦式融合。 | 图像 | ||
拖动GAN | 生成图像流形上的交互式基于点的操作。 | arXiv | 图像 | |
画东西 | 口袋里的人工智能辅助图像生成。 | 图像 | ||
动态姿态 | 通过两阶段蒸馏进行有效的全身姿势估计。 | arXiv | 图像 | |
易照片 | 您的智能人工智能照片生成器。 | 图像 | ||
通量 | 该存储库包含最少的推理代码,可使用我们的 Flux 潜在整流流转换器运行文本到图像和图像到图像。 | 图像 | ||
跟随您的点击 | 通过简短提示进行开放域区域图像动画。 | arXiv | 图像 | |
福库斯 | 专注于提示和生成。 | 图像 | ||
gif融合 | 使用稳定扩散创建 GIF 和视频。 | 图像 | ||
接地段任意 | 自动检测、分割和生成任何图像、文本和音频输入。 | arXiv | 图像 | |
海威视ID照片 | HivisionIDPhotos:一款轻量高效的AI证件照工具。 | 图像 | ||
华 | Hua 是一款具有稳定扩散功能(以及更多功能)的 AI 图像编辑器。 | 图像 | ||
浑源-DiT | 具有细粒度中文理解的强大多分辨率扩散变压器。 | arXiv | 图像 | |
IC光 | IC-Light 是一个控制图像照明的项目。 | 图像 | ||
表意文字 | 帮助人们变得更有创造力。 | 图像 | ||
图像 | Imagen 是一个人工智能系统,可以根据输入文本创建逼真的图像。 | 图像 | ||
img2img-涡轮 | 使用 SD-Turbo 进行一步式图像到图像。 | 图像 | ||
Img2提示 | 从稳定的扩散生成的图像中获取提示。 | 图像 | ||
无限 | Infinity:用于高分辨率图像合成的按位自回归建模。 | arXiv | 图像 | |
即时ID | 在几秒钟内完成零次身份保护生成。 | arXiv | 图像 | |
实习生LM-XComposer2 | InternLM-XComposer2 是一种突破性的视觉语言大型模型 (VLLM),在自由格式文本图像合成和理解方面表现出色。 | arXiv | 图像 | |
考拉 | 自注意力在潜在扩散模型的知识蒸馏中很重要,可实现内存高效和快速图像合成。 | 图像 | ||
科勒斯 | Kolors:用于真实感文本到图像合成的扩散模型的有效训练。 | 图像 | ||
韩国房地产协会 | 使用令人愉快的人工智能设计工具生成图像和视频。 | 图像 | ||
拉维桥 | 连接不同的语言模型和生成视觉模型以生成文本到图像。 | arXiv | 图像 | |
层扩散 | 使用潜在透明度的透明图像层扩散。 | arXiv | 图像 | |
莱克西卡 | 稳定的扩散提示搜索引擎。 | 图像 | ||
骆马根 | 自回归模型击败扩散:用于可扩展图像生成的 Llama。 | arXiv | 图像 | |
Lumina-mGPT | Lumina-mGPT:通过多模态生成预训练阐明灵活的真实感文本到图像生成。 | arXiv | 图像 | |
元射击 | MetaShoot 是摄影工作室的数字孪生,作为虚幻引擎的插件开发,使任何创作者都能够以最简单、最快的方式生成高度逼真的渲染。 | 虚幻引擎 | 图像 | |
中途 | Midjourney 是一个独立的研究实验室,致力于探索新的思维媒介并扩展人类的想象力。 | 图像 | ||
MIGC | MIGC:用于文本到图像合成的多实例生成控制器。 | arXiv | 图像 | |
模仿笔刷 | 使用参考模仿进行零样本图像编辑。 | arXiv | 图像 | |
奥尼金 | OmniGen:统一图像生成。 | arXiv | 图像 | |
奥莫斯特 | Omost是一个将LLM的编码能力转换为图像生成(或更准确地说,图像合成)能力的项目。 | 图像 | ||
打开姿势编辑器 | AUTOMATIC1111 的 stable-diffusion-webui 的 Openpose 编辑器。 | 图像 | ||
适合任何人 | 适合任何服装和任何人的超高质量虚拟试穿。 | 图像 | ||
绘画撤消 | PaintsUndo:数字绘画中绘图行为的基本模型。 | 图像 | ||
照片制作者 | 通过堆叠 ID 嵌入定制逼真的人物照片。 | arXiv | 图像 | |
照相馆 | 人工智能背景生成器。 | 图像 | ||
普拉斯克 | 云端人工智能图像生成。 | 图像 | ||
提示艺术 | 发电机中心。 | 图像 | ||
普利德 | 通过对比对齐进行 Pure 和 Lightning ID 定制。 | arXiv | 图像 | |
富文本到图像 | 使用富文本生成富有表现力的文本到图像。 | arXiv | 图像 | |
RPG-扩散大师 | 掌握文本到图像的扩散:使用多模态法学硕士 (PRG) 进行重述、规划和生成。 | 图像 | ||
SEED-故事 | SEED-Story:具有大型语言模型的多模式长故事生成。 | arXiv | 图像 | |
分割任何东西 | Segment Anything Model (SAM):Meta AI 的新 AI 模型,只需单击一下即可“剪切”任何图像中的任何对象。 | arXiv | 图像 | |
分段任意模型 2 (SAM 2) | SAM 2:分割图像和视频中的任何内容。 | arXiv | 图像 | |
SD-WebUI-ControlNet | ControlNet 的 WebUI 扩展。 | 图像 | ||
SDXL-闪电 | 渐进式对抗扩散蒸馏。 | arXiv | 图像 | |
SDXS | 具有图像条件的实时一步潜在扩散模型。 | 图像 | ||
稳定艺术 | 用于稳定扩散的 Photoshop 插件,以 Automatic1111 作为后端(本地或使用 Google Colab)。 | 图像 | ||
稳定级联 | Stable Cascade由三个模型组成:Stage A、Stage B和Stage C,代表生成图像的级联,因此得名“Stable Cascade”。 | 图像 | ||
稳定扩散 | 潜在文本到图像的扩散模型。 | 图像 | ||
稳定扩散.cpp | 纯 C/C++ 中的稳定扩散。 | 图像 | ||
稳定的扩散网页用户界面 | 基于 Gradio 库的浏览器界面,用于稳定扩散。 | 图像 | ||
稳定的扩散网页用户界面 | 基于 Web 的 UI,实现稳定扩散。 | 图像 | ||
稳定扩散WebUI中文 | stable-diffusion-webui 中文版。 | 图像 | ||
稳定扩散XL | 从文本生成图像。 | arXiv | 图像 | |
稳定扩散 XL Turbo | 实时文本到图像生成。 | 图像 | ||
稳定扩散3.5 | Stable Diffusion 3.5 开放版本包括多个模型变体,包括 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo。 | 图像 | ||
稳定的涂鸦 | Stable Doodle 是一款草图转图像工具,可将简单的绘图转换为动态图像。 | 图像 | ||
稳定工作室 | Stability AI 的 StableStudio | 图像 | ||
故事制作者 | StoryMaker:在文本到图像生成中实现整体一致的角色。 | arXiv | 图像 | |
流扩散 | 用于实时交互生成的管道级解决方案。 | 图像 | ||
风格下降 | 任何风格的文本到图像生成。 | arXiv | 图像 | |
同步梦想家 | 从单视图图像生成多视图一致的图像。 | arXiv | 图像 | |
超编辑 | UltraEdit:基于指令的大规模细粒度图像编辑。 | arXiv | 图像 | |
超像素 | UltraPixel:将超高分辨率图像合成推向新高峰。 | arXiv | 图像 | |
Unity ML 稳定扩散 | Unity 上的 Core ML 稳定扩散。 | 统一 | 图像 | |
维斯朋克愿景 | 文本到图像生成平台。 | 图像 |
^ 返回目录 ^
来源 | 描述 | 纸 | 游戏引擎 | 类型 |
---|---|---|---|---|
客户关系管理 | 使用卷积重建模型将单图像转换为 3D 纹理网格。 | arXiv | 质地 | |
梦垫 | 使用几何和光感知扩散模型生成高质量的 PBR 材质。 | arXiv | 质地 | |
梦想空间 | 通过文本驱动的全景纹理传播来梦想您的房间空间。 | 质地 | ||
梦幻纹理 | Blender 内置稳定扩散。使用简单的文本提示创建纹理、概念艺术、背景资源等。 | 混合器 | 质地 | |
指导人类 | 使用说明编辑动画 3D 人体纹理。 | arXiv | 质地 | |
英特克斯 | 通过统一深度感知修复进行交互式文本到纹理合成。 | arXiv | 质地 | |
骆驼网格 | LLaMA-Mesh:将 3D 网格生成与语言模型统一。 | arXiv | 网 | |
材质Seg3D | MaterialSeg3D:从 2D 先验中分割密集材质以获得 3D 资产。 | arXiv | 质地 | |
网格任何东西 | MaterialSeg3D:从 2D 先验中分割密集材质以获得 3D 资产。 | arXiv | 网 | |
纽拉兰杰洛 | 高保真神经表面重建。 | arXiv | 质地 | |
涂漆 | 通过深度卷积纹理图优化和基于物理的渲染进行文本到纹理合成。 | 质地 | ||
宝丽康 | 只需输入即可创建您自己的 3D 纹理。 | 质地 | ||
纺织融合 | 使用文本引导图像扩散模型合成 3D 纹理。 | arXiv | 质地 | |
文本到文本 | 通过扩散模型进行文本驱动的纹理合成。 | arXiv | 质地 | |
纹理实验室 | AI 生成的纹理。您可以使用文本提示生成自己的。 | 质地 | ||
与聚 | 使用多边形创建纹理。在免费的在线编辑器中使用 AI 生成 3D 材料,或搜索我们不断增长的社区库。 | 质地 | ||
X-网格 | X-Mesh:通过动态文本指导实现快速、准确的文本驱动 3D 风格化。 | arXiv | 质地 |
^ 返回目录 ^
来源 | 描述 | 纸 | 游戏引擎 | 类型 |
---|---|---|---|---|
人工智能着色器 | ChatGPT 支持的 Unity 着色器生成器。 | 统一 | 着色器 |
^ 返回目录 ^
来源 | 描述 | 纸 | 游戏引擎 | 类型 |
---|---|---|---|---|
动画3D | Animate3D:通过多视图视频扩散对任何 3D 模型进行动画处理。 | arXiv | 3D | |
任何 3D | 分段-任何内容 + 3D。让我们将任何事物提升为 3D。 | arXiv | 模型 | |
任意2点 | Any2Point:支持任何模态大型模型以实现高效的 3D 理解。 | arXiv | 3D | |
搅拌机GPT | 使用 OpenAI 的 GPT-4 使用英文命令来控制 Blender。 | 混合器 | 模型 | |
Blender-GPT | 一款由 GPT3/4 + Whisper 集成提供支持的一体化 Blender 助手。 | 混合器 | 模型 | |
封锁实验室 | Skybox Lab 实现了真正的数字炼金术 - 终极人工智能驱动的解决方案,可根据文本提示生成令人难以置信的 360° 天空盒体验。 | 模型 | ||
CF-3DGS | 无 COLMAP 3D 高斯泼溅。 | arXiv | 3D | |
角色生成器 | CharacterGen:通过多视图姿势规范化从单张图像高效生成 3D 角色。 | arXiv | 3D | |
聊天GPT-玛雅 | 简单的 Maya 工具,利用开放式 AI 根据描述性指令执行基本任务。 | 玛雅人 | 模型 | |
城市梦想家 | 无界 3D 城市的组合生成模型。 | arXiv | 3D | |
CSM | 从图像和视频生成 3D 世界。 | 3D | ||
短跑 | 您在虚幻引擎中构建世界的副驾驶。 | 虚幻引擎 | 3D | |
梦想催化剂 | DreamCatalyst:通过控制可编辑性和身份保留进行快速、高质量的 3D 编辑。 | arXiv | 3D | |
梦幻高斯4D | 生成 4D 高斯泼溅。 | arXiv | 4D | |
DUSt3R | 几何 3D 视觉变得简单。 | arXiv | 3D | |
埃迪3D | Edify 3D:可扩展的高质量 3D 资产生成。 | arXiv | 3D | |
GALA3D | GALA3D:通过布局引导的生成高斯泼溅实现文本到 3D 复杂场景生成。 | arXiv | 3D | |
高斯控制 | GaussCtrl:多视图一致文本驱动的 3D 高斯泼溅编辑。 | arXiv | 3D | |
高斯立方体 | 用于 3D 生成建模的结构化且显式的辐射表示。 | arXiv | 3D | |
高斯梦想家 | 使用点云先验快速生成从文本到 3D 高斯泼溅。 | arXiv | 3D | |
精灵实验室 | 通过 AI-UGC 增强您的游戏能力。 | 3D | ||
HIFA | 高保真文本转 3D 以及先进的扩散指导。 | 模型 | ||
全息梦想家 | HoloDreamer:根据文本描述生成整体 3D 全景世界。 | arXiv | 3D | |
混元3D-1.0 | Hunyuan3D-1.0:文本转3D和图像转3D生成的统一框架。 | arXiv | 3D | |
英菲尼根 | 使用程序生成的无限真实世界。 | arXiv | 3D | |
指令-NeRF2NeRF | 使用说明编辑 3D 场景。 | arXiv | 模型 | |
互动3D | 通过交互式 3D 生成创建您想要的内容。 | arXiv | 3D | |
各向同性三维 | 基于单个 CLIP 嵌入的图像到 3D 生成。 | 3D | ||
拿铁3D | 大规模摊销文本到增强型 3D 合成。 | arXiv | 3D | |
狮子 | 用于生成 3D 形状的潜点扩散模型。 | arXiv | 模型 | |
亮度人工智能 | 以逼真的 3D 方式捕捉。无与伦比的真实感、反射和细节。视觉特效的未来就在眼前,属于每个人! | 模型 | ||
发光人工智能 | 人工智能驱动的创造力。 | 3D | ||
3D制作 | 使用扩散先验从单个图像创建高保真 3D。 | arXiv | 模型 | |
网状 | 使用 AI 创建令人惊叹的 3D 游戏资产。 | 3D | ||
动议 | 神奇的 3D AI 动画制作器。 | 3D | ||
MV梦想 | 用于 3D 生成的多视图扩散。 | arXiv | 3D | |
NVIDIA 即时 NeRF | 即时神经图形基元:快如闪电的 NeRF 等。 | 模型 | ||
一-2-3-45 | 45 秒内将任何单个图像转换为 3D 网格,无需针对每个形状进行优化。 | arXiv | 模型 | |
绘画3D | 使用无光照纹理扩散模型绘制任何 3D 物体。 | arXiv | 3D | |
PANiC-3D | 根据动漫人物肖像进行风格化单视图 3D 重建。 | arXiv | 模型 | |
点·E | 用于 3D 模型合成的点云扩散。 | 模型 | ||
多产梦想家 | 通过变分分数蒸馏实现高保真和多样化的文本到 3D 生成。 | arXiv | 模型 | |
SF3D | SF3D:通过 UV 展开和照明解缠进行稳定快速的 3D 网格重建。 | arXiv | 3D | |
形状 | 生成以文本或图像为条件的 3D 对象。 | arXiv | 模型 | |
斯洛伊德 | 3D 建模从未如此简单。 | 模型 | ||
样条人工智能 | 人工智能的力量正在进入第三维度。使用提示生成对象、动画和纹理。 | 模型 | ||
稳定的梦境融合 | 文本转 3D 模型 Dreamfusion 的 pytorch 实现,由稳定扩散文本转 2D 模型提供支持。 | 模型 | ||
SV3D | 使用潜在视频扩散从单个图像进行新颖的多视图合成和 3D 生成。 | arXiv | 3D | |
塔菲 | AI 文本转 3D 字符引擎。 | 模型 | ||
3D-GPT | 使用大型语言模型进行程序 3D 建模。 | arXiv | 3D | |
3D法学硕士 | 将 3D 世界注入大型语言模型中。 | arXiv | 3D | |
3Dpresso | 提取视频中捕获的对象的 3D 模型。 | 模型 | ||
3DTopia | 5 分钟内生成文本到 3D。 | arXiv | 3D | |
3DTopia-XL | 3DTopia-XL:通过原始扩散扩展高质量 3D 资产生成。 | arXiv | 3D | |
三人工作室 | 3D 内容生成的统一框架。 | 模型 | ||
特里波SR | 最先进的开源模型,用于从单个图像快速前馈 3D 重建。 | arXiv | 模型 | |
独特的3D | 从单个图像生成高质量且高效的 3D 网格。 | arXiv | 3D | |
UnityGaussianSplatting | Unity 中的玩具高斯泼溅可视化。 | 统一 | 3D | |
ViVid-1-to-3 | 使用视频扩散模型的新颖视图合成。 | arXiv | 3D | |
沃克斯克拉夫特 | 利用 AI 制作即用型 3D 模型。 | 3D | ||
奇迹3D | 使用跨域扩散将单图像转为 3D。 | arXiv | 3D | |
零一到三 | 零样本一张图像到 3D 对象。 | arXiv | 模型 |
^ 返回目录 ^
来源 | 描述 | 纸 | 游戏引擎 | 类型 |
---|---|---|---|---|
动漫肖像 | 真实感肖像动画的音频驱动合成。 | arXiv | 阿凡达 | |
冷静的 | 可定向虚拟角色的条件对抗潜在模型。 | arXiv | 阿凡达 | |
聊天头像 | 在文本引导下渐进生成可动画 3D 面孔。 | 阿凡达 | ||
聊天娃娃套件 | ChatdollKit 使您能够将 3D 模型制作成聊天机器人。 | 统一 | 阿凡达 | |
梦话 | 当富有表现力的头部说话生成遇到扩散概率模型。 | arXiv | 阿凡达 | |
杜伊克斯 | Duix - 基于硅的数字人类 SDK ? | 阿凡达 | ||
模仿回声 | EchoMimic:通过可编辑的地标条件实现逼真的音频驱动肖像动画。 | arXiv | 阿凡达 | |
EMO肖像 | 情感增强的多模态一次性头像。 | 阿凡达 | ||
E3代 | 高效、富有表现力且可编辑的头像生成。 | arXiv | 阿凡达 | |
前阿凡达 | ExAvatar - 富有表现力的全身 3D 高斯头像。 | arXiv | 阿凡达 | |
基因阿凡达 | 从单个图像进行通用表达感知体积头部头像编辑。 | arXiv | 阿凡达 | |
基因脸++ | 通用且稳定的实时 3D 说话人脸生成。 | 阿凡达 | ||
你好 | 用于肖像图像动画的分层音频驱动视觉合成。 | arXiv | 阿凡达 | |
你好2 | Hallo2:长时间、高分辨率音频驱动的肖像图像动画。 | arXiv | 阿凡达 | |
头雕 | 用文本制作 3D 头部头像。 | arXiv | 阿凡达 | |
内在化身 | IntrinsicAvatar:通过显式光线追踪对单眼视频中的动态人体进行基于物理的逆渲染。 | arXiv | 阿凡达 | |
林利语者 | 数字化身对话系统。 | 阿凡达 | ||
现场肖像 | LivePortrait:具有拼接和重定向控制的高效肖像动画。 | arXiv | 阿凡达 | |
运动GPT | 人类运动作为外语,使用法学硕士的统一运动语言生成模型。 | arXiv | 阿凡达 | |
缪斯姿势 | MusePose:用于生成虚拟人的姿势驱动的图像到视频框架。 | 阿凡达 | ||
缪斯谈话 | 实时高质量唇部同步与潜在空间修复。 | 阿凡达 | ||
缪斯V | 具有视觉条件并行去噪的无限长度和高保真虚拟人类视频生成。 | 阿凡达 | ||
肖像4D | 使用合成数据学习 One-Shot 4D 头部头像合成。 | arXiv | 阿凡达 | |
准备好玩家我 | 在几天内将可定制的头像集成到您的游戏或应用程序中。 | 阿凡达 | ||
罗丹HD | RodinHD:具有扩散模型的高保真 3D 头像生成。 | arXiv | 阿凡达 | |
风格Avatar3D | 利用图像文本扩散模型生成高保真 3D 头像。 | arXiv | 阿凡达 | |
文本2控制3D | 使用几何引导文本到图像扩散模型在神经辐射场中生成可控 3D 头像。 | arXiv | 阿凡达 | |
地形4D | 用于高保真 4D 头部捕获的拓扑保持高斯泼溅。 | arXiv | 阿凡达 | |
UnityAIWithChatGPT | 基于Unity,实现ChatGPT+UnityChan语音交互显示。 | 统一 | 阿凡达 | |
视频头像 | 通过自监督场景分解从野外视频重建 3D 头像。 | arXiv | 阿凡达 | |
视频博主 | 用于具体化身合成的多模态扩散。 | 阿凡达 | ||
狂野阿凡达 | 渲染遮挡背后的人类。 | arXiv | 阿凡达 |
^ 返回目录 ^
来源 | 描述 | 纸 | 游戏引擎 | 类型 |
---|---|---|---|---|
为任何人制作动画 | 用于角色动画的一致且可控的图像到视频合成。 | arXiv | 动画片 | |
动画一切 | 具有运动引导的细粒度开放域图像动画。 | arXiv | 动画片 | |
动画差异 | 无需特定调整即可制作个性化文本到图像扩散模型的动画。 | arXiv | 动画片 | |
动画LCM | 让我们在 4 步内加速视频生成! | arXiv | 动画片 | |
动画-X | Animate-X:具有增强运动表示的通用角色图像动画。 | arXiv | 动画片 | |
动画零 | 视频扩散模型是零镜头图像动画师。 | arXiv | 动画片 | |
动画GPT | 用于生成游戏战斗动作资产的 AIGC 工具。 | 动画片 | ||
德福鲁姆 | Deforum 利用稳定扩散来生成不断发展的 AI 视觉效果。 | 动画片 | ||
绘图旋转 | DrawingSpinUp:单个角色绘图的 3D 动画。 | arXiv | 动画片 | |
梦想搬家 | 基于扩散模型的人类视频生成框架。 | arXiv | 动画片 | |
人脸融合 | 下一代换脸器和增强器。 | 动画片 | ||
自由初始化 | 弥合视频扩散模型中的初始化差距。 | arXiv | 动画片 | |
基因脸 | 通用和高保真音频驱动的 3D 说话脸部合成。 | arXiv | 动画片 | |
ID动画师 | 零镜头身份保护人类视频生成。 | arXiv | 动画片 | |
魔法动画 | 使用扩散模型在时间上一致的人类图像动画。 | arxiv | 动画片 | |
女娲 | DragNUWA是一种基于扩散的开放域视频生成模型,以文本、图像和轨迹控制作为输入,实现可控视频生成。 | arxiv | 动画片 | |
Nuwa-Infinity | NUWA-Infinity 是一种多模态生成模型,旨在根据给定的文本、图像或视频输入生成高质量的图像和视频。 | 动画片 | ||
女娲-XL | 对于非常长的视频生成的扩散体系结构的一种新颖的扩散。 | 动画片 | ||
全向动画 | AI产生了高保真动画。 | 动画片 | ||
PIA | 您的个性化图像动画师通过文本到图像模型中的插件模块。 | arXiv | 动画片 | |
悲伤语者 | 学习现实的3D运动系数,以进行程式化音频驱动的单图像面部动画。 | arxiv | 动画片 | |
sadtalker-video-lip-sync | 该项目基于sadtalkers wav2lip用于视频唇综合。 | 动画片 | ||
稳定的动画 | 开发人员的强大文本对动画工具。 | 动画片 | ||
Talecrafter | 一个支持多个字符的交互式故事可视化工具。 | arxiv | 动画片 | |
卡通工匠 | Tooncrafter:生成卡通插值。 | arxiv | 动画片 | |
声音2唇 | 在野外准确地唇部同步视频。 | arxiv | 动画片 | |
奇迹工作室 | 一款 AI 工具,可自动将 CG 角色制作成动画、灯光并将其合成为真人场景。 | 动画片 |
^ 返回目录 ^
来源 | 描述 | 纸 | 游戏引擎 | 类型 |
---|---|---|---|---|
Cambrian-1 | Cambrian-1:对多模式LLM的完全开放,以视觉为中心的探索。 | arxiv | 多模式LLM | |
COGVLM2 | 基于Llama3-8B的GPT4V级开源多模式模型。 | 视觉的 | ||
Cotracker | 最好一起跟踪。 | arxiv | 视觉的 | |
电子取景器SAM | EVF-SAM:文本启动段的任何模型的早期视觉融合。 | arxiv | 视觉的 | |
facehi | 最好一起跟踪。 | 视觉的 | ||
internlm-xcomposer2 | InternLM-Xcomposer2是一种开创性的视觉语言大型模型(VLLM),在自由形式的文本图像组成和理解中都出色。 | arxiv | 视觉的 | |
袋鼠 | Kangaroo:一个强大的视频模型,支持长篇小说视频输入。 | 视觉的 | ||
LGVI | 通过多模式大语言模型实现语言驱动的视频修复。 | 视觉的 | ||
llava ++ | 通过Llama-3和Phi-3扩展视觉功能。 | 视觉的 | ||
LLaVA-OneVision | llava-onevision:简单的视觉任务传输。 | arxiv | 视觉的 | |
长VA | 长篇小说从语言转移到视觉。 | arXiv | 视觉的 | |
面具 | 视频预测的掩盖视觉预训练。 | arxiv | 视觉的 | |
迷你CPM-Llama3-V 2.5 | 手机上的GPT-4V级别MLLM。 | 视觉的 | ||
Moe-llava | 大型视觉模型的专家的混合物。 | arxiv | 视觉的 | |
运动法学硕士 | 了解人类动议和视频的人类行为。 | arxiv | 视觉的 | |
PLLAVA | 从图像到视频的无参数Llava扩展,以进行视频密集字幕。 | arxiv | 视觉的 | |
Qwen-VL | 一种多功能的视觉语言模型,用于理解,本地化,文本阅读以及其他方式。 | arxiv | 视觉的 | |
智人 | Sapiens:人类视觉模型基金会。 | arxiv | 视觉的 | |
分享GPT4V | 改善带有更好标题的大型多模式模型。 | arxiv | 视觉的 | |
独奏 | 独奏:用于可扩展视觉模型的单个变压器。 | arXiv | 视觉的 | |
视频卡姆 | 视频CCAM:通过因果交叉注意力面具推进视频语言理解。 | 视觉的 | ||
视频式 | 在投影前通过对齐来学习联合的视觉表示。 | arxiv | 视觉的 | |
视频2 | 在视频插件中推进时空建模和音频理解。 | arxiv | 视觉的 | |
视频MME | 视频分析中多模式LLMS的首个全面评估基准。 | arxiv | 视觉的 | |
威创 | 统一的像素级视觉LLM用于理解,生成,分割,编辑。 | 视觉的 | ||
维拉 | Vila:关于视觉语言模型的预培训。 | arxiv | 视觉的 |
^ 返回目录 ^
来源 | 描述 | 纸 | 游戏引擎 | 类型 |
---|---|---|---|---|
360DVD | 具有360度视频扩散模型的可控全景视频生成。 | arxiv | 视频 | |
Animate-A Store | 检索录像的视频生成,用于讲述一个故事。 | arxiv | 视频 | |
任何场景中的任何事物 | 逼真的视频对象插入。 | 视频 | ||
艺术•v | 具有扩散模型的自动回归文本对视频生成。 | arxiv | 视频 | |
辅助工具 | 满足使您的想法栩栩如生的生成视频平台。 | 视频 | ||
Atomovideo | 高保真图像与视频生成。 | arxiv | 视频 | |
背景去除剂 | 背景洗涤剂可让您使用AI从图像和视频中删除背景,并具有简单的命令行接口,该接口是免费和开源的。 | 视频 | ||
盒子模拟器 | 为视频综合生成丰富而可控的动作。 | arxiv | 视频 | |
Codef | 内容变形字段用于时间一致的视频处理。 | arxiv | 视频 | |
齿轮视频 | 从文本说明中生成视频。 | 视频 | ||
科格视频X | Cogvideox是视频生成模型的开源版本,该版本与清影同源。 | 视频 | ||
COGVLM | COGVLM是一种强大的开源视觉语言模型(VLM)。 | 视觉的 | ||
conr | 来自手绘动漫角色表(ACS)中的生动舞蹈视频。 | arxiv | 视频 | |
装饰 | 创建无法拍摄的内容。 | 视频 | ||
描述 | 描述是一种简单,有力且有趣的编辑方式。 | 视频 | ||
差异 | 通过扩散模型的高分辨率编辑阴影。 | arxiv | 视频 | |
海豚 | 一般视频互动平台基于LLM。 | 视频 | ||
多摩人工智能 | 通过Domoai扩大您的创造力。 | 视频 | ||
Dreamcinema | Dreamcinema:免费相机和3D字符的电影转移。 | arxiv | 视频 | |
动态工匠 | 使用视频扩散先验来动画开放域图像。 | arxiv | 视频 | |
边缘 | 我们引入了Edge,这是一种可编辑的舞蹈生成的强大方法,能够创造出逼真的,身体上的舞蹈,同时仍然忠于任意输入音乐。 | arxiv | 视频 | |
欧洲经济组织 | 活着的表情肖像 - 在弱条件下使用Audio2Video扩散模型生成表现力的肖像视频。 | arxiv | 视频 | |
EMU视频 | 通过明确的图像调节来分解文本对视频的生成。 | 视频 | ||
埃特纳火山 | ETNA可以根据简短的文本描述生成相应的视频内容。 | 视频 | ||
仙女 | 快速并行指导引导的视频与视频合成。 | 视频 | ||
跟随您的谷歌 | 跟随您的谷歌:高分辨率的视频覆盖,并产生广泛的内容。 | arxiv | 视频 | |
跟随你的姿势 | 使用无姿势的视频引导的姿势引导的文本对视频生成。 | arXiv | 视频 | |
Fulljourney | 您完整的AI创建工具的完整套件。 | 视频 | ||
第二代 | 一个多模式的AI系统,可以通过文本,图像或视频剪辑生成新颖的视频。 | 视频 | ||
生成动力学 | 生成图像动力学。 | 视频 | ||
精灵 | 生成互动环境。 | arxiv | 视频 | |
玄武 | 神奇地用AI制作视频。 | 视频 | ||
绅士 | 图像和视频生成的扩散变压器。 | 视频 | ||
希根 | 用于文本到视频生成的层次时空分离。 | 视频 | ||
Hotshot-XL | Hotshot-XL是一种AI文本到GIF模型,该模型与稳定的扩散XL一起工作。 | 视频 | ||
Hunyuanvideo | Hunyuanvideo:大型视频生成模型的系统框架。 | arxiv | 视频 | |
成像视频 | 给定文本提示,Imagen视频使用基本视频生成模型以及一系列交织的空间和时间视频超分辨率模型生成了高清视频。 | 视频 | ||
指令 | 用人类反馈指导视频扩散模型。 | arxiv | 视频 | |
I2VGen-XL | 通过级联扩散模型的高质量图像与视频合成。 | arxiv | 视频 | |
拉维 | 具有级联潜扩散模型的高质量视频生成。 | arxiv | 视频 | |
LTX工作室 | LTX Studio 是一个面向创作者、营销人员、电影制作人和工作室的整体、人工智能驱动的电影制作平台。 | 视频 | ||
LTX-视频 | LTX-VIDEO是第一个基于DIT的视频生成模型,可以实时生成高质量的视频。它可以生成分辨率为 768x512 的 24 FPS 视频,速度比观看视频的速度还要快。 | 视频 | ||
卢米埃尔 | 视频生成的时空扩散模型。 | arxiv | 视频 | |
LVDM | 高保真长期视频生成的潜在视频扩散模型。 | arxiv | 视频 | |
MagicVideo | 具有潜在扩散模型的有效视频生成。 | arxiv | 视频 | |
MagicVideo-V2 | 多阶段高审美视频生成。 | arxiv | 视频 | |
魔法时刻 | 创作者的AI视频变得简单。 | 视频 | ||
magvit-v2 | 令牌器是视觉生成的关键。 | 视频 | ||
马格维特 | 蒙版的生成视频变压器。 | 视频 | ||
制作video | Make-A-Video是一种最先进的AI系统,可以从文本中生成视频。 | arXiv | 视频 | |
使像素跳舞 | 高动态视频生成。 | arxiv | 视频 | |
制作您的视频 | 使用文本和结构指导定制的视频生成。 | arxiv | 视频 | |
微氧化肿 | 文本到视频生成的分裂和争议方法。 | arxiv | 视频 | |
多输入多输出 | MIMO:可控制的角色视频综合,具有空间分解的建模。 | arxiv | 视频 | |
迷你gemini | 挖掘多模式视觉语言模型的潜力。 | 想象 | ||
MobileVidFactory | 基于文本的移动设备的基于自动扩散的社交媒体视频生成。 | 视频 | ||
麻糬 1 | Mochi 1是一种开放的最先进的视频生成模型,具有高保真运动,并且在初步评估中迅速遵守。 | 视频 | ||
MOFA-VIDEO | 通过生成运动场适应在冷冻图像到视频扩散模型中的可控图像动画。 | arxiv | 视频 | |
印钞机涡轮增压 | 使用大型模型单击一键生成简短的视频。 | 视频 | ||
月谷 | Moonvalley是一种开创性的新文本与视频生成的AI模型。 | 视频 | ||
猜拳 | 更像是通才视频的Sora。 | arxiv | 视频 | |
变形工作室 | 凭借我们的文本到视频AI魔术,通过提示来表现您的创造力。 | 视频 | ||
动态克隆 | 运动克隆:无训练运动克隆,可控制视频生成。 | arxiv | 视频 | |
运动控制 | 视频生成的统一运动控制器。 | arxiv | 视频 | |
运动导演 | 文本到视频扩散模型的运动定制。 | arxiv | 视频 | |
动感工作室 | 用3D头像在视频中替换角色的应用。 | 视频 | ||
mov2mov | 自动1111/稳定 - 扩散 - webui的MOV2MOV插件。 | 视频 | ||
moviefactory | 使用大型生成模型从文本中创建自动电影,用于语言和图像。 | arXiv | 视频 | |
神经框架 | 发现视觉世界的合成器。 | 视频 | ||
永无止境 | 创造你的世界。 | 视频 | ||
开放索拉 | 将所有人的有效视频制作民主化。 | 视频 | ||
开放索拉 | 开放式计划。 | 视频 | ||
费纳基 | 一个模型,用于从文本中生成视频,并带有可以随着时间的时间变化的提示,并且可以长达多分钟的视频。 | arxiv | 视频 | |
皮卡实验室 | 皮卡实验室(Pika Labs)正在彻底改变AI的视频制作体验。 | 视频 | ||
像素 | 像素化合物使我们的客户能够创建高度精确,超现实和极为控制的视觉内容,包括图像,视频和3D模型。 | 视频 | ||
像素宇宙 | 使用AI创建令人叹为观止的视频。 | 视频 | ||
授粉 | 创造变得容易,快速和有趣。 | 视频 | ||
再利用和弥漫 | 迭代授予文本到视频生成。 | arxiv | 视频 | |
如意 | Ruyi是一种图像与视频模型,能够以768分辨率生成电影质量视频,每秒24帧的帧速率,总计5秒和120帧。 | 视频 | ||
短GPT | 自动短/视频内容创建的实验AI框架。 | 视频 | ||
显示-1 | 将像素和潜在扩散模型嫁给文本到视频生成。 | arxiv | 视频 | |
快照视频 | 用于文本对视频合成的时空变压器的缩放时空变压器。 | arxiv | 视频 | |
索拉 | 从文本中创建视频。 | 视频 | ||
Sorawebui | Sorawebui是一个开源的Sora Web客户端,使用户可以轻松地使用OpenAI的Sora模型从文本中创建视频。 | 视频 | ||
StableVideo | 文本驱动的一致性扩散视频编辑。 | 视频 | ||
稳定的视频扩散 | 稳定的视频扩散(SVD)图像到视频。 | 视频 | ||
故事扩散 | 长期图像和视频生成的一致自我注意力。 | arxiv | 视频 | |
流媒体T2V | 一致,动态和可扩展的长期视频生成。 | arxiv | 视频 | |
Stylecrafter | 使用样式适配器进行风格化的文本对视频生成。 | arxiv | 视频 | |
TATS | 长时间的视频生成,具有时间不足的VQGAN和时间敏感的变压器。 | 视频 | ||
text2Video-Zero | 文本到图像扩散模型是零拍的视频生成器。 | arXiv | 视频 | |
TF-T2V | 通过无文本视频来扩展文本到视频的食谱。 | arxiv | 视频 | |
虎 | Tora:视频生成的面向轨迹的扩散变压器。 | arxiv | 视频 | |
田径 | Track-thing是基于段和XMEM的视频对象跟踪和分割的灵活而交互式工具。 | arxiv | 视频 | |
Tune-a-video | 对文本到视频生成的图像扩散模型的一声调整。 | arxiv | 视频 | |
十二个 | 多模式的AI了解像人类这样的视频。 | 视频 | ||
Univg | 迈向统一模式的视频生成。 | 视频 | ||
Vchitect-2.0 | VCHITECT-2.0:用于扩展视频扩散模型的并行变压器。 | 视频 | ||
VGen | 在扩散模型上建立视频生成的整体视频生成生态系统。 | arxiv | 视频 | |
ViewCrafter | ViewCrafter:高保真新视图合成的驯服视频扩散模型。 | arXiv | 视频 | |
视频聊天GPT | Video-Chatgpt是一个视频对话模型,能够生成有关视频的有意义的对话。 | arxiv | 视频 | |
视频作曲家 | 组成视频综合具有运动可控性。 | arxiv | 视频 | |
视频工匠1 | 开放扩散模型,用于高质量的视频生成。 | arxiv | 视频 | |
视频工匠2 | 克服高质量视频扩散模型的数据限制。 | arxiv | 视频 | |
Videodrafter | llm的内容一致的多场景视频生成。 | arxiv | 视频 | |
视频宣传员 | 通过多功能文本到图像扩散模型提升视频生成质量。 | arxiv | 视频 | |
视频效果 | 在时空扩散中将注意力转移到文本到视频生成中。 | 视频 | ||
视频生成器 | 高清文本到视频生成的参考引导的潜在扩散方法。 | arxiv | 视频 | |
视频 | 视频潜在一致性模型。 | arxiv | 视频 | |
视频LDMS | 将您的潜伏期与潜在扩散模型相结合:高分辨率视频综合。 | arxiv | 视频 | |
视频式 | 在投影前通过对齐来学习联合的视觉表示。 | arxiv | 视频 | |
VideoMamba | 有效的视频理解的状态空间模型。 | arxiv | 视频 | |
思想视频 | 思想视频:从感知到认知的分步视频推理。 | 视频 | ||
Videopoet | 零拍摄视频生成的大型语言模型。 | arxiv | 视频 | |
Vispunk运动 | 仅使用文本创建现实的视频。 | 视频 | ||
VisualRWKV | VisualRWKV是RWKV语言模型的视觉增强版本,使RWKV能够处理各种视觉任务。 | 视觉的 | ||
V-JEPA | 视频联合嵌入预测架构。 | arXiv | 视频 | |
沃尔特 | 具有扩散模型的影片生成。 | arXiv | 视频 | |
零镜 | 零镜文本到视频。 | 视频 |
^ 返回目录 ^
来源 | 描述 | 纸 | 游戏引擎 | 类型 |
---|---|---|---|---|
Accorementodec | 用于学术研究的开源音频编解码器模型。 | 声音的 | ||
安菲翁 | 开源音频,音乐和语音生成工具包。 | arxiv | 声音的 | |
档案馆 | 使用扩散模型的音频生成,在Pytorch中。 | 声音的 | ||
音频盒 | 自然语言提示的统一音频产生。 | 声音的 | ||
音频编辑 | 使用DDPM倒置,零射击无监督和基于文本的音频编辑。 | arxiv | 声音的 | |
Audiogen编解码器 | 低压48KHz立体神经音频编解码器用于一般音频,优化了音频保真度? | 声音的 | ||
audiogpt | 理解和产生言语,音乐,声音和说话的头。 | arxiv | 声音的 | |
audiolcm | 具有潜在一致性模型的文本对审计生成。 | arxiv | 声音的 | |
有声 | 具有潜在扩散模型的文本对审计生成。 | arxiv | 声音的 | |
AudiOldm 2 | 通过自我监督的预处理学习整体音频产生。 | arxiv | 声音的 | |
带走 | 利用扩散的力量和大型语言模型来生成文本。 | arXiv | 声音的 | |
CTAG | 通过合成器编程创造的文本对审计生成。 | 声音的 | ||
弗利·克拉夫特 | Foleycrafter:将无声的视频带入栩栩如生和同步的声音。 | arxiv | 声音的 | |
磁铁 | 使用单个非自动回应变压器掩盖了音频生成。 | 声音的 | ||
make-an-audio | 具有及时增强扩散模型的文本对审计生成。 | arxiv | 声音的 | |
Make-An-Audio 3 | 通过基于流量的大扩散变压器将文本转换为音频。 | arxiv | 声音的 | |
神经肌 | 基于学习的模态声音合成,并具有声传递。 | arxiv | 声音的 | |
优化器AI | 创作者,游戏制作者,艺术家,视频制作者的声音。 | 声音的 | ||
Qwen2-音频 | QWEN2-AUDIO聊天和Alibaba Cloud提出的大型音频语言模型。 | arxiv | 声音的 | |
见2 | 零射击空间环境之间的空间声音。 | arxiv | 声音的 | |
声音风暴 | 有效的平行音频产生。 | arxiv | 声音的 | |
稳定的音频 | 快速计时条件的潜在音频扩散。 | 声音的 | ||
稳定的音频打开 | 稳定的音频打开1.0从文本提示下以44.1kHz生成可变长度(最高47s)的立体声音频。 | 声音的 | ||
融合 | 同步:多模式发作同步视频与原告Foley合成。 | arxiv | 声音的 | |
探戈 | 使用指令调整的LLM和潜在扩散模型的文本对审计生成。 | 声音的 | ||
VTA-LDM | 视频对审计产生,并带有隐藏的对齐。 | arXiv | 声音的 | |
Wavjourney | 具有大语言模型的组成音频创建。 | arxiv | 声音的 |
^ 返回目录 ^
来源 | 描述 | 纸 | 游戏引擎 | 类型 |
---|---|---|---|---|
艾瓦 | 人工智能构成情感配乐音乐。 | 音乐 | ||
安培音乐 | 自定义音乐发电技术由Amper提供支持。 | 音乐 | ||
布米 | 创建生成音乐。与世界分享。 | 音乐 | ||
Chatmusician | 将内在的音乐能力促进LLM。 | 音乐 | ||
Chord2melody | 自动音乐一代AI。 | 音乐 | ||
diff-bgm | 视频背景音乐生成的扩散模型。 | arxiv | 音乐 | |
Fluxmusic | Fluxmusic:带有整流流变压器的文本到音乐生成。 | arXiv | 音乐 | |
gptableton | 用于处理GPT响应并将MIDI注释发送到Ableton剪辑的脚本草案草案,并使用Abletonosc和Python-OSC发送。 | 音乐 | ||
Heymusic.ai | 人工智能音乐生成器 | 音乐 | ||
图像到音乐 | AI图像到音乐生成器是一种使用人工智能将图像转换为音乐的工具。 | 音乐 | ||
Jen-1 | 带有全向扩散模型的文本指导的通用音乐生成。 | 音乐 | ||
点唱机 | 音乐的生成模型。 | arxiv | 音乐 | |
品红 | Magenta是一个研究项目,探讨了机器学习在创作艺术和音乐过程中的作用。 | 音乐 | ||
旋律 | 高效的神经音乐发电 | 音乐 | ||
穆伯特 | AI生成音乐。 | 音乐 | ||
musenet | 一个深层的神经网络,可以通过10种不同的乐器产生4分钟的音乐作品,并且可以将各国到莫扎特与甲壳虫乐队的样式结合在一起。 | 音乐 | ||
音乐生成器 | 简单可控的音乐发电。 | arxiv | 音乐 | |
Musicldm | 使用节拍同步混合策略来增强文本到音乐生成的新颖性。 | arxiv | 音乐 | |
音乐LM | 从文本中产生音乐。 | arxiv | 音乐 | |
即兴应用 | Riffusion是一个具有稳定扩散的实时音乐发电的应用程序。 | 音乐 | ||
索纳托 | Sonauto是一位AI音乐编辑器,以任何风格都将提示,歌词或旋律变成完整的歌曲。 | 音乐 | ||
Soundraw | AI音乐生成器的创造者。 | 音乐 | ||
敏感AI | 生成的AI工具,包括文本对和无限的样品包。 | 音乐 |
^ 返回目录 ^
来源 | 描述 | 纸 | 游戏引擎 | 类型 |
---|---|---|---|---|
差异歌手 | 通过浅扩散机制唱歌声音合成。 | arxiv | 唱歌的声音 | |
基于检索的语音转换WebUI | 基于VIT的易于使用的SVC框架。 | 唱歌的声音 | ||
索维茨-SVC | SoftVC VITS 歌声转换。 | 唱歌的声音 | ||
VI-SVS | 使用vits和opencpop来开发唱歌的语音综合;与Visinger不同。 | 唱歌的声音 |
^ 返回目录 ^
来源 | 描述 | 纸 | 游戏引擎 | 类型 |
---|---|---|---|---|
应用程序 | 最终的语音克隆工具,可用于无与伦比的功率,模块化和用户友好的体验。 | 演讲 | ||
原枪 | 发短信。 | 演讲 | ||
吠 | 文本促进的生成音频模型。 | 演讲 | ||
伯特-VITS2 | vits2骨干带有多语言伯特。 | 演讲 | ||
聊天TTS | Chattts是日常对话的生成语音模型。 | 演讲 | ||
拍手 | 从文本上下文中学习韵律,并具有对比性语言训练。 | arxiv | 演讲 | |
舒适之声 | 多语言大语音生成模型,提供推理、训练和部署全栈能力。 | 演讲 | ||
dex-tts | 基于扩散的表达文本到语音,并在时间变化上进行样式建模。 | arxiv | 演讲 | |
表情语音 | 多语音和提示控制的 TTS 引擎。 | 演讲 | ||
弗利基 | 用AI声音将文本变成视频。 | 演讲 | ||
GLM-4-VOICE | GLM-4-VOICE是由Zhipu AI启动的端到端语音模型。 GLM-4-VOICE可以直接理解和生成中文和英语的演讲,进行实时的语音对话,并根据用户说明改变情感,语调,语音率和方言等属性。 | 演讲 | ||
发光TTS | 通过单调对齐搜索搜索文本到语音的生成流。 | arxiv | 演讲 | |
GPT-苏联 | 强大的少量语音转换和文本到语音 WebUI。 | 演讲 | ||
洛夫 | LOVO 是成千上万创作者的首选人工智能语音生成器和文本转语音平台。 | 演讲 | ||
马哈特 | 开源大型语音生成模型。 | 演讲 | ||
Matcha-TTS | 具有条件流量匹配的快速TTS架构。 | arxiv | 演讲 | |
甜瓜语音合成 | MyShell.ai 提供的高质量多语言文本转语音库。支持英语、西班牙语、法语、中文、日语和韩语。 | 演讲 | ||
元语音-1B | AI用于人类言语智能。 | 演讲 | ||
纳拉基特 | 使用逼真的文本来轻松创建配音。 | 演讲 | ||
迷你全向型 | Mini-Omni:语言模型可以在流媒体中思考时听到,说话。 Mini-Omni是一种开源多模型大型语言模型,可以在思考时听到,谈论。具有实时端到端语音输入和流音频输出对话功能。 | arxiv | 演讲 | |
一声音 | 一个射击的语音克隆基础在unet-tts上。 | 演讲 | ||
开放语音 | Myshell即时的语音克隆。 | 演讲 | ||
溢出 | 将流量放在神经传感器的顶部,以获得更好的TT。 | 演讲 | ||
房地产 | Realtimetts是为实时应用程序设计的最先进的文本到语音库(TTS)库。 | 演讲 | ||
SenseVoice | SenseVoice是一种语音基础模型,具有多种语音理解能力,包括自动语音识别(ASR),口语识别(LID),语音情感识别(SER)和音频事件检测(AED)。 | 演讲 | ||
语音GPT | 赋予具有固有的跨模式对话能力的大型语言模型。 | arxiv | 演讲 | |
语音到文本 - gpt3-统一 | 这是我使用Unity的Openai的Whisper和Chatgpt API的回购。 | 统一 | 演讲 | |
稳定的演讲 | 稳定性AI的文本对语音模型。 | 演讲 | ||
Stabletts | 下一代TTS模型使用流量匹配和DIT,灵感来自稳定扩散3。 | 演讲 | ||
风格TTS 2 | 通过大型语音语言模型,通过样式扩散和对抗性培训来实现人级文本到语音。 | arxiv | 演讲 | |
乌龟 | 龟。 | 演讲 | ||
乌龟 | 多功能TTS系统接受质量的重点。 | 演讲 | ||
TTS生成WebUI | TTS Generation Webui(树皮,音乐Gen,Tortoise,RVC,Vocos,Demucs)。 | 演讲 | ||
瓦莱-E | 神经编解码器的语言模型是语音合成器的零声文本。 | arxiv | 演讲 | |
vall-e x | 用自己的声音说外语:跨语性的神经编解码器语言建模 | arxiv | 演讲 | |
声码 | Vocode是用于构建基于语音的LLM应用程序的开源库。 | 演讲 | ||
语音盒 | 文本指导的多语言通用语音生成。 | arXiv | 演讲 | |
声艺 | 零拍的语音编辑和野外文本语音。 | 演讲 | ||
耳语 | Whisper 是一种通用语音识别模型。 | 演讲 | ||
窃窃私语 | 通过反转耳语构建的开源文本到语音系统。 | 演讲 | ||
XE语音 | 非自动回归跨语性情感文字到语音和语音转换的联合培训框架。 | 演讲 | ||
XTTS | XTTS是用于高级文本到语音生成的库。 | 演讲 | ||
Yourtts | 朝着每个人的零声音多扬声器TT和零击语音转换。 | arxiv | 演讲 | |
zmm-tts | 零击的多语言和多语言语音综合以自我监督的离散语音表示为条件。 | arxiv | 演讲 |
^ 返回目录 ^
来源 | 描述 | 游戏引擎 | 类型 |
---|---|---|---|
卢多.ai | 游戏研究和设计的助手。 | 分析 |
^ 返回目录 ^