ai game devtools下載 - ai game devtools原始碼下載

ai game devtools

Ai源碼

1.0.0

下載

AI 遊戲開發工具 (AI-GDT) ？

人工智慧遊戲

在這裡我們將追蹤最新的AI遊戲開發工具，包括LLM、Agent、Code、Writer、Image、Texture、Shader、3D Model、Animation、Video、Audio、Music、Singing Voice和Analytics。

項目清單

工具（人工智慧法學碩士）

來源	描述	紙	遊戲引擎	類型
代理GPT	？在瀏覽器中組裝、配置和部署自主 AI 代理程式。			工具
人工智慧指揮	ChatGPT 與 Unity 編輯器整合。		統一	工具
智慧型作業系統	LLM代理作業系統。			工具
人工智慧科學家	人工智慧科學家：邁向全自動開放式科學發現。	arXiv		工具
助理 CLI	使用 ChatGPT 服務的舒適 CLI 工具			工具
自動GPT	一項讓 GPT-4 完全自主的實驗性開源嘗試。			工具
寶貝AGI	此 Python 腳本是人工智慧驅動的任務管理系統的範例。			工具
??寶貝AGI使用者介面	BabyAGI UI 旨在讓 Babyagi 在 Web 應用程式（例如 ChatGPT）中更輕鬆地運行和開發。			工具
百川7B	百川開發的大規模7B預訓練語言模型。			工具
百川13B	百川智能科技開發的13B大語言模型。			工具
百川2號	百川智能科技開發的一系列大型語言模型。			工具
畢昇	Bisheng是一個針對下一代人工智慧應用的開放式LLM DevOps平台。			工具
性格-法學碩士	可訓練的角色扮演代理。	arXiv		工具
聊天開發	軟體開發的通信代理。	arXiv		工具
ChatGPT-API-unity	將 ChatGPT 聊天完成 API 綁定到 Unity 上的純 C#。		統一	工具
聊天GPTForUnity	ChatGPT 的統一。		統一	工具
聊天RWKV	ChatRWKV 類似於 ChatGPT，但由 RWKV（100% RNN）語言模型提供支持，並且是開源的。			工具
聊天園	中英文對話大語言模型。			工具
中文-LLaMA-Alpaca-3	（中國 Llama-3 法學碩士）從 Meta Llama 3 發展而來。			工具
Chrome-GPT	控制桌面上 Chrome 的 AutoGPT 代理程式。			工具
CogVLM	CogVLM，一個強大的開源視覺語言基礎模型。	arXiv		工具
核心網	用於訓練深度神經網路的庫。			工具
宇宙	Cosmos 是一個世界模型開發平台，由世界基礎模型、分詞器和視訊處理管道組成，可加速機器人和 AV 實驗室物理 AI 的開發。			法學碩士
資料庫接收	DBRX 是由 Databricks 訓練的大型語言模型。			工具
直流LM	語言模型的 DataComp。	arXiv		工具
DeepSeek-V3	DeepSeek-V3 是一個強大的專家混合 (MoE) 語言模型，總參數為 671B，每個令牌啟動 37B。	arXiv		法學碩士
示範GPT	Auto Gen-AI 應用程式產生器，具有 Llama 2 的強大功能			工具
設計到程式碼	自動化前端工程			工具
德維卡	Devika 是一名 Agentic AI 軟體工程師。			工具
德文郡	開源配對程式設計師。			工具
朵拉	產生強大的網站，一次一個提示。			工具
流水	拖放 UI 以使用 LangchainJS 建立您的客製化 LLM 流程。			工具
雙子座	Gemini 是從頭開始建立的多模態——跨文字、圖像、視訊、音訊和程式碼無縫推理。			工具
芽	Gemma 是一系列輕量級、最先進的開放模型，基於用於創建 Google Gemini 模型的研究和技術而構建。			工具
寶石.cpp	適用於 Google Gemma 模型的輕量級獨立 C++ 推理引擎。			工具
GLM-4	GLM-4-9B是智普AI推出的GLM-4系列最新一代預訓練模型的開源版本。			工具
GPT4All	一個聊天機器人，接受了大量乾淨的助理資料的訓練，包括程式碼、故事和對話。			工具
GPT-4o	GPT-4o（「o」代表「o」）是邁向更自然的人機互動的一步——它接受文字、音訊、圖像和視訊的任意組合作為輸入，並產生文字、音訊和圖像的任意組合輸出。			工具
GPT腳本	用自然語言開發法學碩士應用程式。			工具
格羅克-1	我們的 3,140 億參數混合專家模型 Grok-1 的權重和架構。			工具
擁抱聊天	讓社群最好的人工智慧聊天模式可供所有人使用。			工具
擁抱臉部 API Unity 集成	此 Unity 套件為 Hugging Face Inference API 提供了易於使用的集成，允許開發人員在其 Unity 專案中存取和使用 Hugging Face AI 模型。		統一	工具
影像綁定	ImageBind 一個嵌入空間將它們全部綁定。	arXiv		工具
索引-1.9B	SOTA 輕量級多語言法學碩士。			工具
InteractML-Unity	InteractML，Unity3D 的互動式機器學習視覺化腳本框架。		統一	工具
InteractML-虛幻引擎	將機器學習引入虛幻引擎。		虛幻引擎	工具
實習生LM	InternLM開源了70億參數的基礎模型、針對實際場景量身定制的聊天模型和訓練系統。	arXiv		工具
實習生LM-X作曲家	InternLM-XComposer2 是一種突破性的視覺語言大型模型 (VLLM)，在自由格式文字影像合成和理解方面表現出色。	arXiv		工具
揚	將人工智慧帶入您的桌面。			工具
拉米尼	Lamini 允許任何工程團隊透過 RLHF 和對自己的資料進行微調，從而超越通用的 LLM。			工具
LaMini-LM	LaMini-LM 是從 ChatGPT 中提煉出來的小型高效語言模型的集合，並在包含 258 萬條指令的大規模資料集上進行訓練。			工具
浪鏈	LangChain 是用於開發由語言模型支援的應用程式的框架。			工具
語言流	⛓️ LangFlow 是 LangChain 的 UI，採用 React-Flow 設計，提供一種輕鬆的方法來實驗和原型流程。			工具
拉瓦格	使用大型動作模型框架實現自動化。			工具
狐猴	語言代理的開放基礎模型。			工具
輕子人工智慧	一個用於簡化 AI 服務建構的 Pythonic 框架。			工具
利特-美洲駝	基於nanoGPT的LLaMA語言模型的實作。支援 Flash Attention、Int8 和 GPTQ 4bit 量化、LoRA 和 LLaMA-Adapter 微調、預訓練。			工具
llama2-webui	從任何地方 (Linux/Windows/Mac) 在 GPU 或 CPU 上使用 gradio UI 本機運行 Llama 2。			工具
駱駝3	Meta Llama 3 官方 GitHub 網站。			工具
駱駝3.1	Llama 是一種易於訪問、開放的大型語言模型 (LLM)，專為開發人員、研究人員和企業構建、實驗和負責任地擴展其生成式 AI 想法而設計。			工具
LLaSM	大型語言和語音模型。			工具
LLM 答案引擎	使用 Next.js、Groq、Mixtral、Langchain、OpenAI、Brave 和 Serper 來建立受困惑啟發的答案引擎。			工具
LLM.c	使用簡單、原始的 C/CUDA 進行法學碩士培訓。			工具
法學碩士Unity	與法學碩士一起在 Unity 中創建角色！		統一	工具
本地搜尋	LLocalSearch 是一個使用 LLM 代理程式的完全本地運行的搜尋引擎。			工具
邏輯遊戲解算器	一款利用人工智慧、深度學習和電腦視覺解決邏輯遊戲的 Python 工具。			工具
長作家	LongWriter：從長語法學碩士中釋放 10,000 多個單字。	arXiv		工具
大世界模式 (LWM)	大世界模型 (LWM) 是一種通用的大上下文多模態自迴歸模型。	arXiv		工具
Lumina-T2X	Lumina-T2X 是文字到任何模態生成的統一框架。	arXiv		工具
元GPT	多代理框架			工具
迷你CPM-2B	端側 LLM 的表現優於 Llama2-13B。			工具
迷你GPT-4	透過先進的大語言模型增強視覺語言理解。	arXiv		工具
迷你GPT-5	透過產生 Vokens 交錯視覺和語言生成。	arXiv		工具
混合 8x7B	高品質的稀疏專家組合。	arXiv		工具
米斯特拉爾7B	迄今為止最好的 7B 模型，Apache 2.0。			工具
米斯特拉爾大號	Mistral Large 是新的尖端文字生成模型。它達到了頂級的推理能力。			工具
法學碩士	讓每個人都能在每個人的裝置上本地開發、優化和部署人工智慧模型。			工具
移動駱駝	邁向準確、輕量、完全透明的 GPT。	arXiv		工具
教育部拉瓦	大型視覺語言模型的專家組合。	arXiv		工具
莫希	Moshi 是一個實驗性對話式人工智慧。			工具
莫希	Moshi：即時對話的語音文字基礎模型。			工具
苔蘚	復旦大學開源工具增強會話語言模式。			工具
mPLUG-Owl？	模組化使大型語言模型具有多模態性。	arXiv		工具
Nemotron-4	在 8 兆個文字標記上訓練的 150 億參數大型多語言語言模型。	arXiv		工具
下一個GPT	任意對任意多模態大語言模型。			工具
OLMo	開放語言模型	arXiv		工具
全方位LMM	大型多模式模型可實現強大的效能和高效的部署。			工具
法學碩士	一種使所有形式與語言一致的框架。	arXiv		工具
打開助手	OpenAssistant 是一個基於聊天的助手，它可以理解任務，可以與第三方系統交互，並動態檢索資訊來執行此操作。			工具
開放德文	自主人工智慧軟體工程師。			工具
獵戶座14B	Orion-14B 是一個模型家族，包括 14B 基礎 LLM 和一系列模型。	arXiv		工具
貓熊	海外中文開源大語言模型，基於Llama-7B、-13B、-33B、-65B進行中文領域的持續預訓練。			工具
佩普萊西卡	人工智慧驅動的搜尋引擎。			工具
圓周率	人工智慧聊天機器人專為個人幫助和情感支援而設計。			工具
Qwen1.5	Qwen1.5是Qwen的改良版。			工具
Qwen2	Qwen2是阿里雲端Qwen團隊開發的大型語言模式系列。			工具
Qwen-7B	阿里雲提出的Qwen-7B（通義千問-7B）聊天和預訓練大語言模型的官方倉庫。			工具
回購代理	RepoAgent 是一個由大型語言模型 (LLM) 驅動的開源項目，旨在提供一種智慧方式來記錄專案。	arXiv		工具
理智人工智慧引擎	用於 Unity 遊戲開發工具的 Sanity AI 引擎。		統一	工具
搜尋GPT	？將 ChatGPT 連接到互聯網			工具
分享GPT4V	透過更好的標題來改進大型多模態模型。			工具
思凱沃	Skywork系列模型在3.2TB的高品質多語言（主要是中文和英文）和程式碼資料上進行預訓練。			工具
穩定LM	穩定性人工智慧語言模型。	arXiv		工具
斯坦福羊駝毛	遵循指令的 LLaMA 模型。			工具
文字產生 Web UI	用於運行 LLaMA、llama.cpp、GPT-J、OPT 和 GALACTICA 等大型語言模型的 gradio Web UI。			工具
小聊天引擎	設備上的 LLM 推理庫。			工具
工具台	一個用於訓練、服務和評估用於工具學習的大型語言模型的開放平台。			工具
Unity 聊天GPT	Unity ChatGPT 實驗。		統一	工具
Unity OpenAI-API 集成	將openai GPT-3語言模型和ChatGPT API整合到Unity專案中。		統一	工具
虛幻引擎 5 駱駝 LoRA	一個概念驗證項目，展示了使用小型、本地可培訓的法學碩士創建下一代文件工具的潛力。		虛幻引擎	工具
虛幻GPT	由 GPT3/4 提供支援的虛幻引擎 5 編輯器實用程式小工具的集合。		虛幻引擎	工具
視訊-LLaVA	透過投影前對齊學習聯合視覺表示。	arXiv		工具
網路GPT	使用 WebGPU 在瀏覽器上執行 GPT 模型。			工具
Web3-GPT	使用 AI 部署智能合約			工具
字GPT	？將 ChatGPT 的強大功能引入 Microsoft Word			工具
X代理	用於解決複雜任務的自主 LLM 代理程式。			工具
彝族	由開發人員從頭開始訓練的一系列大型語言模型。			工具
01 項目	開源語言模型計算機。			工具

^ 返回目錄 ^

遊戲（代理）

來源	描述	紙	類型
代理工作台	評估法學碩士作為代理人的綜合基準。	arXiv	代理人
代理群聊	互動式群聊擬像，可以更好地引發集體緊急行為。	arXiv	代理人
特工K	一種自我進化和模組化的自動 AGI。		代理人
代理範圍	開始以更簡單的方式建立 LLM 授權的多代理應用程式。	arXiv	代理人
特工模擬人	用於大型語言模型評估的開源沙箱。		代理人
人工智慧小鎮	AI Town 是一個虛擬城鎮，AI 角色在此居住、聊天和社交。		代理人
動漫.gf	CharacterAI 的本地和開源替代品。		遊戲
阿斯特羅卡德	用人工智慧創作遊戲		遊戲
原子特工	Atomic Agents 框架被設計為模組化、可擴展且易於使用。		代理人
自動代理	自動代理程式產生的框架。		代理人
自動產生器	啟用下一代大型語言模型應用程式。	arXiv	代理人
行為	Behaviac是遊戲AI開發的框架。		框架
生物群落	Biomes 是一款使用 Next.js、Typescript、React 和 WebAssembly 等 Web 技術為 Web 建構的開源沙盒 MMORPG。		遊戲
思想緩衝器	使用大型語言模型進行思想增強推理。	arXiv	代理人
拜澤代理	適合所有人的簡單、快速、分散式代理框架。		代理人
貓鎮	AC(h)atGPT 支援的貓模擬。		代理人
貓鎮	AC(h)atGPT 支援的貓模擬。		代理人
角色GLM	利用大語言模型客製化中文會話人工智慧角色。	arXiv	代理人
聊天開發	軟體開發的通信代理。	arXiv	代理人
協同代理	CogAgent是基於CogVLM改進的開源視覺語言模型。	arXiv	代理人
搖籃	邁向通用計算機控制。		代理人
船員人工智慧	用於編排角色扮演、自主人工智慧代理的框架。		代理人
迪菲	Dify 是一個開源 LLM 應用程式建立平台。		代理人
數位生活項目	具有社交智能的自主 3D 角色。	arXiv	代理人
一切-ai	您完全熟練的、人工智慧驅動的本地聊天機器人助手？		代理人
織物	Fabric 是一個使用人工智慧增強人類能力的開源框架。		代理人
快速GPT	FastGPT是一個建立在法學碩士基礎上的知識平台。		代理人
快速RAG	高效率的檢索增強和生成框架。		代理人
遊戲AI SDK	基於圖像的遊戲人工智慧自動化框架。		框架
遊戲生成器	擴散模型是即時遊戲引擎。	arXiv	遊戲
GameGen-O	GameGen-O：開放世界電玩遊戲生成。		遊戲
基因代理	GenAgent：透過自動工作流程產生建構協作人工智慧系統 - ComfyUI 案例研究。	arXiv	代理人
生成代理	人類行為的互動式模擬。	arXiv	代理人
創世紀	Genesis：用於機器人及其他領域的生成式通用物理引擎。		遊戲
精靈	生成互動環境。		遊戲
吉克斯	運行時、LLM 驅動的 NPC。		遊戲
河馬拉格	受神經生物學啟發的大型語言模型的長期記憶。	arXiv	代理人
互動式 LLM 支援的 NPC	Interactive LLM Powered NPCs 是一個開源項目，可以徹底改變您在任何遊戲中與非玩家角色 (NPC) 的互動！		遊戲
奧阿	用於協作人工智慧代理的開源框架，使多樣化的分散式代理能夠透過類似互聯網的連接來組隊並處理複雜的任務。		代理人
快手代理	具有大型語言模型（LLM）的通用資訊搜尋代理系統。	arXiv	代理人
浪鏈	讓您的法學碩士申請從原型到生產。		代理人
朗弗洛	Langflow 是 LangChain 的 UI，採用 React-flow 設計，提供一種輕鬆的方法來實驗和原型流程。		代理人
LangGraph工作室	LangGraph Studio 提供了一種開發 LLM 應用程式的新方法，它提供了一個專門的代理 IDE，可以實現複雜代理應用程式的可視化、互動和調試。		代理人
拉普	開放世界遊戲的語言代理角色扮演。	arXiv	代理人
駱駝代理系統	Llama Stack API 的代理程式元件。		代理人
駱駝指數	LlamaIndex 是 LLM 申請的資料架構。		代理人
心靈搜尋	？基於 LLM 的網路搜尋引擎多代理框架（如 Perplexity.ai Pro 和 SearchGPT）。		代理人
藥劑混合物 (MoA)	混合代理增強了大型語言模型的能力。	arXiv	代理人
MMR角色	MMRole：用於開發和評估多模式角色扮演代理的綜合框架。	arXiv	代理人
月球登陸者.ai	使用生成式 AI 無需任何編碼即可開始建立 3D 遊戲。		框架
穆格擴散	MuG Diffusion 是一種基於穩定擴散（最強大的 AIGC 模型之一）的節奏遊戲圖表 AI，並進行了大量修改以合併音訊波。		遊戲
綠洲	Oasis 是由 Decart 和 Etched 開發的互動世界模型。基於擴散變換器，Oasis 接收用戶鍵盤輸入並以自回歸方式產生遊戲玩法。		遊戲
管理代理	用於解決複雜任務的多模式代理框架。		代理人
開放代理	野外語言代理的開放平台。		代理人
作品	一款將文字變成電玩遊戲的人工智慧應用程式。		遊戲
管道貓	用於語音和多模式會話人工智慧的開源框架。		代理人
Qwen-代理	Qwen-Agent 是一個基於 Qwen 的指令遵循、工具使用、規劃和記憶功能開發 LLM 應用程式的框架。		代理人
拉加斯	Ragas 是一個框架，可協助您評估檢索增強產生 (RAG) 管道。		代理人
RPBench-自動	用於評估法學碩士角色扮演的自動化管道。		遊戲
西瑪	適用於 3D 虛擬環境的多面手 AI 代理程式。		代理人
StoryGames.ai	人工智慧為夢想家製作遊戲。		遊戲
SWE代理	代理電腦介面支援軟體工程語言模型。	arXiv	代理人
工作產生器	基於 LLM 代理程式的 StrictJSON 輸出的基於任務的代理框架。		代理人
十名代理	TEN Agent 是世界上第一個整合了 OpenAI Realtime API、RTC 的即時多模式代理，具有天氣檢查、網路搜尋、視覺和 RAG 功能。		代理人
翻譯代理商	使用反射工作流程進行代理翻譯。		代理人
嘰嘰喳喳	Twitter Personality 是一款 Web 應用程序，它可以分析您的 Twitter 句柄，以使用 Wordware AI Agent 創建個人化的個人檔案。		代理人
無界	無界：角色生活模擬的生成無限遊戲。	arXiv	遊戲
電玩遊戲	來自單一影片的即時、互動式、真實且與瀏覽器相容的環境。	arXiv	遊戲
IRL	將虛擬智慧融入現實生活。	arXiv	代理人
網頁設計代理	用於網頁設計的代理。		代理人
X代理	用於解決複雜任務的自主 LLM 代理程式。		代理人

^ 返回目錄 ^

程式碼

來源	描述	紙	遊戲引擎	類型
人工智慧程式碼翻譯器	使用人工智慧將程式碼從一種語言翻譯成另一種語言。			程式碼
aiXcoder-7B	aiXcoder-7B 程式碼大語言模型。			程式碼
布魯普	bloop 是一個用 Rust 寫的快速程式碼搜尋引擎。			程式碼
查皮特	Jupyter 筆記本中的 ChatGPT 程式碼解釋器。			程式碼
程式碼極X	開放的多語言程式碼生成模型。	arXiv		程式碼
代碼吉X2	更強大的多語言程式碼生成模型。			程式碼
代碼吉X4	CodeGeeX4：開放的多語言程式碼產生模型。			程式碼
程式碼產生器	CodeGen 是一個用於程式綜合的開源模型。在 TPU-v4 上進行訓練。與 OpenAI Codex 競爭。	arXiv		程式碼
程式碼生成2	用於程式綜合的 CodeGen2 模型。	arXiv		程式碼
程式碼駱駝	Code Llama 是基於 Llama 2 的大型程式語言模型。			程式碼
代碼TF	用於最先進程式碼 LLM 的一站式 Transformer 函式庫。			程式碼
代碼T5	用於程式碼理解和產生的開放代碼法學碩士。			程式碼
游標	在新型編輯器中使用 GPT-4 編寫、編輯和討論您的程式碼。			程式碼
DeepSeek 編碼器	DeepSeek Coder：讓程式碼自己寫。	arXiv		程式碼
OpenAI 法典	OpenAI Codex 是 GPT-3 的後代。			程式碼
熊貓人工智慧	Pandas AI 是一個 Python 函式庫，它將產生人工智慧功能整合到 Pandas 中，使資料幀具有對話性。			程式碼
RobloxScripterAI	RobloxScripterAI 是 Roblox 的人工智慧程式碼產生工具。		羅布樂思	程式碼
Scikit-法學碩士	將 ChatGPT 等強大的語言模型無縫整合到 scikit-learn 中，以增強文字分析任務。			程式碼
索塔納	開源軟體開發助理。	arXiv		程式碼
穩定代碼3B	在邊緣編碼。			程式碼
星碼器	？ StarCoder 是一種基於原始碼和自然語言文字訓練的語言模型 (LM)。	arXiv		程式碼
星編碼器2	StarCoder2 是一系列程式碼產生模型（3B、7B 和 15B），經過來自 Stack v2 的 600 多種程式語言以及一些自然語言文字（例如 Wikipedia、Arxiv 和 GitHub issues）的訓練。	arXiv		程式碼
UnityGen人工智慧	UnityGen AI 是 Unity 的 AI 驅動程式碼產生外掛程式。		統一	程式碼
空白	Void 是一個開源 Cursor 替代品。使用最好的 AI 工具編寫程式碼，保留對資料的完全控制，並存取強大的 AI 功能。			程式碼

^ 返回目錄 ^

作家

來源	描述	類型
人工智慧作家	AI寫小說、生成玄幻言情網文等。	作家
Notebook.ai	Notebook.ai 是一套工具，可供作家、遊戲設計師和角色扮演者創建宏偉的宇宙以及其中的一切。	作家
小說	概念式所見即所得編輯器，具有人工智慧驅動的自動完成功能。	作家
小說人工智慧	在人工智慧的驅動下，輕鬆建構獨特的故事、驚心動魄的故事、誘人的浪漫，或只是閒逛。	作家

^ 返回目錄 ^

影像

來源	描述	紙	遊戲引擎	類型
任意門	零樣本物件級影像客製化。	arXiv		影像
任意文字	多語言視覺文本生成和編輯。	arXiv		影像
AutoStudio	在多輪互動式影像生成中製作一致的主題。	arXiv		影像
Blender-ControlNet	直接在 Blender 中使用 ControlNet。		混合器	影像
布里VL	連接視覺和語言模型。	arXiv		影像
卡特彼勒VTON	CatVTON：串聯是您使用擴散模型進行虛擬試戴所需的全部。	arXiv		影像
CLI帕索	一種將物件圖像轉換為草圖的方法，允許不同的抽象層級。	arXiv		影像
剪輯掉落	在幾秒鐘內創造令人驚嘆的視覺效果。			影像
舒適使用者介面	具有圖形/節點介面的強大且模組化的穩定擴散 GUI。			影像
概念實驗室	使用擴散先驗約束的創意生成。	arXiv		影像
控制網	ControlNet 是一種透過增加額外條件來控制擴散模型的神經網路結構。	arXiv		影像
CSGO	CSGO：文字到圖像生成中的內容樣式組合。	arXiv		影像
達爾·E 2	DALL·E 2 是一個人工智慧系統，可以根據自然語言的描述創建逼真的圖像和藝術。			影像
達世通工作室	Dashtoon Studio 是一個人工智慧驅動的漫畫創作平台。			漫畫
深度人工智慧	DeepAI 提供了一套使用 AI 來增強您的創造力的工具。			影像
迪普弗洛伊德 IF	IF 由 StabilityAI 的 DeepFloyd 實驗室提供。			影像
深度任意 V2	深度任意 V2	arXiv		影像
深度圖庫和poser	與Automatic1111/stable-diffusion-webui 的Control Net 擴充功能一起使用的深度圖庫。			影像
擴散選擇	豐富虛擬試用潛在擴散模型中的影像條件修復。	arXiv		影像
迪斯可擴散	用於生成人工智慧藝術和動畫的筆記本、模型和技術的科學怪人式融合。			影像
拖曳GAN	產生圖像流形上的互動式基於點的操作。	arXiv		影像
畫東西	口袋裡的人工智慧輔助圖像生成。			影像
動態姿態	透過兩階段蒸餾進行有效的全身姿勢估計。	arXiv		影像
易照片	您的智慧型人工智慧照片產生器。			影像
通量	此儲存庫包含最少的推理程式碼，可使用我們的 Flux 潛在整流流轉換器運行文字到圖像和圖像到圖像。			影像
跟隨您的點擊	透過簡短提示進行開放域區域影像動畫。	arXiv		影像
福庫斯	專注於提示和生成。			影像
gif融合	使用穩定擴散創建 GIF 和視頻。			影像
接地段任意	自動偵測、分割和產生任何影像、文字和音訊輸入。	arXiv		影像
海威視ID照片	HivisionIDPhotos：一款輕量高效率的AI證件照工具。			影像
華	Hua 是一款具有穩定擴散功能（以及更多）的 AI 影像編輯器。			影像
渾源-DiT	具有細粒度中文理解的強大多解析度擴散變壓器。	arXiv		影像
IC光	IC-Light 是一個控制影像照明的專案。			影像
表意文字	幫助人們變得更有創造力。			影像
影像	Imagen 是一個人工智慧系統，可根據輸入文字創建逼真的圖像。			影像
img2img-渦輪	使用 SD-Turbo 進行一步式影像到影像。			影像
Img2提示	從穩定的擴散產生的圖像中獲取提示。			影像
無限	Infinity：用於高解析度影像合成的位元自回歸建模。	arXiv		影像
即時ID	在幾秒鐘內完成零次身分保護產生。	arXiv		影像
實習生LM-XComposer2	InternLM-XComposer2 是一種突破性的視覺語言大型模型 (VLLM)，在自由格式文字影像合成和理解方面表現出色。	arXiv		影像
無尾熊	自註意力在潛在擴散模型的知識蒸餾中很重要，可實現記憶體高效和快速影像合成。			影像
科勒斯	Kolors：用於真實感文字到影像合成的擴散模型的有效訓練。			影像
韓國房地產協會	使用令人愉快的人工智慧設計工具產生圖像和影片。			影像
拉維橋	連接不同的語言模型和生成視覺模型以生成文字到圖像。	arXiv		影像
層擴散	使用潛在透明度的透明影像層擴散。	arXiv		影像
萊克西卡	穩定的擴散提示搜尋引擎。			影像
駱馬根	自回歸模型擊敗擴散：用於可擴展影像生成的 Llama。	arXiv		影像
Lumina-mGPT	Lumina-mGPT：透過多模態生成預訓練闡明靈活的真實感文字到影像生成。	arXiv		影像
元射擊	MetaShoot 是攝影工作室的數位孿生，作為虛幻引擎的插件開發，使任何創作者都能夠以最簡單、最快的方式產生高度逼真的渲染。		虛幻引擎	影像
中途	Midjourney 是一個獨立的研究實驗室，致力於探索新的思維媒介並擴展人類的想像。			影像
MIGC	MIGC：用於文字到影像合成的多實例生成控制器。	arXiv		影像
模仿筆刷	使用參考模仿進行零樣本影像編輯。	arXiv		影像
奧尼金	OmniGen：統一影像生成。	arXiv		影像
奧莫斯特	Omost是一個將LLM的編碼能力轉換為影像生成（或更準確地說，影像合成）能力的專案。			影像
打開姿勢編輯器	AUTOMATIC1111 的 stable-diffusion-webui 的 Openpose 編輯器。			影像
適合任何人	適合任何服裝和任何人的超高品質虛擬試穿。			影像
繪畫撤銷	PaintsUndo：數位繪畫中繪圖行為的基本模型。			影像
照片製作者	透過堆疊 ID 嵌入客製化逼真的人物照片。	arXiv		影像
照相館	人工智慧背景產生器。			影像
普拉斯克	雲端人工智慧圖像生成。			影像
提示藝術	發電機中心。			影像
普立茲	透過對比對齊進行 Pure 和 Lightning ID 客製化。	arXiv		影像
富文本到圖像	使用富文本生成富有表現力的文字到圖像。	arXiv		影像
RPG-擴散大師	掌握文本到圖像的擴散：使用多模態法學碩士 (PRG) 進行重述、規劃和生成。			影像
SEED-故事	SEED-Story：具有大型語言模型的多模式長故事生成。	arXiv		影像
分割任何東西	Segment Anything Model (SAM)：Meta AI 的新 AI 模型，只需單擊即可「剪切」任何圖像中的任何物件。	arXiv		影像
分段任意模型 2 (SAM 2)	SAM 2：分割影像和影片中的任何內容。	arXiv		影像
SD-WebUI-ControlNet	ControlNet 的 WebUI 擴充功能。			影像
SDXL-閃電	漸進式對抗擴散蒸餾。	arXiv		影像
SDXS	具有影像條件的即時一步潛在擴散模型。			影像
穩定藝術	用於穩定擴散的 Photoshop 插件，以 Automatic1111 作為後端（本地或使用 Google Colab）。			影像
穩定級聯	Stable Cascade由三個模型組成：Stage A、Stage B和Stage C，代表生成影像的級聯，因此得名為「Stable Cascade」。			影像
穩定擴散	潛在文字到圖像的擴散模型。			影像
穩定擴散.cpp	純 C/C++ 中的穩定擴散。			影像
穩定的擴散網頁使用者介面	基於 Gradio 庫的瀏覽器介面，用於穩定擴散。			影像
穩定的擴散網頁使用者介面	基於 Web 的 UI，實現穩定擴散。			影像
穩定擴散WebUI中文	stable-diffusion-webui 中文版。			影像
穩定擴散XL	從文字生成圖像。	arXiv		影像
穩定擴散 XL Turbo	即時文字到圖像生成。			影像
穩定擴散3.5	Stable Diffusion 3.5 開放版本包括多個模型變體，包括 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo。			影像
穩定的塗鴉	Stable Doodle 是一款草圖轉影像工具，可將簡單的繪圖轉換為動態影像。			影像
穩定工作室	Stability AI 的 StableStudio			影像
故事製作者	StoryMaker：在文字到圖像生成中實現整體一致的角色。	arXiv		影像
流擴散	用於即時互動生成的管道級解決方案。			影像
風格下降	任何風格的文字到圖像生成。	arXiv		影像
同步夢想家	從單一視圖影像產生多視圖一致的影像。	arXiv		影像
超編輯	UltraEdit：基於指令的大規模細粒度影像編輯。	arXiv		影像
超像素	UltraPixel：將超高解析度影像合成推向新高峰。	arXiv		影像
Unity ML 穩定擴散	Unity 上的 Core ML 穩定擴散。		統一	影像
維斯龐克願景	文字到圖像生成平台。			影像

^ 返回目錄 ^

質地

來源	描述	紙	遊戲引擎	類型
客戶關係管理	使用卷積重建模型將單一影像轉換為 3D 紋理網格。	arXiv		質地
夢墊	使用幾何和光感知擴散模型產生高品質的 PBR 材質。	arXiv		質地
夢想空間	透過文字驅動的全景紋理傳播來夢想您的房間空間。			質地
夢幻紋理	Blender 內建穩定擴散。使用簡單的文字提示創建紋理、概念藝術、背景資源等。		混合器	質地
指導人類	使用說明編輯動畫 3D 人體紋理。	arXiv		質地
英特克斯	透過統一深度感知修復進行互動式文字到紋理合成。	arXiv		質地
駱駝網格	LLaMA-Mesh：將 3D 網格生成與語言模型統一。	arXiv		網
材質Seg3D	MaterialSeg3D：從 2D 先驗中分割密集材質以獲得 3D 資產。	arXiv		質地
網格任何東西	MaterialSeg3D：從 2D 先驗中分割密集材質以獲得 3D 資產。	arXiv		網
紐拉蘭傑洛	高保真神經表面重建。	arXiv		質地
塗漆	透過深度卷積紋理圖優化和基於物理的渲染進行文字到紋理合成。			質地
寶麗康	只需輸入即可建立您自己的 3D 紋理。			質地
紡織融合	使用文字引導影像擴散模型合成 3D 紋理。	arXiv		質地
文本到文本	透過擴散模型進行文字驅動的紋理合成。	arXiv		質地
紋理實驗室	AI 生成的紋理。您可以使用文字提示產生自己的。			質地
與聚	使用多邊形建立紋理。在免費的線上編輯器中使用 AI 產生 3D 材料，或搜尋我們不斷增長的社群庫。			質地
X-網格	X-Mesh：透過動態文本指導實現快速、準確的文本驅動 3D 風格化。	arXiv		質地

^ 返回目錄 ^

著色器

來源	描述	紙	遊戲引擎	類型
人工智慧著色器	ChatGPT 支援的 Unity 著色器產生器。		統一	著色器

^ 返回目錄 ^

3D模型

來源	描述	紙	遊戲引擎	類型
動畫3D	Animate3D：透過多視圖視訊擴散對任何 3D 模型進行動畫處理。	arXiv		3D
任何 3D	分段-任何內容 + 3D。讓我們將任何事物提升為 3D。	arXiv		模型
任意2點	Any2Point：支援任何模態大型模型以實現高效的 3D 理解。	arXiv		3D
攪拌機GPT	使用 OpenAI 的 GPT-4 使用英文指令來控制 Blender。		混合器	模型
Blender-GPT	一款由 GPT3/4 + Whisper 整合提供支援的一體化 Blender 助手。		混合器	模型
封鎖實驗室	Skybox Lab 實現了真正的數位煉金術 - 終極人工智慧驅動的解決方案，可根據文字提示產生令人難以置信的 360° 天空盒體驗。			模型
CF-3DGS	無 COLMAP 3D 高斯潑濺。	arXiv		3D
角色產生器	CharacterGen：透過多視圖姿勢規範化從單張影像高效地產生 3D 角色。	arXiv		3D
聊天GPT-瑪雅	簡單的 Maya 工具，利用開放式 AI 根據描述性指令執行基本任務。		瑪雅人	模型
城市夢想家	無界 3D 城市的組合生成模型。	arXiv		3D
CSM	從圖像和視訊生成 3D 世界。			3D
短跑	您在虛幻引擎中建構世界的副駕駛。		虛幻引擎	3D
夢想催化劑	DreamCatalyst：透過控制可編輯性和身分保留進行快速、高品質的 3D 編輯。	arXiv		3D
夢幻高斯4D	產生 4D 高斯潑濺。	arXiv		4D
DUSt3R	幾何 3D 視覺變得簡單。	arXiv		3D
艾迪3D	Edify 3D：可擴展的高品質 3D 資產生成。	arXiv		3D
GALA3D	GALA3D：透過佈局引導的生成高斯潑濺實現文字到 3D 複雜場景生成。	arXiv		3D
高斯控制	GaussCtrl：多視圖一致文字驅動的 3D 高斯潑濺編輯。	arXiv		3D
高斯立方體	用於 3D 生成建模的結構化且明確的輻射表示。	arXiv		3D
高斯夢想家	使用點雲先驗快速產生從文字到 3D 高斯潑濺。	arXiv		3D
精靈實驗室	透過 AI-UGC 增強您的遊戲能力。			3D
HIFA	高保真文本轉 3D 以及先進的擴散指導。			模型
全息夢想家	HoloDreamer：根據文字描述產生整體 3D 全景世界。	arXiv		3D
混元3D-1.0	Hunyuan3D-1.0：文字轉3D和圖像轉3D產生的統一框架。	arXiv		3D
英菲尼根	使用程式生成的無限真實世界。	arXiv		3D
指令-NeRF2NeRF	使用說明編輯 3D 場景。	arXiv		模型
互動3D	透過互動式 3D 產生創建您想要的內容。	arXiv		3D
各向同性三維	基於單一 CLIP 嵌入的圖像到 3D 生成。			3D
拿鐵3D	大規模攤銷文字到增強型 3D 合成。	arXiv		3D
獅子	用於產生 3D 形狀的潛點擴散模型。	arXiv		模型
亮度人工智慧	以逼真的 3D 方式捕捉。無與倫比的真實感、反射和細節。視覺特效的未來就在眼前，屬於每個人！			模型
發光人工智慧	人工智慧驅動的創造力。			3D
3D製作	使用擴散先驗從單一影像建立高保真 3D。	arXiv		模型
網狀	使用 AI 創建令人驚嘆的 3D 遊戲資產。			3D
動議	神奇的 3D AI 動畫製作器。			3D
MV夢想	用於 3D 產生的多視圖擴散。	arXiv		3D
NVIDIA 即時 NeRF	即時神經圖形基元：快如閃電的 NeRF 等。			模型
一-2-3-45	45 秒內將任何單一影像轉換為 3D 網格，無需針對每個形狀進行最佳化。	arXiv		模型
繪畫3D	使用無光紋理擴散模型繪製任何 3D 物體。	arXiv		3D
PANiC-3D	根據動漫人物肖像進行風格化單一視圖 3D 重建。	arXiv		模型
點·E	用於 3D 模型合成的點雲擴散。			模型
多產夢想家	透過變分分數蒸餾實現高保真和多樣化的文本到 3D 生成。	arXiv		模型
SF3D	SF3D：透過 UV 展開和照明解纏進行穩定快速的 3D 網格重建。	arXiv		3D
形狀	產生以文字或圖像為條件的 3D 物件。	arXiv		模型
斯洛伊德	3D 建模從未如此簡單。			模型
樣條人工智慧	人工智慧的力量正進入第三維度。使用提示產生物件、動畫和紋理。			模型
穩定的夢境融合	文本轉 3D 模型 Dreamfusion 的 pytorch 實現，由穩定擴散文本轉 2D 模型提供支援。			模型
SV3D	使用潛在視訊擴散從單一影像進行新穎的多視圖合成和 3D 生成。	arXiv		3D
塔菲	AI 文字轉 3D 字元引擎。			模型
3D-GPT	使用大型語言模型進行程式 3D 建模。	arXiv		3D
3D法學碩士	將 3D 世界注入大型語言模型中。	arXiv		3D
3Dpresso	提取影片中捕獲的物件的 3D 模型。			模型
3DTopia	5 分鐘內生成文字到 3D。	arXiv		3D
3DTopia-XL	3DTopia-XL：透過原始擴散擴展高品質 3D 資產產生。	arXiv		3D
三人工作室	3D 內容生成的統一框架。			模型
特里波SR	最先進的開源模型，用於從單一影像快速前饋 3D 重建。	arXiv		模型
獨特的3D	從單一影像生成高品質且高效的 3D 網格。	arXiv		3D
UnityGaussianSplatting	Unity 中的玩具高斯潑濺可視化。		統一	3D
ViVid-1-to-3	使用視訊擴散模型的新穎視圖合成。	arXiv		3D
沃克斯克拉夫特	利用 AI 製作即用型 3D 模型。			3D
奇蹟3D	使用跨域擴散將單一影像轉為 3D。	arXiv		3D
零一到三	零樣本一張影像到 3D 物件。	arXiv		模型

^ 返回目錄 ^

阿凡達

來源	描述	紙	遊戲引擎	類型
動漫肖像	真實感肖像動畫的音訊驅動合成。	arXiv		阿凡達
冷靜的	可定向虛擬角色的條件對抗潛在模型。	arXiv		阿凡達
聊天頭像	在文字引導下漸進產生可動畫 3D 臉孔。			阿凡達
聊天娃娃套件	ChatdollKit 讓您能夠將 3D 模型製作成聊天機器人。		統一	阿凡達
夢話	當富有表現力的頭部說話生成遇到擴散機率模型。	arXiv		阿凡達
杜伊克斯	Duix - 基於矽的數位人類 SDK ？			阿凡達
模仿迴聲	EchoMimic：透過可編輯的地標條件實現逼真的音訊驅動肖像動畫。	arXiv		阿凡達
EMO肖像	情緒增強的多模態一次性頭像。			阿凡達
E3代	高效、富有表現力且可編輯的頭像生成。	arXiv		阿凡達
前阿凡達	ExAvatar - 富有表現力的全身 3D 高斯頭像。	arXiv		阿凡達
基因阿凡達	從單一影像進行通用表達感知體積頭部頭像編輯。	arXiv		阿凡達
基因臉++	通用且穩定的即時 3D 說話人臉生成。			阿凡達
你好	用於肖像圖像動畫的分層音訊驅動視覺合成。	arXiv		阿凡達
你好2	Hallo2：長時間、高解析度音訊驅動的肖像圖像動畫。	arXiv		阿凡達
頭雕	用文字製作 3D 頭部頭像。	arXiv		阿凡達
內在化身	IntrinsicAvatar：透過顯式光線追蹤對單眼影片中的動態人體進行基於物理的逆渲染。	arXiv		阿凡達
林利語者	數字化身對話系統。			阿凡達
現場肖像	LivePortrait：具有拼接和重定向控制的高效肖像動畫。	arXiv		阿凡達
運動GPT	人類運動作為外語，使用法學碩士的統一運動語言生成模型。	arXiv		阿凡達
繆斯姿勢	MusePose：用於產生虛擬人的姿勢驅動的影像到視訊框架。			阿凡達
繆斯談話	即時高品質唇部同步與潛在空間修復。			阿凡達
繆斯V	具有視覺條件並行去噪的無限長度和高保真虛擬人類視訊生成。			阿凡達
肖像4D	使用合成資料學習 One-Shot 4D 頭部頭像合成。	arXiv		阿凡達
準備好玩家我	在幾天內將可自訂的頭像整合到您的遊戲或應用程式中。			阿凡達
羅丹HD	RodinHD：具有擴散模型的高保真 3D 頭像生成。	arXiv		阿凡達
風格Avatar3D	利用圖像文字擴散模型產生高保真 3D 頭像。	arXiv		阿凡達
文字2控制3D	使用幾何引導文字到影像擴散模型在神經輻射場中產生可控 3D 頭像。	arXiv		阿凡達
地形4D	用於高保真 4D 頭部捕獲的拓撲可保持高斯潑濺。	arXiv		阿凡達
UnityAIWithChatGPT	基於Unity，實現ChatGPT+UnityChan語音互動顯示。		統一	阿凡達
視訊頭像	透過自監督場景分解從野外影片重建 3D 頭像。	arXiv		阿凡達
視訊部落客	用於具體化身合成的多模態擴散。			阿凡達
狂野阿凡達	渲染遮擋背後的人類。	arXiv		阿凡達

^ 返回目錄 ^

卡通

來源	描述	紙	類型
為任何人製作動畫	用於角色動畫的一致且可控的圖像到視訊合成。	arXiv	卡通
動畫一切	具有動作引導的細粒度開放域影像動畫。	arXiv	卡通
動畫差異	無需特定調整即可製作個人化文字到圖像擴散模型的動畫。	arXiv	卡通
動畫LCM	讓我們在 4 步內加速影片生成！	arXiv	卡通
動畫-X	Animate-X：具有增強運動表示的通用角色圖像動畫。	arXiv	卡通
動畫零	視訊擴散模型是零鏡頭影像動畫師。	arXiv	卡通
動畫GPT	用於產生遊戲戰鬥動作資產的 AIGC 工具。		卡通
德福魯姆	Deforum 利用穩定擴散來產生不斷發展的 AI 視覺效果。		卡通
繪圖旋轉	DrawingSpinUp：單一角色繪圖的 3D 動畫。	arXiv	卡通
夢想搬家	基於擴散模型的人類視訊生成框架。	arXiv	卡通
臉部融合	下一代換臉器和增強器。		卡通
自由初始化	彌合視訊擴散模型中的初始化差距。	arXiv	卡通
基因臉	通用和高保真音訊驅動的 3D 說話臉部合成。	arXiv	卡通
ID動畫師	零鏡頭身份保護人類影片生成。	arXiv	卡通
魔法動畫	使用擴散模型的時間一致的人體圖像動畫。	arXiv	卡通
女媧	DragNUWA是一種基於擴散的開放域視訊生成模型，以文字、圖像和軌跡控製作為輸入，實現可控視訊生成。	arXiv	卡通
NUWA-無限	NUWA-Infinity 是一種多模態生成模型，旨在根據給定的文字、圖像或視訊輸入生成高品質的圖像和影片。		卡通
女媧-XL	一種新穎的 Diffusion over Diffusion 架構，用於產生超長視訊。		卡通
全向動畫	人工智慧生成高保真動畫。		卡通
PIA	透過文字到圖像模型中的即插即用模組，您的個人化圖像動畫師。	arXiv	卡通
悲傷語者	學習風格化音訊驅動單一影像說話人臉動畫的真實 3D 運動係數。	arXiv	卡通
SadTalker-視訊-口型同步	該專案基於 SadTalkers Wav2lip 進行視訊唇形合成。		卡通
穩定的動畫	為開發人員提供的強大的文字到動畫工具。		卡通
故事工匠	一款支援多個角色的互動式故事視覺化工具。	arXiv	卡通
卡通工匠	ToonCrafter：產生卡通插值。	arXiv	卡通
聲音2唇	在野外準確對口型影片。	arXiv	卡通
奇蹟工作室	一款 AI 工具，可自動將 CG 角色製作成動畫、燈光並合成為真人場景。		卡通

^ 返回目錄 ^

視覺的

來源	描述	紙	類型
寒武紀1號	Cambrian-1：完全開放、以視覺為中心的多模式法學碩士探索。	arXiv	多模式法學碩士
CogVLM2	基於Llama3-8B的GPT4V級開源多模態模型。		視覺的
協同追蹤器	最好一起追蹤。	arXiv	視覺的
電子觀景窗SAM	EVF-SAM：文字提示分段任意模型的早期視覺語言融合。	arXiv	視覺的
麵嗨	最好一起追蹤。		視覺的
實習生LM-XComposer2	InternLM-XComposer2 是一種突破性的視覺語言大型模型 (VLLM)，在自由格式文字影像合成和理解方面表現出色。	arXiv	視覺的
袋鼠	Kangaroo：支援長上下文視訊輸入的強大視訊語言模型。		視覺的
低電壓VI	透過多模式大語言模型實現語言驅動的視訊修復。		視覺的
拉瓦++	使用 LLaMA-3 和 Phi-3 擴展視覺功能。		視覺的
LLaVA-OneVision	LLaVA-OneVision：輕鬆的視覺任務轉移。	arXiv	視覺的
長VA	從語言到視覺的長上下文遷移。	arXiv	視覺的
掩模ViT	用於視訊預測的蒙面視覺預訓練。	arXiv	視覺的
迷你CPM-Llama3-V 2.5	您手機上的 GPT-4V 等級 MLLM。		視覺的
教育部拉瓦	大型視覺語言模型的專家組合。	arXiv	視覺的
運動法學碩士	從人類動作和影片中了解人類行為。	arXiv	視覺的
聚乳酸	從影像到影片的無參數 LLaVA 擴展，用於視訊密集字幕。	arXiv	視覺的
Qwen-VL	用於理解、在地化、文字閱讀等的多功能視覺語言模型。	arXiv	視覺的
智人	Sapiens：人類視覺模式基金會。	arXiv	視覺的
分享GPT4V	透過更好的標題來改進大型多模式模型。	arXiv	視覺的
獨奏	SOLO：用於可擴展視覺語言建模的單一變壓器。	arXiv	視覺的
視訊CCAM	視訊 CCAM：透過因果交叉注意掩模促進視訊語言理解。		視覺的
視訊-LLaVA	透過投影前對齊學習聯合視覺表示。	arXiv	視覺的
視訊駱駝2	推進視頻法學碩士中的時空建模和音頻理解。	arXiv	視覺的
視訊MME	視訊分析領域首個多模式法學碩士綜合評估基準。	arXiv	視覺的
威創	用於理解、生成、分割、編輯的統一像素級視覺法學碩士。		視覺的
維拉	VILA：關於視覺語言模型的預訓練。	arXiv	視覺的

^ 返回目錄 ^

影片

來源	描述	紙	類型
360度DVD	利用 360 度視訊擴散模型產生可控全景影片。	arXiv	影片
動畫故事	用於講述故事的檢索增強視頻生成。	arXiv	影片
任何場景中的任何內容	逼真的視訊物件插入。		影片
ART•V	使用擴散模型的自回歸文字到影片生成。	arXiv	影片
輔助工具	認識將您的想法變為現實的生成視訊平台。		影片
原子影片	高保真度圖像到視頻生成。	arXiv	影片
背景去除劑	背景去除器可讓您使用人工智慧透過簡單的免費開源命令列介面從圖像和影片中移除背景。		影片
盒子模擬器	為影片合成生成豐富且可控的運動。	arXiv	影片
程式碼	用於時間一致視訊處理的內容變形場。	arXiv	影片
齒輪視訊	從文字描述生成影片。		影片
科格影片X	CogVideoX是視訊生成模型的開源版本，與清影同源。		影片
CogVLM	CogVLM 是一個功能強大的開源視覺語言模型 (VLM)。		視覺的
輔酶NR	從手繪動漫角色表（ACS）產生生動的舞蹈影片。	arXiv	影片
脫科赫	創造無法拍攝的東西。		影片
描述	Descript 是一種簡單、強大且有趣的編輯方式。		影片
擴散體	透過擴散模型進行高解析度可編輯卡通著色。	arXiv	影片
海豚	基於LLM的通用視訊互動平台。		影片
多摩人工智慧	使用 DomoAI 增強您的創造力。		影片
夢幻影院	DreamCinema：使用免費相機和 3D 角色進行影片傳輸。	arXiv	影片
動態工匠	使用視訊擴散先驗對開放域影像進行動畫處理。	arXiv	影片
邊緣	我們推出 EDGE，這是一種用於可編輯舞蹈生成的強大方法，能夠創建逼真的、物理上合理的舞蹈，同時保持對任意輸入音樂的忠實。	arXiv	影片
歐洲經濟組織	Emote Portrait Alive - 在弱條件下使用音訊視訊擴散模型產生富有表現力的肖像影片。	arXiv	影片
鴯鶓影片	透過顯式影像調節分解文字到影片的生成。		影片
埃特納火山	Etna可以根據簡短的文字描述產生對應的影片內容。		影片
仙女	快速並行指令引導影片到影片合成。		影片
跟著你的畫布	Follow-Your-Canvas：具有廣泛內容生成的更高解析度影片繪製。	arXiv	影片
跟隨你的姿勢	使用無姿勢影片的姿勢引導文字到影片生成。	arXiv	影片
全程	全套 AI 創建工具觸手可及。		影片
第二代	多模態人工智慧系統，可以產生具有文字、圖像或視訊剪輯的新穎視訊。		影片
生成動力學	生成圖像動力學。		影片
精靈	生成互動環境。	arXiv	影片
玄武	用人工智慧神奇地製作影片。		影片
正創	用於影像和視訊生成的擴散變壓器。		影片
HIGEN	用於文字到視訊產生的分層時空解耦。		影片
Hotshot-XL	Hotshot-XL 是一種 AI 文字轉 GIF 模型，經過訓練可與 Stable Diffusion XL 一起使用。		影片
混源視頻	HunyuanVideo：大型視訊生成模型的系統框架。	arXiv	影片
影像影片	給定文字提示，Imagen Video 使用基本視訊生成模型和一系列交錯的空間和時間視訊超解析度模型生成高清視訊。		影片
教學影片	透過人類回饋指導視訊擴散模型。	arXiv	影片
I2VGen-XL	透過級聯擴散模型進行高品質影像到影片的合成。	arXiv	影片
拉維	使用級聯潛在擴散模型產生高品質視訊。	arXiv	影片
LTX工作室	LTX Studio 是一個面向創作者、行銷人員、電影製作人和工作室的整體、人工智慧驅動的電影製作平台。		影片
LTX-視頻	LTX-Video是第一個基於DiT的視訊生成模型，可以即時產生高品質視訊。它可以產生分辨率為 768x512 的 24 FPS 視頻，速度比觀看視頻的速度還要快。		影片
盧米埃爾	用於視訊生成的時空擴散模型。	arXiv	影片
LVDM	用於高保真長視頻生成的潛在視頻擴散模型。	arXiv	影片
魔幻影片	使用潛在擴散模型的高效視訊生成。	arXiv	影片
MagicVideo-V2	多階段高美觀影片生成。	arXiv	影片
魔法時刻	人工智慧影片創作者變得簡單。		影片
MAGVIT-v2	分詞器是視覺生成的關鍵。		影片
磁力維特	蒙面生成視訊變壓器。		影片
製作影片	Make-A-Video 是一種最先進的人工智慧系統，可以從文字產生視訊。	arXiv	影片
讓像素跳舞	高動態視訊生成。	arXiv	影片
製作你的視頻	使用文字和結構指導產生客製化影片。	arXiv	影片
微型戲院	文字到影片產生的分而治之方法。	arXiv	影片
多輸入多輸出	MIMO：具有空間分解建模的可控字元影片合成。	arXiv	影片
迷你雙子座	挖掘多模態視覺語言模型的潛力。		想像
移動視訊工廠	從文字自動為行動裝置產生基於擴散的社群媒體影片。		影片
麻糬 1	Mochi 1 是一個開放的最先進的視訊生成模型，具有高保真度運動和初步評估中強烈的即時依從性。		影片
MOFA-視頻	透過凍結影像到視訊擴散模型中的生成運動場適應實現可控影像動畫。	arXiv	影片
印鈔機渦輪增壓	使用大模型一鍵產生短影片。		影片
月谷	Moonvalley 是一種突破性的新型文本到視頻生成人工智慧模型。		影片
猜拳	更像是 Sora 的通才視訊生成。	arXiv	影片
變形工作室	透過我們的文字轉影片 AI 魔法，透過提示展現您的創造力。		影片
運動克隆	MotionClone：用於可控視訊產生的免訓練運動克隆。	arXiv	影片
運動控制	用於視訊生成的統一且靈活的運動控制器。	arXiv	影片
動作導演	文字到視頻擴散模型的運動定制。	arXiv	影片
動感工作室	一款以 3D 頭像取代影片中角色的應用程式。		影片
移動2移動	適用於 Automatic1111/stable-diffusion-webui 的 Mov2mov 外掛程式。		影片
電影工廠	使用大型語言和圖像生成模型從文字自動創建電影。	arXiv	影片
神經框架	探索視覺世界的合成器。		影片
永無止境	創造你的世界。		影片
開放索拉	為所有人實現高效能影片製作的民主化。		影片
開放索拉	開放索拉計劃。		影片
費納基	從文字產生影片的模型，提示可以隨著時間的推移而變化，影片可以長達數分鐘。	arXiv	影片
皮卡實驗室	Pika Labs 正在利用人工智慧徹底改變影片製作體驗。		影片
像素化	Pixeling 使我們的客戶能夠創建高精度、超真實且極其可控的視覺內容，包括圖像、視訊和 3D 模型。		影片
像素宇宙	利用 AI 製作令人驚嘆的影片。		影片
授粉	創作變得簡單、快速且充滿樂趣。		影片
重複使用和擴散	用於文字到視訊產生的迭代去噪。	arXiv	影片
如意	Ruyi是一種影像到視頻的模型，能夠產生分辨率為768的電影品質視頻，幀率為每秒24幀，總共5秒120幀。		影片
短GPT	用於自動短/視訊內容創建的實驗性人工智慧框架。		影片
顯示-1	將像素和潛在擴散模型結合起來產生文字到影片。	arXiv	影片
拍攝影片	用於文字到視訊合成的縮放時空轉換器。	arXiv	影片
索拉	從文字建立影片。		影片
索拉韋維	SoraWebui 是一款開源 Sora Web 用戶端，使用戶能夠使用 OpenAI 的 Sora 模型輕鬆地從文字建立影片。		影片
穩定視頻	文字驅動的一致性感知擴散影片編輯。		影片
穩定的視訊擴散	穩定視訊擴散 (SVD) 影像到視訊。		影片
故事擴散	用於長距離影像和影片生成的一致自註意力。	arXiv	影片
串流媒體T2V	從文字產生一致、動態且可擴展的長影片。	arXiv	影片
風格工匠	使用樣式適配器增強樣式化文字到影片的生成。	arXiv	影片
TATS	使用與時間無關的 VQGAN 和時間敏感變壓器產生長視頻。		影片
文字2影片-零	文字到影像擴散模型是零樣本影片產生器。	arXiv	影片
TF-T2V	使用無文字影片擴大文字到影片生成的方法。	arXiv	影片
虎	Tora：用於視訊生成的軌跡導向擴散變壓器。	arXiv	影片
追蹤任何東西	Track-Anything 是一款靈活的互動式視訊物件追蹤和分割工具，基於 Segment Anything 和 XMem。	arXiv	影片
調整影片	用於文字到視訊生成的圖像擴散模型的一次性調整。	arXiv	影片
十二實驗室	像人類一樣理解影片的多模式人工智慧。		影片
大學	邁向統一模態視訊生成。		影片
Vchitect-2.0	Vchitect-2.0：用於放大視訊擴散模型的並聯變壓器。		影片
VGen	一個基於擴散模型的視訊生成整體視訊生成生態系統。	arXiv	影片
觀匠	ViewCrafter：馴服視訊擴散模型以實現高保真新穎的視圖合成。	arXiv	影片
視訊通訊GPT	Video-ChatGPT 是一種視訊對話模型，能夠產生有關視訊的有意義的對話。	arXiv	影片
視訊作曲家	具有運動可控性的合成影片合成。	arXiv	影片
視訊工匠1	用於產生高品質視訊的開放擴散模型。	arXiv	影片
影片工匠2	克服高品質視訊擴散模型的數據限制。	arXiv	影片
視訊繪圖員	使用法學碩士產生內容一致的多場景影片。	arXiv	影片
視訊電梯	透過多功能文字到影像擴散模型提高影片生成品質。	arXiv	影片
視訊工廠	交換時空擴散中的注意力以產生文字到視訊。		影片
視訊產生器	用於生成高清文字到影片的參考引導潛在擴散方法。	arXiv	影片
視訊液晶模組	視訊潛在一致性模型。	arXiv	影片
視訊 LDM	對齊你的潛在：高解析度視訊合成與潛在擴散模型。	arXiv	影片
視訊-LLaVA	透過投影前對齊學習聯合視覺表示。	arXiv	影片
視訊曼巴	用於高效視訊理解的狀態空間模型。	arXiv	影片
思想影片	思考影片：從感知到認知的逐步視訊推理。		影片
視訊詩人	用於零鏡頭視訊生成的大型語言模型。	arXiv	影片
維斯龐克運動	僅使用文字建立逼真的影片。		影片
視覺RWKV	VisualRWKV是RWKV語言模型的視覺增強版本，讓RWKV能夠處理各種視覺任務。		視覺的
V-JEPA	視訊聯合嵌入預測架構。	arXiv	影片
沃特	使用擴散模型產生逼真的影片。	arXiv	影片
零視鏡	Zeroscope 文字到影片。		影片

^ 返回目錄 ^

聲音的

來源	描述	紙	類型
學術編解碼器	用於學術研究的開源音訊編解碼器模型。		聲音的
安菲翁	開源音訊、音樂和語音生成工具包。	arXiv	聲音的
阿奇聲音	在 PyTorch 中使用擴散模型產生音訊。		聲音的
音訊盒	具有自然語言提示的統一音訊生成。		聲音的
音訊編輯	使用 DDPM 反轉進行零樣本無監督和基於文字的音訊編輯。	arXiv	聲音的
Audiogen 編解碼器	適用於一般音訊的低壓縮 48khz 立體聲神經音訊編解碼器，優化音訊保真度？		聲音的
音頻GPT	理解並產生語音、音樂、聲音和頭部說話。	arXiv	聲音的
音頻液晶模組	具有潛在一致性模型的文字到音訊生成。	arXiv	聲音的
音訊LDM	使用潛在擴散模型的文字到音訊生成。	arXiv	聲音的
音訊LDM 2	透過自我監督預訓練學習整體音訊產生。	arXiv	聲音的
充滿	利用擴散和大型語言模型的力量進行文字到音訊的生成。	arXiv	聲音的
CTAG	透過合成器編程創造性地產生文字到音訊。		聲音的
弗利·克拉夫特	FoleyCrafter：透過逼真的同步聲音將無聲影片帶入生活。	arXiv	聲音的
磁鐵	使用單一非自回歸變壓器產生屏蔽音訊。		聲音的
製作音訊	使用提示增強擴散模型產生文字到音訊。	arXiv	聲音的
製作音訊 3	透過基於流的大型擴散變壓器將文字轉換為音訊。	arXiv	聲音的
神經之聲	基於學習的模態聲音合成與聲學傳輸。	arXiv	聲音的
優化器AI	為創作者、遊戲製作者、藝術家、影片製作者提供聲音。		聲音的
Qwen2-音頻	Qwen2-阿里雲提出的音訊聊天和預訓練大型音訊語言模型。	arXiv	聲音的
SEE-2-聲音	零射擊空間環境到空間聲音。	arXiv	聲音的
聲音風暴	高效的並行音訊生成。	arXiv	聲音的
穩定的音訊	快速定時條件潛在音訊擴散。		聲音的
穩定的音訊打開	Stable Audio Open 1.0 根據文字提示產生 44.1kHz 的可變長度（最長 47 秒）立體聲音訊。		聲音的
同步融合	SyncFusion：多模式起始同步視訊到音訊擬音合成。	arXiv	聲音的
探戈	使用指令調整的 LLM 和潛在擴散模型產生文字到音訊。		聲音的
VTA-LDM	具有隱藏對齊的視頻到音頻生成。	arXiv	聲音的
波之旅	使用大型語言模型進行組合音訊創作。	arXiv	聲音的

^ 返回目錄 ^

音樂

來源	描述	紙	類型
艾瓦	人工智慧創作情感配樂。		音樂
安培音樂	由 Amper 提供支援的客製化音樂生成技術。		音樂
布米	創作生成音樂。與世界分享。		音樂
聊天音樂家	培養內在的音樂能力進入法學碩士。		音樂
和弦2旋律	自動音樂產生人工智慧。		音樂
差異BGM	視訊背景音樂生成的擴散模型。	arXiv	音樂
Flux音樂	FluxMusic：使用整流流變壓器產生文字到音樂。	arXiv	音樂
GP桌布爾頓	用於處理 GPT 回應並使用 AbletonOSC 和 python-osc 將 MIDI 音符發送到 Ableton 剪輯的草稿腳本。		音樂
嘿音樂.AI	人工智慧音樂生成器		音樂
影像到音樂	AI Image to Music Generator是一款利用人工智慧將圖像轉換為音樂的工具。		音樂
JEN-1	具有全方位擴散模型的文字引導通用音樂生成。		音樂
點唱機	音樂生成模型。	arXiv	音樂
品紅	Magenta 是一個研究項目，探索機器學習在藝術和音樂創作過程中的作用。		音樂
旋律	高效的神經音樂生成		音樂
穆伯特	人工智慧生成音樂。		音樂
繆斯網	深度神經網路可以用 10 種不同的樂器產生 4 分鐘的音樂作品，並且可以結合從鄉村到莫札特再到披頭四的風格。		音樂
音樂產生器	簡單且可控的音樂生成。	arXiv	音樂
音樂LDM	使用節拍同步混合策略增強文字到音樂生成的新穎性。	arXiv	音樂
音樂LM	從文字生成音樂。	arXiv	音樂
擴散應用程式	Riffusion 是一款即時音樂產生、擴散穩定的應用程式。		音樂
索納托	Sonauto 是一款人工智慧音樂編輯器，可將提示、歌詞或旋律轉換為任何風格的完整歌曲。		音樂
聲音原始	為創作者提供的人工智慧音樂產生器。		音樂
聲瑞人工智慧	產生人工智慧工具，包括文字轉聲音和無限樣本包。		音樂

^ 返回目錄 ^

歌聲

來源	描述	紙	類型
差異歌手	透過淺擴散機制合成歌聲。	arXiv	歌聲
基於檢索的語音轉換WebUI	一個基於 VITS 的易於使用的 SVC 框架。		歌聲
索維茨-SVC	SoftVC VITS 歌聲轉換。		歌聲
六維SVS	使用VITS和Opencpop開發歌聲合成；與VISinger不同。		歌聲

^ 返回目錄 ^

演講

來源	描述	紙	遊戲引擎	類型
應用程式	終極語音克隆工具，經過精心優化，具有無與倫比的功能、模組化和用戶友好的體驗。			演講
奧迪歐	文字輸入。			演講
吠	文字提示的生成音訊模型。			演講
伯特-VITS2	VITS2 Backbone 具有多語言 bert。			演講
聊天TTS	ChatTTS 是一種用於日常對話的生成語音模型。			演講
拍手演講	透過對比語言音訊預訓練從文字上下文中學習韻律。	arXiv		演講
舒適之聲	多語言大語音生成模型，提供推理、訓練和部署全端能力。			演講
右旋語音合成	基於擴散的表達性文字轉語音與時間變異性風格建模。	arXiv		演講
表情語音	多重語音和提示控制的 TTS 引擎。			演講
弗利基	將文字變成帶有 AI 語音的影片。			演講
GLM-4-語音	GLM-4-Voice是智浦AI推出的端對端語音模型。 GLM-4-Voice可以直接理解並產生中英文語音，進行即時語音對話，並根據使用者指令改變情緒、語調、語速、方言等屬性。			演講
發光TTS	透過單調對齊搜尋的文字轉語音的生成流程。	arXiv		演講
GPT-蘇聯	強大的少量語音轉換和文字到語音 WebUI。			演講
樂沃	LOVO 是成千上萬創作者的首選人工智慧語音產生器和文字轉語音平台。			演講
摩訶 TTS	開源大型語音生成模型。			演講
抹茶-TTS	具有條件流匹配的快速 TTS 架構。	arXiv		演講
甜瓜語音合成	MyShell.ai 提供的高品質多語言文字轉語音庫。支援英語、西班牙語、法語、中文、日語和韓語。			演講
元語音-1B	人類等級的語音智慧人工智慧。			演講
納拉基特	使用逼真的文字轉語音輕鬆創建畫外音。			演講
迷你全向型	Mini-Omni：語言模型可以在串流媒體中一邊聽一邊思考。 Mini-Omni是一個開源的多模型大語言模型，可以一邊聽一邊思考。具有即時端對端語音輸入和串流音訊輸出對話功能。	arXiv		演講
一鍵語音克隆	基於 Unet-TTS 的一鍵語音克隆。			演講
開放語音	透過 MyShell 進行即時語音克隆。			演講
溢出	將流置於神經換能器之上以實現更好的 TTS。			演講
即時TTS	RealtimeTTS 是一個專為即時應用程式設計的最先進的文字轉語音 (TTS) 庫。			演講
SenseVoice	SenseVoice是一個語音基礎模型，具有多種語音理解能力，包括自動語音辨識（ASR）、口語辨識（LID）、語音情緒辨識（SER）和音訊事件偵測（AED）。			演講
語音GPT	賦予大型語言模型固有的跨模式對話能力。	arXiv		演講
語音轉文字 gpt3-unity	這是我在 Unity 中使用 OpenAI 的 Whisper 和 ChatGPT API 的儲存庫。		統一	演講
言語穩定	Stability AI 的文字轉語音模型。			演講
穩定TTS	受穩定擴散 3 啟發，使用流匹配和 DiT 的下一代 TTS 模型。			演講
風格TTS 2	透過風格擴散和大型語音語言模型的對抗性訓練實現人類水平的文本到語音。	arXiv		演講
烏龜.cpp	tortoise.cpp：tortoise-tts 的 GGML 實作。			演講
TorToiSe-TTS	經過訓練且注重品質的多語音 TTS 系統。			演講
TTS 產生 WebUI	TTS Generation WebUI（Bark、MusicGen、Tortoise、RVC、Vocos、Demucs）。			演講
瓦萊-E	神經編解碼器語言模型是零樣本文字到語音合成器。	arXiv		演講
瓦萊X	用自己的聲音說外語：跨語言神經編解碼器語言建模	arXiv		演講
聲碼	Vocode 是一個開源程式庫，用於建立基於語音的 LLM 應用程式。			演講
語音盒	大規模文字引導多語言通用語音生成。	arXiv		演講
聲藝	野外零樣本語音編輯和文字轉語音。			演講
耳語	Whisper 是一種通用語音辨識模型。			演講
耳語	透過反轉 Whisper 建構的開源文字轉語音系統。			演講
XE-語音	非自回歸跨語言情緒文本到語音和語音轉換的聯合訓練框架。			演講
XTTS	XTTS 是一個用於進階文字轉語音產生的函式庫。			演講
你的TTS	面向所有人的零射擊多揚聲器 TTS 和零射擊語音轉換。	arXiv		演講
ZMM-TTS	基於自監督離散語音表示的零樣本多語言和多說話人語音合成。	arXiv		演講