ai game devtools
1.0.0
在這裡我們將追蹤最新的AI遊戲開發工具,包括LLM、Agent、Code、Writer、Image、Texture、Shader、3D Model、Animation、Video、Audio、Music、Singing Voice和Analytics。
來源 | 描述 | 紙 | 遊戲引擎 | 類型 |
---|---|---|---|---|
代理GPT | ?在瀏覽器中組裝、配置和部署自主 AI 代理程式。 | 工具 | ||
人工智慧指揮 | ChatGPT 與 Unity 編輯器整合。 | 統一 | 工具 | |
智慧型作業系統 | LLM代理作業系統。 | 工具 | ||
人工智慧科學家 | 人工智慧科學家:邁向全自動開放式科學發現。 | arXiv | 工具 | |
助理 CLI | 使用 ChatGPT 服務的舒適 CLI 工具 | 工具 | ||
自動GPT | 一項讓 GPT-4 完全自主的實驗性開源嘗試。 | 工具 | ||
寶貝AGI | 此 Python 腳本是人工智慧驅動的任務管理系統的範例。 | 工具 | ||
??寶貝AGI使用者介面 | BabyAGI UI 旨在讓 Babyagi 在 Web 應用程式(例如 ChatGPT)中更輕鬆地運行和開發。 | 工具 | ||
百川7B | 百川開發的大規模7B預訓練語言模型。 | 工具 | ||
百川13B | 百川智能科技開發的13B大語言模型。 | 工具 | ||
百川2號 | 百川智能科技開發的一系列大型語言模型。 | 工具 | ||
畢昇 | Bisheng是一個針對下一代人工智慧應用的開放式LLM DevOps平台。 | 工具 | ||
性格-法學碩士 | 可訓練的角色扮演代理。 | arXiv | 工具 | |
聊天開發 | 軟體開發的通信代理。 | arXiv | 工具 | |
ChatGPT-API-unity | 將 ChatGPT 聊天完成 API 綁定到 Unity 上的純 C#。 | 統一 | 工具 | |
聊天GPTForUnity | ChatGPT 的統一。 | 統一 | 工具 | |
聊天RWKV | ChatRWKV 類似於 ChatGPT,但由 RWKV(100% RNN)語言模型提供支持,並且是開源的。 | 工具 | ||
聊天園 | 中英文對話大語言模型。 | 工具 | ||
中文-LLaMA-Alpaca-3 | (中國 Llama-3 法學碩士)從 Meta Llama 3 發展而來。 | 工具 | ||
Chrome-GPT | 控制桌面上 Chrome 的 AutoGPT 代理程式。 | 工具 | ||
CogVLM | CogVLM,一個強大的開源視覺語言基礎模型。 | arXiv | 工具 | |
核心網 | 用於訓練深度神經網路的庫。 | 工具 | ||
宇宙 | Cosmos 是一個世界模型開發平台,由世界基礎模型、分詞器和視訊處理管道組成,可加速機器人和 AV 實驗室物理 AI 的開發。 | 法學碩士 | ||
資料庫接收 | DBRX 是由 Databricks 訓練的大型語言模型。 | 工具 | ||
直流LM | 語言模型的 DataComp。 | arXiv | 工具 | |
DeepSeek-V3 | DeepSeek-V3 是一個強大的專家混合 (MoE) 語言模型,總參數為 671B,每個令牌啟動 37B。 | arXiv | 法學碩士 | |
示範GPT | Auto Gen-AI 應用程式產生器,具有 Llama 2 的強大功能 | 工具 | ||
設計到程式碼 | 自動化前端工程 | 工具 | ||
德維卡 | Devika 是一名 Agentic AI 軟體工程師。 | 工具 | ||
德文郡 | 開源配對程式設計師。 | 工具 | ||
朵拉 | 產生強大的網站,一次一個提示。 | 工具 | ||
流水 | 拖放 UI 以使用 LangchainJS 建立您的客製化 LLM 流程。 | 工具 | ||
雙子座 | Gemini 是從頭開始建立的多模態——跨文字、圖像、視訊、音訊和程式碼無縫推理。 | 工具 | ||
芽 | Gemma 是一系列輕量級、最先進的開放模型,基於用於創建 Google Gemini 模型的研究和技術而構建。 | 工具 | ||
寶石.cpp | 適用於 Google Gemma 模型的輕量級獨立 C++ 推理引擎。 | 工具 | ||
GLM-4 | GLM-4-9B是智普AI推出的GLM-4系列最新一代預訓練模型的開源版本。 | 工具 | ||
GPT4All | 一個聊天機器人,接受了大量乾淨的助理資料的訓練,包括程式碼、故事和對話。 | 工具 | ||
GPT-4o | GPT-4o(「o」代表「o」)是邁向更自然的人機互動的一步——它接受文字、音訊、圖像和視訊的任意組合作為輸入,並產生文字、音訊和圖像的任意組合輸出。 | 工具 | ||
GPT腳本 | 用自然語言開發法學碩士應用程式。 | 工具 | ||
格羅克-1 | 我們的 3,140 億參數混合專家模型 Grok-1 的權重和架構。 | 工具 | ||
擁抱聊天 | 讓社群最好的人工智慧聊天模式可供所有人使用。 | 工具 | ||
擁抱臉部 API Unity 集成 | 此 Unity 套件為 Hugging Face Inference API 提供了易於使用的集成,允許開發人員在其 Unity 專案中存取和使用 Hugging Face AI 模型。 | 統一 | 工具 | |
影像綁定 | ImageBind 一個嵌入空間將它們全部綁定。 | arXiv | 工具 | |
索引-1.9B | SOTA 輕量級多語言法學碩士。 | 工具 | ||
InteractML-Unity | InteractML,Unity3D 的互動式機器學習視覺化腳本框架。 | 統一 | 工具 | |
InteractML-虛幻引擎 | 將機器學習引入虛幻引擎。 | 虛幻引擎 | 工具 | |
實習生LM | InternLM開源了70億參數的基礎模型、針對實際場景量身定制的聊天模型和訓練系統。 | arXiv | 工具 | |
實習生LM-X作曲家 | InternLM-XComposer2 是一種突破性的視覺語言大型模型 (VLLM),在自由格式文字影像合成和理解方面表現出色。 | arXiv | 工具 | |
揚 | 將人工智慧帶入您的桌面。 | 工具 | ||
拉米尼 | Lamini 允許任何工程團隊透過 RLHF 和對自己的資料進行微調,從而超越通用的 LLM。 | 工具 | ||
LaMini-LM | LaMini-LM 是從 ChatGPT 中提煉出來的小型高效語言模型的集合,並在包含 258 萬條指令的大規模資料集上進行訓練。 | 工具 | ||
浪鏈 | LangChain 是用於開發由語言模型支援的應用程式的框架。 | 工具 | ||
語言流 | ⛓️ LangFlow 是 LangChain 的 UI,採用 React-Flow 設計,提供一種輕鬆的方法來實驗和原型流程。 | 工具 | ||
拉瓦格 | 使用大型動作模型框架實現自動化。 | 工具 | ||
狐猴 | 語言代理的開放基礎模型。 | 工具 | ||
輕子人工智慧 | 一個用於簡化 AI 服務建構的 Pythonic 框架。 | 工具 | ||
利特-美洲駝 | 基於nanoGPT的LLaMA語言模型的實作。支援 Flash Attention、Int8 和 GPTQ 4bit 量化、LoRA 和 LLaMA-Adapter 微調、預訓練。 | 工具 | ||
llama2-webui | 從任何地方 (Linux/Windows/Mac) 在 GPU 或 CPU 上使用 gradio UI 本機運行 Llama 2。 | 工具 | ||
駱駝3 | Meta Llama 3 官方 GitHub 網站。 | 工具 | ||
駱駝3.1 | Llama 是一種易於訪問、開放的大型語言模型 (LLM),專為開發人員、研究人員和企業構建、實驗和負責任地擴展其生成式 AI 想法而設計。 | 工具 | ||
LLaSM | 大型語言和語音模型。 | 工具 | ||
LLM 答案引擎 | 使用 Next.js、Groq、Mixtral、Langchain、OpenAI、Brave 和 Serper 來建立受困惑啟發的答案引擎。 | 工具 | ||
LLM.c | 使用簡單、原始的 C/CUDA 進行法學碩士培訓。 | 工具 | ||
法學碩士Unity | 與法學碩士一起在 Unity 中創建角色! | 統一 | 工具 | |
本地搜尋 | LLocalSearch 是一個使用 LLM 代理程式的完全本地運行的搜尋引擎。 | 工具 | ||
邏輯遊戲解算器 | 一款利用人工智慧、深度學習和電腦視覺解決邏輯遊戲的 Python 工具。 | 工具 | ||
長作家 | LongWriter:從長語法學碩士中釋放 10,000 多個單字。 | arXiv | 工具 | |
大世界模式 (LWM) | 大世界模型 (LWM) 是一種通用的大上下文多模態自迴歸模型。 | arXiv | 工具 | |
Lumina-T2X | Lumina-T2X 是文字到任何模態生成的統一框架。 | arXiv | 工具 | |
元GPT | 多代理框架 | 工具 | ||
迷你CPM-2B | 端側 LLM 的表現優於 Llama2-13B。 | 工具 | ||
迷你GPT-4 | 透過先進的大語言模型增強視覺語言理解。 | arXiv | 工具 | |
迷你GPT-5 | 透過產生 Vokens 交錯視覺和語言生成。 | arXiv | 工具 | |
混合 8x7B | 高品質的稀疏專家組合。 | arXiv | 工具 | |
米斯特拉爾7B | 迄今為止最好的 7B 模型,Apache 2.0。 | 工具 | ||
米斯特拉爾大號 | Mistral Large 是新的尖端文字生成模型。它達到了頂級的推理能力。 | 工具 | ||
法學碩士 | 讓每個人都能在每個人的裝置上本地開發、優化和部署人工智慧模型。 | 工具 | ||
移動駱駝 | 邁向準確、輕量、完全透明的 GPT。 | arXiv | 工具 | |
教育部拉瓦 | 大型視覺語言模型的專家組合。 | arXiv | 工具 | |
莫希 | Moshi 是一個實驗性對話式人工智慧。 | 工具 | ||
莫希 | Moshi:即時對話的語音文字基礎模型。 | 工具 | ||
苔蘚 | 復旦大學開源工具增強會話語言模式。 | 工具 | ||
mPLUG-Owl? | 模組化使大型語言模型具有多模態性。 | arXiv | 工具 | |
Nemotron-4 | 在 8 兆個文字標記上訓練的 150 億參數大型多語言語言模型。 | arXiv | 工具 | |
下一個GPT | 任意對任意多模態大語言模型。 | 工具 | ||
OLMo | 開放語言模型 | arXiv | 工具 | |
全方位LMM | 大型多模式模型可實現強大的效能和高效的部署。 | 工具 | ||
法學碩士 | 一種使所有形式與語言一致的框架。 | arXiv | 工具 | |
打開助手 | OpenAssistant 是一個基於聊天的助手,它可以理解任務,可以與第三方系統交互,並動態檢索資訊來執行此操作。 | 工具 | ||
開放德文 | 自主人工智慧軟體工程師。 | 工具 | ||
獵戶座14B | Orion-14B 是一個模型家族,包括 14B 基礎 LLM 和一系列模型。 | arXiv | 工具 | |
貓熊 | 海外中文開源大語言模型,基於Llama-7B、-13B、-33B、-65B進行中文領域的持續預訓練。 | 工具 | ||
佩普萊西卡 | 人工智慧驅動的搜尋引擎。 | 工具 | ||
圓周率 | 人工智慧聊天機器人專為個人幫助和情感支援而設計。 | 工具 | ||
Qwen1.5 | Qwen1.5是Qwen的改良版。 | 工具 | ||
Qwen2 | Qwen2是阿里雲端Qwen團隊開發的大型語言模式系列。 | 工具 | ||
Qwen-7B | 阿里雲提出的Qwen-7B(通義千問-7B)聊天和預訓練大語言模型的官方倉庫。 | 工具 | ||
回購代理 | RepoAgent 是一個由大型語言模型 (LLM) 驅動的開源項目,旨在提供一種智慧方式來記錄專案。 | arXiv | 工具 | |
理智人工智慧引擎 | 用於 Unity 遊戲開發工具的 Sanity AI 引擎。 | 統一 | 工具 | |
搜尋GPT | ?將 ChatGPT 連接到互聯網 | 工具 | ||
分享GPT4V | 透過更好的標題來改進大型多模態模型。 | 工具 | ||
思凱沃 | Skywork系列模型在3.2TB的高品質多語言(主要是中文和英文)和程式碼資料上進行預訓練。 | 工具 | ||
穩定LM | 穩定性人工智慧語言模型。 | arXiv | 工具 | |
斯坦福羊駝毛 | 遵循指令的 LLaMA 模型。 | 工具 | ||
文字產生 Web UI | 用於運行 LLaMA、llama.cpp、GPT-J、OPT 和 GALACTICA 等大型語言模型的 gradio Web UI。 | 工具 | ||
小聊天引擎 | 設備上的 LLM 推理庫。 | 工具 | ||
工具台 | 一個用於訓練、服務和評估用於工具學習的大型語言模型的開放平台。 | 工具 | ||
Unity 聊天GPT | Unity ChatGPT 實驗。 | 統一 | 工具 | |
Unity OpenAI-API 集成 | 將openai GPT-3語言模型和ChatGPT API整合到Unity專案中。 | 統一 | 工具 | |
虛幻引擎 5 駱駝 LoRA | 一個概念驗證項目,展示了使用小型、本地可培訓的法學碩士創建下一代文件工具的潛力。 | 虛幻引擎 | 工具 | |
虛幻GPT | 由 GPT3/4 提供支援的虛幻引擎 5 編輯器實用程式小工具的集合。 | 虛幻引擎 | 工具 | |
視訊-LLaVA | 透過投影前對齊學習聯合視覺表示。 | arXiv | 工具 | |
網路GPT | 使用 WebGPU 在瀏覽器上執行 GPT 模型。 | 工具 | ||
Web3-GPT | 使用 AI 部署智能合約 | 工具 | ||
字GPT | ?將 ChatGPT 的強大功能引入 Microsoft Word | 工具 | ||
X代理 | 用於解決複雜任務的自主 LLM 代理程式。 | 工具 | ||
彝族 | 由開發人員從頭開始訓練的一系列大型語言模型。 | 工具 | ||
01 項目 | 開源語言模型計算機。 | 工具 |
^ 返回目錄 ^
來源 | 描述 | 紙 | 遊戲引擎 | 類型 |
---|---|---|---|---|
代理工作台 | 評估法學碩士作為代理人的綜合基準。 | arXiv | 代理人 | |
代理群聊 | 互動式群聊擬像,可以更好地引發集體緊急行為。 | arXiv | 代理人 | |
特工K | 一種自我進化和模組化的自動 AGI。 | 代理人 | ||
代理範圍 | 開始以更簡單的方式建立 LLM 授權的多代理應用程式。 | arXiv | 代理人 | |
特工模擬人 | 用於大型語言模型評估的開源沙箱。 | 代理人 | ||
人工智慧小鎮 | AI Town 是一個虛擬城鎮,AI 角色在此居住、聊天和社交。 | 代理人 | ||
動漫.gf | CharacterAI 的本地和開源替代品。 | 遊戲 | ||
阿斯特羅卡德 | 用人工智慧創作遊戲 | 遊戲 | ||
原子特工 | Atomic Agents 框架被設計為模組化、可擴展且易於使用。 | 代理人 | ||
自動代理 | 自動代理程式產生的框架。 | 代理人 | ||
自動產生器 | 啟用下一代大型語言模型應用程式。 | arXiv | 代理人 | |
行為 | Behaviac是遊戲AI開發的框架。 | 框架 | ||
生物群落 | Biomes 是一款使用 Next.js、Typescript、React 和 WebAssembly 等 Web 技術為 Web 建構的開源沙盒 MMORPG。 | 遊戲 | ||
思想緩衝器 | 使用大型語言模型進行思想增強推理。 | arXiv | 代理人 | |
拜澤代理 | 適合所有人的簡單、快速、分散式代理框架。 | 代理人 | ||
貓鎮 | AC(h)atGPT 支援的貓模擬。 | 代理人 | ||
貓鎮 | AC(h)atGPT 支援的貓模擬。 | 代理人 | ||
角色GLM | 利用大語言模型客製化中文會話人工智慧角色。 | arXiv | 代理人 | |
聊天開發 | 軟體開發的通信代理。 | arXiv | 代理人 | |
協同代理 | CogAgent是基於CogVLM改進的開源視覺語言模型。 | arXiv | 代理人 | |
搖籃 | 邁向通用計算機控制。 | 代理人 | ||
船員人工智慧 | 用於編排角色扮演、自主人工智慧代理的框架。 | 代理人 | ||
迪菲 | Dify 是一個開源 LLM 應用程式建立平台。 | 代理人 | ||
數位生活項目 | 具有社交智能的自主 3D 角色。 | arXiv | 代理人 | |
一切-ai | 您完全熟練的、人工智慧驅動的本地聊天機器人助手? | 代理人 | ||
織物 | Fabric 是一個使用人工智慧增強人類能力的開源框架。 | 代理人 | ||
快速GPT | FastGPT是一個建立在法學碩士基礎上的知識平台。 | 代理人 | ||
快速RAG | 高效率的檢索增強和生成框架。 | 代理人 | ||
遊戲AI SDK | 基於圖像的遊戲人工智慧自動化框架。 | 框架 | ||
遊戲生成器 | 擴散模型是即時遊戲引擎。 | arXiv | 遊戲 | |
GameGen-O | GameGen-O:開放世界電玩遊戲生成。 | 遊戲 | ||
基因代理 | GenAgent:透過自動工作流程產生建構協作人工智慧系統 - ComfyUI 案例研究。 | arXiv | 代理人 | |
生成代理 | 人類行為的互動式模擬。 | arXiv | 代理人 | |
創世紀 | Genesis:用於機器人及其他領域的生成式通用物理引擎。 | 遊戲 | ||
精靈 | 生成互動環境。 | 遊戲 | ||
吉克斯 | 運行時、LLM 驅動的 NPC。 | 遊戲 | ||
河馬拉格 | 受神經生物學啟發的大型語言模型的長期記憶。 | arXiv | 代理人 | |
互動式 LLM 支援的 NPC | Interactive LLM Powered NPCs 是一個開源項目,可以徹底改變您在任何遊戲中與非玩家角色 (NPC) 的互動! | 遊戲 | ||
奧阿 | 用於協作人工智慧代理的開源框架,使多樣化的分散式代理能夠透過類似互聯網的連接來組隊並處理複雜的任務。 | 代理人 | ||
快手代理 | 具有大型語言模型(LLM)的通用資訊搜尋代理系統。 | arXiv | 代理人 | |
浪鏈 | 讓您的法學碩士申請從原型到生產。 | 代理人 | ||
朗弗洛 | Langflow 是 LangChain 的 UI,採用 React-flow 設計,提供一種輕鬆的方法來實驗和原型流程。 | 代理人 | ||
LangGraph工作室 | LangGraph Studio 提供了一種開發 LLM 應用程式的新方法,它提供了一個專門的代理 IDE,可以實現複雜代理應用程式的可視化、互動和調試。 | 代理人 | ||
拉普 | 開放世界遊戲的語言代理角色扮演。 | arXiv | 代理人 | |
駱駝代理系統 | Llama Stack API 的代理程式元件。 | 代理人 | ||
駱駝指數 | LlamaIndex 是 LLM 申請的資料架構。 | 代理人 | ||
心靈搜尋 | ?基於 LLM 的網路搜尋引擎多代理框架(如 Perplexity.ai Pro 和 SearchGPT)。 | 代理人 | ||
藥劑混合物 (MoA) | 混合代理增強了大型語言模型的能力。 | arXiv | 代理人 | |
MMR角色 | MMRole:用於開發和評估多模式角色扮演代理的綜合框架。 | arXiv | 代理人 | |
月球登陸者.ai | 使用生成式 AI 無需任何編碼即可開始建立 3D 遊戲。 | 框架 | ||
穆格擴散 | MuG Diffusion 是一種基於穩定擴散(最強大的 AIGC 模型之一)的節奏遊戲圖表 AI,並進行了大量修改以合併音訊波。 | 遊戲 | ||
綠洲 | Oasis 是由 Decart 和 Etched 開發的互動世界模型。基於擴散變換器,Oasis 接收用戶鍵盤輸入並以自回歸方式產生遊戲玩法。 | 遊戲 | ||
管理代理 | 用於解決複雜任務的多模式代理框架。 | 代理人 | ||
開放代理 | 野外語言代理的開放平台。 | 代理人 | ||
作品 | 一款將文字變成電玩遊戲的人工智慧應用程式。 | 遊戲 | ||
管道貓 | 用於語音和多模式會話人工智慧的開源框架。 | 代理人 | ||
Qwen-代理 | Qwen-Agent 是一個基於 Qwen 的指令遵循、工具使用、規劃和記憶功能開發 LLM 應用程式的框架。 | 代理人 | ||
拉加斯 | Ragas 是一個框架,可協助您評估檢索增強產生 (RAG) 管道。 | 代理人 | ||
RPBench-自動 | 用於評估法學碩士角色扮演的自動化管道。 | 遊戲 | ||
西瑪 | 適用於 3D 虛擬環境的多面手 AI 代理程式。 | 代理人 | ||
StoryGames.ai | 人工智慧為夢想家製作遊戲。 | 遊戲 | ||
SWE代理 | 代理電腦介面支援軟體工程語言模型。 | arXiv | 代理人 | |
工作產生器 | 基於 LLM 代理程式的 StrictJSON 輸出的基於任務的代理框架。 | 代理人 | ||
十名代理 | TEN Agent 是世界上第一個整合了 OpenAI Realtime API、RTC 的即時多模式代理,具有天氣檢查、網路搜尋、視覺和 RAG 功能。 | 代理人 | ||
翻譯代理商 | 使用反射工作流程進行代理翻譯。 | 代理人 | ||
嘰嘰喳喳 | Twitter Personality 是一款 Web 應用程序,它可以分析您的 Twitter 句柄,以使用 Wordware AI Agent 創建個人化的個人檔案。 | 代理人 | ||
無界 | 無界:角色生活模擬的生成無限遊戲。 | arXiv | 遊戲 | |
電玩遊戲 | 來自單一影片的即時、互動式、真實且與瀏覽器相容的環境。 | arXiv | 遊戲 | |
IRL | 將虛擬智慧融入現實生活。 | arXiv | 代理人 | |
網頁設計代理 | 用於網頁設計的代理。 | 代理人 | ||
X代理 | 用於解決複雜任務的自主 LLM 代理程式。 | 代理人 |
^ 返回目錄 ^
來源 | 描述 | 紙 | 遊戲引擎 | 類型 |
---|---|---|---|---|
人工智慧程式碼翻譯器 | 使用人工智慧將程式碼從一種語言翻譯成另一種語言。 | 程式碼 | ||
aiXcoder-7B | aiXcoder-7B 程式碼大語言模型。 | 程式碼 | ||
布魯普 | bloop 是一個用 Rust 寫的快速程式碼搜尋引擎。 | 程式碼 | ||
查皮特 | Jupyter 筆記本中的 ChatGPT 程式碼解釋器。 | 程式碼 | ||
程式碼極X | 開放的多語言程式碼生成模型。 | arXiv | 程式碼 | |
代碼吉X2 | 更強大的多語言程式碼生成模型。 | 程式碼 | ||
代碼吉X4 | CodeGeeX4:開放的多語言程式碼產生模型。 | 程式碼 | ||
程式碼產生器 | CodeGen 是一個用於程式綜合的開源模型。在 TPU-v4 上進行訓練。與 OpenAI Codex 競爭。 | arXiv | 程式碼 | |
程式碼生成2 | 用於程式綜合的 CodeGen2 模型。 | arXiv | 程式碼 | |
程式碼駱駝 | Code Llama 是基於 Llama 2 的大型程式語言模型。 | 程式碼 | ||
代碼TF | 用於最先進程式碼 LLM 的一站式 Transformer 函式庫。 | 程式碼 | ||
代碼T5 | 用於程式碼理解和產生的開放代碼法學碩士。 | 程式碼 | ||
游標 | 在新型編輯器中使用 GPT-4 編寫、編輯和討論您的程式碼。 | 程式碼 | ||
DeepSeek 編碼器 | DeepSeek Coder:讓程式碼自己寫。 | arXiv | 程式碼 | |
OpenAI 法典 | OpenAI Codex 是 GPT-3 的後代。 | 程式碼 | ||
熊貓人工智慧 | Pandas AI 是一個 Python 函式庫,它將產生人工智慧功能整合到 Pandas 中,使資料幀具有對話性。 | 程式碼 | ||
RobloxScripterAI | RobloxScripterAI 是 Roblox 的人工智慧程式碼產生工具。 | 羅布樂思 | 程式碼 | |
Scikit-法學碩士 | 將 ChatGPT 等強大的語言模型無縫整合到 scikit-learn 中,以增強文字分析任務。 | 程式碼 | ||
索塔納 | 開源軟體開發助理。 | arXiv | 程式碼 | |
穩定代碼3B | 在邊緣編碼。 | 程式碼 | ||
星碼器 | ? StarCoder 是一種基於原始碼和自然語言文字訓練的語言模型 (LM)。 | arXiv | 程式碼 | |
星編碼器2 | StarCoder2 是一系列程式碼產生模型(3B、7B 和 15B),經過來自 Stack v2 的 600 多種程式語言以及一些自然語言文字(例如 Wikipedia、Arxiv 和 GitHub issues)的訓練。 | arXiv | 程式碼 | |
UnityGen人工智慧 | UnityGen AI 是 Unity 的 AI 驅動程式碼產生外掛程式。 | 統一 | 程式碼 | |
空白 | Void 是一個開源 Cursor 替代品。使用最好的 AI 工具編寫程式碼,保留對資料的完全控制,並存取強大的 AI 功能。 | 程式碼 |
^ 返回目錄 ^
來源 | 描述 | 紙 | 遊戲引擎 | 類型 |
---|---|---|---|---|
人工智慧作家 | AI寫小說、生成玄幻言情網文等。 | 作家 | ||
Notebook.ai | Notebook.ai 是一套工具,可供作家、遊戲設計師和角色扮演者創建宏偉的宇宙以及其中的一切。 | 作家 | ||
小說 | 概念式所見即所得編輯器,具有人工智慧驅動的自動完成功能。 | 作家 | ||
小說人工智慧 | 在人工智慧的驅動下,輕鬆建構獨特的故事、驚心動魄的故事、誘人的浪漫,或只是閒逛。 | 作家 |
^ 返回目錄 ^
來源 | 描述 | 紙 | 遊戲引擎 | 類型 |
---|---|---|---|---|
任意門 | 零樣本物件級影像客製化。 | arXiv | 影像 | |
任意文字 | 多語言視覺文本生成和編輯。 | arXiv | 影像 | |
AutoStudio | 在多輪互動式影像生成中製作一致的主題。 | arXiv | 影像 | |
Blender-ControlNet | 直接在 Blender 中使用 ControlNet。 | 混合器 | 影像 | |
布里VL | 連接視覺和語言模型。 | arXiv | 影像 | |
卡特彼勒VTON | CatVTON:串聯是您使用擴散模型進行虛擬試戴所需的全部。 | arXiv | 影像 | |
CLI帕索 | 一種將物件圖像轉換為草圖的方法,允許不同的抽象層級。 | arXiv | 影像 | |
剪輯掉落 | 在幾秒鐘內創造令人驚嘆的視覺效果。 | 影像 | ||
舒適使用者介面 | 具有圖形/節點介面的強大且模組化的穩定擴散 GUI。 | 影像 | ||
概念實驗室 | 使用擴散先驗約束的創意生成。 | arXiv | 影像 | |
控制網 | ControlNet 是一種透過增加額外條件來控制擴散模型的神經網路結構。 | arXiv | 影像 | |
CSGO | CSGO:文字到圖像生成中的內容樣式組合。 | arXiv | 影像 | |
達爾·E 2 | DALL·E 2 是一個人工智慧系統,可以根據自然語言的描述創建逼真的圖像和藝術。 | 影像 | ||
達世通工作室 | Dashtoon Studio 是一個人工智慧驅動的漫畫創作平台。 | 漫畫 | ||
深度人工智慧 | DeepAI 提供了一套使用 AI 來增強您的創造力的工具。 | 影像 | ||
迪普弗洛伊德 IF | IF 由 StabilityAI 的 DeepFloyd 實驗室提供。 | 影像 | ||
深度任意 V2 | 深度任意 V2 | arXiv | 影像 | |
深度圖庫和poser | 與Automatic1111/stable-diffusion-webui 的Control Net 擴充功能一起使用的深度圖庫。 | 影像 | ||
擴散選擇 | 豐富虛擬試用潛在擴散模型中的影像條件修復。 | arXiv | 影像 | |
迪斯可擴散 | 用於生成人工智慧藝術和動畫的筆記本、模型和技術的科學怪人式融合。 | 影像 | ||
拖曳GAN | 產生圖像流形上的互動式基於點的操作。 | arXiv | 影像 | |
畫東西 | 口袋裡的人工智慧輔助圖像生成。 | 影像 | ||
動態姿態 | 透過兩階段蒸餾進行有效的全身姿勢估計。 | arXiv | 影像 | |
易照片 | 您的智慧型人工智慧照片產生器。 | 影像 | ||
通量 | 此儲存庫包含最少的推理程式碼,可使用我們的 Flux 潛在整流流轉換器運行文字到圖像和圖像到圖像。 | 影像 | ||
跟隨您的點擊 | 透過簡短提示進行開放域區域影像動畫。 | arXiv | 影像 | |
福庫斯 | 專注於提示和生成。 | 影像 | ||
gif融合 | 使用穩定擴散創建 GIF 和視頻。 | 影像 | ||
接地段任意 | 自動偵測、分割和產生任何影像、文字和音訊輸入。 | arXiv | 影像 | |
海威視ID照片 | HivisionIDPhotos:一款輕量高效率的AI證件照工具。 | 影像 | ||
華 | Hua 是一款具有穩定擴散功能(以及更多)的 AI 影像編輯器。 | 影像 | ||
渾源-DiT | 具有細粒度中文理解的強大多解析度擴散變壓器。 | arXiv | 影像 | |
IC光 | IC-Light 是一個控制影像照明的專案。 | 影像 | ||
表意文字 | 幫助人們變得更有創造力。 | 影像 | ||
影像 | Imagen 是一個人工智慧系統,可根據輸入文字創建逼真的圖像。 | 影像 | ||
img2img-渦輪 | 使用 SD-Turbo 進行一步式影像到影像。 | 影像 | ||
Img2提示 | 從穩定的擴散產生的圖像中獲取提示。 | 影像 | ||
無限 | Infinity:用於高解析度影像合成的位元自回歸建模。 | arXiv | 影像 | |
即時ID | 在幾秒鐘內完成零次身分保護產生。 | arXiv | 影像 | |
實習生LM-XComposer2 | InternLM-XComposer2 是一種突破性的視覺語言大型模型 (VLLM),在自由格式文字影像合成和理解方面表現出色。 | arXiv | 影像 | |
無尾熊 | 自註意力在潛在擴散模型的知識蒸餾中很重要,可實現記憶體高效和快速影像合成。 | 影像 | ||
科勒斯 | Kolors:用於真實感文字到影像合成的擴散模型的有效訓練。 | 影像 | ||
韓國房地產協會 | 使用令人愉快的人工智慧設計工具產生圖像和影片。 | 影像 | ||
拉維橋 | 連接不同的語言模型和生成視覺模型以生成文字到圖像。 | arXiv | 影像 | |
層擴散 | 使用潛在透明度的透明影像層擴散。 | arXiv | 影像 | |
萊克西卡 | 穩定的擴散提示搜尋引擎。 | 影像 | ||
駱馬根 | 自回歸模型擊敗擴散:用於可擴展影像生成的 Llama。 | arXiv | 影像 | |
Lumina-mGPT | Lumina-mGPT:透過多模態生成預訓練闡明靈活的真實感文字到影像生成。 | arXiv | 影像 | |
元射擊 | MetaShoot 是攝影工作室的數位孿生,作為虛幻引擎的插件開發,使任何創作者都能夠以最簡單、最快的方式產生高度逼真的渲染。 | 虛幻引擎 | 影像 | |
中途 | Midjourney 是一個獨立的研究實驗室,致力於探索新的思維媒介並擴展人類的想像。 | 影像 | ||
MIGC | MIGC:用於文字到影像合成的多實例生成控制器。 | arXiv | 影像 | |
模仿筆刷 | 使用參考模仿進行零樣本影像編輯。 | arXiv | 影像 | |
奧尼金 | OmniGen:統一影像生成。 | arXiv | 影像 | |
奧莫斯特 | Omost是一個將LLM的編碼能力轉換為影像生成(或更準確地說,影像合成)能力的專案。 | 影像 | ||
打開姿勢編輯器 | AUTOMATIC1111 的 stable-diffusion-webui 的 Openpose 編輯器。 | 影像 | ||
適合任何人 | 適合任何服裝和任何人的超高品質虛擬試穿。 | 影像 | ||
繪畫撤銷 | PaintsUndo:數位繪畫中繪圖行為的基本模型。 | 影像 | ||
照片製作者 | 透過堆疊 ID 嵌入客製化逼真的人物照片。 | arXiv | 影像 | |
照相館 | 人工智慧背景產生器。 | 影像 | ||
普拉斯克 | 雲端人工智慧圖像生成。 | 影像 | ||
提示藝術 | 發電機中心。 | 影像 | ||
普立茲 | 透過對比對齊進行 Pure 和 Lightning ID 客製化。 | arXiv | 影像 | |
富文本到圖像 | 使用富文本生成富有表現力的文字到圖像。 | arXiv | 影像 | |
RPG-擴散大師 | 掌握文本到圖像的擴散:使用多模態法學碩士 (PRG) 進行重述、規劃和生成。 | 影像 | ||
SEED-故事 | SEED-Story:具有大型語言模型的多模式長故事生成。 | arXiv | 影像 | |
分割任何東西 | Segment Anything Model (SAM):Meta AI 的新 AI 模型,只需單擊即可「剪切」任何圖像中的任何物件。 | arXiv | 影像 | |
分段任意模型 2 (SAM 2) | SAM 2:分割影像和影片中的任何內容。 | arXiv | 影像 | |
SD-WebUI-ControlNet | ControlNet 的 WebUI 擴充功能。 | 影像 | ||
SDXL-閃電 | 漸進式對抗擴散蒸餾。 | arXiv | 影像 | |
SDXS | 具有影像條件的即時一步潛在擴散模型。 | 影像 | ||
穩定藝術 | 用於穩定擴散的 Photoshop 插件,以 Automatic1111 作為後端(本地或使用 Google Colab)。 | 影像 | ||
穩定級聯 | Stable Cascade由三個模型組成:Stage A、Stage B和Stage C,代表生成影像的級聯,因此得名為「Stable Cascade」。 | 影像 | ||
穩定擴散 | 潛在文字到圖像的擴散模型。 | 影像 | ||
穩定擴散.cpp | 純 C/C++ 中的穩定擴散。 | 影像 | ||
穩定的擴散網頁使用者介面 | 基於 Gradio 庫的瀏覽器介面,用於穩定擴散。 | 影像 | ||
穩定的擴散網頁使用者介面 | 基於 Web 的 UI,實現穩定擴散。 | 影像 | ||
穩定擴散WebUI中文 | stable-diffusion-webui 中文版。 | 影像 | ||
穩定擴散XL | 從文字生成圖像。 | arXiv | 影像 | |
穩定擴散 XL Turbo | 即時文字到圖像生成。 | 影像 | ||
穩定擴散3.5 | Stable Diffusion 3.5 開放版本包括多個模型變體,包括 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo。 | 影像 | ||
穩定的塗鴉 | Stable Doodle 是一款草圖轉影像工具,可將簡單的繪圖轉換為動態影像。 | 影像 | ||
穩定工作室 | Stability AI 的 StableStudio | 影像 | ||
故事製作者 | StoryMaker:在文字到圖像生成中實現整體一致的角色。 | arXiv | 影像 | |
流擴散 | 用於即時互動生成的管道級解決方案。 | 影像 | ||
風格下降 | 任何風格的文字到圖像生成。 | arXiv | 影像 | |
同步夢想家 | 從單一視圖影像產生多視圖一致的影像。 | arXiv | 影像 | |
超編輯 | UltraEdit:基於指令的大規模細粒度影像編輯。 | arXiv | 影像 | |
超像素 | UltraPixel:將超高解析度影像合成推向新高峰。 | arXiv | 影像 | |
Unity ML 穩定擴散 | Unity 上的 Core ML 穩定擴散。 | 統一 | 影像 | |
維斯龐克願景 | 文字到圖像生成平台。 | 影像 |
^ 返回目錄 ^
來源 | 描述 | 紙 | 遊戲引擎 | 類型 |
---|---|---|---|---|
客戶關係管理 | 使用卷積重建模型將單一影像轉換為 3D 紋理網格。 | arXiv | 質地 | |
夢墊 | 使用幾何和光感知擴散模型產生高品質的 PBR 材質。 | arXiv | 質地 | |
夢想空間 | 透過文字驅動的全景紋理傳播來夢想您的房間空間。 | 質地 | ||
夢幻紋理 | Blender 內建穩定擴散。使用簡單的文字提示創建紋理、概念藝術、背景資源等。 | 混合器 | 質地 | |
指導人類 | 使用說明編輯動畫 3D 人體紋理。 | arXiv | 質地 | |
英特克斯 | 透過統一深度感知修復進行互動式文字到紋理合成。 | arXiv | 質地 | |
駱駝網格 | LLaMA-Mesh:將 3D 網格生成與語言模型統一。 | arXiv | 網 | |
材質Seg3D | MaterialSeg3D:從 2D 先驗中分割密集材質以獲得 3D 資產。 | arXiv | 質地 | |
網格任何東西 | MaterialSeg3D:從 2D 先驗中分割密集材質以獲得 3D 資產。 | arXiv | 網 | |
紐拉蘭傑洛 | 高保真神經表面重建。 | arXiv | 質地 | |
塗漆 | 透過深度卷積紋理圖優化和基於物理的渲染進行文字到紋理合成。 | 質地 | ||
寶麗康 | 只需輸入即可建立您自己的 3D 紋理。 | 質地 | ||
紡織融合 | 使用文字引導影像擴散模型合成 3D 紋理。 | arXiv | 質地 | |
文本到文本 | 透過擴散模型進行文字驅動的紋理合成。 | arXiv | 質地 | |
紋理實驗室 | AI 生成的紋理。您可以使用文字提示產生自己的。 | 質地 | ||
與聚 | 使用多邊形建立紋理。在免費的線上編輯器中使用 AI 產生 3D 材料,或搜尋我們不斷增長的社群庫。 | 質地 | ||
X-網格 | X-Mesh:透過動態文本指導實現快速、準確的文本驅動 3D 風格化。 | arXiv | 質地 |
^ 返回目錄 ^
來源 | 描述 | 紙 | 遊戲引擎 | 類型 |
---|---|---|---|---|
人工智慧著色器 | ChatGPT 支援的 Unity 著色器產生器。 | 統一 | 著色器 |
^ 返回目錄 ^
來源 | 描述 | 紙 | 遊戲引擎 | 類型 |
---|---|---|---|---|
動畫3D | Animate3D:透過多視圖視訊擴散對任何 3D 模型進行動畫處理。 | arXiv | 3D | |
任何 3D | 分段-任何內容 + 3D。讓我們將任何事物提升為 3D。 | arXiv | 模型 | |
任意2點 | Any2Point:支援任何模態大型模型以實現高效的 3D 理解。 | arXiv | 3D | |
攪拌機GPT | 使用 OpenAI 的 GPT-4 使用英文指令來控制 Blender。 | 混合器 | 模型 | |
Blender-GPT | 一款由 GPT3/4 + Whisper 整合提供支援的一體化 Blender 助手。 | 混合器 | 模型 | |
封鎖實驗室 | Skybox Lab 實現了真正的數位煉金術 - 終極人工智慧驅動的解決方案,可根據文字提示產生令人難以置信的 360° 天空盒體驗。 | 模型 | ||
CF-3DGS | 無 COLMAP 3D 高斯潑濺。 | arXiv | 3D | |
角色產生器 | CharacterGen:透過多視圖姿勢規範化從單張影像高效地產生 3D 角色。 | arXiv | 3D | |
聊天GPT-瑪雅 | 簡單的 Maya 工具,利用開放式 AI 根據描述性指令執行基本任務。 | 瑪雅人 | 模型 | |
城市夢想家 | 無界 3D 城市的組合生成模型。 | arXiv | 3D | |
CSM | 從圖像和視訊生成 3D 世界。 | 3D | ||
短跑 | 您在虛幻引擎中建構世界的副駕駛。 | 虛幻引擎 | 3D | |
夢想催化劑 | DreamCatalyst:透過控制可編輯性和身分保留進行快速、高品質的 3D 編輯。 | arXiv | 3D | |
夢幻高斯4D | 產生 4D 高斯潑濺。 | arXiv | 4D | |
DUSt3R | 幾何 3D 視覺變得簡單。 | arXiv | 3D | |
艾迪3D | Edify 3D:可擴展的高品質 3D 資產生成。 | arXiv | 3D | |
GALA3D | GALA3D:透過佈局引導的生成高斯潑濺實現文字到 3D 複雜場景生成。 | arXiv | 3D | |
高斯控制 | GaussCtrl:多視圖一致文字驅動的 3D 高斯潑濺編輯。 | arXiv | 3D | |
高斯立方體 | 用於 3D 生成建模的結構化且明確的輻射表示。 | arXiv | 3D | |
高斯夢想家 | 使用點雲先驗快速產生從文字到 3D 高斯潑濺。 | arXiv | 3D | |
精靈實驗室 | 透過 AI-UGC 增強您的遊戲能力。 | 3D | ||
HIFA | 高保真文本轉 3D 以及先進的擴散指導。 | 模型 | ||
全息夢想家 | HoloDreamer:根據文字描述產生整體 3D 全景世界。 | arXiv | 3D | |
混元3D-1.0 | Hunyuan3D-1.0:文字轉3D和圖像轉3D產生的統一框架。 | arXiv | 3D | |
英菲尼根 | 使用程式生成的無限真實世界。 | arXiv | 3D | |
指令-NeRF2NeRF | 使用說明編輯 3D 場景。 | arXiv | 模型 | |
互動3D | 透過互動式 3D 產生創建您想要的內容。 | arXiv | 3D | |
各向同性三維 | 基於單一 CLIP 嵌入的圖像到 3D 生成。 | 3D | ||
拿鐵3D | 大規模攤銷文字到增強型 3D 合成。 | arXiv | 3D | |
獅子 | 用於產生 3D 形狀的潛點擴散模型。 | arXiv | 模型 | |
亮度人工智慧 | 以逼真的 3D 方式捕捉。無與倫比的真實感、反射和細節。視覺特效的未來就在眼前,屬於每個人! | 模型 | ||
發光人工智慧 | 人工智慧驅動的創造力。 | 3D | ||
3D製作 | 使用擴散先驗從單一影像建立高保真 3D。 | arXiv | 模型 | |
網狀 | 使用 AI 創建令人驚嘆的 3D 遊戲資產。 | 3D | ||
動議 | 神奇的 3D AI 動畫製作器。 | 3D | ||
MV夢想 | 用於 3D 產生的多視圖擴散。 | arXiv | 3D | |
NVIDIA 即時 NeRF | 即時神經圖形基元:快如閃電的 NeRF 等。 | 模型 | ||
一-2-3-45 | 45 秒內將任何單一影像轉換為 3D 網格,無需針對每個形狀進行最佳化。 | arXiv | 模型 | |
繪畫3D | 使用無光紋理擴散模型繪製任何 3D 物體。 | arXiv | 3D | |
PANiC-3D | 根據動漫人物肖像進行風格化單一視圖 3D 重建。 | arXiv | 模型 | |
點·E | 用於 3D 模型合成的點雲擴散。 | 模型 | ||
多產夢想家 | 透過變分分數蒸餾實現高保真和多樣化的文本到 3D 生成。 | arXiv | 模型 | |
SF3D | SF3D:透過 UV 展開和照明解纏進行穩定快速的 3D 網格重建。 | arXiv | 3D | |
形狀 | 產生以文字或圖像為條件的 3D 物件。 | arXiv | 模型 | |
斯洛伊德 | 3D 建模從未如此簡單。 | 模型 | ||
樣條人工智慧 | 人工智慧的力量正進入第三維度。使用提示產生物件、動畫和紋理。 | 模型 | ||
穩定的夢境融合 | 文本轉 3D 模型 Dreamfusion 的 pytorch 實現,由穩定擴散文本轉 2D 模型提供支援。 | 模型 | ||
SV3D | 使用潛在視訊擴散從單一影像進行新穎的多視圖合成和 3D 生成。 | arXiv | 3D | |
塔菲 | AI 文字轉 3D 字元引擎。 | 模型 | ||
3D-GPT | 使用大型語言模型進行程式 3D 建模。 | arXiv | 3D | |
3D法學碩士 | 將 3D 世界注入大型語言模型中。 | arXiv | 3D | |
3Dpresso | 提取影片中捕獲的物件的 3D 模型。 | 模型 | ||
3DTopia | 5 分鐘內生成文字到 3D。 | arXiv | 3D | |
3DTopia-XL | 3DTopia-XL:透過原始擴散擴展高品質 3D 資產產生。 | arXiv | 3D | |
三人工作室 | 3D 內容生成的統一框架。 | 模型 | ||
特里波SR | 最先進的開源模型,用於從單一影像快速前饋 3D 重建。 | arXiv | 模型 | |
獨特的3D | 從單一影像生成高品質且高效的 3D 網格。 | arXiv | 3D | |
UnityGaussianSplatting | Unity 中的玩具高斯潑濺可視化。 | 統一 | 3D | |
ViVid-1-to-3 | 使用視訊擴散模型的新穎視圖合成。 | arXiv | 3D | |
沃克斯克拉夫特 | 利用 AI 製作即用型 3D 模型。 | 3D | ||
奇蹟3D | 使用跨域擴散將單一影像轉為 3D。 | arXiv | 3D | |
零一到三 | 零樣本一張影像到 3D 物件。 | arXiv | 模型 |
^ 返回目錄 ^
來源 | 描述 | 紙 | 遊戲引擎 | 類型 |
---|---|---|---|---|
動漫肖像 | 真實感肖像動畫的音訊驅動合成。 | arXiv | 阿凡達 | |
冷靜的 | 可定向虛擬角色的條件對抗潛在模型。 | arXiv | 阿凡達 | |
聊天頭像 | 在文字引導下漸進產生可動畫 3D 臉孔。 | 阿凡達 | ||
聊天娃娃套件 | ChatdollKit 讓您能夠將 3D 模型製作成聊天機器人。 | 統一 | 阿凡達 | |
夢話 | 當富有表現力的頭部說話生成遇到擴散機率模型。 | arXiv | 阿凡達 | |
杜伊克斯 | Duix - 基於矽的數位人類 SDK ? | 阿凡達 | ||
模仿迴聲 | EchoMimic:透過可編輯的地標條件實現逼真的音訊驅動肖像動畫。 | arXiv | 阿凡達 | |
EMO肖像 | 情緒增強的多模態一次性頭像。 | 阿凡達 | ||
E3代 | 高效、富有表現力且可編輯的頭像生成。 | arXiv | 阿凡達 | |
前阿凡達 | ExAvatar - 富有表現力的全身 3D 高斯頭像。 | arXiv | 阿凡達 | |
基因阿凡達 | 從單一影像進行通用表達感知體積頭部頭像編輯。 | arXiv | 阿凡達 | |
基因臉++ | 通用且穩定的即時 3D 說話人臉生成。 | 阿凡達 | ||
你好 | 用於肖像圖像動畫的分層音訊驅動視覺合成。 | arXiv | 阿凡達 | |
你好2 | Hallo2:長時間、高解析度音訊驅動的肖像圖像動畫。 | arXiv | 阿凡達 | |
頭雕 | 用文字製作 3D 頭部頭像。 | arXiv | 阿凡達 | |
內在化身 | IntrinsicAvatar:透過顯式光線追蹤對單眼影片中的動態人體進行基於物理的逆渲染。 | arXiv | 阿凡達 | |
林利語者 | 數字化身對話系統。 | 阿凡達 | ||
現場肖像 | LivePortrait:具有拼接和重定向控制的高效肖像動畫。 | arXiv | 阿凡達 | |
運動GPT | 人類運動作為外語,使用法學碩士的統一運動語言生成模型。 | arXiv | 阿凡達 | |
繆斯姿勢 | MusePose:用於產生虛擬人的姿勢驅動的影像到視訊框架。 | 阿凡達 | ||
繆斯談話 | 即時高品質唇部同步與潛在空間修復。 | 阿凡達 | ||
繆斯V | 具有視覺條件並行去噪的無限長度和高保真虛擬人類視訊生成。 | 阿凡達 | ||
肖像4D | 使用合成資料學習 One-Shot 4D 頭部頭像合成。 | arXiv | 阿凡達 | |
準備好玩家我 | 在幾天內將可自訂的頭像整合到您的遊戲或應用程式中。 | 阿凡達 | ||
羅丹HD | RodinHD:具有擴散模型的高保真 3D 頭像生成。 | arXiv | 阿凡達 | |
風格Avatar3D | 利用圖像文字擴散模型產生高保真 3D 頭像。 | arXiv | 阿凡達 | |
文字2控制3D | 使用幾何引導文字到影像擴散模型在神經輻射場中產生可控 3D 頭像。 | arXiv | 阿凡達 | |
地形4D | 用於高保真 4D 頭部捕獲的拓撲可保持高斯潑濺。 | arXiv | 阿凡達 | |
UnityAIWithChatGPT | 基於Unity,實現ChatGPT+UnityChan語音互動顯示。 | 統一 | 阿凡達 | |
視訊頭像 | 透過自監督場景分解從野外影片重建 3D 頭像。 | arXiv | 阿凡達 | |
視訊部落客 | 用於具體化身合成的多模態擴散。 | 阿凡達 | ||
狂野阿凡達 | 渲染遮擋背後的人類。 | arXiv | 阿凡達 |
^ 返回目錄 ^
來源 | 描述 | 紙 | 遊戲引擎 | 類型 |
---|---|---|---|---|
為任何人製作動畫 | 用於角色動畫的一致且可控的圖像到視訊合成。 | arXiv | 卡通 | |
動畫一切 | 具有動作引導的細粒度開放域影像動畫。 | arXiv | 卡通 | |
動畫差異 | 無需特定調整即可製作個人化文字到圖像擴散模型的動畫。 | arXiv | 卡通 | |
動畫LCM | 讓我們在 4 步內加速影片生成! | arXiv | 卡通 | |
動畫-X | Animate-X:具有增強運動表示的通用角色圖像動畫。 | arXiv | 卡通 | |
動畫零 | 視訊擴散模型是零鏡頭影像動畫師。 | arXiv | 卡通 | |
動畫GPT | 用於產生遊戲戰鬥動作資產的 AIGC 工具。 | 卡通 | ||
德福魯姆 | Deforum 利用穩定擴散來產生不斷發展的 AI 視覺效果。 | 卡通 | ||
繪圖旋轉 | DrawingSpinUp:單一角色繪圖的 3D 動畫。 | arXiv | 卡通 | |
夢想搬家 | 基於擴散模型的人類視訊生成框架。 | arXiv | 卡通 | |
臉部融合 | 下一代換臉器和增強器。 | 卡通 | ||
自由初始化 | 彌合視訊擴散模型中的初始化差距。 | arXiv | 卡通 | |
基因臉 | 通用和高保真音訊驅動的 3D 說話臉部合成。 | arXiv | 卡通 | |
ID動畫師 | 零鏡頭身份保護人類影片生成。 | arXiv | 卡通 | |
魔法動畫 | 使用擴散模型的時間一致的人體圖像動畫。 | arXiv | 卡通 | |
女媧 | DragNUWA是一種基於擴散的開放域視訊生成模型,以文字、圖像和軌跡控製作為輸入,實現可控視訊生成。 | arXiv | 卡通 | |
NUWA-無限 | NUWA-Infinity 是一種多模態生成模型,旨在根據給定的文字、圖像或視訊輸入生成高品質的圖像和影片。 | 卡通 | ||
女媧-XL | 一種新穎的 Diffusion over Diffusion 架構,用於產生超長視訊。 | 卡通 | ||
全向動畫 | 人工智慧生成高保真動畫。 | 卡通 | ||
PIA | 透過文字到圖像模型中的即插即用模組,您的個人化圖像動畫師。 | arXiv | 卡通 | |
悲傷語者 | 學習風格化音訊驅動單一影像說話人臉動畫的真實 3D 運動係數。 | arXiv | 卡通 | |
SadTalker-視訊-口型同步 | 該專案基於 SadTalkers Wav2lip 進行視訊唇形合成。 | 卡通 | ||
穩定的動畫 | 為開發人員提供的強大的文字到動畫工具。 | 卡通 | ||
故事工匠 | 一款支援多個角色的互動式故事視覺化工具。 | arXiv | 卡通 | |
卡通工匠 | ToonCrafter:產生卡通插值。 | arXiv | 卡通 | |
聲音2唇 | 在野外準確對口型影片。 | arXiv | 卡通 | |
奇蹟工作室 | 一款 AI 工具,可自動將 CG 角色製作成動畫、燈光並合成為真人場景。 | 卡通 |
^ 返回目錄 ^
來源 | 描述 | 紙 | 遊戲引擎 | 類型 |
---|---|---|---|---|
寒武紀1號 | Cambrian-1:完全開放、以視覺為中心的多模式法學碩士探索。 | arXiv | 多模式法學碩士 | |
CogVLM2 | 基於Llama3-8B的GPT4V級開源多模態模型。 | 視覺的 | ||
協同追蹤器 | 最好一起追蹤。 | arXiv | 視覺的 | |
電子觀景窗SAM | EVF-SAM:文字提示分段任意模型的早期視覺語言融合。 | arXiv | 視覺的 | |
麵嗨 | 最好一起追蹤。 | 視覺的 | ||
實習生LM-XComposer2 | InternLM-XComposer2 是一種突破性的視覺語言大型模型 (VLLM),在自由格式文字影像合成和理解方面表現出色。 | arXiv | 視覺的 | |
袋鼠 | Kangaroo:支援長上下文視訊輸入的強大視訊語言模型。 | 視覺的 | ||
低電壓VI | 透過多模式大語言模型實現語言驅動的視訊修復。 | 視覺的 | ||
拉瓦++ | 使用 LLaMA-3 和 Phi-3 擴展視覺功能。 | 視覺的 | ||
LLaVA-OneVision | LLaVA-OneVision:輕鬆的視覺任務轉移。 | arXiv | 視覺的 | |
長VA | 從語言到視覺的長上下文遷移。 | arXiv | 視覺的 | |
掩模ViT | 用於視訊預測的蒙面視覺預訓練。 | arXiv | 視覺的 | |
迷你CPM-Llama3-V 2.5 | 您手機上的 GPT-4V 等級 MLLM。 | 視覺的 | ||
教育部拉瓦 | 大型視覺語言模型的專家組合。 | arXiv | 視覺的 | |
運動法學碩士 | 從人類動作和影片中了解人類行為。 | arXiv | 視覺的 | |
聚乳酸 | 從影像到影片的無參數 LLaVA 擴展,用於視訊密集字幕。 | arXiv | 視覺的 | |
Qwen-VL | 用於理解、在地化、文字閱讀等的多功能視覺語言模型。 | arXiv | 視覺的 | |
智人 | Sapiens:人類視覺模式基金會。 | arXiv | 視覺的 | |
分享GPT4V | 透過更好的標題來改進大型多模式模型。 | arXiv | 視覺的 | |
獨奏 | SOLO:用於可擴展視覺語言建模的單一變壓器。 | arXiv | 視覺的 | |
視訊CCAM | 視訊 CCAM:透過因果交叉注意掩模促進視訊語言理解。 | 視覺的 | ||
視訊-LLaVA | 透過投影前對齊學習聯合視覺表示。 | arXiv | 視覺的 | |
視訊駱駝2 | 推進視頻法學碩士中的時空建模和音頻理解。 | arXiv | 視覺的 | |
視訊MME | 視訊分析領域首個多模式法學碩士綜合評估基準。 | arXiv | 視覺的 | |
威創 | 用於理解、生成、分割、編輯的統一像素級視覺法學碩士。 | 視覺的 | ||
維拉 | VILA:關於視覺語言模型的預訓練。 | arXiv | 視覺的 |
^ 返回目錄 ^
來源 | 描述 | 紙 | 遊戲引擎 | 類型 |
---|---|---|---|---|
360度DVD | 利用 360 度視訊擴散模型產生可控全景影片。 | arXiv | 影片 | |
動畫故事 | 用於講述故事的檢索增強視頻生成。 | arXiv | 影片 | |
任何場景中的任何內容 | 逼真的視訊物件插入。 | 影片 | ||
ART•V | 使用擴散模型的自回歸文字到影片生成。 | arXiv | 影片 | |
輔助工具 | 認識將您的想法變為現實的生成視訊平台。 | 影片 | ||
原子影片 | 高保真度圖像到視頻生成。 | arXiv | 影片 | |
背景去除劑 | 背景去除器可讓您使用人工智慧透過簡單的免費開源命令列介面從圖像和影片中移除背景。 | 影片 | ||
盒子模擬器 | 為影片合成生成豐富且可控的運動。 | arXiv | 影片 | |
程式碼 | 用於時間一致視訊處理的內容變形場。 | arXiv | 影片 | |
齒輪視訊 | 從文字描述生成影片。 | 影片 | ||
科格影片X | CogVideoX是視訊生成模型的開源版本,與清影同源。 | 影片 | ||
CogVLM | CogVLM 是一個功能強大的開源視覺語言模型 (VLM)。 | 視覺的 | ||
輔酶NR | 從手繪動漫角色表(ACS)產生生動的舞蹈影片。 | arXiv | 影片 | |
脫科赫 | 創造無法拍攝的東西。 | 影片 | ||
描述 | Descript 是一種簡單、強大且有趣的編輯方式。 | 影片 | ||
擴散體 | 透過擴散模型進行高解析度可編輯卡通著色。 | arXiv | 影片 | |
海豚 | 基於LLM的通用視訊互動平台。 | 影片 | ||
多摩人工智慧 | 使用 DomoAI 增強您的創造力。 | 影片 | ||
夢幻影院 | DreamCinema:使用免費相機和 3D 角色進行影片傳輸。 | arXiv | 影片 | |
動態工匠 | 使用視訊擴散先驗對開放域影像進行動畫處理。 | arXiv | 影片 | |
邊緣 | 我們推出 EDGE,這是一種用於可編輯舞蹈生成的強大方法,能夠創建逼真的、物理上合理的舞蹈,同時保持對任意輸入音樂的忠實。 | arXiv | 影片 | |
歐洲經濟組織 | Emote Portrait Alive - 在弱條件下使用音訊視訊擴散模型產生富有表現力的肖像影片。 | arXiv | 影片 | |
鴯鶓影片 | 透過顯式影像調節分解文字到影片的生成。 | 影片 | ||
埃特納火山 | Etna可以根據簡短的文字描述產生對應的影片內容。 | 影片 | ||
仙女 | 快速並行指令引導影片到影片合成。 | 影片 | ||
跟著你的畫布 | Follow-Your-Canvas:具有廣泛內容生成的更高解析度影片繪製。 | arXiv | 影片 | |
跟隨你的姿勢 | 使用無姿勢影片的姿勢引導文字到影片生成。 | arXiv | 影片 | |
全程 | 全套 AI 創建工具觸手可及。 | 影片 | ||
第二代 | 多模態人工智慧系統,可以產生具有文字、圖像或視訊剪輯的新穎視訊。 | 影片 | ||
生成動力學 | 生成圖像動力學。 | 影片 | ||
精靈 | 生成互動環境。 | arXiv | 影片 | |
玄武 | 用人工智慧神奇地製作影片。 | 影片 | ||
正創 | 用於影像和視訊生成的擴散變壓器。 | 影片 | ||
HIGEN | 用於文字到視訊產生的分層時空解耦。 | 影片 | ||
Hotshot-XL | Hotshot-XL 是一種 AI 文字轉 GIF 模型,經過訓練可與 Stable Diffusion XL 一起使用。 | 影片 | ||
混源視頻 | HunyuanVideo:大型視訊生成模型的系統框架。 | arXiv | 影片 | |
影像影片 | 給定文字提示,Imagen Video 使用基本視訊生成模型和一系列交錯的空間和時間視訊超解析度模型生成高清視訊。 | 影片 | ||
教學影片 | 透過人類回饋指導視訊擴散模型。 | arXiv | 影片 | |
I2VGen-XL | 透過級聯擴散模型進行高品質影像到影片的合成。 | arXiv | 影片 | |
拉維 | 使用級聯潛在擴散模型產生高品質視訊。 | arXiv | 影片 | |
LTX工作室 | LTX Studio 是一個面向創作者、行銷人員、電影製作人和工作室的整體、人工智慧驅動的電影製作平台。 | 影片 | ||
LTX-視頻 | LTX-Video是第一個基於DiT的視訊生成模型,可以即時產生高品質視訊。它可以產生分辨率為 768x512 的 24 FPS 視頻,速度比觀看視頻的速度還要快。 | 影片 | ||
盧米埃爾 | 用於視訊生成的時空擴散模型。 | arXiv | 影片 | |
LVDM | 用於高保真長視頻生成的潛在視頻擴散模型。 | arXiv | 影片 | |
魔幻影片 | 使用潛在擴散模型的高效視訊生成。 | arXiv | 影片 | |
MagicVideo-V2 | 多階段高美觀影片生成。 | arXiv | 影片 | |
魔法時刻 | 人工智慧影片創作者變得簡單。 | 影片 | ||
MAGVIT-v2 | 分詞器是視覺生成的關鍵。 | 影片 | ||
磁力維特 | 蒙面生成視訊變壓器。 | 影片 | ||
製作影片 | Make-A-Video 是一種最先進的人工智慧系統,可以從文字產生視訊。 | arXiv | 影片 | |
讓像素跳舞 | 高動態視訊生成。 | arXiv | 影片 | |
製作你的視頻 | 使用文字和結構指導產生客製化影片。 | arXiv | 影片 | |
微型戲院 | 文字到影片產生的分而治之方法。 | arXiv | 影片 | |
多輸入多輸出 | MIMO:具有空間分解建模的可控字元影片合成。 | arXiv | 影片 | |
迷你雙子座 | 挖掘多模態視覺語言模型的潛力。 | 想像 | ||
移動視訊工廠 | 從文字自動為行動裝置產生基於擴散的社群媒體影片。 | 影片 | ||
麻糬 1 | Mochi 1 是一個開放的最先進的視訊生成模型,具有高保真度運動和初步評估中強烈的即時依從性。 | 影片 | ||
MOFA-視頻 | 透過凍結影像到視訊擴散模型中的生成運動場適應實現可控影像動畫。 | arXiv | 影片 | |
印鈔機渦輪增壓 | 使用大模型一鍵產生短影片。 | 影片 | ||
月谷 | Moonvalley 是一種突破性的新型文本到視頻生成人工智慧模型。 | 影片 | ||
猜拳 | 更像是 Sora 的通才視訊生成。 | arXiv | 影片 | |
變形工作室 | 透過我們的文字轉影片 AI 魔法,透過提示展現您的創造力。 | 影片 | ||
運動克隆 | MotionClone:用於可控視訊產生的免訓練運動克隆。 | arXiv | 影片 | |
運動控制 | 用於視訊生成的統一且靈活的運動控制器。 | arXiv | 影片 | |
動作導演 | 文字到視頻擴散模型的運動定制。 | arXiv | 影片 | |
動感工作室 | 一款以 3D 頭像取代影片中角色的應用程式。 | 影片 | ||
移動2移動 | 適用於 Automatic1111/stable-diffusion-webui 的 Mov2mov 外掛程式。 | 影片 | ||
電影工廠 | 使用大型語言和圖像生成模型從文字自動創建電影。 | arXiv | 影片 | |
神經框架 | 探索視覺世界的合成器。 | 影片 | ||
永無止境 | 創造你的世界。 | 影片 | ||
開放索拉 | 為所有人實現高效能影片製作的民主化。 | 影片 | ||
開放索拉 | 開放索拉計劃。 | 影片 | ||
費納基 | 從文字產生影片的模型,提示可以隨著時間的推移而變化,影片可以長達數分鐘。 | arXiv | 影片 | |
皮卡實驗室 | Pika Labs 正在利用人工智慧徹底改變影片製作體驗。 | 影片 | ||
像素化 | Pixeling 使我們的客戶能夠創建高精度、超真實且極其可控的視覺內容,包括圖像、視訊和 3D 模型。 | 影片 | ||
像素宇宙 | 利用 AI 製作令人驚嘆的影片。 | 影片 | ||
授粉 | 創作變得簡單、快速且充滿樂趣。 | 影片 | ||
重複使用和擴散 | 用於文字到視訊產生的迭代去噪。 | arXiv | 影片 | |
如意 | Ruyi是一種影像到視頻的模型,能夠產生分辨率為768的電影品質視頻,幀率為每秒24幀,總共5秒120幀。 | 影片 | ||
短GPT | 用於自動短/視訊內容創建的實驗性人工智慧框架。 | 影片 | ||
顯示-1 | 將像素和潛在擴散模型結合起來產生文字到影片。 | arXiv | 影片 | |
拍攝影片 | 用於文字到視訊合成的縮放時空轉換器。 | arXiv | 影片 | |
索拉 | 從文字建立影片。 | 影片 | ||
索拉韋維 | SoraWebui 是一款開源 Sora Web 用戶端,使用戶能夠使用 OpenAI 的 Sora 模型輕鬆地從文字建立影片。 | 影片 | ||
穩定視頻 | 文字驅動的一致性感知擴散影片編輯。 | 影片 | ||
穩定的視訊擴散 | 穩定視訊擴散 (SVD) 影像到視訊。 | 影片 | ||
故事擴散 | 用於長距離影像和影片生成的一致自註意力。 | arXiv | 影片 | |
串流媒體T2V | 從文字產生一致、動態且可擴展的長影片。 | arXiv | 影片 | |
風格工匠 | 使用樣式適配器增強樣式化文字到影片的生成。 | arXiv | 影片 | |
TATS | 使用與時間無關的 VQGAN 和時間敏感變壓器產生長視頻。 | 影片 | ||
文字2影片-零 | 文字到影像擴散模型是零樣本影片產生器。 | arXiv | 影片 | |
TF-T2V | 使用無文字影片擴大文字到影片生成的方法。 | arXiv | 影片 | |
虎 | Tora:用於視訊生成的軌跡導向擴散變壓器。 | arXiv | 影片 | |
追蹤任何東西 | Track-Anything 是一款靈活的互動式視訊物件追蹤和分割工具,基於 Segment Anything 和 XMem。 | arXiv | 影片 | |
調整影片 | 用於文字到視訊生成的圖像擴散模型的一次性調整。 | arXiv | 影片 | |
十二實驗室 | 像人類一樣理解影片的多模式人工智慧。 | 影片 | ||
大學 | 邁向統一模態視訊生成。 | 影片 | ||
Vchitect-2.0 | Vchitect-2.0:用於放大視訊擴散模型的並聯變壓器。 | 影片 | ||
VGen | 一個基於擴散模型的視訊生成整體視訊生成生態系統。 | arXiv | 影片 | |
觀匠 | ViewCrafter:馴服視訊擴散模型以實現高保真新穎的視圖合成。 | arXiv | 影片 | |
視訊通訊GPT | Video-ChatGPT 是一種視訊對話模型,能夠產生有關視訊的有意義的對話。 | arXiv | 影片 | |
視訊作曲家 | 具有運動可控性的合成影片合成。 | arXiv | 影片 | |
視訊工匠1 | 用於產生高品質視訊的開放擴散模型。 | arXiv | 影片 | |
影片工匠2 | 克服高品質視訊擴散模型的數據限制。 | arXiv | 影片 | |
視訊繪圖員 | 使用法學碩士產生內容一致的多場景影片。 | arXiv | 影片 | |
視訊電梯 | 透過多功能文字到影像擴散模型提高影片生成品質。 | arXiv | 影片 | |
視訊工廠 | 交換時空擴散中的注意力以產生文字到視訊。 | 影片 | ||
視訊產生器 | 用於生成高清文字到影片的參考引導潛在擴散方法。 | arXiv | 影片 | |
視訊液晶模組 | 視訊潛在一致性模型。 | arXiv | 影片 | |
視訊 LDM | 對齊你的潛在:高解析度視訊合成與潛在擴散模型。 | arXiv | 影片 | |
視訊-LLaVA | 透過投影前對齊學習聯合視覺表示。 | arXiv | 影片 | |
視訊曼巴 | 用於高效視訊理解的狀態空間模型。 | arXiv | 影片 | |
思想影片 | 思考影片:從感知到認知的逐步視訊推理。 | 影片 | ||
視訊詩人 | 用於零鏡頭視訊生成的大型語言模型。 | arXiv | 影片 | |
維斯龐克運動 | 僅使用文字建立逼真的影片。 | 影片 | ||
視覺RWKV | VisualRWKV是RWKV語言模型的視覺增強版本,讓RWKV能夠處理各種視覺任務。 | 視覺的 | ||
V-JEPA | 視訊聯合嵌入預測架構。 | arXiv | 影片 | |
沃特 | 使用擴散模型產生逼真的影片。 | arXiv | 影片 | |
零視鏡 | Zeroscope 文字到影片。 | 影片 |
^ 返回目錄 ^
來源 | 描述 | 紙 | 遊戲引擎 | 類型 |
---|---|---|---|---|
學術編解碼器 | 用於學術研究的開源音訊編解碼器模型。 | 聲音的 | ||
安菲翁 | 開源音訊、音樂和語音生成工具包。 | arXiv | 聲音的 | |
阿奇聲音 | 在 PyTorch 中使用擴散模型產生音訊。 | 聲音的 | ||
音訊盒 | 具有自然語言提示的統一音訊生成。 | 聲音的 | ||
音訊編輯 | 使用 DDPM 反轉進行零樣本無監督和基於文字的音訊編輯。 | arXiv | 聲音的 | |
Audiogen 編解碼器 | 適用於一般音訊的低壓縮 48khz 立體聲神經音訊編解碼器,優化音訊保真度? | 聲音的 | ||
音頻GPT | 理解並產生語音、音樂、聲音和頭部說話。 | arXiv | 聲音的 | |
音頻液晶模組 | 具有潛在一致性模型的文字到音訊生成。 | arXiv | 聲音的 | |
音訊LDM | 使用潛在擴散模型的文字到音訊生成。 | arXiv | 聲音的 | |
音訊LDM 2 | 透過自我監督預訓練學習整體音訊產生。 | arXiv | 聲音的 | |
充滿 | 利用擴散和大型語言模型的力量進行文字到音訊的生成。 | arXiv | 聲音的 | |
CTAG | 透過合成器編程創造性地產生文字到音訊。 | 聲音的 | ||
弗利·克拉夫特 | FoleyCrafter:透過逼真的同步聲音將無聲影片帶入生活。 | arXiv | 聲音的 | |
磁鐵 | 使用單一非自回歸變壓器產生屏蔽音訊。 | 聲音的 | ||
製作音訊 | 使用提示增強擴散模型產生文字到音訊。 | arXiv | 聲音的 | |
製作音訊 3 | 透過基於流的大型擴散變壓器將文字轉換為音訊。 | arXiv | 聲音的 | |
神經之聲 | 基於學習的模態聲音合成與聲學傳輸。 | arXiv | 聲音的 | |
優化器AI | 為創作者、遊戲製作者、藝術家、影片製作者提供聲音。 | 聲音的 | ||
Qwen2-音頻 | Qwen2-阿里雲提出的音訊聊天和預訓練大型音訊語言模型。 | arXiv | 聲音的 | |
SEE-2-聲音 | 零射擊空間環境到空間聲音。 | arXiv | 聲音的 | |
聲音風暴 | 高效的並行音訊生成。 | arXiv | 聲音的 | |
穩定的音訊 | 快速定時條件潛在音訊擴散。 | 聲音的 | ||
穩定的音訊打開 | Stable Audio Open 1.0 根據文字提示產生 44.1kHz 的可變長度(最長 47 秒)立體聲音訊。 | 聲音的 | ||
同步融合 | SyncFusion:多模式起始同步視訊到音訊擬音合成。 | arXiv | 聲音的 | |
探戈 | 使用指令調整的 LLM 和潛在擴散模型產生文字到音訊。 | 聲音的 | ||
VTA-LDM | 具有隱藏對齊的視頻到音頻生成。 | arXiv | 聲音的 | |
波之旅 | 使用大型語言模型進行組合音訊創作。 | arXiv | 聲音的 |
^ 返回目錄 ^
來源 | 描述 | 紙 | 遊戲引擎 | 類型 |
---|---|---|---|---|
艾瓦 | 人工智慧創作情感配樂。 | 音樂 | ||
安培音樂 | 由 Amper 提供支援的客製化音樂生成技術。 | 音樂 | ||
布米 | 創作生成音樂。與世界分享。 | 音樂 | ||
聊天音樂家 | 培養內在的音樂能力進入法學碩士。 | 音樂 | ||
和弦2旋律 | 自動音樂產生人工智慧。 | 音樂 | ||
差異BGM | 視訊背景音樂生成的擴散模型。 | arXiv | 音樂 | |
Flux音樂 | FluxMusic:使用整流流變壓器產生文字到音樂。 | arXiv | 音樂 | |
GP桌布爾頓 | 用於處理 GPT 回應並使用 AbletonOSC 和 python-osc 將 MIDI 音符發送到 Ableton 剪輯的草稿腳本。 | 音樂 | ||
嘿音樂.AI | 人工智慧音樂生成器 | 音樂 | ||
影像到音樂 | AI Image to Music Generator是一款利用人工智慧將圖像轉換為音樂的工具。 | 音樂 | ||
JEN-1 | 具有全方位擴散模型的文字引導通用音樂生成。 | 音樂 | ||
點唱機 | 音樂生成模型。 | arXiv | 音樂 | |
品紅 | Magenta 是一個研究項目,探索機器學習在藝術和音樂創作過程中的作用。 | 音樂 | ||
旋律 | 高效的神經音樂生成 | 音樂 | ||
穆伯特 | 人工智慧生成音樂。 | 音樂 | ||
繆斯網 | 深度神經網路可以用 10 種不同的樂器產生 4 分鐘的音樂作品,並且可以結合從鄉村到莫札特再到披頭四的風格。 | 音樂 | ||
音樂產生器 | 簡單且可控的音樂生成。 | arXiv | 音樂 | |
音樂LDM | 使用節拍同步混合策略增強文字到音樂生成的新穎性。 | arXiv | 音樂 | |
音樂LM | 從文字生成音樂。 | arXiv | 音樂 | |
擴散應用程式 | Riffusion 是一款即時音樂產生、擴散穩定的應用程式。 | 音樂 | ||
索納托 | Sonauto 是一款人工智慧音樂編輯器,可將提示、歌詞或旋律轉換為任何風格的完整歌曲。 | 音樂 | ||
聲音原始 | 為創作者提供的人工智慧音樂產生器。 | 音樂 | ||
聲瑞人工智慧 | 產生人工智慧工具,包括文字轉聲音和無限樣本包。 | 音樂 |
^ 返回目錄 ^
來源 | 描述 | 紙 | 遊戲引擎 | 類型 |
---|---|---|---|---|
差異歌手 | 透過淺擴散機制合成歌聲。 | arXiv | 歌聲 | |
基於檢索的語音轉換WebUI | 一個基於 VITS 的易於使用的 SVC 框架。 | 歌聲 | ||
索維茨-SVC | SoftVC VITS 歌聲轉換。 | 歌聲 | ||
六維SVS | 使用VITS和Opencpop開發歌聲合成;與VISinger不同。 | 歌聲 |
^ 返回目錄 ^
來源 | 描述 | 紙 | 遊戲引擎 | 類型 |
---|---|---|---|---|
應用程式 | 終極語音克隆工具,經過精心優化,具有無與倫比的功能、模組化和用戶友好的體驗。 | 演講 | ||
奧迪歐 | 文字輸入。 | 演講 | ||
吠 | 文字提示的生成音訊模型。 | 演講 | ||
伯特-VITS2 | VITS2 Backbone 具有多語言 bert。 | 演講 | ||
聊天TTS | ChatTTS 是一種用於日常對話的生成語音模型。 | 演講 | ||
拍手演講 | 透過對比語言音訊預訓練從文字上下文中學習韻律。 | arXiv | 演講 | |
舒適之聲 | 多語言大語音生成模型,提供推理、訓練和部署全端能力。 | 演講 | ||
右旋語音合成 | 基於擴散的表達性文字轉語音與時間變異性風格建模。 | arXiv | 演講 | |
表情語音 | 多重語音和提示控制的 TTS 引擎。 | 演講 | ||
弗利基 | 將文字變成帶有 AI 語音的影片。 | 演講 | ||
GLM-4-語音 | GLM-4-Voice是智浦AI推出的端對端語音模型。 GLM-4-Voice可以直接理解並產生中英文語音,進行即時語音對話,並根據使用者指令改變情緒、語調、語速、方言等屬性。 | 演講 | ||
發光TTS | 透過單調對齊搜尋的文字轉語音的生成流程。 | arXiv | 演講 | |
GPT-蘇聯 | 強大的少量語音轉換和文字到語音 WebUI。 | 演講 | ||
樂沃 | LOVO 是成千上萬創作者的首選人工智慧語音產生器和文字轉語音平台。 | 演講 | ||
摩訶 TTS | 開源大型語音生成模型。 | 演講 | ||
抹茶-TTS | 具有條件流匹配的快速 TTS 架構。 | arXiv | 演講 | |
甜瓜語音合成 | MyShell.ai 提供的高品質多語言文字轉語音庫。支援英語、西班牙語、法語、中文、日語和韓語。 | 演講 | ||
元語音-1B | 人類等級的語音智慧人工智慧。 | 演講 | ||
納拉基特 | 使用逼真的文字轉語音輕鬆創建畫外音。 | 演講 | ||
迷你全向型 | Mini-Omni:語言模型可以在串流媒體中一邊聽一邊思考。 Mini-Omni是一個開源的多模型大語言模型,可以一邊聽一邊思考。具有即時端對端語音輸入和串流音訊輸出對話功能。 | arXiv | 演講 | |
一鍵語音克隆 | 基於 Unet-TTS 的一鍵語音克隆。 | 演講 | ||
開放語音 | 透過 MyShell 進行即時語音克隆。 | 演講 | ||
溢出 | 將流置於神經換能器之上以實現更好的 TTS。 | 演講 | ||
即時TTS | RealtimeTTS 是一個專為即時應用程式設計的最先進的文字轉語音 (TTS) 庫。 | 演講 | ||
SenseVoice | SenseVoice是一個語音基礎模型,具有多種語音理解能力,包括自動語音辨識(ASR)、口語辨識(LID)、語音情緒辨識(SER)和音訊事件偵測(AED)。 | 演講 | ||
語音GPT | 賦予大型語言模型固有的跨模式對話能力。 | arXiv | 演講 | |
語音轉文字 gpt3-unity | 這是我在 Unity 中使用 OpenAI 的 Whisper 和 ChatGPT API 的儲存庫。 | 統一 | 演講 | |
言語穩定 | Stability AI 的文字轉語音模型。 | 演講 | ||
穩定TTS | 受穩定擴散 3 啟發,使用流匹配和 DiT 的下一代 TTS 模型。 | 演講 | ||
風格TTS 2 | 透過風格擴散和大型語音語言模型的對抗性訓練實現人類水平的文本到語音。 | arXiv | 演講 | |
烏龜.cpp | tortoise.cpp:tortoise-tts 的 GGML 實作。 | 演講 | ||
TorToiSe-TTS | 經過訓練且注重品質的多語音 TTS 系統。 | 演講 | ||
TTS 產生 WebUI | TTS Generation WebUI(Bark、MusicGen、Tortoise、RVC、Vocos、Demucs)。 | 演講 | ||
瓦萊-E | 神經編解碼器語言模型是零樣本文字到語音合成器。 | arXiv | 演講 | |
瓦萊X | 用自己的聲音說外語:跨語言神經編解碼器語言建模 | arXiv | 演講 | |
聲碼 | Vocode 是一個開源程式庫,用於建立基於語音的 LLM 應用程式。 | 演講 | ||
語音盒 | 大規模文字引導多語言通用語音生成。 | arXiv | 演講 | |
聲藝 | 野外零樣本語音編輯和文字轉語音。 | 演講 | ||
耳語 | Whisper 是一種通用語音辨識模型。 | 演講 | ||
耳語 | 透過反轉 Whisper 建構的開源文字轉語音系統。 | 演講 | ||
XE-語音 | 非自回歸跨語言情緒文本到語音和語音轉換的聯合訓練框架。 | 演講 | ||
XTTS | XTTS 是一個用於進階文字轉語音產生的函式庫。 | 演講 | ||
你的TTS | 面向所有人的零射擊多揚聲器 TTS 和零射擊語音轉換。 | arXiv | 演講 | |
ZMM-TTS | 基於自監督離散語音表示的零樣本多語言和多說話人語音合成。 | arXiv | 演講 |
^ 返回目錄 ^
來源 | 描述 | 遊戲引擎 | 類型 |
---|---|---|---|
盧多.ai | 遊戲研究與設計助理。 | 分析 |
^ 返回目錄 ^