ai game devtoolsダウンロード - ai game devtoolsソースコードのダウンロード

AI ゲーム開発ツール (AI-GDT) ?

AIゲーム

ここでは、LLM、エージェント、コード、ライター、画像、テクスチャ、シェーダー、3D モデル、アニメーション、ビデオ、オーディオ、音楽、歌声、分析などの最新の AI ゲーム開発ツールを追跡します。

プロジェクト一覧

ツール (AI LLM)

ソース	説明	紙	ゲームエンジン	タイプ
エージェントGPT	?ブラウザで自律型 AI エージェントを組み立て、構成し、デプロイします。			道具
AIコマンド	ChatGPT と Unity エディターの統合。		団結	道具
アイオス	LLM エージェントのオペレーティングシステム。			道具
AI科学者	AI 科学者: 完全に自動化されたオープンエンドの科学的発見に向けて。	arXiv		道具
アシスタント CLI	ChatGPTサービスを利用するための快適なCLIツール			道具
自動 GPT	GPT-4 を完全に自律化する実験的なオープンソースの試み。			道具
ベイビーAGI	この Python スクリプトは、AI を活用したタスク管理システムの例です。			道具
?? BabyAGI UI	BabyAGI UI は、ChatGPT などの Web アプリで babyagi を使用して簡単に実行および開発できるように設計されています。			道具
バイチュアン-7B	Baichuan によって開発された大規模な 7B 事前トレーニング言語モデル。			道具
バイチュアン-13B	Baichuan Intelligent Technology によって開発された 13B の大規模言語モデル。			道具
バイチュアン 2	Baichuan Intelligent Technology によって開発された一連の大規模言語モデル。			道具
ビシェン	Bisheng は、次世代 AI アプリケーション用のオープン LLM Devops プラットフォームです。			道具
キャラクター-LLM	ロールプレイング用のトレーニング可能なエージェント。	arXiv		道具
チャット開発	ソフトウェア開発のためのコミュニケーションエージェント。	arXiv		道具
ChatGPT-API-unity	ChatGPT チャット完了 API を Unity 上の純粋な C# にバインドします。		団結	道具
チャットGPTForUnity	Unity用のChatGPT。		団結	道具
チャットRWKV	ChatRWKV は ChatGPT に似ていますが、RWKV (100% RNN) 言語モデルとオープンソースを利用しています。			道具
チャットユアン	中国語と英語での対話のための大規模言語モデル。			道具
チャイニーズ-LLaMA-アルパカ-3	(中国の Llama-3 LLM) Meta Llama 3 から開発されました。			道具
クロム-GPT	デスクトップ上の Chrome を制御する AutoGPT エージェント。			道具
CogVLM	CogVLM は、強力なオープンソースのビジュアル言語基盤モデルです。	arXiv		道具
コアネット	ディープニューラルネットワークをトレーニングするためのライブラリ。			道具
コスモス	Cosmos は、ロボティクスおよび AV ラボでの物理 AI の開発を加速するためのワールド基盤モデル、トークナイザー、およびビデオ処理パイプラインで構成されるワールドモデル開発プラットフォームです。			LLM
DBRX	DBRX は、Databricks によってトレーニングされた大規模な言語モデルです。			道具
DCLM	言語モデルの DataComp。	arXiv		道具
DeepSeek-V3	DeepSeek-V3 は、合計 671B のパラメータを備え、トークンごとに 37B が有効化された強力な専門家混合 (MoE) 言語モデルです。	arXiv		LLM
デモGPT	Llama 2 のパワーを備えた Auto Gen-AI アプリジェネレーター			道具
デザイン2コード	フロントエンドエンジニアリングの自動化			道具
デヴィカ	Devika は、Agentic AI ソフトウェアエンジニアです。			道具
デボン	オープンソースのペアプログラマ。			道具
ドラ	強力な Web サイトを一度に 1 つのプロンプトで生成します。			道具
フローワイズ	UI をドラッグアンドドロップして、LangchainJS を使用してカスタマイズされた LLM フローを構築します。			道具
ジェミニ	Gemini は、テキスト、画像、ビデオ、オーディオ、コード全体でシームレスに推論できるマルチモダリティ向けにゼロから構築されています。			道具
ジェマ	Gemma は、Google Gemini モデルの作成に使用された研究とテクノロジーに基づいて構築された、軽量で最先端のオープンモデルのファミリーです。			道具
ジェマ.cpp	Google の Gemma モデル用の軽量のスタンドアロン C++ 推論エンジン。			道具
GLM-4	GLM-4-9B は、Zhipu AI によって発売された GLM-4 シリーズの最新世代の事前トレーニング済みモデルのオープンソースバージョンです。			道具
GPT4すべて	コード、ストーリー、ダイアログなどのクリーンなアシスタントデータの膨大なコレクションに基づいてトレーニングされたチャットボット。			道具
GPT-4o	GPT-4o (「オムニ」の「o」) は、より自然な人間とコンピューターの対話への一歩です。テキスト、音声、画像、ビデオのあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像のあらゆる組み合わせを生成します。出力。			道具
GPTスクリプト	自然言語で LLM アプリを開発します。			道具
Grok-1	3,140 億パラメータの専門家混合モデル Grok-1 の重みとアーキテクチャ。			道具
ハグチャット	コミュニティの最高の AI チャットモデルを誰もが利用できるようにします。			道具
ハグフェイス API Unity 統合	この Unity パッケージは、Hugging Face Inference API の使いやすい統合を提供し、開発者が Unity プロジェクト内で Hugging Face AI モデルにアクセスして使用できるようにします。		団結	道具
イメージバインド	ImageBind 1 つの埋め込みスペースですべてをバインドします。	arXiv		道具
インデックス-1.9B	SOTA の軽量多言語 LLM。			道具
InteractML-Unity	InteractML、Unity3D 用の対話型機械学習ビジュアルスクリプトフレームワーク。		団結	道具
InteractML-アンリアルエンジン	機械学習を Unreal Engine に導入します。		アンリアルエンジン	道具
インターンLM	InternLM は、70 億パラメータのベースモデル、実践的なシナリオに合わせて調整されたチャットモデル、およびトレーニングシステムをオープンソース化しました。	arXiv		道具
インターンLM-X作曲家	InternLM-XComposer2 は、自由形式のテキストと画像の構成と理解に優れた画期的なビジョン言語ラージモデル (VLLM) です。	arXiv		道具
1月	AI をデスクトップにもたらします。			道具
ラミニ	Lamini では、RLHF と独自のデータの微調整を通じて、あらゆるエンジニアリングチームが汎用 LLM を上回るパフォーマンスを発揮できるようになります。			道具
ラミニLM	LaMini-LM は、ChatGPT から抽出され、258 万命令の大規模データセットでトレーニングされた、小規模で効率的な言語モデルのコレクションです。			道具
ラングチェーン	LangChain は、言語モデルを利用してアプリケーションを開発するためのフレームワークです。			道具
ラングフロー	⛓️ LangFlow は LangChain の UI であり、フローの実験とプロトタイプの簡単な方法を提供するために、react-flow で設計されています。			道具
ラヴァーグ	Large Action Model フレームワークを使用して自動化を自動化します。			道具
キツネザル	言語エージェントのオープン基盤モデル。			道具
レプトンAI	AI サービスの構築を簡素化する Python フレームワーク。			道具
Lit-LLaMA	nanoGPT に基づく LLaMA 言語モデルの実装。フラッシュアテンション、Int8 および GPTQ 4 ビット量子化、LoRA および LLaMA アダプター微調整、事前トレーニングをサポートします。			道具
ラマ2ウェブイ	GPU または CPU 上の gradio UI を使用して、どこからでも (Linux/Windows/Mac) ローカルで Llama 2 を実行します。			道具
ラマ 3	公式 Meta Llama 3 GitHub サイト。			道具
ラマ 3.1	Llama は、開発者、研究者、企業が生成 AI アイデアを構築、実験し、責任を持って拡張できるように設計された、アクセスしやすいオープンな大規模言語モデル (LLM) です。			道具
LLaSM	大規模な言語および音声モデル。			道具
LLM アンサーエンジン	Next.js、Groq、Mixtral、Langchain、OpenAI、Brave、Serper を使用して、Perplexity にインスピレーションを得た回答エンジンを構築します。			道具
llm.c	シンプルな生の C/CUDA での LLM トレーニング。			道具
LLユニティ	LLM を使用して Unity でキャラクターを作成しましょう!		団結	道具
Lローカルサーチ	LLocalSearch は、LLM エージェントを使用して完全にローカルで実行される検索エンジンです。			道具
ロジックゲームソルバー	AI、ディープラーニング、コンピュータービジョンを使用してロジックゲームを解決する Python ツール。			道具
ロングライター	LongWriter: 長いコンテキスト LLM から 10,000 以上の単語を生成します。	arXiv		道具
大世界モデル (LWM)	Large World Model (LWM) は、汎用のラージコンテキストのマルチモーダル自己回帰モデルです。	arXiv		道具
ルミナ-T2X	Lumina-T2X は、テキストから任意のモダリティへの生成のための統合フレームワークです。	arXiv		道具
メタGPT	マルチエージェントフレームワーク			道具
ミニCPM-2B	エンドサイド LLM は Llama2-13B よりも優れています。			道具
MiniGPT-4	高度な大規模言語モデルによる視覚言語の理解を強化します。	arXiv		道具
MiniGPT-5	Generative Vokens によるインターリーブされたビジョンと言語の生成。	arXiv		道具
ミストラル 8x7B	高品質のまばらな専門家の混合。	arXiv		道具
ミストラル 7B	これまでで最高の 7B モデル、Apache 2.0。			道具
ミストラル・ラージ	Mistral Large は、新しい最先端のテキスト生成モデルです。最高レベルの推論能力に達します。			道具
MLC LLM	誰もが AI モデルを開発、最適化し、全員のデバイスにネイティブに展開できるようにします。			道具
モビリラマ	正確で軽量な完全に透明な GPT を目指して。	arXiv		道具
MoE-LLaVA	大規模な視覚言語モデルの専門家の混合。	arXiv		道具
モシ	Moshi は実験的な会話型 AI です。			道具
モシ	Moshi: リアルタイム対話のための音声テキスト基盤モデル。			道具
苔	復旦大学によるオープンソースのツールで拡張された会話言語モデル。			道具
mPLUG-フクロウ?	モジュール化により、大規模な言語モデルにマルチモーダリティが与えられます。	arXiv		道具
ネモトロン-4	8 兆のテキストトークンでトレーニングされた、150 億のパラメータを持つ大規模な多言語言語モデル。	arXiv		道具
NExT-GPT	Any-to-Any マルチモーダル大規模言語モデル。			道具
オルモ	オープン言語モデル	arXiv		道具
オムニLMM	強力なパフォーマンスと効率的な展開を実現する大規模なマルチモーダルモデル。			道具
ワンLLM	すべてのモダリティを言語に合わせるための 1 つのフレームワーク。	arXiv		道具
オープンアシスタント	OpenAssistant は、タスクを理解し、サードパーティシステムと対話し、そのために情報を動的に取得できるチャットベースのアシスタントです。			道具
オープンデビン	自律型AIソフトウェアエンジニア。			道具
オリオン-14B	Orion-14B は、14B 基礎 LLM と一連のモデルを含むモデルファミリです。	arXiv		道具
パンダ	海外中国語のオープンソース大規模言語モデル。Llama-7B、-13B、-33B、-65B に基づいており、中国語分野での継続的な事前トレーニングを目的としています。			道具
パープレクシカ	AIを活用した検索エンジン。			道具
円周率	個人的な支援と精神的なサポートのために設計された AI チャットボット。			道具
クウェン1.5	Qwen1.5はQwenの改良版です。			道具
クウェン2	Qwen2 は、Alibaba Cloud の Qwen チームによって開発された大規模言語モデルシリーズです。			道具
クウェン-7B	Alibaba Cloud が提案する Qwen-7B (通义千问-7B) チャットと事前トレーニングされた大規模言語モデルの公式リポジトリ。			道具
リポエージェント	RepoAgent は、プロジェクトを文書化するインテリジェントな方法を提供することを目的とした大規模言語モデル (LLM) によって推進されるオープンソースプロジェクトです。	arXiv		道具
Sanity AI エンジン	Unity ゲーム開発ツール用の Sanity AI エンジン。		団結	道具
GPTを検索	? ChatGPTをインターネットに接続する			道具
GPT4Vを共有する	より良いキャプションによる大規模なマルチモーダルモデルの改善。			道具
スカイワーク	Skywork シリーズモデルは、3.2 TB の高品質の多言語 (主に中国語と英語) およびコードデータで事前トレーニングされています。			道具
StableLM	安定性 AI 言語モデル。	arXiv		道具
スタンフォードアルパカ	命令に従う LLaMA モデル。			道具
テキスト生成Web UI	LLaMA、llama.cpp、GPT-J、OPT、GALACTICA などの大規模言語モデルを実行するための gradio Web UI。			道具
タイニーチャットエンジン	オンデバイス LLM 推論ライブラリ。			道具
ツールベンチ	ツール学習のための大規模な言語モデルをトレーニング、提供、評価するためのオープンプラットフォーム。			道具
UnityチャットGPT	Unity ChatGPT 実験。		団結	道具
Unity OpenAI-API 統合	openai GPT-3 言語モデルと ChatGPT API を Unity プロジェクトに統合します。		団結	道具
アンリアルエンジン 5 ラマ LoRA	小規模でローカルにトレーニング可能な LLM を使用して次世代のドキュメントツールを作成する可能性を示す概念実証プロジェクト。		アンリアルエンジン	道具
UnrealGPT	GPT3/4 を利用した Unreal Engine 5 Editor Utility ウィジェットのコレクション。		アンリアルエンジン	道具
ビデオ-LLaVA	投影前の位置合わせによる統合された視覚表現の学習。	arXiv		道具
WebGPT	WebGPUを使用してブラウザ上でGPTモデルを実行します。			道具
Web3-GPT	AI を使用したスマートコントラクトの導入			道具
WordGPT	? ChatGPT の機能を Microsoft Word に導入			道具
Xエージェント	複雑なタスクを解決するための自律型 LLM エージェント。			道具
イー	開発者によってゼロからトレーニングされた一連の大規模な言語モデル。			道具
01 プロジェクト	オープンソースの言語モデルコンピューター。			道具

^ 目次に戻る ^

ゲーム（エージェント）

ソース	説明	紙	タイプ
エージェントベンチ	LLM をエージェントとして評価するための包括的なベンチマーク。	arXiv	エージェント
エージェントのグループチャット	集団的な緊急行動をより適切に引き出すためのインタラクティブなグループチャットシミュラクラ。	arXiv	エージェント
エージェントK	自己進化するモジュール式の自動エージェント AGI。		エージェント
エージェントスコープ	LLM を活用したマルチエージェントアプリケーションの構築を簡単な方法で始めましょう。	arXiv	エージェント
エージェントシムズ	大規模言語モデル評価用のオープンソースサンドボックス。		エージェント
AIタウン	AI タウンは、AI キャラクターが住み、チャットし、交流する仮想の町です。		エージェント
アニメ.GF	CharacterAI に代わるローカルおよびオープンソース。		ゲーム
アストロケイド	AIでゲームを作る		ゲーム
原子エージェント	Atomic Agents フレームワークは、モジュール式で拡張可能で使いやすいように設計されています。		エージェント
オートエージェント	エージェントを自動生成するためのフレームワーク。		エージェント
自動生成	次世代の大規模言語モデルアプリケーションを有効にします。	arXiv	エージェント
行動	Behaviac はゲーム AI 開発のフレームワークです。		フレームワーク
バイオーム	Biomes は、Next.js、Typescript、React、WebAssembly などの Web テクノロジーを使用して Web 用に構築されたオープンソースのサンドボックス MMORPG です。		ゲーム
思考の緩衝材	大規模な言語モデルを使用した思考拡張推論。	arXiv	エージェント
Byzerエージェント	誰にとっても簡単、高速、分散型エージェントフレームワーク。		エージェント
キャットタウン	AC(h)atGPT を使用した猫とのシミュレーション。		エージェント
キャットタウン	AC(h)atGPT を使用した猫とのシミュレーション。		エージェント
キャラクターGLM	大規模な言語モデルを使用した中国語会話 AI キャラクターのカスタマイズ。	arXiv	エージェント
チャット開発	ソフトウェア開発のためのコミュニケーションエージェント。	arXiv	エージェント
コグエージェント	CogAgent は、CogVLM に基づいて改良されたオープンソースのビジュアル言語モデルです。	arXiv	エージェント
ゆりかご	一般的なコンピュータ制御に向けて。		エージェント
クルーAI	ロールプレイングの自律型 AI エージェントを調整するためのフレームワーク。		エージェント
ディファイ	Dify は、オープンソースの LLM アプリ構築プラットフォームです。		エージェント
デジタルライフプロジェクト	ソーシャルインテリジェンスを備えた自律型 3D キャラクター。	arXiv	エージェント
すべての愛	AI を活用した、熟練したローカルチャットボットアシスタントですか?		エージェント
ファブリック	ファブリックは、AI を使用して人間を拡張するためのオープンソースフレームワークです。		エージェント
高速GPT	FastGPT は、LLM 上に構築された知識ベースのプラットフォームです。		エージェント
ファストラグ	効率的な検索拡張および生成フレームワーク。		エージェント
ゲームAISDK	画像ベースのゲーム AI 自動化フレームワーク。		フレームワーク
GameNGen	普及モデルはリアルタイムゲームエンジンです。	arXiv	ゲーム
ゲームジェネオー	GameGen-O: オープンワールドビデオゲームの生成。		ゲーム
ジェンエージェント	GenAgent: 自動ワークフロー生成による共同 AI システムの構築 - ComfyUI のケーススタディ。	arXiv	エージェント
生成エージェント	人間の行動のインタラクティブなシミュレーション。	arXiv	エージェント
創世記	Genesis: ロボット工学とその先のための生成的で普遍的な物理エンジン。		ゲーム
ジーニー	生成的なインタラクティブ環境。		ゲーム
ギガックス	ランタイム、LLM を利用した NPC。		ゲーム
カバRAG	神経生物学的にヒントを得た大規模言語モデルの長期記憶。	arXiv	エージェント
インタラクティブな LLM を利用した NPC	Interactive LLM Powered NPCs は、あらゆるゲームにおけるノンプレイヤーキャラクター (NPC) とのインタラクションを完全に変えるオープンソースプロジェクトです。		ゲーム
イオア	協調的な AI エージェントのためのオープンソースフレームワーク。インターネットのような接続を通じて、分散した多様なエージェントがチームを組んで複雑なタスクに取り組むことができます。		エージェント
クワイエージェント	大規模言語モデル (LLM) を使用した一般化された情報探索エージェントシステム。	arXiv	エージェント
ラングチェーン	LLM アプリケーションをプロトタイプから実稼働環境に移行します。		エージェント
ラングフロー	Langflow は LangChain の UI であり、react-flow を使用して設計されており、フローの実験とプロトタイプの簡単な方法を提供します。		エージェント
ランググラフスタジオ	LangGraph Studio は、複雑なエージェントアプリケーションの視覚化、対話、デバッグを可能にする特殊なエージェント IDE を提供することで、LLM アプリケーションを開発する新しい方法を提供します。		エージェント
LARP	オープンワールドゲームの言語エージェントロールプレイ。	arXiv	エージェント
LLama エージェントシステム	Llama スタック API のエージェントコンポーネント。		エージェント
ラマインデックス	LlamaIndex は、LLM アプリケーションのデータフレームワークです。		エージェント
マインドサーチ	? Web 検索エンジンの LLM ベースのマルチエージェントフレームワーク (Perplexity.ai Pro や SearchGPT など)。		エージェント
薬剤の混合物 (MoA)	エージェントの混合により大規模言語モデルの機能が強化されます。	arXiv	エージェント
MMRole	MMRole: マルチモーダルロールプレイングエージェントを開発および評価するための包括的なフレームワーク。	arXiv	エージェント
ムーンランダー.ai	生成 AI を使用して、コーディングなしで 3D ゲームの構築を始めましょう。		フレームワーク
MuGディフュージョン	MuG Diffusion は、Stable Diffusion (最も強力な AIGC モデルの 1 つ) をベースに、オーディオウェーブを組み込むために大幅に変更を加えたリズムゲーム用のチャート AI です。		ゲーム
オアシス	Oasis は、Decart と Etched によって開発されたインタラクティブな世界モデルです。拡散トランスフォーマーに基づいて、Oasis はユーザーのキーボード入力を受け取り、自己回帰的な方法でゲームプレイを生成します。		ゲーム
オムエージェント	複雑なタスクを解決するためのマルチモーダルエージェントフレームワーク。		エージェント
オープンエージェント	野生の言語エージェントのためのオープンプラットフォーム。		エージェント
オーパス	テキストをビデオゲームに変える AI アプリ。		ゲーム
パイプキャット	音声およびマルチモーダル会話 AI 用のオープンソースフレームワーク。		エージェント
クウェンエージェント	Qwen-Agent は、Qwen の指示に従って、ツールの使用法、計画、およびメモリ機能に基づいて LLM アプリケーションを開発するためのフレームワークです。		エージェント
ラガス	Ragas は、検索拡張生成 (RAG) パイプラインの評価に役立つフレームワークです。		エージェント
RPベンチオート	ロールプレイング用の LLM を評価するための自動パイプライン。		ゲーム
シマ	3D 仮想環境向けのジェネラリスト AI エージェント。		エージェント
ストーリーゲーム.ai	夢想家のための AI がゲームを作る。		ゲーム
SWEエージェント	エージェントコンピュータインターフェイスにより、ソフトウェアエンジニアリング言語モデルが有効になります。	arXiv	エージェント
タスクジェネ	LLM エージェントによる StrictJSON 出力に基づいて構築されたタスクベースのエージェントフレームワーク。		エージェント
TENエージェント	TEN Agent は、OpenAI Realtime API、RTC と統合された世界初のリアルタイムマルチモーダルエージェントであり、天気チェック、Web 検索、ビジョン、RAG 機能を備えています。		エージェント
翻訳エージェント	リフレクションワークフローを使用したエージェント翻訳。		エージェント
ツイッター	Twitter Personality は、Wordware AI Agent を使用して Twitter ハンドルを分析し、パーソナライズされたパーソナリティプロファイルを作成する Web アプリケーションです。		エージェント
無制限	Unbounded: キャラクターライフシミュレーションの生成無限ゲーム。	arXiv	ゲーム
ビデオ2ゲーム	単一のビデオからリアルタイム、インタラクティブ、現実的でブラウザ互換の環境を実現します。	arXiv	ゲーム
V-IRL	仮想インテリジェンスを実生活に定着させる。	arXiv	エージェント
ウェブデザインエージェント	ウェブデザインに使用されるエージェント。		エージェント
Xエージェント	複雑なタスクを解決するための自律型 LLM エージェント。		エージェント

^ 目次に戻る ^

コード

ソース	説明	紙	ゲームエンジン	タイプ
AIコードトランスレーター	AI を使用してコードをある言語から別の言語に翻訳します。			コード
aiXcoder-7B	aiXcoder-7B コード大規模言語モデル。			コード
塊	bloop は、Rust で書かれた高速コード検索エンジンです。			コード
チャピテル	Jupyter Notebook の ChatGPT コードインタープリター。			コード
コードジーX	オープンな多言語コード生成モデル。	arXiv		コード
コードジーX2	より強力な多言語コード生成モデル。			コード
コードジーX4	CodeGeeX4: オープンな多言語コード生成モデル。			コード
コードジェネ	CodeGen は、プログラム合成用のオープンソースモデルです。 TPU-v4 でトレーニングされました。 OpenAI Codex と競合します。	arXiv		コード
コードジェネ2	プログラム合成用の CodeGen2 モデル。	arXiv		コード
コードラマ	Code Llama は、Llama 2 に基づくコードの大規模言語モデルです。			コード
コードTF	最先端のコード LLM 用のワンストップトランスフォーマーライブラリ。			コード
コードT5	コードの理解と生成のためのオープンコード LLM。			コード
カーソル	新しいタイプのエディターで GPT-4 を使用してコードを作成、編集し、チャットします。			コード
ディープシークコーダー	DeepSeek Coder: コード自体を記述させます。	arXiv		コード
OpenAI コーデックス	OpenAI Codex は GPT-3 の子孫です。			コード
パンダAI	Pandas AI は、生成人工知能機能を Pandas に統合し、データフレームを会話型にする Python ライブラリです。			コード
RobloxScripterAI	RobloxScripterAI は、Roblox 用の AI を活用したコード生成ツールです。		ロブロックス	コード
Scikit-LLM	ChatGPT などの強力な言語モデルを scikit-learn にシームレスに統合して、テキスト分析タスクを強化します。			コード
ソタナ	オープンソースソフトウェア開発アシスタント。	arXiv		コード
安定したコード 3B	エッジでのコーディング。			コード
スターコーダー	? StarCoder は、ソースコードと自然言語テキストでトレーニングされた言語モデル (LM) です。	arXiv		コード
スターコーダー 2	StarCoder2 は、コード生成モデル (3B、7B、および 15B) のファミリーであり、The Stack v2 の 600 以上のプログラミング言語と、Wikipedia、Arxiv、GitHub の問題などの一部の自然言語テキストでトレーニングされています。	arXiv		コード
UnityGen AI	UnityGen AI は、Unity 用の AI を利用したコード生成プラグインです。		団結	コード
空所	Void は、オープンソースの Cursor の代替品です。最高の AI ツールを使用してコードを作成し、データを完全に制御し、強力な AI 機能にアクセスします。			コード

^ 目次に戻る ^

ライター

ソース	説明	タイプ
AIライター	AI は小説を書き、ファンタジーやロマンスのウェブ記事などを生成します。中国の事前トレーニング済み生成モデルです。	ライター
ノートブック.ai	Notebook.ai は、ライター、ゲームデザイナー、ロールプレイヤーが壮大な世界とその中のすべてを作成するためのツールセットです。	ライター
小説	AI を活用したオートコンプリートを備えた Notion スタイルの WYSIWYG エディター。	ライター
NovelAI	AI を活用して、ユニークなストーリー、スリリングな物語、魅惑的なロマンスを苦労なく構築したり、ただふざけたりすることもできます。	ライター

^ 目次に戻る ^

画像

ソース	説明	紙	ゲームエンジン	タイプ
エニードア	ゼロショットのオブジェクトレベルのイメージカスタマイズ。	arXiv		画像
任意のテキスト	多言語ビジュアルテキストの生成と編集。	arXiv		画像
オートスタジオ	マルチターンのインタラクティブな画像生成で一貫した主題を作成します。	arXiv		画像
ブレンダー-コントロールネット	Blender で ControlNet を直接使用します。		ブレンダー	画像
BriVL	ビジョンと言語モデルの橋渡し。	arXiv		画像
猫VTON	CatVTON: 拡散モデルの仮想試着に必要なのは連結だけです。	arXiv		画像
クリパッソ	オブジェクトの画像をスケッチに変換し、さまざまなレベルの抽象化を可能にする方法。	arXiv		画像
クリップドロップ	驚くべきビジュアルを数秒で作成します。			画像
快適なUI	グラフ/ノードインターフェイスを備えた強力でモジュール式の安定した拡散 GUI。			画像
コンセプトラボ	拡散事前制約を使用したクリエイティブの生成。	arXiv		画像
コントロールネット	ControlNet は、追加の条件を追加することで拡散モデルを制御するニューラルネットワーク構造です。	arXiv		画像
CSGO	CSGO: テキストから画像への生成におけるコンテンツスタイルの合成。	arXiv		画像
ダル・エ2	DALL・E 2は、自然言語による記述からリアルな画像やアートを作成できるAIシステムです。			画像
ダッシュトゥーンスタジオ	Dashtoon Studio は、AI を活用したコミック作成プラットフォームです。			漫画
DeepAI	DeepAI は、AI を使用して創造性を高める一連のツールを提供します。			画像
ディープフロイドIF	StabilityAI の DeepFloyd Lab による IF。			画像
深さ何でも V2	深さ何でも V2	arXiv		画像
深度マップライブラリとポーザー	Automatic1111/stable-diffusion-webui の Control Net 拡張機能で使用する深度マップライブラリ。			画像
ディフューズして選択	仮想トライオール用の潜在拡散モデルでの画像条件付き修復の強化。	arXiv		画像
ディスコの普及	AI アートとアニメーションを生成するためのノートブック、モデル、テクニックをフランケンシュタインのように融合したものです。			画像
ドラッグガン	生成画像マニホールドでの対話型のポイントベースの操作。	arXiv		画像
ものを描く	AI を利用したポケット内での画像生成。			画像
DWポーズ	二段階蒸留による効果的な全身姿勢推定。	arXiv		画像
イージーフォト	あなたのスマートAIフォトジェネレーター。			画像
フラックス	このリポジトリには、Flux 潜在整流フロートランスフォーマーを使用してテキストから画像への変換と画像から画像への変換を実行するための最小限の推論コードが含まれています。			画像
フォロー・ユア・クリック	短いプロンプトによるオープンドメインの地域画像アニメーション。	arXiv		画像
フーカス	プロンプトと生成に焦点を当てます。			画像
GIFfusion	安定した拡散を使用して GIF とビデオを作成します。			画像
接地セグメント何でも	画像、テキスト、オーディオ入力を自動的に検出、セグメント化、生成します。	arXiv		画像
ハイビジョンID写真	HivisionIDPhotos: 軽量で効率的な AI 証明写真ツール。			画像
華	Hua は、Stable Diffusion (その他) を備えた AI 画像エディターです。			画像
フンユアン-DiT	きめ細かい中国語の理解を備えた強力なマルチ解像度拡散トランス。	arXiv		画像
ICライト	IC-Light は、画像の照明を操作するプロジェクトです。			画像
表意文字	人々がよりクリエイティブになるよう支援します。			画像
イマージェン	Imagen は、入力テキストからフォトリアリスティックな画像を作成する AI システムです。			画像
img2img-ターボ	SD-Turbo によるワンステップのイメージツーイメージ。			画像
Img2プロンプト	安定した拡散生成画像からプロンプトを取得します。			画像
無限大	Infinity: 高解像度画像合成のためのビットごとの自動回帰モデリングのスケーリング。	arXiv		画像
インスタントID	アイデンティティを保持したゼロショット生成を数秒で実行。	arXiv		画像
InternLM-XComposer2	InternLM-XComposer2 は、自由形式のテキストと画像の構成と理解に優れた画期的なビジョン言語ラージモデル (VLLM) です。	arXiv		画像
コアラ	メモリ効率が高く高速な画像合成のための潜在拡散モデルの知識蒸留における自己注意の問題。			画像
カラーズ	Kolors: フォトリアリスティックなテキストから画像への合成のための拡散モデルの効果的なトレーニング。			画像
クレア	AI を活用した快適なデザインツールを使用して画像やビデオを生成します。			画像
ラヴィブリッジ	テキストから画像への生成のためのさまざまな言語モデルと生成ビジョンモデルの橋渡し。	arXiv		画像
レイヤー拡散	潜在透明性を使用した透明画像レイヤーの拡散。	arXiv		画像
レクシカ	安定した拡散により検索エンジンが表示されます。			画像
ラマジェン	自己回帰モデルが拡散に勝つ: スケーラブルな画像生成のための Llama。	arXiv		画像
ルミナ-mGPT	Lumina-mGPT: マルチモーダル生成事前トレーニングによる、柔軟でフォトリアリスティックなテキストから画像への生成を実現します。	arXiv		画像
メタシュート	MetaShoot は写真スタジオのデジタルツインであり、Unreal Engine のプラグインとして開発され、あらゆるクリエイターが最も簡単かつ迅速な方法で非常にリアルなレンダリングを作成できるようになります。		アンリアルエンジン	画像
旅の途中	Midjourney は、新しい思考媒体を探求し、人類の想像力を拡張する独立した研究機関です。			画像
MIGC	MIGC: テキストから画像への合成のためのマルチインスタンス生成コントローラー。	arXiv		画像
ミミックブラシ	参考模倣によるゼロショット画像編集。	arXiv		画像
オムニジェン	OmniGen: 統合された画像生成。	arXiv		画像
オモスト	Omost は、LLM のコーディング機能を画像生成 (より正確には画像合成) 機能に変換するプロジェクトです。			画像
オープンポーズエディター	AUTOMATIC1111 の安定した拡散ウェブUI 用の Openpose エディター。			画像
誰でも服装	あらゆる服とあらゆる人のための超高品質の仮想試着。			画像
ペイント元に戻す	PaintsUndo: デジタルペイントにおける描画動作の基本モデル。			画像
フォトメーカー	スタック ID 埋め込みによるリアルな人物写真のカスタマイズ。	arXiv		画像
写真室	AI背景ジェネレーター。			画像
プラスク	クラウド上でAI画像生成。			画像
プロンプトアート	ジェネレーターハブ。			画像
プリド	コントラスト調整による Pure ID と Lightning ID のカスタマイズ。	arXiv		画像
リッチテキストから画像への変換	リッチテキストによる表現力豊かなテキストから画像への生成。	arXiv		画像
RPG-ディフュージョンマスター	テキストから画像への拡散をマスターする: マルチモーダル LLM (PRG) を使用したキャプション、計画、および生成。			画像
SEEDストーリー	SEED-Story: 大規模な言語モデルを使用したマルチモーダルな長編ストーリーの生成。	arXiv		画像
何でもセグメント化	Segment Anything Model (SAM): Meta AI の新しい AI モデルで、あらゆる画像内のあらゆるオブジェクトをワンクリックで「切り出す」ことができます。	arXiv		画像
セグメント何でもモデル 2 (SAM 2)	SAM 2: 画像やビデオ内のあらゆるものをセグメント化します。	arXiv		画像
sd-webui-controlnet	ControlNet の WebUI 拡張機能。			画像
SDXL-ライトニング	漸進的敵対的拡散蒸留。	arXiv		画像
SDXS	画像条件を備えたリアルタイムのワンステップ潜在拡散モデル。			画像
Stable.art	Automatic1111 をバックエンドとして使用する安定拡散用の Photoshop プラグイン (ローカルまたは Google Colab を使用)。			画像
安定したカスケード	Stable Cascade は、画像を生成するためのカスケードを表す Stage A、Stage B、Stage C の 3 つのモデルで構成されており、そのため「Stable Cascade」と呼ばれています。			画像
安定した拡散	潜在的なテキストから画像への拡散モデル。			画像
安定した拡散.cpp	純粋な C/C++ での安定した拡散。			画像
安定した拡散Web UI	安定した拡散のための Gradio ライブラリに基づいたブラウザインターフェイス。			画像
安定した拡散Web UI	安定した普及のためのWebベースのUI。			画像
安定した普及 WebUI 中国語	中国語版のstable-diffusion-webui。			画像
安定拡散XL	テキストから画像を生成します。	arXiv		画像
安定拡散XLターボ	リアルタイムのテキストから画像への生成。			画像
安定拡散 3.5	Stable Diffusion 3.5 のオープンリリースには、Stable Diffusion 3.5 Large および Stable Diffusion 3.5 Large Turbo を含む複数のモデルバリアントが含まれています。			画像
安定の落書き	Stable Doodle は、単純な描画を動的な画像に変換するスケッチ画像ツールです。			画像
安定したスタジオ	StableStudio by Stability AI			画像
ストーリーメーカー	StoryMaker: テキストから画像への生成における全体的な一貫性のあるキャラクターを目指して。	arXiv		画像
ストリーム拡散	リアルタイムのインタラクティブな生成のためのパイプラインレベルのソリューション。			画像
スタイルドロップ	あらゆるスタイルでのテキストから画像への生成。	arXiv		画像
シンクドリーマー	シングルビュー画像からマルチビュー一貫性のある画像を生成する。	arXiv		画像
ウルトラエディット	UltraEdit: 命令ベースのきめ細かな大規模な画像編集。	arXiv		画像
ウルトラピクセル	UltraPixel: 超高解像度画像合成を新たなピークに進化させます。	arXiv		画像
Unity ML の安定した拡散	Unity での Core ML の安定した拡散。		団結	画像
ヴィスパンク・ヴィジョンズ	テキストから画像への生成プラットフォーム。			画像

^ 目次に戻る ^

テクスチャ

ソース	説明	紙	ゲームエンジン	タイプ
CRM	畳み込み再構成モデルを使用した単一画像から 3D テクスチャメッシュへの変換。	arXiv		テクスチャ
ドリームマット	ジオメトリと光を認識した拡散モデルによる高品質の PBR マテリアルの生成。	arXiv		テクスチャ
ドリームスペース	テキスト駆動のパノラマテクスチャ伝播で部屋の空間を夢見てみましょう。			テクスチャ
夢のテクスチャ	Blender に組み込まれた安定した拡散。シンプルなテキストプロンプトを使用して、テクスチャ、コンセプトアート、背景アセットなどを作成します。		ブレンダー	テクスチャ
人間を教える	アニメーション化された 3D ヒューマンテクスチャを手順に従って編集します。	arXiv		テクスチャ
インテックス	統合された深度認識修復によるインタラクティブなテキストからテクスチャへの合成。	arXiv		テクスチャ
LLaMA-メッシュ	LLaMA-Mesh: 3D メッシュ生成と言語モデルを統合します。	arXiv		メッシュ
マテリアルセグメント3D	MaterialSeg3D: 3D アセットの 2D 事前分布から高密度マテリアルをセグメント化します。	arXiv		テクスチャ
メッシュ何でも	MaterialSeg3D: 3D アセットの 2D 事前分布から高密度マテリアルをセグメント化します。	arXiv		メッシュ
ニューラランジェロ	高忠実度の神経表面再構成。	arXiv		テクスチャ
ペイントイット	深層畳み込みテクスチャマップの最適化と物理ベースのレンダリングによるテキストからテクスチャへの合成。			テクスチャ
ポリカム	入力するだけで独自の 3D テクスチャを作成できます。			テクスチャ
テックスフュージョン	テキストガイドによる画像拡散モデルを使用した 3D テクスチャの合成。	arXiv		テクスチャ
テキスト2テックス	拡散モデルによるテキスト駆動のテクスチャ合成。	arXiv		テクスチャ
テクスチャラボ	AI が生成したテクスチャ。テキストプロンプトを使用して独自のものを生成できます。			テクスチャ
ポリ付き	Poly でテクスチャを作成します。無料のオンラインエディターで AI を使用して 3D マテリアルを生成したり、増え続けるコミュニティライブラリを検索したりできます。			テクスチャ
X-メッシュ	X-Mesh: ダイナミックテキストガイダンスによる、高速かつ正確なテキスト駆動の 3D スタイライゼーションを目指します。	arXiv		テクスチャ

^ 目次に戻る ^

シェーダ

ソース	説明	紙	ゲームエンジン	タイプ
AI シェーダー	ChatGPT を利用した Unity 用シェーダージェネレーター。		団結	シェーダ

^ 目次に戻る ^

3Dモデル

ソース	説明	紙	ゲームエンジン	タイプ
アニメート3D	Animate3D: マルチビュービデオ拡散を使用して任意の 3D モデルをアニメーション化します。	arXiv		3D
何でも3D	セグメント - 何でも + 3D。あらゆるものを 3D に引き上げましょう。	arXiv		モデル
Any2Point	Any2Point: 効率的な 3D 理解のために任意のモダリティの大規模モデルを強化します。	arXiv		3D
ブレンダーGPT	OpenAI の GPT-4 で Blender を制御するには、英語のコマンドを使用します。		ブレンダー	モデル
ブレンダー-GPT	GPT3/4 + Whisper 統合を利用したオールインワンの Blender アシスタント。		ブレンダー	モデル
封鎖研究所	Skybox Lab では、デジタル錬金術が現実になります。Skybox Lab は、テキストプロンプトから驚異的な 360° スカイボックスエクスペリエンスを生成する、AI を活用した究極のソリューションです。			モデル
CF-3DGS	COLMAP フリーの 3D ガウススプラッティング。	arXiv		3D
キャラクタージェネ	CharacterGen: マルチビューポーズ正規化による単一画像からの効率的な 3D キャラクター生成。	arXiv		3D
チャットGPT-maya	オープン AI を利用して、説明的な指示に基づいて基本的なタスクを実行するシンプルな Maya ツール。		マヤ	モデル
シティドリーマー	境界のない 3D 都市の構成生成モデル。	arXiv		3D
CSM	画像やビデオから 3D 世界を生成します。			3D
ダッシュ	Unreal Engine で世界を構築するための副操縦士。		アンリアルエンジン	3D
夢の触媒	DreamCatalyst: 編集可能性とアイデンティティ保持の制御による高速かつ高品質の 3D 編集。	arXiv		3D
DreamGaussian4D	ジェネレーティブ 4D ガウススプラッティング。	arXiv		4D
ダスト3R	幾何学的な 3D ビジョンが簡単に。	arXiv		3D
3D を編集する	Edify 3D: スケーラブルな高品質 3D アセットの生成。	arXiv		3D
GALA3D	GALA3D: レイアウトに基づいた生成ガウススプラッティングによるテキストから 3D への複雑なシーン生成に向けて。	arXiv		3D
ガウスCtrl	GaussCtrl: マルチビューの一貫したテキスト駆動型 3D ガウススプラッティング編集。	arXiv		3D
ガウスキューブ	3D 生成モデリングのための構造化された明示的な放射輝度表現。	arXiv		3D
ガウスドリーマー	点群事前分布を使用したテキストから 3D ガウススプラッティングまでの高速生成。	arXiv		3D
ジーニーラボ	AI-UGC でゲームを強化します。			3D
ハイファ	高度な拡散ガイダンスによる高忠実度の Text-to-3D。			モデル
ホロドリーマー	HoloDreamer: テキストの説明から全体的な 3D パノラマ世界を生成します。	arXiv		3D
渾源3D-1.0	Hunyuan3D-1.0: Text-to-3D および Image-to-3D 生成のための統合フレームワーク。	arXiv		3D
インフィニジェン	プロシージャル生成を使用した無限のフォトリアリスティックな世界。	arXiv		3D
指示-NeRF2NeRF	手順に従って 3D シーンを編集します。	arXiv		モデル
インタラクティブ3D	インタラクティブな 3D 生成で必要なものを作成します。	arXiv		3D
等方性 3D	単一の CLIP 埋め込みに基づく画像から 3D への生成。			3D
ラテ3D	大規模な償却テキストから Enhanced3D への合成。	arXiv		3D
ライオン	3D 形状生成のための潜在点拡散モデル。	arXiv		モデル
ルマAI	本物そっくりの 3D でキャプチャします。比類のないフォトリアリズム、反射、細部。 VFX の未来は今、みんなのものです。			モデル
ルミネAI	AI を活用した創造性。			3D
メイクイット 3D	拡散プリアを使用した 1 枚の画像からの高忠実度 3D 作成。	arXiv		モデル
メッシュ状	AI を使用して見事な 3D ゲームアセットを作成します。			3D
モーション	魔法の3D AIアニメーションメーカー。			3D
MVドリーム	3D生成のためのマルチビュー拡散。	arXiv		3D
NVIDIA インスタント NeRF	インスタントニューラルグラフィックスプリミティブ: 超高速 NeRF など。			モデル
1-2-3-45	形状ごとの最適化を行わずに、単一の画像を 45 秒で 3D メッシュに変換します。	arXiv		モデル
ペイント3D	照明のないテクスチャ拡散モデルを使用して、あらゆるものを 3D ペイントします。	arXiv		3D
PAniC-3D	アニメキャラクターのポートレートから様式化されたシングルビューの 3D 再構築。	arXiv		モデル
点・E	3D モデル合成のための点群拡散。			モデル
多作のドリーマー	変分スコア蒸留による高忠実度で多様な Text-to-3D 生成。	arXiv		モデル
SF3D	SF3D: UV アンラップと照明のもつれ解除による安定した高速 3D メッシュ再構築。	arXiv		3D
形	テキストまたは画像に基づいて 3D オブジェクトを生成します。	arXiv		モデル
スロイド	3D モデリングがかつてないほど簡単になりました。			モデル
スプラインAI	AI の力が 3 次元に到達しつつあります。プロンプトを使用してオブジェクト、アニメーション、テクスチャを生成します。			モデル
安定のドリームフュージョン	Stable Diffusion text-to-2D モデルを利用した、text-to-3D モデル Dreamfusion の pytorch 実装。			モデル
SV3D	潜像ビデオ拡散を利用した新たな多視点合成と一枚画像からの3D生成。	arXiv		3D
タフィ	AI テキストから 3D キャラクターエンジン。			モデル
3D-GPT	大規模な言語モデルを使用した手続き型 3D モデリング。	arXiv		3D
3D-LLM	3D 世界を大規模な言語モデルに挿入します。	arXiv		3D
3Dpresso	ビデオでキャプチャされたオブジェクトの 3D モデルを抽出します。			モデル
3DTピア	テキストから 3D への生成は 5 分以内に完了します。	arXiv		3D
3DTピア-XL	3DTopia-XL: プリミティブ拡散による高品質 3D アセット生成のスケーリング。	arXiv		3D
スリースタジオ	3D コンテンツ生成のための統合フレームワーク。			モデル
トリポSR	単一の画像から高速フィードフォワード 3D 再構成を行うための最先端のオープンソースモデル。	arXiv		モデル
ユニークな3D	単一の画像から高品質かつ効率的な 3D メッシュを生成します。	arXiv		3D
Unityガウススプラッティング	Unity でのトイガウススプラッティングの視覚化。		団結	3D
ViVid-1 ～ 3	ビデオ拡散モデルを使用した新しいビュー合成。	arXiv		3D
voxcraft	AIですぐに使用できる3Dモデルを作成します。			3D
Wonder3d	クロスドメイン拡散を使用した単一画像から3Dへ。	arxiv		3D
Zero-1-to-3	3Dオブジェクトに1つの画像をゼロショットします。	arxiv		モデル

^ 目次に戻る ^

アバター

ソース	説明	紙	ゲームエンジン	タイプ
アニポレート	フォトリアリスティックなポートレートアニメーションのオーディオ駆動型の合成。	arxiv		アバター
落ち着いた	指示可能な仮想文字の条件付き敵対的潜在モデル。	arxiv		アバター
チャタバタル	テキストガイダンスの下でのアニメーション可能な3D顔の進歩的な生成。			アバター
chatdollkit	ChatDollkitを使用すると、3Dモデルをチャットボットにすることができます。		団結	アバター
ドリームトーク	表現力豊かなトーキングヘッド生成が拡散確率モデルを満たすとき。	arxiv		アバター
duix	Duix-シリコンベースのデジタルヒューマンSDK？			アバター
エコミミック	エコミミック：編集可能なランドマーク条件によるリアルなオーディオ駆動型のポートレートアニメーション。	arxiv		アバター
emoportraits	感情強化マルチモーダルワンショットヘッドアバター。			アバター
E3 Gen	効率的で表現力豊かで編集可能なアバターの世代。	arxiv		アバター
Exavatar	Exavatar-表現力豊かな全身3Dガウスアバター。	arxiv		アバター
geneavatar	単一の画像からのジェネリックエクスプレッションアウェアボリュームヘッドアバター編集。	arxiv		アバター
Geneface ++	一般化された安定したリアルタイム3Dトーキングフェイスジェネレーション。			アバター
ハロ	ポートレート画像アニメーションの階層オーディオ駆動型の視覚合成。	arxiv		アバター
hallo2	HALLO2：長期および高解像度のオーディオ駆動型のポートレートイメージアニメーション。	arxiv		アバター
headsculpt	テキストで3Dヘッドアバターを作成します。	arxiv		アバター
Intrinsicavatar	Intrinsicavatar：明示的な光線トレースを介した単眼ビデオからの動的な人間の物理的に基づいた逆レンダリング。	arxiv		アバター
麻薬	デジタルアバターの会話システム。			アバター
Liveportrait	Liveportrait：ステッチとリターゲティングコントロールを備えた効率的なポートレートアニメーション。	arxiv		アバター
motiongpt	外国語としての人間の動き、LLMSを使用した統一された運動生成モデル。	arxiv		アバター
ミューズポース	Musepose：仮想人間の生成のためのポーズ駆動型の画像からビデオからビデオへのフレームワーク。			アバター
ミューセタルク	潜在スペースが開始されたリアルタイムの高品質のリップシンカー化。			アバター
Musev	視覚条件付きの並列除生を備えた無限の長さと高忠実度の仮想人間のビデオ生成。			アバター
Portrait4d	合成データを使用したワンショット4Dヘッドアバター合成の学習。	arxiv		アバター
準備ができている私	数日でカスタマイズ可能なアバターをゲームまたはアプリに統合します。			アバター
Rodinhd	Rodinhd：拡散モデルを備えた高忠実度3Dアバター生成。	arxiv		アバター
styleavatar3d	高忠実度の3Dアバター生成のための画像テキスト拡散モデルを活用します。	arxiv		アバター
text2Control3d	ジオメトリ誘導テキストから画像への拡散モデルを使用した神経放射輝度フィールドにおける制御可能な3Dアバター生成。	arxiv		アバター
topo4d	高忠実度の4Dヘッドキャプチャのためのトポロジーを摂取するガウススプラッティング。	arxiv		アバター
UnityAiwithChatgpt	Unityに基づいて、ChatGpt+Unitychan Voice Interactive Displayが実現します。		団結	アバター
vid2avatar	3Dアバター再構築自己監視シーンの分解によるワイルドのビデオからの再構築。	arxiv		アバター
ブロガー	具体化されたアバター合成のためのマルチモーダル拡散。			アバター
wild2avatar	閉塞の背後に人間をレンダリングします。	arxiv		アバター

^ 目次に戻る ^

アニメーション

ソース	説明	紙	タイプ
誰でもアニメーション化します	キャラクターアニメーションのための一貫した制御可能な画像間合成。	arxiv	アニメーション
アニメイチング	モーションガイダンスを備えたファイングレインのオープンドメイン画像アニメーション。	arxiv	アニメーション
Animatediff	特定のチューニングなしで、パーソナライズされたテキストから画像間拡散モデルをアニメーション化します。	arxiv	アニメーション
Animatelcm	ビデオ生成を4ステップ以内に加速しましょう！	arxiv	アニメーション
Animate-x	Animate-X：モーション表現が強化されたユニバーサルキャラクターイメージアニメーション。	arxiv	アニメーション
Animatezero	ビデオ拡散モデルは、ゼロショット画像アニメーターです。	arxiv	アニメーション
Animationgpt	ゲーム戦闘モーションアセットを生成するためのAIGCツール。		アニメーション
deforum	Deforumは、安定した拡散を活用して、進化するAIビジュアルを生成します。		アニメーション
Drawingspinup	Drawingspinup：単一の文字図面からの3Dアニメーション。	arxiv	アニメーション
夢を見る	拡散モデルに基づく人間のビデオ生成フレームワーク。	arxiv	アニメーション
フェイスフュージョン	次世代の顔のスワッパーとエンハンサー。		アニメーション
FreeInit	ビデオ拡散モデルの初期化ギャップを橋渡しします。	arxiv	アニメーション
ジーンフェイス	一般化された高忠実度のオーディオ駆動型の3Dトーキングフェイス合成。	arxiv	アニメーション
IDアニメーター	ゼロショットアイデンティティを摂取する人間のビデオ生成。	arxiv	アニメーション
魔術師	拡散モデルを使用した時間的に一貫したヒューマンイメージアニメーション。	arxiv	アニメーション
ヌワ	Dragnuwaは、制御可能なビデオ生成を実現するための入力としてテキスト、画像、および軌道コントロールを採取するオープンドメイン拡散ベースのビデオ生成モデルです。	arxiv	アニメーション
Nuwa-Infinity	Nuwa-Infinityは、与えられたテキスト、画像、またはビデオ入力から高品質の画像とビデオを生成するように設計されたマルチモーダル生成モデルです。		アニメーション
nuwa-xl	非常に長いビデオ生成のための拡散アーキテクチャを介した新しい拡散。		アニメーション
オムニアニメーション	AIは高忠実度アニメーションを生成しました。		アニメーション
ぴあ	テキストから画像モデルのプラグアンドプレイモジュールを介したパーソナライズされた画像アニメーター。	arxiv	アニメーション
サダルカー	様式化されたオーディオ駆動型のシングル画像のトーキングフェイスアニメーションの現実的な3Dモーション係数を学習します。	arxiv	アニメーション
Sadtalker-Video-Lip-Sync	このプロジェクトは、ビデオリップ統合のためのSadtalkers WAV2LIPに基づいています。		アニメーション
安定したアニメーション	開発者向けの強力なテキストからアミメーションツール。		アニメーション
Talecrafter	複数の文字をサポートするインタラクティブなストーリー視覚化ツール。	arxiv	アニメーション
tooncrafter	tooncrafter：生成漫画の補間。	arxiv	アニメーション
wav2lip	野生の動画を正確にリップするビデオ。	arxiv	アニメーション
ワンダースタジオ	CG文字を自動的にアニメーション化、ライト、構成するAIツールは、実写シーンになります。		アニメーション

^ 目次に戻る ^

ビジュアル

ソース	説明	紙	タイプ
カンブリアン-1	CAMBRIAN-1：マルチモーダルLLMの完全にオープンな視覚中心の探索。	arxiv	マルチモーダルLLMS
cogvlm2	LLAMA3-8Bに基づくGPT4Vレベルのオープンソースマルチモーダルモデル。		ビジュアル
コットラッカー	一緒に追跡する方が良いです。	arxiv	ビジュアル
evf-sam	EVF-SAM：テキストプロンプトセグメントのすべてのモデルのための初期の視力式融合。	arxiv	ビジュアル
facehi	一緒に追跡する方が良いです。		ビジュアル
internlm-xcomposer2	internlm-xcomposer2は、フリーフォームのテキストイメージの構成と理解に優れている画期的なビジョン言語大型モデル（VLLM）です。	arxiv	ビジュアル
カンガルー	Kangaroo：ロングコンテキストビデオ入力をサポートする強力なビデオ言語モデル。		ビジュアル
LGVI	マルチモーダルの大手言語モデルを介した言語駆動型のビデオに向けて。		ビジュアル
llava ++	llama-3およびphi-3を使用して視覚機能を拡張します。		ビジュアル
llava-onevision	llava-onevision：簡単な視覚的なタスク転送。	arxiv	ビジュアル
ロングヴァ	言語からビジョンへの長いコンテキスト転送。	arxiv	ビジュアル
maskvit	ビデオ予測のためのマスクされた視覚的な事前トレーニング。	arxiv	ビジュアル
MINICPM-llama3-V 2.5	お使いの携帯電話のGPT-4VレベルMLLM。		ビジュアル
Moe-Llava	大規模なビジョン言語モデルの専門家の混合。	arxiv	ビジュアル
motionllm	人間の動きやビデオからの人間の行動を理解する。	arxiv	ビジュアル
pllava	画像からビデオまでのパラメーターフリーのLlava拡張機能密なキャプションのためのビデオ。	arxiv	ビジュアル
QWEN-VL	理解、ローカリゼーション、テキストの読み取りなどのための汎用性の高いビジョン言語モデル。	arxiv	ビジュアル
sapiens	SAPIENS：人間の視覚モデルの基礎。	arxiv	ビジュアル
sharegpt4v	より良いキャプションで大規模なマルチモーダルモデルを改善します。	arxiv	ビジュアル
ソロ	ソロ：スケーラブルなビジョン言語モデリング用の単一の変圧器。	arxiv	ビジュアル
Video-Ccam	Video-Ccam：因果的な横断的なマスクでビデオ言語の理解を進めます。		ビジュアル
ビデオラバ	投影前のアライメントによる統一された視覚表現を学習します。	arxiv	ビジュアル
videdollama 2	Video-llmsでの空間的モデリングとオーディオ理解の進歩。	arxiv	ビジュアル
ビデオ-mme	ビデオ分析におけるマルチモーダルLLMの初めての包括的な評価ベンチマーク。	arxiv	ビジュアル
ヴィトン	理解、生成、セグメント化、編集のための統一されたピクセルレベルのビジョンLLM。		ビジュアル
ヴィラ	Vila：視覚言語モデルのトレーニング前。	arxiv	ビジュアル

^ 目次に戻る ^

ビデオ

ソース	説明	紙	タイプ
360dvd	360度ビデオ拡散モデルを備えた制御可能なパノラマビデオ生成。	arxiv	ビデオ
アニメート - ストーリー	ストーリーを語るための検索されたビデオ生成。	arxiv	ビデオ
どんなシーンでも何でも	フォトリアリックなビデオオブジェクトの挿入。		ビデオ
アート•v	拡散モデルを備えた自動回帰テキストからビデオへの生成。	arxiv	ビデオ
支援	あなたのアイデアを生き生きとさせる生成ビデオプラットフォームに会います。		ビデオ
アトモビド	高忠実度の画像からビデオへの生成。	arxiv	ビデオ
BackgroundRemover	背景リムーバーを使用すると、無料でオープンソースの単純なコマンドラインインターフェイスを使用して、AIを使用して画像やビデオから背景を削除できます。		ビデオ
ボクシメーター	ビデオ統合のためのリッチで制御可能な動きを生成します。	arxiv	ビデオ
codef	一時的に一貫したビデオ処理のためのコンテンツ変形フィールド。	arxiv	ビデオ
Cogvideo	テキストの説明からビデオを生成します。		ビデオ
コグビデオX	Cogvideoxは、清影と相同であるビデオ生成モデルのオープンソースバージョンです。		ビデオ
cogvlm	COGVLMは、強力なオープンソースビジュアル言語モデル（VLM）です。		ビジュアル
conr	手描きのアニメキャラクターシート（ACS）のGenarate Vivid Dancingビデオ。	arxiv	ビデオ
デコホア	撮影できないものを作成します。		ビデオ
記述	記述は、編集するシンプルで強力で楽しい方法です。		ビデオ
Diffutoon	拡散モデルを介した高解像度の編集可能なトゥーンシェーディング。	arxiv	ビデオ
イルカ	LLMSに基づく一般的なビデオインタラクションプラットフォーム。		ビデオ
ドモアイ	Domoaiで創造性を増幅します。		ビデオ
DreamCinema	DreamCinema：無料のカメラと3Dキャラクターを使用した映画の転写。	arxiv	ビデオ
DynamicRafter	ビデオ拡散前のオープンドメイン画像をアニメーション化します。	arxiv	ビデオ
角	エッジを紹介します。エッジは、任意の入力音楽に忠実でありながら、現実的で肉体的には柔軟なダンスを作成することができる編集可能なダンス生成の強力な方法です。	arxiv	ビデオ
エモ	エモートポートレートアライブ - 弱い条件下でAudio2Video拡散モデルを使用して表現力豊かなポートレートビデオを生成します。	arxiv	ビデオ
EMUビデオ	明示的な画像条件付けによるテキストからビデオへの生成を考慮します。		ビデオ
エトナ	Etnaは、短いテキストの説明に基づいて対応するビデオコンテンツを生成できます。		ビデオ
妖精	高速並列化された命令誘導ビデオからビデオへの統合。		ビデオ
カンバスをフォローしてください	フォローあなたのカンバス：大規模なコンテンツ生成により、高解像度のビデオが廃止されます。	arxiv	ビデオ
あなたのポーズに従ってください	ポーズフリーのビデオを使用したポーズガイド付きテキストからビデオへの生成。	arxiv	ビデオ
FullJourney	AI作成ツールの完全なスイートは、指先にあります。		ビデオ
Gen-2	テキスト、画像、またはビデオクリップで新しいビデオを生成できるマルチモーダルAIシステム。		ビデオ
生成ダイナミクス	生成画像ダイナミクス。		ビデオ
ジーニー	生成的インタラクティブ環境。	arxiv	ビデオ
ジェンモ	AIで魔法のようにビデオを作成します。		ビデオ
紳士	画像とビデオ生成用の拡散トランス。		ビデオ
ヒゲン	テキストからビデオへの生成のための階層的な空間的デカップリング。		ビデオ
hotshot-xl	HotShot-XLは、安定した拡散XLと一緒に動作するように訓練されたAIテキストからGIFモデルです。		ビデオ
Hunyuanvideo	Hunyuanvideo：大規模なビデオ生成モデルのための体系的なフレームワーク。	arxiv	ビデオ
画像ビデオ	テキストプロンプトが与えられた場合、Imagenビデオは、ベースビデオ生成モデルと、インターリーブされた空間的および時間的なビデオスーパー解像度モデルのシーケンスを使用して、高解像度ビデオを生成します。		ビデオ
InstructVideo	人間のフィードバックを使用したビデオ拡散モデルを指示します。	arxiv	ビデオ
i2vgen-xl	カスケードされた拡散モデルを介した高品質の画像間合成。	arXiv	ビデオ
ラビー	カスケードされた潜在拡散モデルを使用した高品質のビデオ生成。	arxiv	ビデオ
LTXスタジオ	LTX Studioは、クリエイター、マーケティング担当者、映画製作者、スタジオ向けの全体的なAI主導の映画製作プラットフォームです。		ビデオ
LTX-Video	LTX-Videoは、高品質のビデオをリアルタイムで生成できる最初のDITベースのビデオ生成モデルです。 768x512の解像度で24のFPSビデオを生成できます。これは、視聴するのにかかるよりも速いです。		ビデオ
ルミエール	ビデオ生成のための時空拡散モデル。	arxiv	ビデオ
lvdm	高忠実度の長いビデオ生成のための潜在的なビデオ拡散モデル。	arxiv	ビデオ
MagicVideo	潜在的な拡散モデルを備えた効率的なビデオ生成。	arxiv	ビデオ
MagicVideo-V2	マルチステージの高審美的なビデオ生成。	arxiv	ビデオ
魔法の時間	クリエイター向けのAIビデオはシンプルになりました。		ビデオ
MagVit-V2	トークンザーは視覚生成の鍵です。		ビデオ
マグビット	マスクされた生成ビデオトランス。		ビデオ
make-a-video	Make-A-Videoは、テキストからビデオを生成する最先端のAIシステムです。	arxiv	ビデオ
ピクセルを踊らせます	高ダイナミックビデオ生成。	arxiv	ビデオ
your-video make	テキストおよび構造ガイダンスを使用したカスタマイズされたビデオ生成。	arxiv	ビデオ
マイクロシネマ	テキストからビデオへの生成のための分裂と征服のアプローチ。	arxiv	ビデオ
ミモ	MIMO：空間分解されたモデリングを使用した制御可能なキャラクタービデオ統合。	arxiv	ビデオ
ミニゲミニ	マルチモダリティビジョン言語モデルの可能性をマイニングします。		ビジョン
MobileVidFactory	テキストからのモバイルデバイス用の自動拡散ベースのソーシャルメディアビデオ生成。		ビデオ
モチ1	Mochi 1は、高忠実度の動きと予備評価の強力な迅速な順守を備えたオープンな最先端のビデオ生成モデルです。		ビデオ
Mofa-Video	凍結画像間拡散モデルにおける生成モーションフィールド適応による制御可能な画像アニメーション。	arxiv	ビデオ
MoneyPrinterturbo	大きなモデルを使用して、ワンクリックで短いビデオを生成します。		ビデオ
ムーンバレー	Moonvalleyは、画期的な新しいテキストからビデオへの生成AIモデルです。		ビデオ
モラ	ジェネラリストのビデオ生成のためのソラのように。	arxiv	ビデオ
Morph Studio	私たちのテキストからビデオへのAIマジックで、あなたのプロンプトを通してあなたの創造性を明示してください。		ビデオ
MotionClone	MotionClone：制御可能なビデオ生成のためのトレーニングフリーモーションクローニング。	arxiv	ビデオ
motionctrl	ビデオ生成のための統一された柔軟なモーションコントローラー。	arxiv	ビデオ
MotionDirector	テキスト間拡散モデルのモーションカスタマイズ。	arxiv	ビデオ
Motionshop	ビデオの文字を3Dアバターに置き換えるアプリケーション。		ビデオ
mov2mov	自動1111/stable-diffusion-webui用のmov2movプラグイン。		ビデオ
moviefactory	言語と画像に大きな生成モデルを使用したテキストからの自動ムービーの作成。	arxiv	ビデオ
ニューラルフレーム	視覚世界のシンセサイザーを発見してください。		ビデオ
NeverEnds	あなたの世界を作ります。		ビデオ
オープンソラ	すべての人に効率的なビデオ制作を民主化する。		ビデオ
オープンソラ	オープンソラプラン。		ビデオ
フェナキ	テキストからビデオを生成するためのモデル、時間の経過とともに変化するプロンプト、および複数分と同じ長さのビデオがあります。	arxiv	ビデオ
ピカラボ	Pika Labsは、AIでのビデオ作成体験に革命をもたらしています。		ビデオ
ピクセル	Pixelingは、画像、ビデオ、3Dモデルなど、非常に正確で、超現実的で非常に制御可能な視覚コンテンツを作成することができます。		ビデオ
pixverse	AIで息をのむようなビデオを作成します。		ビデオ
受粉	作成は簡単で、速く、楽しくなります。		ビデオ
再利用と拡散	テキストからビデオへの生成のための反復除去。	arxiv	ビデオ
如意	Ruyiは、768の解像度で映画品質のビデオを生成できる画像からビデオへのモデルであり、フレームレートは1秒あたり24フレーム、合計5秒、120フレームです。		ビデオ
shortgpt	自動化された短い/ビデオコンテンツの作成のための実験的なAIフレームワーク。		ビデオ
show-1	テキストからビデオへの生成のためのピクセルと潜在拡散モデルの結婚。	arxiv	ビデオ
ビデオをスナップします	テキストからビデオへの合成のためのスケーリングされた時空変圧器。	arxiv	ビデオ
ソラ	テキストからビデオを作成します。		ビデオ
Sorawebui	SorawebuiはオープンソースのSORA Webクライアントであり、ユーザーがOpenaiのSORAモデルを使用してテキストからビデオを簡単に作成できるようになりました。		ビデオ
stablevideo	テキスト駆動型の一貫性が認識される拡散ビデオ編集。		ビデオ
安定したビデオ拡散	安定したビデオ拡散（SVD）画像からビデオへ。		ビデオ
StoryDiffusion	長距離画像とビデオ生成のための一貫した自己関節。	arxiv	ビデオ
Streamingt2v	テキストからの一貫性があり、動的で、拡張可能な長いビデオ生成。	arxiv	ビデオ
StyleCrafter	スタイルアダプターを備えた様式化されたテキストからビデオへの生成。	arxiv	ビデオ
タット	時間依存のVQGANと時間に敏感な変圧器を備えた長いビデオ生成。		ビデオ
text2video-zero	テキストからイメージへの拡散モデルは、ゼロショットビデオジェネレーターです。	arxiv	ビデオ
TF-T2V	テキストのないビデオでテキストからビデオへの生成を拡大するためのレシピ。	arxiv	ビデオ
トラ	Tora：ビデオ生成のための軌道指向の拡散トランス。	arxiv	ビデオ
トラック - 何でも	Track-Anythingは、セグメントのあらゆるものとXMEMに基づいて、ビデオオブジェクトの追跡とセグメンテーションのための柔軟でインタラクティブなツールです。	arxiv	ビデオ
tune-a-video	テキストからビデオへの生成のための画像拡散モデルのワンショットチューニング。	arxiv	ビデオ
Twelvelabs	人間のようなビデオを理解しているマルチモーダルAI。		ビデオ
大学	統一されたモーダルビデオ生成に向けて。		ビデオ
VCHITECT-2.0	VCHITECT-2.0：ビデオ拡散モデルをスケーリングするためのパラレルトランス。		ビデオ
vgen	拡散モデル上のビデオ生成構築のためのホリスティックなビデオ生成エコシステム。	arxiv	ビデオ
viewcrafter	ViewCrafter：高忠実度の新規ビュー統合のためのタミングビデオ拡散モデル。	arxiv	ビデオ
Video-chatgpt	Video-chatgptは、ビデオに関する意味のある会話を生成できるビデオ会話モデルです。	arxiv	ビデオ
VideoComposer	モーション制御性を備えた組成ビデオ統合。	arxiv	ビデオ
Videocrafter1	高品質のビデオ生成のための拡散モデルを開きます。	arxiv	ビデオ
Videocrafter2	高品質のビデオ拡散モデルのデータ制限を克服します。	arxiv	ビデオ
videodrafter	LLMを使用したコンテンツに一貫性のあるマルチシーンビデオ生成。	arxiv	ビデオ
VideoElevator	汎用性の高いテキストから画像への拡散モデルでビデオ生成品質を高める。	arxiv	ビデオ
ビデオファクタリー	テキストからビデオへの生成のために、時空間的拡散に注意を交換します。		ビデオ
Videogen	高解像度のテキストからビデオへの生成のための参照誘導潜在的拡散アプローチ。	arxiv	ビデオ
videolcm	ビデオ潜在的な一貫性モデル。	arxiv	ビデオ
ビデオLDMS	潜在性を調整します：高解像度のビデオ統合は、潜在的な拡散モデルを使用します。	arxiv	ビデオ
ビデオラバ	投影前のアライメントによる統一された視覚表現を学習します。	arxiv	ビデオ
ビデオマンバ	効率的なビデオ理解のための状態空間モデル。	arxiv	ビデオ
考え方	ビデオのビデオ：知覚から認知までの段階的なビデオ推論。		ビデオ
videopoet	ゼロショットビデオ生成のための大規模な言語モデル。	arxiv	ビデオ
ヴィスパンクの動き	テキストだけを使用してリアルなビデオを作成します。		ビデオ
VisualRwkv	VisualRWKVは、RWKV言語モデルの視覚的に強化されたバージョンであり、RWKVがさまざまな視覚タスクを処理できるようにします。		ビジュアル
V-ジェパ	予測アーキテクチャを埋め込むビデオジョイント。	arxiv	ビデオ
ウォルト	拡散モデルを備えたフォトリアリスティックビデオ生成。	arxiv	ビデオ
ゼロスコープ	ゼロスコープテキストからビデオへ。		ビデオ

^ 目次に戻る ^

オーディオ

ソース	説明	紙	タイプ
Academicodec	学術研究のためのオープンソースオーディオコーデックモデル。		オーディオ
アンフィオン	オープンソースオーディオ、音楽、音声生成ツールキット。	arxiv	オーディオ
Archisound	Pytorchで拡散モデルを使用したオーディオ生成。		オーディオ
オーディオボックス	自然言語のプロンプトを備えた統一オーディオ生成。		オーディオ
オーディオ編集	DDPM反転を使用した監視なしおよびテキストベースのオーディオ編集ゼロ。	arxiv	オーディオ
オーディオゲンコーデック	一般的なオーディオのための低圧縮48kHzステレオニューラルオーディオコーデック、オーディオフィデリティの最適化？		オーディオ
audiogpt	スピーチ、音楽、サウンド、トーキングヘッドの理解と生成。	arxiv	オーディオ
audiolcm	潜在的な一貫性モデルを備えたテキストからオーディオの生成。	arxiv	オーディオ
audioldm	潜在的な拡散モデルを備えたテキストからオーディオの生成。	arxiv	オーディオ
audioldm 2	自己監視前の事前削除を伴う全体的なオーディオ生成を学習します。	arxiv	オーディオ
auffusion	テキストからオーディオの生成のための拡散の力と大規模な言語モデルを活用します。	arxiv	オーディオ
ctag	シンセサイザープログラミングを介したクリエイティブテキストからオーディオの生成。		オーディオ
foleycrafter	foleycrafter：リアルな同期音で静かなビデオを生き生きとさせます。	arxiv	オーディオ
磁石	単一の非自動網膜トランスを使用したマスクオーディオ生成。		オーディオ
Make-An-Audio	迅速な拡散モデルを備えたテキストからオーディオの生成。	arxiv	オーディオ
Make-An-Audio 3	フローベースの大型拡散トランスを介してテキストをオーディオに変換します。	arxiv	オーディオ
Nealalsound	音響転送による学習ベースのモーダルサウンド合成。	arxiv	オーディオ
Optimizerai	クリエイター、ゲームメーカー、アーティスト、ビデオメーカーのためのサウンド。		オーディオ
QWEN2-AUDIO	QWEN2-AUDIOチャットとAlibaba Cloudが提案する前提条件の大規模なオーディオ言語モデル。	arxiv	オーディオ
-2-Soundを参照してください	ゼロショット空間環境から空間的なサウンド。	arxiv	オーディオ
サウンドストーム	効率的な並列オーディオ生成。	arxiv	オーディオ
安定したオーディオ	高速タイミング条件付き潜在オーディオ拡散。		オーディオ
安定したオーディオオープン	Stable Audio Open 1.0は、テキストプロンプトから44.1kHzで可変長（最大47秒）ステレオオーディオを生成します。		オーディオ
SyncFusion	SyncFusion：マルチモーダル開始ビデオからオーディオフォーリーシンセシス。	arxiv	オーディオ
タンゴ	命令調整LLMおよび潜在的拡散モデルを使用したテキストからオーディオの生成。		オーディオ
VTA-LDM	隠されたアライメントを伴うビデオからオーディオの生成。	arxiv	オーディオ
Wavjourney	大規模な言語モデルを使用した構成オーディオ作成。	arxiv	オーディオ

^ 目次に戻る ^

音楽

ソース	説明	紙	タイプ
アイヴァ	感情的なサウンドトラック音楽を構成する人工知能。		音楽
アンパーミュージック	アンパーを搭載したカスタムミュージック生成テクノロジー。		音楽
ブーミー	生成音楽を作成します。それを世界と共有してください。		音楽
Chatmusian	本質的な音楽能力をLLMに育てます。		音楽
chord2melody	自動音楽ジェネレーションAI。		音楽
diff-bgm	ビデオバックグラウンドミュージック生成の拡散モデル。	arxiv	音楽
流動性	Fluxmusic：整流フロートランスを使用したテキストから音楽への生成。	arxiv	音楽
Gptableton	GPT応答を処理し、AbletonoscとPython-OSCを使用してAbletonクリップにMIDIノートを送信するためのドラフトスクリプト。		音楽
heymusic.ai	AIミュージックジェネレーター		音楽
音楽への画像	AI Image to Music Generatorは、人工知能を使用して画像を音楽に変換するツールです。		音楽
Jen-1	全方向性拡散モデルを備えたテキスト誘導ユニバーサル音楽生成。		音楽
ジュークボックス	音楽の生成モデル。	arxiv	音楽
マゼンタ	マゼンタは、アートと音楽の作成プロセスにおける機械学習の役割を探る研究プロジェクトです。		音楽
メロディー	効率的なニューラル音楽生成		音楽
マバート	AI生成音楽。		音楽
ミューセネット	10種類の楽器を備えた4分間の音楽作曲を生成できる深いニューラルネットワークで、国からモーツァルトまでスタイルを組み合わせることができます。		音楽
MusicGen	シンプルで制御可能な音楽生成。	arxiv	音楽
Musicldm	鼓動同期ミックス戦略を使用したテキストから音楽の世代の斬新さを強化します。	arxiv	音楽
音楽LM	テキストから音楽を生成します。	arxiv	音楽
リフュージョンアプリ	Riffusionは、安定した拡散を備えたリアルタイムの音楽生成向けのアプリです。		音楽
ソナウート	Sonautoは、AIの音楽エディターであり、プロンプト、歌詞、またはメロディーをあらゆるスタイルのフルソングに変えます。		音楽
soundraw	クリエイター向けのAI音楽ジェネレーター。		音楽
Soundry AI	テキストツーサウンドや無限のサンプルパックを含む生成AIツール。		音楽

^ 目次に戻る ^

歌声

ソース	説明	紙	タイプ
diffsinger	浅い拡散メカニズムを介した歌声合成。	arxiv	歌声
検索ベースのVoice-Conversion-Webui	VITに基づく使いやすいSVCフレームワーク。		歌声
so-vits-svc	SoftVCは音声変換を歌うvits。		歌声
VI-SVS	vitsとopencpopを使用して、歌声合成を開発します。 Visingerとは異なります。		歌声

^ 目次に戻る ^

スピーチ

ソース	説明	紙	ゲームエンジン	タイプ
Applio	比類のないパワー、モジュール性、ユーザーフレンドリーな体験のために細心の注意を払って最適化された究極の音声クローニングツール。			スピーチ
オーディオ	テキストイン。オーディオアウト。			スピーチ
吠える	テキストプロンプト化生成オーディオモデル。			スピーチ
Bert-vits2	多言語のバートを備えたVits2バックボーン。			スピーチ
チャット	Chatttsは、毎日の対話のための生成的な音声モデルです。			スピーチ
拍手用	対照的な言語監査でテキストのコンテキストから韻律を学習します。	arxiv		スピーチ
cosyvoice	多言語の大規模な音声生成モデル、推論、トレーニング、展開フルスタック機能を提供します。			スピーチ
dex-tts	時間の変動性に関するスタイルモデリングを備えた拡散ベースの表現テキストからスピーチ。	arxiv		スピーチ
emotivoice	マルチボイスおよびプロンプト制御TTSエンジン。			スピーチ
フリキ	テキストをAI Voicesを使用してビデオに変えます。			スピーチ
GLM-4-Voice	GLM-4-Voiceは、Zhipu AIによって発売されたエンドツーエンドの音声モデルです。 GLM-4-Voiceは、中国語と英語のスピーチを直接理解して生成し、リアルタイムの音声会話に従事し、ユーザーの指示に基づいて感情、イントネーション、音声レート、方言などの属性を変更できます。			スピーチ
glow-tts	単調なアライメント検索を介したテキスト間の生成フロー。	arxiv		スピーチ
gpt-sovits	強力な少数の音声変換とテキストからスピーチへのWebUI。			スピーチ
lovo	Lovoは、何千人ものクリエイター向けのAI Voice Generator＆Text to Speechプラットフォームです。			スピーチ
マハット	オープンソースの大規模な音声生成モデル。			スピーチ
抹茶	条件付きフローマッチングを備えた高速TTSアーキテクチャ。	arxiv		スピーチ
メロット	myshell.aiによる高品質の多言語テキストからスピーチへのライブラリ。英語、スペイン語、フランス語、中国語、日本語、韓国語をサポートします。			スピーチ
metavoice-1B	人間レベルの音声知能のためのAI。			スピーチ
narakeet	現実的なテキストからスピーチを使用して、簡単にナレーションを作成します。			スピーチ
ミニオムニ	Mini-Omni：言語モデルは、ストリーミングで考えながら聞くことができます。 Mini-Omniは、耳を傾け、考えながら話すことができるオープンソースマルチモデルの大規模な言語モデルです。リアルタイムのエンドツーエンドの音声入力とストリーミングオーディオ出力会話機能を備えています。	arxiv		スピーチ
ワンショットボイスクローニング	UNET-TTSの1つのショット音声クローニングベース。			スピーチ
OpenVoice	MyShellによるインスタント音声クローニング。			スピーチ
オーバーフロー	より良いTTSのために、ニューラルトランスデューサの上に流れを置きます。			スピーチ
Realtimetts	RealTimettsは、リアルタイムアプリケーション向けに設計された最先端のテキストからスピーチ（TTS）ライブラリです。			スピーチ
Sensevoice	Sensevoiceは、自動音声認識（ASR）、音声言語識別（LID）、音声感情認識（SER）、オーディオイベント検出（AED）など、複数の音声理解機能を備えた音声基盤モデルです。			スピーチ
speechgpt	本質的なクロスモーダルの会話能力を持つ大規模な言語モデルに力を与えます。	arxiv		スピーチ
スピーチとテキスト-GPT3ユニティ	これは、unityのopenaiのWhisperとChatGpt APIを使用するリポジトリです。		団結	スピーチ
安定した音声	安定性AIのテキストからスピーチモデル。			スピーチ
スタブレット	安定した拡散3に触発されたフローマッチングとDITを使用した次世代TTSモデル。			スピーチ
Styletts 2	スタイルの拡散と、大規模な音声言語モデルを使用した敵対的なトレーニングを通じて、人間レベルのテキストからスピーチに向けて。	arxiv		スピーチ
Tortoise.cpp	Tortoise.cpp：Tortoise-TTSのGGML実装。			スピーチ
Tortoise-Tts	品質に重点を置いて訓練されたマルチボイスTTSシステム。			スピーチ
TTS Generation WebUI	TTS Generation WebUI（Bark、MusicGen、Tortoise、RVC、Vocos、Demucs）。			スピーチ
vall-e	ニューラルコーデック言語モデルは、音声シンセサイザーのゼロショットテキストです。	arxiv		スピーチ
Vall-e x	あなた自身の声で外国語を話す：横断的な神経コーデック言語モデリング	arxiv		スピーチ
Vocode	VoCodeは、音声ベースのLLMアプリケーションを構築するためのオープンソースライブラリです。			スピーチ
Voicebox	大規模なテキスト誘導多言語普遍的な音声生成。	arxiv		スピーチ
ヴォイククラフト	野生のゼロショットの音声編集とテキストからスピーチ。			スピーチ
ささやき	Whisperは、汎用音声認識モデルです。			スピーチ
ささやき声	ささやきを反転させることによって構築されたオープンソースのテキストからスピーチシステム。			スピーチ
Xe-Speech	非自動格納と言語間の感情的なテキストへの物語と音声変換の共同トレーニングフレームワーク。			スピーチ
XTTS	XTTSは、高度なテキストからスピーチの生成のライブラリです。			スピーチ
yourtts	ゼロショットマルチスピーカーTTSと、すべての人のためのゼロショット音声変換に向けて。	arxiv		スピーチ
zmm-tts	ゼロショットマルチリンギャルおよびマルチスピーカーの音声合成は、自己監視された個別の音声表現を条件としています。	arxiv		スピーチ