ai game devtools
1.0.0
ここでは、LLM、エージェント、コード、ライター、画像、テクスチャ、シェーダー、3D モデル、アニメーション、ビデオ、オーディオ、音楽、歌声、分析などの最新の AI ゲーム開発ツールを追跡します。
ソース | 説明 | 紙 | ゲームエンジン | タイプ |
---|---|---|---|---|
エージェントGPT | ?ブラウザで自律型 AI エージェントを組み立て、構成し、デプロイします。 | 道具 | ||
AIコマンド | ChatGPT と Unity エディターの統合。 | 団結 | 道具 | |
アイオス | LLM エージェントのオペレーティング システム。 | 道具 | ||
AI科学者 | AI 科学者: 完全に自動化されたオープンエンドの科学的発見に向けて。 | arXiv | 道具 | |
アシスタント CLI | ChatGPTサービスを利用するための快適なCLIツール | 道具 | ||
自動 GPT | GPT-4 を完全に自律化する実験的なオープンソースの試み。 | 道具 | ||
ベイビーAGI | この Python スクリプトは、AI を活用したタスク管理システムの例です。 | 道具 | ||
?? BabyAGI UI | BabyAGI UI は、ChatGPT などの Web アプリで babyagi を使用して簡単に実行および開発できるように設計されています。 | 道具 | ||
バイチュアン-7B | Baichuan によって開発された大規模な 7B 事前トレーニング言語モデル。 | 道具 | ||
バイチュアン-13B | Baichuan Intelligent Technology によって開発された 13B の大規模言語モデル。 | 道具 | ||
バイチュアン 2 | Baichuan Intelligent Technology によって開発された一連の大規模言語モデル。 | 道具 | ||
ビシェン | Bisheng は、次世代 AI アプリケーション用のオープン LLM Devops プラットフォームです。 | 道具 | ||
キャラクター-LLM | ロールプレイング用のトレーニング可能なエージェント。 | arXiv | 道具 | |
チャット開発 | ソフトウェア開発のためのコミュニケーションエージェント。 | arXiv | 道具 | |
ChatGPT-API-unity | ChatGPT チャット完了 API を Unity 上の純粋な C# にバインドします。 | 団結 | 道具 | |
チャットGPTForUnity | Unity用のChatGPT。 | 団結 | 道具 | |
チャットRWKV | ChatRWKV は ChatGPT に似ていますが、RWKV (100% RNN) 言語モデルとオープンソースを利用しています。 | 道具 | ||
チャットユアン | 中国語と英語での対話のための大規模言語モデル。 | 道具 | ||
チャイニーズ-LLaMA-アルパカ-3 | (中国の Llama-3 LLM) Meta Llama 3 から開発されました。 | 道具 | ||
クロム-GPT | デスクトップ上の Chrome を制御する AutoGPT エージェント。 | 道具 | ||
CogVLM | CogVLM は、強力なオープンソースのビジュアル言語基盤モデルです。 | arXiv | 道具 | |
コアネット | ディープ ニューラル ネットワークをトレーニングするためのライブラリ。 | 道具 | ||
コスモス | Cosmos は、ロボティクスおよび AV ラボでの物理 AI の開発を加速するためのワールド基盤モデル、トークナイザー、およびビデオ処理パイプラインで構成されるワールド モデル開発プラットフォームです。 | LLM | ||
DBRX | DBRX は、Databricks によってトレーニングされた大規模な言語モデルです。 | 道具 | ||
DCLM | 言語モデルの DataComp。 | arXiv | 道具 | |
DeepSeek-V3 | DeepSeek-V3 は、合計 671B のパラメータを備え、トークンごとに 37B が有効化された強力な専門家混合 (MoE) 言語モデルです。 | arXiv | LLM | |
デモGPT | Llama 2 のパワーを備えた Auto Gen-AI アプリ ジェネレーター | 道具 | ||
デザイン2コード | フロントエンドエンジニアリングの自動化 | 道具 | ||
デヴィカ | Devika は、Agentic AI ソフトウェア エンジニアです。 | 道具 | ||
デボン | オープンソースのペアプログラマ。 | 道具 | ||
ドラ | 強力な Web サイトを一度に 1 つのプロンプトで生成します。 | 道具 | ||
フローワイズ | UI をドラッグ アンド ドロップして、LangchainJS を使用してカスタマイズされた LLM フローを構築します。 | 道具 | ||
ジェミニ | Gemini は、テキスト、画像、ビデオ、オーディオ、コード全体でシームレスに推論できるマルチモダリティ向けにゼロから構築されています。 | 道具 | ||
ジェマ | Gemma は、Google Gemini モデルの作成に使用された研究とテクノロジーに基づいて構築された、軽量で最先端のオープン モデルのファミリーです。 | 道具 | ||
ジェマ.cpp | Google の Gemma モデル用の軽量のスタンドアロン C++ 推論エンジン。 | 道具 | ||
GLM-4 | GLM-4-9B は、Zhipu AI によって発売された GLM-4 シリーズの最新世代の事前トレーニング済みモデルのオープンソース バージョンです。 | 道具 | ||
GPT4すべて | コード、ストーリー、ダイアログなどのクリーンなアシスタント データの膨大なコレクションに基づいてトレーニングされたチャットボット。 | 道具 | ||
GPT-4o | GPT-4o (「オムニ」の「o」) は、より自然な人間とコンピューターの対話への一歩です。テキスト、音声、画像、ビデオのあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像のあらゆる組み合わせを生成します。出力。 | 道具 | ||
GPTスクリプト | 自然言語で LLM アプリを開発します。 | 道具 | ||
Grok-1 | 3,140 億パラメータの専門家混合モデル Grok-1 の重みとアーキテクチャ。 | 道具 | ||
ハグチャット | コミュニティの最高の AI チャット モデルを誰もが利用できるようにします。 | 道具 | ||
ハグフェイス API Unity 統合 | この Unity パッケージは、Hugging Face Inference API の使いやすい統合を提供し、開発者が Unity プロジェクト内で Hugging Face AI モデルにアクセスして使用できるようにします。 | 団結 | 道具 | |
イメージバインド | ImageBind 1 つの埋め込みスペースですべてをバインドします。 | arXiv | 道具 | |
インデックス-1.9B | SOTA の軽量多言語 LLM。 | 道具 | ||
InteractML-Unity | InteractML、Unity3D 用の対話型機械学習ビジュアル スクリプト フレームワーク。 | 団結 | 道具 | |
InteractML-アンリアル エンジン | 機械学習を Unreal Engine に導入します。 | アンリアル エンジン | 道具 | |
インターンLM | InternLM は、70 億パラメータのベースモデル、実践的なシナリオに合わせて調整されたチャット モデル、およびトレーニング システムをオープンソース化しました。 | arXiv | 道具 | |
インターンLM-X作曲家 | InternLM-XComposer2 は、自由形式のテキストと画像の構成と理解に優れた画期的なビジョン言語ラージ モデル (VLLM) です。 | arXiv | 道具 | |
1月 | AI をデスクトップにもたらします。 | 道具 | ||
ラミニ | Lamini では、RLHF と独自のデータの微調整を通じて、あらゆるエンジニアリング チームが汎用 LLM を上回るパフォーマンスを発揮できるようになります。 | 道具 | ||
ラミニLM | LaMini-LM は、ChatGPT から抽出され、258 万命令の大規模データセットでトレーニングされた、小規模で効率的な言語モデルのコレクションです。 | 道具 | ||
ラングチェーン | LangChain は、言語モデルを利用してアプリケーションを開発するためのフレームワークです。 | 道具 | ||
ラングフロー | ⛓️ LangFlow は LangChain の UI であり、フローの実験とプロトタイプの簡単な方法を提供するために、react-flow で設計されています。 | 道具 | ||
ラヴァーグ | Large Action Model フレームワークを使用して自動化を自動化します。 | 道具 | ||
キツネザル | 言語エージェントのオープン基盤モデル。 | 道具 | ||
レプトンAI | AI サービスの構築を簡素化する Python フレームワーク。 | 道具 | ||
Lit-LLaMA | nanoGPT に基づく LLaMA 言語モデルの実装。フラッシュ アテンション、Int8 および GPTQ 4 ビット量子化、LoRA および LLaMA アダプター微調整、事前トレーニングをサポートします。 | 道具 | ||
ラマ2ウェブイ | GPU または CPU 上の gradio UI を使用して、どこからでも (Linux/Windows/Mac) ローカルで Llama 2 を実行します。 | 道具 | ||
ラマ 3 | 公式 Meta Llama 3 GitHub サイト。 | 道具 | ||
ラマ 3.1 | Llama は、開発者、研究者、企業が生成 AI アイデアを構築、実験し、責任を持って拡張できるように設計された、アクセスしやすいオープンな大規模言語モデル (LLM) です。 | 道具 | ||
LLaSM | 大規模な言語および音声モデル。 | 道具 | ||
LLM アンサー エンジン | Next.js、Groq、Mixtral、Langchain、OpenAI、Brave、Serper を使用して、Perplexity にインスピレーションを得た回答エンジンを構築します。 | 道具 | ||
llm.c | シンプルな生の C/CUDA での LLM トレーニング。 | 道具 | ||
LLユニティ | LLM を使用して Unity でキャラクターを作成しましょう! | 団結 | 道具 | |
Lローカルサーチ | LLocalSearch は、LLM エージェントを使用して完全にローカルで実行される検索エンジンです。 | 道具 | ||
ロジックゲームソルバー | AI、ディープラーニング、コンピューター ビジョンを使用してロジック ゲームを解決する Python ツール。 | 道具 | ||
ロングライター | LongWriter: 長いコンテキスト LLM から 10,000 以上の単語を生成します。 | arXiv | 道具 | |
大世界モデル (LWM) | Large World Model (LWM) は、汎用のラージコンテキストのマルチモーダル自己回帰モデルです。 | arXiv | 道具 | |
ルミナ-T2X | Lumina-T2X は、テキストから任意のモダリティへの生成のための統合フレームワークです。 | arXiv | 道具 | |
メタGPT | マルチエージェントフレームワーク | 道具 | ||
ミニCPM-2B | エンドサイド LLM は Llama2-13B よりも優れています。 | 道具 | ||
MiniGPT-4 | 高度な大規模言語モデルによる視覚言語の理解を強化します。 | arXiv | 道具 | |
MiniGPT-5 | Generative Vokens によるインターリーブされたビジョンと言語の生成。 | arXiv | 道具 | |
ミストラル 8x7B | 高品質のまばらな専門家の混合。 | arXiv | 道具 | |
ミストラル 7B | これまでで最高の 7B モデル、Apache 2.0。 | 道具 | ||
ミストラル・ラージ | Mistral Large は、新しい最先端のテキスト生成モデルです。最高レベルの推論能力に達します。 | 道具 | ||
MLC LLM | 誰もが AI モデルを開発、最適化し、全員のデバイスにネイティブに展開できるようにします。 | 道具 | ||
モビリラマ | 正確で軽量な完全に透明な GPT を目指して。 | arXiv | 道具 | |
MoE-LLaVA | 大規模な視覚言語モデルの専門家の混合。 | arXiv | 道具 | |
モシ | Moshi は実験的な会話型 AI です。 | 道具 | ||
モシ | Moshi: リアルタイム対話のための音声テキスト基盤モデル。 | 道具 | ||
苔 | 復旦大学によるオープンソースのツールで拡張された会話言語モデル。 | 道具 | ||
mPLUG-フクロウ? | モジュール化により、大規模な言語モデルにマルチモーダリティが与えられます。 | arXiv | 道具 | |
ネモトロン-4 | 8 兆のテキスト トークンでトレーニングされた、150 億のパラメータを持つ大規模な多言語言語モデル。 | arXiv | 道具 | |
NExT-GPT | Any-to-Any マルチモーダル大規模言語モデル。 | 道具 | ||
オルモ | オープン言語モデル | arXiv | 道具 | |
オムニLMM | 強力なパフォーマンスと効率的な展開を実現する大規模なマルチモーダル モデル。 | 道具 | ||
ワンLLM | すべてのモダリティを言語に合わせるための 1 つのフレームワーク。 | arXiv | 道具 | |
オープンアシスタント | OpenAssistant は、タスクを理解し、サードパーティ システムと対話し、そのために情報を動的に取得できるチャットベースのアシスタントです。 | 道具 | ||
オープンデビン | 自律型AIソフトウェアエンジニア。 | 道具 | ||
オリオン-14B | Orion-14B は、14B 基礎 LLM と一連のモデルを含むモデル ファミリです。 | arXiv | 道具 | |
パンダ | 海外中国語のオープンソース大規模言語モデル。Llama-7B、-13B、-33B、-65B に基づいており、中国語分野での継続的な事前トレーニングを目的としています。 | 道具 | ||
パープレクシカ | AIを活用した検索エンジン。 | 道具 | ||
円周率 | 個人的な支援と精神的なサポートのために設計された AI チャットボット。 | 道具 | ||
クウェン1.5 | Qwen1.5はQwenの改良版です。 | 道具 | ||
クウェン2 | Qwen2 は、Alibaba Cloud の Qwen チームによって開発された大規模言語モデル シリーズです。 | 道具 | ||
クウェン-7B | Alibaba Cloud が提案する Qwen-7B (通义千问-7B) チャットと事前トレーニングされた大規模言語モデルの公式リポジトリ。 | 道具 | ||
リポエージェント | RepoAgent は、プロジェクトを文書化するインテリジェントな方法を提供することを目的とした大規模言語モデル (LLM) によって推進されるオープンソース プロジェクトです。 | arXiv | 道具 | |
Sanity AI エンジン | Unity ゲーム開発ツール用の Sanity AI エンジン。 | 団結 | 道具 | |
GPTを検索 | ? ChatGPTをインターネットに接続する | 道具 | ||
GPT4Vを共有する | より良いキャプションによる大規模なマルチモーダル モデルの改善。 | 道具 | ||
スカイワーク | Skywork シリーズ モデルは、3.2 TB の高品質の多言語 (主に中国語と英語) およびコード データで事前トレーニングされています。 | 道具 | ||
StableLM | 安定性 AI 言語モデル。 | arXiv | 道具 | |
スタンフォード アルパカ | 命令に従う LLaMA モデル。 | 道具 | ||
テキスト生成Web UI | LLaMA、llama.cpp、GPT-J、OPT、GALACTICA などの大規模言語モデルを実行するための gradio Web UI。 | 道具 | ||
タイニーチャットエンジン | オンデバイス LLM 推論ライブラリ。 | 道具 | ||
ツールベンチ | ツール学習のための大規模な言語モデルをトレーニング、提供、評価するためのオープン プラットフォーム。 | 道具 | ||
UnityチャットGPT | Unity ChatGPT 実験。 | 団結 | 道具 | |
Unity OpenAI-API 統合 | openai GPT-3 言語モデルと ChatGPT API を Unity プロジェクトに統合します。 | 団結 | 道具 | |
アンリアル エンジン 5 ラマ LoRA | 小規模でローカルにトレーニング可能な LLM を使用して次世代のドキュメント ツールを作成する可能性を示す概念実証プロジェクト。 | アンリアル エンジン | 道具 | |
UnrealGPT | GPT3/4 を利用した Unreal Engine 5 Editor Utility ウィジェットのコレクション。 | アンリアル エンジン | 道具 | |
ビデオ-LLaVA | 投影前の位置合わせによる統合された視覚表現の学習。 | arXiv | 道具 | |
WebGPT | WebGPUを使用してブラウザ上でGPTモデルを実行します。 | 道具 | ||
Web3-GPT | AI を使用したスマート コントラクトの導入 | 道具 | ||
WordGPT | ? ChatGPT の機能を Microsoft Word に導入 | 道具 | ||
Xエージェント | 複雑なタスクを解決するための自律型 LLM エージェント。 | 道具 | ||
イー | 開発者によってゼロからトレーニングされた一連の大規模な言語モデル。 | 道具 | ||
01 プロジェクト | オープンソースの言語モデル コンピューター。 | 道具 |
^ 目次に戻る ^
ソース | 説明 | 紙 | ゲームエンジン | タイプ |
---|---|---|---|---|
エージェントベンチ | LLM をエージェントとして評価するための包括的なベンチマーク。 | arXiv | エージェント | |
エージェントのグループチャット | 集団的な緊急行動をより適切に引き出すためのインタラクティブなグループ チャット シミュラクラ。 | arXiv | エージェント | |
エージェントK | 自己進化するモジュール式の自動エージェント AGI。 | エージェント | ||
エージェントスコープ | LLM を活用したマルチエージェント アプリケーションの構築を簡単な方法で始めましょう。 | arXiv | エージェント | |
エージェントシムズ | 大規模言語モデル評価用のオープンソース サンドボックス。 | エージェント | ||
AIタウン | AI タウンは、AI キャラクターが住み、チャットし、交流する仮想の町です。 | エージェント | ||
アニメ.GF | CharacterAI に代わるローカルおよびオープンソース。 | ゲーム | ||
アストロケイド | AIでゲームを作る | ゲーム | ||
原子エージェント | Atomic Agents フレームワークは、モジュール式で拡張可能で使いやすいように設計されています。 | エージェント | ||
オートエージェント | エージェントを自動生成するためのフレームワーク。 | エージェント | ||
自動生成 | 次世代の大規模言語モデル アプリケーションを有効にします。 | arXiv | エージェント | |
行動 | Behaviac はゲーム AI 開発のフレームワークです。 | フレームワーク | ||
バイオーム | Biomes は、Next.js、Typescript、React、WebAssembly などの Web テクノロジーを使用して Web 用に構築されたオープンソースのサンドボックス MMORPG です。 | ゲーム | ||
思考の緩衝材 | 大規模な言語モデルを使用した思考拡張推論。 | arXiv | エージェント | |
Byzerエージェント | 誰にとっても簡単、高速、分散型エージェント フレームワーク。 | エージェント | ||
キャットタウン | AC(h)atGPT を使用した猫とのシミュレーション。 | エージェント | ||
キャットタウン | AC(h)atGPT を使用した猫とのシミュレーション。 | エージェント | ||
キャラクターGLM | 大規模な言語モデルを使用した中国語会話 AI キャラクターのカスタマイズ。 | arXiv | エージェント | |
チャット開発 | ソフトウェア開発のためのコミュニケーションエージェント。 | arXiv | エージェント | |
コグエージェント | CogAgent は、CogVLM に基づいて改良されたオープンソースのビジュアル言語モデルです。 | arXiv | エージェント | |
ゆりかご | 一般的なコンピュータ制御に向けて。 | エージェント | ||
クルーAI | ロールプレイングの自律型 AI エージェントを調整するためのフレームワーク。 | エージェント | ||
ディファイ | Dify は、オープンソースの LLM アプリ構築プラットフォームです。 | エージェント | ||
デジタルライフプロジェクト | ソーシャル インテリジェンスを備えた自律型 3D キャラクター。 | arXiv | エージェント | |
すべての愛 | AI を活用した、熟練したローカル チャットボット アシスタントですか? | エージェント | ||
ファブリック | ファブリックは、AI を使用して人間を拡張するためのオープンソース フレームワークです。 | エージェント | ||
高速GPT | FastGPT は、LLM 上に構築された知識ベースのプラットフォームです。 | エージェント | ||
ファストラグ | 効率的な検索拡張および生成フレームワーク。 | エージェント | ||
ゲームAISDK | 画像ベースのゲーム AI 自動化フレームワーク。 | フレームワーク | ||
GameNGen | 普及モデルはリアルタイム ゲーム エンジンです。 | arXiv | ゲーム | |
ゲームジェネオー | GameGen-O: オープンワールド ビデオ ゲームの生成。 | ゲーム | ||
ジェンエージェント | GenAgent: 自動ワークフロー生成による共同 AI システムの構築 - ComfyUI のケーススタディ。 | arXiv | エージェント | |
生成エージェント | 人間の行動のインタラクティブなシミュレーション。 | arXiv | エージェント | |
創世記 | Genesis: ロボット工学とその先のための生成的で普遍的な物理エンジン。 | ゲーム | ||
ジーニー | 生成的なインタラクティブ環境。 | ゲーム | ||
ギガックス | ランタイム、LLM を利用した NPC。 | ゲーム | ||
カバRAG | 神経生物学的にヒントを得た大規模言語モデルの長期記憶。 | arXiv | エージェント | |
インタラクティブな LLM を利用した NPC | Interactive LLM Powered NPCs は、あらゆるゲームにおけるノンプレイヤー キャラクター (NPC) とのインタラクションを完全に変えるオープンソース プロジェクトです。 | ゲーム | ||
イオア | 協調的な AI エージェントのためのオープンソース フレームワーク。インターネットのような接続を通じて、分散した多様なエージェントがチームを組んで複雑なタスクに取り組むことができます。 | エージェント | ||
クワイエージェント | 大規模言語モデル (LLM) を使用した一般化された情報探索エージェント システム。 | arXiv | エージェント | |
ラングチェーン | LLM アプリケーションをプロトタイプから実稼働環境に移行します。 | エージェント | ||
ラングフロー | Langflow は LangChain の UI であり、react-flow を使用して設計されており、フローの実験とプロトタイプの簡単な方法を提供します。 | エージェント | ||
ランググラフスタジオ | LangGraph Studio は、複雑なエージェント アプリケーションの視覚化、対話、デバッグを可能にする特殊なエージェント IDE を提供することで、LLM アプリケーションを開発する新しい方法を提供します。 | エージェント | ||
LARP | オープンワールド ゲームの言語エージェント ロール プレイ。 | arXiv | エージェント | |
LLama エージェント システム | Llama スタック API のエージェント コンポーネント。 | エージェント | ||
ラマインデックス | LlamaIndex は、LLM アプリケーションのデータ フレームワークです。 | エージェント | ||
マインドサーチ | ? Web 検索エンジンの LLM ベースのマルチエージェント フレームワーク (Perplexity.ai Pro や SearchGPT など)。 | エージェント | ||
薬剤の混合物 (MoA) | エージェントの混合により大規模言語モデルの機能が強化されます。 | arXiv | エージェント | |
MMRole | MMRole: マルチモーダル ロールプレイング エージェントを開発および評価するための包括的なフレームワーク。 | arXiv | エージェント | |
ムーンランダー.ai | 生成 AI を使用して、コーディングなしで 3D ゲームの構築を始めましょう。 | フレームワーク | ||
MuGディフュージョン | MuG Diffusion は、Stable Diffusion (最も強力な AIGC モデルの 1 つ) をベースに、オーディオ ウェーブを組み込むために大幅に変更を加えたリズム ゲーム用のチャート AI です。 | ゲーム | ||
オアシス | Oasis は、Decart と Etched によって開発されたインタラクティブな世界モデルです。拡散トランスフォーマーに基づいて、Oasis はユーザーのキーボード入力を受け取り、自己回帰的な方法でゲームプレイを生成します。 | ゲーム | ||
オムエージェント | 複雑なタスクを解決するためのマルチモーダル エージェント フレームワーク。 | エージェント | ||
オープンエージェント | 野生の言語エージェントのためのオープン プラットフォーム。 | エージェント | ||
オーパス | テキストをビデオゲームに変える AI アプリ。 | ゲーム | ||
パイプキャット | 音声およびマルチモーダル会話 AI 用のオープンソース フレームワーク。 | エージェント | ||
クウェンエージェント | Qwen-Agent は、Qwen の指示に従って、ツールの使用法、計画、およびメモリ機能に基づいて LLM アプリケーションを開発するためのフレームワークです。 | エージェント | ||
ラガス | Ragas は、検索拡張生成 (RAG) パイプラインの評価に役立つフレームワークです。 | エージェント | ||
RPベンチオート | ロールプレイング用の LLM を評価するための自動パイプライン。 | ゲーム | ||
シマ | 3D 仮想環境向けのジェネラリスト AI エージェント。 | エージェント | ||
ストーリーゲーム.ai | 夢想家のための AI がゲームを作る。 | ゲーム | ||
SWEエージェント | エージェント コンピュータ インターフェイスにより、ソフトウェア エンジニアリング言語モデルが有効になります。 | arXiv | エージェント | |
タスクジェネ | LLM エージェントによる StrictJSON 出力に基づいて構築されたタスクベースのエージェント フレームワーク。 | エージェント | ||
TENエージェント | TEN Agent は、OpenAI Realtime API、RTC と統合された世界初のリアルタイム マルチモーダル エージェントであり、天気チェック、Web 検索、ビジョン、RAG 機能を備えています。 | エージェント | ||
翻訳エージェント | リフレクション ワークフローを使用したエージェント翻訳。 | エージェント | ||
ツイッター | Twitter Personality は、Wordware AI Agent を使用して Twitter ハンドルを分析し、パーソナライズされたパーソナリティ プロファイルを作成する Web アプリケーションです。 | エージェント | ||
無制限 | Unbounded: キャラクターライフシミュレーションの生成無限ゲーム。 | arXiv | ゲーム | |
ビデオ2ゲーム | 単一のビデオからリアルタイム、インタラクティブ、現実的でブラウザ互換の環境を実現します。 | arXiv | ゲーム | |
V-IRL | 仮想インテリジェンスを実生活に定着させる。 | arXiv | エージェント | |
ウェブデザインエージェント | ウェブデザインに使用されるエージェント。 | エージェント | ||
Xエージェント | 複雑なタスクを解決するための自律型 LLM エージェント。 | エージェント |
^ 目次に戻る ^
ソース | 説明 | 紙 | ゲームエンジン | タイプ |
---|---|---|---|---|
AIコードトランスレーター | AI を使用してコードをある言語から別の言語に翻訳します。 | コード | ||
aiXcoder-7B | aiXcoder-7B コード大規模言語モデル。 | コード | ||
塊 | bloop は、Rust で書かれた高速コード検索エンジンです。 | コード | ||
チャピテル | Jupyter Notebook の ChatGPT コード インタープリター。 | コード | ||
コードジーX | オープンな多言語コード生成モデル。 | arXiv | コード | |
コードジーX2 | より強力な多言語コード生成モデル。 | コード | ||
コードジーX4 | CodeGeeX4: オープンな多言語コード生成モデル。 | コード | ||
コードジェネ | CodeGen は、プログラム合成用のオープンソース モデルです。 TPU-v4 でトレーニングされました。 OpenAI Codex と競合します。 | arXiv | コード | |
コードジェネ2 | プログラム合成用の CodeGen2 モデル。 | arXiv | コード | |
コードラマ | Code Llama は、Llama 2 に基づくコードの大規模言語モデルです。 | コード | ||
コードTF | 最先端のコード LLM 用のワンストップ トランスフォーマー ライブラリ。 | コード | ||
コードT5 | コードの理解と生成のためのオープン コード LLM。 | コード | ||
カーソル | 新しいタイプのエディターで GPT-4 を使用してコードを作成、編集し、チャットします。 | コード | ||
ディープシークコーダー | DeepSeek Coder: コード自体を記述させます。 | arXiv | コード | |
OpenAI コーデックス | OpenAI Codex は GPT-3 の子孫です。 | コード | ||
パンダAI | Pandas AI は、生成人工知能機能を Pandas に統合し、データフレームを会話型にする Python ライブラリです。 | コード | ||
RobloxScripterAI | RobloxScripterAI は、Roblox 用の AI を活用したコード生成ツールです。 | ロブロックス | コード | |
Scikit-LLM | ChatGPT などの強力な言語モデルを scikit-learn にシームレスに統合して、テキスト分析タスクを強化します。 | コード | ||
ソタナ | オープンソース ソフトウェア開発アシスタント。 | arXiv | コード | |
安定したコード 3B | エッジでのコーディング。 | コード | ||
スターコーダー | ? StarCoder は、ソース コードと自然言語テキストでトレーニングされた言語モデル (LM) です。 | arXiv | コード | |
スターコーダー 2 | StarCoder2 は、コード生成モデル (3B、7B、および 15B) のファミリーであり、The Stack v2 の 600 以上のプログラミング言語と、Wikipedia、Arxiv、GitHub の問題などの一部の自然言語テキストでトレーニングされています。 | arXiv | コード | |
UnityGen AI | UnityGen AI は、Unity 用の AI を利用したコード生成プラグインです。 | 団結 | コード | |
空所 | Void は、オープンソースの Cursor の代替品です。最高の AI ツールを使用してコードを作成し、データを完全に制御し、強力な AI 機能にアクセスします。 | コード |
^ 目次に戻る ^
ソース | 説明 | 紙 | ゲームエンジン | タイプ |
---|---|---|---|---|
AIライター | AI は小説を書き、ファンタジーやロマンスのウェブ記事などを生成します。中国の事前トレーニング済み生成モデルです。 | ライター | ||
ノートブック.ai | Notebook.ai は、ライター、ゲーム デザイナー、ロールプレイヤーが壮大な世界とその中のすべてを作成するためのツール セットです。 | ライター | ||
小説 | AI を活用したオートコンプリートを備えた Notion スタイルの WYSIWYG エディター。 | ライター | ||
NovelAI | AI を活用して、ユニークなストーリー、スリリングな物語、魅惑的なロマンスを苦労なく構築したり、ただふざけたりすることもできます。 | ライター |
^ 目次に戻る ^
ソース | 説明 | 紙 | ゲームエンジン | タイプ |
---|---|---|---|---|
エニードア | ゼロショットのオブジェクトレベルのイメージカスタマイズ。 | arXiv | 画像 | |
任意のテキスト | 多言語ビジュアルテキストの生成と編集。 | arXiv | 画像 | |
オートスタジオ | マルチターンのインタラクティブな画像生成で一貫した主題を作成します。 | arXiv | 画像 | |
ブレンダー-コントロールネット | Blender で ControlNet を直接使用します。 | ブレンダー | 画像 | |
BriVL | ビジョンと言語モデルの橋渡し。 | arXiv | 画像 | |
猫VTON | CatVTON: 拡散モデルの仮想試着に必要なのは連結だけです。 | arXiv | 画像 | |
クリパッソ | オブジェクトの画像をスケッチに変換し、さまざまなレベルの抽象化を可能にする方法。 | arXiv | 画像 | |
クリップドロップ | 驚くべきビジュアルを数秒で作成します。 | 画像 | ||
快適なUI | グラフ/ノード インターフェイスを備えた強力でモジュール式の安定した拡散 GUI。 | 画像 | ||
コンセプトラボ | 拡散事前制約を使用したクリエイティブの生成。 | arXiv | 画像 | |
コントロールネット | ControlNet は、追加の条件を追加することで拡散モデルを制御するニューラル ネットワーク構造です。 | arXiv | 画像 | |
CSGO | CSGO: テキストから画像への生成におけるコンテンツ スタイルの合成。 | arXiv | 画像 | |
ダル・エ2 | DALL・E 2は、自然言語による記述からリアルな画像やアートを作成できるAIシステムです。 | 画像 | ||
ダッシュトゥーン スタジオ | Dashtoon Studio は、AI を活用したコミック作成プラットフォームです。 | 漫画 | ||
DeepAI | DeepAI は、AI を使用して創造性を高める一連のツールを提供します。 | 画像 | ||
ディープフロイドIF | StabilityAI の DeepFloyd Lab による IF。 | 画像 | ||
深さ何でも V2 | 深さ何でも V2 | arXiv | 画像 | |
深度マップ ライブラリとポーザー | Automatic1111/stable-diffusion-webui の Control Net 拡張機能で使用する深度マップ ライブラリ。 | 画像 | ||
ディフューズして選択 | 仮想トライオール用の潜在拡散モデルでの画像条件付き修復の強化。 | arXiv | 画像 | |
ディスコの普及 | AI アートとアニメーションを生成するためのノートブック、モデル、テクニックをフランケンシュタインのように融合したものです。 | 画像 | ||
ドラッグガン | 生成画像マニホールドでの対話型のポイントベースの操作。 | arXiv | 画像 | |
ものを描く | AI を利用したポケット内での画像生成。 | 画像 | ||
DWポーズ | 二段階蒸留による効果的な全身姿勢推定。 | arXiv | 画像 | |
イージーフォト | あなたのスマートAIフォトジェネレーター。 | 画像 | ||
フラックス | このリポジトリには、Flux 潜在整流フロー トランスフォーマーを使用してテキストから画像への変換と画像から画像への変換を実行するための最小限の推論コードが含まれています。 | 画像 | ||
フォロー・ユア・クリック | 短いプロンプトによるオープンドメインの地域画像アニメーション。 | arXiv | 画像 | |
フーカス | プロンプトと生成に焦点を当てます。 | 画像 | ||
GIFfusion | 安定した拡散を使用して GIF とビデオを作成します。 | 画像 | ||
接地セグメント何でも | 画像、テキスト、オーディオ入力を自動的に検出、セグメント化、生成します。 | arXiv | 画像 | |
ハイビジョンID写真 | HivisionIDPhotos: 軽量で効率的な AI 証明写真ツール。 | 画像 | ||
華 | Hua は、Stable Diffusion (その他) を備えた AI 画像エディターです。 | 画像 | ||
フンユアン-DiT | きめ細かい中国語の理解を備えた強力なマルチ解像度拡散トランス。 | arXiv | 画像 | |
ICライト | IC-Light は、画像の照明を操作するプロジェクトです。 | 画像 | ||
表意文字 | 人々がよりクリエイティブになるよう支援します。 | 画像 | ||
イマージェン | Imagen は、入力テキストからフォトリアリスティックな画像を作成する AI システムです。 | 画像 | ||
img2img-ターボ | SD-Turbo によるワンステップのイメージツーイメージ。 | 画像 | ||
Img2プロンプト | 安定した拡散生成画像からプロンプトを取得します。 | 画像 | ||
無限大 | Infinity: 高解像度画像合成のためのビットごとの自動回帰モデリングのスケーリング。 | arXiv | 画像 | |
インスタントID | アイデンティティを保持したゼロショット生成を数秒で実行。 | arXiv | 画像 | |
InternLM-XComposer2 | InternLM-XComposer2 は、自由形式のテキストと画像の構成と理解に優れた画期的なビジョン言語ラージ モデル (VLLM) です。 | arXiv | 画像 | |
コアラ | メモリ効率が高く高速な画像合成のための潜在拡散モデルの知識蒸留における自己注意の問題。 | 画像 | ||
カラーズ | Kolors: フォトリアリスティックなテキストから画像への合成のための拡散モデルの効果的なトレーニング。 | 画像 | ||
クレア | AI を活用した快適なデザイン ツールを使用して画像やビデオを生成します。 | 画像 | ||
ラヴィブリッジ | テキストから画像への生成のためのさまざまな言語モデルと生成ビジョン モデルの橋渡し。 | arXiv | 画像 | |
レイヤー拡散 | 潜在透明性を使用した透明画像レイヤーの拡散。 | arXiv | 画像 | |
レクシカ | 安定した拡散により検索エンジンが表示されます。 | 画像 | ||
ラマジェン | 自己回帰モデルが拡散に勝つ: スケーラブルな画像生成のための Llama。 | arXiv | 画像 | |
ルミナ-mGPT | Lumina-mGPT: マルチモーダル生成事前トレーニングによる、柔軟でフォトリアリスティックなテキストから画像への生成を実現します。 | arXiv | 画像 | |
メタシュート | MetaShoot は写真スタジオのデジタル ツインであり、Unreal Engine のプラグインとして開発され、あらゆるクリエイターが最も簡単かつ迅速な方法で非常にリアルなレンダリングを作成できるようになります。 | アンリアル エンジン | 画像 | |
旅の途中 | Midjourney は、新しい思考媒体を探求し、人類の想像力を拡張する独立した研究機関です。 | 画像 | ||
MIGC | MIGC: テキストから画像への合成のためのマルチインスタンス生成コントローラー。 | arXiv | 画像 | |
ミミックブラシ | 参考模倣によるゼロショット画像編集。 | arXiv | 画像 | |
オムニジェン | OmniGen: 統合された画像生成。 | arXiv | 画像 | |
オモスト | Omost は、LLM のコーディング機能を画像生成 (より正確には画像合成) 機能に変換するプロジェクトです。 | 画像 | ||
オープンポーズエディター | AUTOMATIC1111 の安定した拡散ウェブUI 用の Openpose エディター。 | 画像 | ||
誰でも服装 | あらゆる服とあらゆる人のための超高品質の仮想試着。 | 画像 | ||
ペイント元に戻す | PaintsUndo: デジタル ペイントにおける描画動作の基本モデル。 | 画像 | ||
フォトメーカー | スタック ID 埋め込みによるリアルな人物写真のカスタマイズ。 | arXiv | 画像 | |
写真室 | AI背景ジェネレーター。 | 画像 | ||
プラスク | クラウド上でAI画像生成。 | 画像 | ||
プロンプトアート | ジェネレーターハブ。 | 画像 | ||
プリド | コントラスト調整による Pure ID と Lightning ID のカスタマイズ。 | arXiv | 画像 | |
リッチテキストから画像への変換 | リッチテキストによる表現力豊かなテキストから画像への生成。 | arXiv | 画像 | |
RPG-ディフュージョンマスター | テキストから画像への拡散をマスターする: マルチモーダル LLM (PRG) を使用したキャプション、計画、および生成。 | 画像 | ||
SEEDストーリー | SEED-Story: 大規模な言語モデルを使用したマルチモーダルな長編ストーリーの生成。 | arXiv | 画像 | |
何でもセグメント化 | Segment Anything Model (SAM): Meta AI の新しい AI モデルで、あらゆる画像内のあらゆるオブジェクトをワンクリックで「切り出す」ことができます。 | arXiv | 画像 | |
セグメント何でもモデル 2 (SAM 2) | SAM 2: 画像やビデオ内のあらゆるものをセグメント化します。 | arXiv | 画像 | |
sd-webui-controlnet | ControlNet の WebUI 拡張機能。 | 画像 | ||
SDXL-ライトニング | 漸進的敵対的拡散蒸留。 | arXiv | 画像 | |
SDXS | 画像条件を備えたリアルタイムのワンステップ潜在拡散モデル。 | 画像 | ||
Stable.art | Automatic1111 をバックエンドとして使用する安定拡散用の Photoshop プラグイン (ローカルまたは Google Colab を使用)。 | 画像 | ||
安定したカスケード | Stable Cascade は、画像を生成するためのカスケードを表す Stage A、Stage B、Stage C の 3 つのモデルで構成されており、そのため「Stable Cascade」と呼ばれています。 | 画像 | ||
安定した拡散 | 潜在的なテキストから画像への拡散モデル。 | 画像 | ||
安定した拡散.cpp | 純粋な C/C++ での安定した拡散。 | 画像 | ||
安定した拡散Web UI | 安定した拡散のための Gradio ライブラリに基づいたブラウザ インターフェイス。 | 画像 | ||
安定した拡散Web UI | 安定した普及のためのWebベースのUI。 | 画像 | ||
安定した普及 WebUI 中国語 | 中国語版のstable-diffusion-webui。 | 画像 | ||
安定拡散XL | テキストから画像を生成します。 | arXiv | 画像 | |
安定拡散XLターボ | リアルタイムのテキストから画像への生成。 | 画像 | ||
安定拡散 3.5 | Stable Diffusion 3.5 のオープン リリースには、Stable Diffusion 3.5 Large および Stable Diffusion 3.5 Large Turbo を含む複数のモデル バリアントが含まれています。 | 画像 | ||
安定の落書き | Stable Doodle は、単純な描画を動的な画像に変換するスケッチ画像ツールです。 | 画像 | ||
安定したスタジオ | StableStudio by Stability AI | 画像 | ||
ストーリーメーカー | StoryMaker: テキストから画像への生成における全体的な一貫性のあるキャラクターを目指して。 | arXiv | 画像 | |
ストリーム拡散 | リアルタイムのインタラクティブな生成のためのパイプライン レベルのソリューション。 | 画像 | ||
スタイルドロップ | あらゆるスタイルでのテキストから画像への生成。 | arXiv | 画像 | |
シンクドリーマー | シングルビュー画像からマルチビュー一貫性のある画像を生成する。 | arXiv | 画像 | |
ウルトラエディット | UltraEdit: 命令ベースのきめ細かな大規模な画像編集。 | arXiv | 画像 | |
ウルトラピクセル | UltraPixel: 超高解像度画像合成を新たなピークに進化させます。 | arXiv | 画像 | |
Unity ML の安定した拡散 | Unity での Core ML の安定した拡散。 | 団結 | 画像 | |
ヴィスパンク・ヴィジョンズ | テキストから画像への生成プラットフォーム。 | 画像 |
^ 目次に戻る ^
ソース | 説明 | 紙 | ゲームエンジン | タイプ |
---|---|---|---|---|
CRM | 畳み込み再構成モデルを使用した単一画像から 3D テクスチャ メッシュへの変換。 | arXiv | テクスチャ | |
ドリームマット | ジオメトリと光を認識した拡散モデルによる高品質の PBR マテリアルの生成。 | arXiv | テクスチャ | |
ドリームスペース | テキスト駆動のパノラマ テクスチャ伝播で部屋の空間を夢見てみましょう。 | テクスチャ | ||
夢のテクスチャ | Blender に組み込まれた安定した拡散。シンプルなテキスト プロンプトを使用して、テクスチャ、コンセプト アート、背景アセットなどを作成します。 | ブレンダー | テクスチャ | |
人間を教える | アニメーション化された 3D ヒューマン テクスチャを手順に従って編集します。 | arXiv | テクスチャ | |
インテックス | 統合された深度認識修復によるインタラクティブなテキストからテクスチャへの合成。 | arXiv | テクスチャ | |
LLaMA-メッシュ | LLaMA-Mesh: 3D メッシュ生成と言語モデルを統合します。 | arXiv | メッシュ | |
マテリアルセグメント3D | MaterialSeg3D: 3D アセットの 2D 事前分布から高密度マテリアルをセグメント化します。 | arXiv | テクスチャ | |
メッシュ何でも | MaterialSeg3D: 3D アセットの 2D 事前分布から高密度マテリアルをセグメント化します。 | arXiv | メッシュ | |
ニューラランジェロ | 高忠実度の神経表面再構成。 | arXiv | テクスチャ | |
ペイントイット | 深層畳み込みテクスチャ マップの最適化と物理ベースのレンダリングによるテキストからテクスチャへの合成。 | テクスチャ | ||
ポリカム | 入力するだけで独自の 3D テクスチャを作成できます。 | テクスチャ | ||
テックスフュージョン | テキストガイドによる画像拡散モデルを使用した 3D テクスチャの合成。 | arXiv | テクスチャ | |
テキスト2テックス | 拡散モデルによるテキスト駆動のテクスチャ合成。 | arXiv | テクスチャ | |
テクスチャラボ | AI が生成したテクスチャ。テキスト プロンプトを使用して独自のものを生成できます。 | テクスチャ | ||
ポリ付き | Poly でテクスチャを作成します。無料のオンライン エディターで AI を使用して 3D マテリアルを生成したり、増え続けるコミュニティ ライブラリを検索したりできます。 | テクスチャ | ||
X-メッシュ | X-Mesh: ダイナミック テキスト ガイダンスによる、高速かつ正確なテキスト駆動の 3D スタイライゼーションを目指します。 | arXiv | テクスチャ |
^ 目次に戻る ^
ソース | 説明 | 紙 | ゲームエンジン | タイプ |
---|---|---|---|---|
AI シェーダー | ChatGPT を利用した Unity 用シェーダー ジェネレーター。 | 団結 | シェーダ |
^ 目次に戻る ^
ソース | 説明 | 紙 | ゲームエンジン | タイプ |
---|---|---|---|---|
アニメート3D | Animate3D: マルチビュー ビデオ拡散を使用して任意の 3D モデルをアニメーション化します。 | arXiv | 3D | |
何でも3D | セグメント - 何でも + 3D。あらゆるものを 3D に引き上げましょう。 | arXiv | モデル | |
Any2Point | Any2Point: 効率的な 3D 理解のために任意のモダリティの大規模モデルを強化します。 | arXiv | 3D | |
ブレンダーGPT | OpenAI の GPT-4 で Blender を制御するには、英語のコマンドを使用します。 | ブレンダー | モデル | |
ブレンダー-GPT | GPT3/4 + Whisper 統合を利用したオールインワンの Blender アシスタント。 | ブレンダー | モデル | |
封鎖研究所 | Skybox Lab では、デジタル錬金術が現実になります。Skybox Lab は、テキスト プロンプトから驚異的な 360° スカイボックス エクスペリエンスを生成する、AI を活用した究極のソリューションです。 | モデル | ||
CF-3DGS | COLMAP フリーの 3D ガウス スプラッティング。 | arXiv | 3D | |
キャラクタージェネ | CharacterGen: マルチビュー ポーズ正規化による単一画像からの効率的な 3D キャラクター生成。 | arXiv | 3D | |
チャットGPT-maya | オープン AI を利用して、説明的な指示に基づいて基本的なタスクを実行するシンプルな Maya ツール。 | マヤ | モデル | |
シティドリーマー | 境界のない 3D 都市の構成生成モデル。 | arXiv | 3D | |
CSM | 画像やビデオから 3D 世界を生成します。 | 3D | ||
ダッシュ | Unreal Engine で世界を構築するための副操縦士。 | アンリアル エンジン | 3D | |
夢の触媒 | DreamCatalyst: 編集可能性とアイデンティティ保持の制御による高速かつ高品質の 3D 編集。 | arXiv | 3D | |
DreamGaussian4D | ジェネレーティブ 4D ガウス スプラッティング。 | arXiv | 4D | |
ダスト3R | 幾何学的な 3D ビジョンが簡単に。 | arXiv | 3D | |
3D を編集する | Edify 3D: スケーラブルな高品質 3D アセットの生成。 | arXiv | 3D | |
GALA3D | GALA3D: レイアウトに基づいた生成ガウス スプラッティングによるテキストから 3D への複雑なシーン生成に向けて。 | arXiv | 3D | |
ガウスCtrl | GaussCtrl: マルチビューの一貫したテキスト駆動型 3D ガウス スプラッティング編集。 | arXiv | 3D | |
ガウスキューブ | 3D 生成モデリングのための構造化された明示的な放射輝度表現。 | arXiv | 3D | |
ガウスドリーマー | 点群事前分布を使用したテキストから 3D ガウス スプラッティングまでの高速生成。 | arXiv | 3D | |
ジーニーラボ | AI-UGC でゲームを強化します。 | 3D | ||
ハイファ | 高度な拡散ガイダンスによる高忠実度の Text-to-3D。 | モデル | ||
ホロドリーマー | HoloDreamer: テキストの説明から全体的な 3D パノラマ世界を生成します。 | arXiv | 3D | |
渾源3D-1.0 | Hunyuan3D-1.0: Text-to-3D および Image-to-3D 生成のための統合フレームワーク。 | arXiv | 3D | |
インフィニジェン | プロシージャル生成を使用した無限のフォトリアリスティックな世界。 | arXiv | 3D | |
指示-NeRF2NeRF | 手順に従って 3D シーンを編集します。 | arXiv | モデル | |
インタラクティブ3D | インタラクティブな 3D 生成で必要なものを作成します。 | arXiv | 3D | |
等方性 3D | 単一の CLIP 埋め込みに基づく画像から 3D への生成。 | 3D | ||
ラテ3D | 大規模な償却テキストから Enhanced3D への合成。 | arXiv | 3D | |
ライオン | 3D 形状生成のための潜在点拡散モデル。 | arXiv | モデル | |
ルマAI | 本物そっくりの 3D でキャプチャします。比類のないフォトリアリズム、反射、細部。 VFX の未来は今、みんなのものです。 | モデル | ||
ルミネAI | AI を活用した創造性。 | 3D | ||
メイクイット 3D | 拡散プリアを使用した 1 枚の画像からの高忠実度 3D 作成。 | arXiv | モデル | |
メッシュ状 | AI を使用して見事な 3D ゲーム アセットを作成します。 | 3D | ||
モーション | 魔法の3D AIアニメーションメーカー。 | 3D | ||
MVドリーム | 3D生成のためのマルチビュー拡散。 | arXiv | 3D | |
NVIDIA インスタント NeRF | インスタント ニューラル グラフィックス プリミティブ: 超高速 NeRF など。 | モデル | ||
1-2-3-45 | 形状ごとの最適化を行わずに、単一の画像を 45 秒で 3D メッシュに変換します。 | arXiv | モデル | |
ペイント3D | 照明のないテクスチャ拡散モデルを使用して、あらゆるものを 3D ペイントします。 | arXiv | 3D | |
PAniC-3D | アニメキャラクターのポートレートから様式化されたシングルビューの 3D 再構築。 | arXiv | モデル | |
点・E | 3D モデル合成のための点群拡散。 | モデル | ||
多作のドリーマー | 変分スコア蒸留による高忠実度で多様な Text-to-3D 生成。 | arXiv | モデル | |
SF3D | SF3D: UV アンラップと照明のもつれ解除による安定した高速 3D メッシュ再構築。 | arXiv | 3D | |
形 | テキストまたは画像に基づいて 3D オブジェクトを生成します。 | arXiv | モデル | |
スロイド | 3D モデリングがかつてないほど簡単になりました。 | モデル | ||
スプラインAI | AI の力が 3 次元に到達しつつあります。プロンプトを使用してオブジェクト、アニメーション、テクスチャを生成します。 | モデル | ||
安定のドリームフュージョン | Stable Diffusion text-to-2D モデルを利用した、text-to-3D モデル Dreamfusion の pytorch 実装。 | モデル | ||
SV3D | 潜像ビデオ拡散を利用した新たな多視点合成と一枚画像からの3D生成。 | arXiv | 3D | |
タフィ | AI テキストから 3D キャラクター エンジン。 | モデル | ||
3D-GPT | 大規模な言語モデルを使用した手続き型 3D モデリング。 | arXiv | 3D | |
3D-LLM | 3D 世界を大規模な言語モデルに挿入します。 | arXiv | 3D | |
3Dpresso | ビデオでキャプチャされたオブジェクトの 3D モデルを抽出します。 | モデル | ||
3DTピア | テキストから 3D への生成は 5 分以内に完了します。 | arXiv | 3D | |
3DTピア-XL | 3DTopia-XL: プリミティブ拡散による高品質 3D アセット生成のスケーリング。 | arXiv | 3D | |
スリースタジオ | 3D コンテンツ生成のための統合フレームワーク。 | モデル | ||
トリポSR | 単一の画像から高速フィードフォワード 3D 再構成を行うための最先端のオープンソース モデル。 | arXiv | モデル | |
ユニークな3D | 単一の画像から高品質かつ効率的な 3D メッシュを生成します。 | arXiv | 3D | |
Unityガウススプラッティング | Unity でのトイ ガウス スプラッティングの視覚化。 | 団結 | 3D | |
ViVid-1 ~ 3 | ビデオ拡散モデルを使用した新しいビュー合成。 | arXiv | 3D | |
voxcraft | AIですぐに使用できる3Dモデルを作成します。 | 3D | ||
Wonder3d | クロスドメイン拡散を使用した単一画像から3Dへ。 | arxiv | 3D | |
Zero-1-to-3 | 3Dオブジェクトに1つの画像をゼロショットします。 | arxiv | モデル |
^ 目次に戻る ^
ソース | 説明 | 紙 | ゲームエンジン | タイプ |
---|---|---|---|---|
アニポレート | フォトリアリスティックなポートレートアニメーションのオーディオ駆動型の合成。 | arxiv | アバター | |
落ち着いた | 指示可能な仮想文字の条件付き敵対的潜在モデル。 | arxiv | アバター | |
チャタバタル | テキストガイダンスの下でのアニメーション可能な3D顔の進歩的な生成。 | アバター | ||
chatdollkit | ChatDollkitを使用すると、3Dモデルをチャットボットにすることができます。 | 団結 | アバター | |
ドリームトーク | 表現力豊かなトーキングヘッド生成が拡散確率モデルを満たすとき。 | arxiv | アバター | |
duix | Duix-シリコンベースのデジタルヒューマンSDK? | アバター | ||
エコミミック | エコミミック:編集可能なランドマーク条件によるリアルなオーディオ駆動型のポートレートアニメーション。 | arxiv | アバター | |
emoportraits | 感情強化マルチモーダルワンショットヘッドアバター。 | アバター | ||
E3 Gen | 効率的で表現力豊かで編集可能なアバターの世代。 | arxiv | アバター | |
Exavatar | Exavatar-表現力豊かな全身3Dガウスアバター。 | arxiv | アバター | |
geneavatar | 単一の画像からのジェネリックエクスプレッションアウェアボリュームヘッドアバター編集。 | arxiv | アバター | |
Geneface ++ | 一般化された安定したリアルタイム3Dトーキングフェイスジェネレーション。 | アバター | ||
ハロ | ポートレート画像アニメーションの階層オーディオ駆動型の視覚合成。 | arxiv | アバター | |
hallo2 | HALLO2:長期および高解像度のオーディオ駆動型のポートレートイメージアニメーション。 | arxiv | アバター | |
headsculpt | テキストで3Dヘッドアバターを作成します。 | arxiv | アバター | |
Intrinsicavatar | Intrinsicavatar:明示的な光線トレースを介した単眼ビデオからの動的な人間の物理的に基づいた逆レンダリング。 | arxiv | アバター | |
麻薬 | デジタルアバターの会話システム。 | アバター | ||
Liveportrait | Liveportrait:ステッチとリターゲティングコントロールを備えた効率的なポートレートアニメーション。 | arxiv | アバター | |
motiongpt | 外国語としての人間の動き、LLMSを使用した統一された運動生成モデル。 | arxiv | アバター | |
ミューズポース | Musepose:仮想人間の生成のためのポーズ駆動型の画像からビデオからビデオへのフレームワーク。 | アバター | ||
ミューセタルク | 潜在スペースが開始されたリアルタイムの高品質のリップシンカー化。 | アバター | ||
Musev | 視覚条件付きの並列除生を備えた無限の長さと高忠実度の仮想人間のビデオ生成。 | アバター | ||
Portrait4d | 合成データを使用したワンショット4Dヘッドアバター合成の学習。 | arxiv | アバター | |
準備ができている私 | 数日でカスタマイズ可能なアバターをゲームまたはアプリに統合します。 | アバター | ||
Rodinhd | Rodinhd:拡散モデルを備えた高忠実度3Dアバター生成。 | arxiv | アバター | |
styleavatar3d | 高忠実度の3Dアバター生成のための画像テキスト拡散モデルを活用します。 | arxiv | アバター | |
text2Control3d | ジオメトリ誘導テキストから画像への拡散モデルを使用した神経放射輝度フィールドにおける制御可能な3Dアバター生成。 | arxiv | アバター | |
topo4d | 高忠実度の4Dヘッドキャプチャのためのトポロジーを摂取するガウススプラッティング。 | arxiv | アバター | |
UnityAiwithChatgpt | Unityに基づいて、ChatGpt+Unitychan Voice Interactive Displayが実現します。 | 団結 | アバター | |
vid2avatar | 3Dアバター再構築自己監視シーンの分解によるワイルドのビデオからの再構築。 | arxiv | アバター | |
ブロガー | 具体化されたアバター合成のためのマルチモーダル拡散。 | アバター | ||
wild2avatar | 閉塞の背後に人間をレンダリングします。 | arxiv | アバター |
^ 目次に戻る ^
ソース | 説明 | 紙 | ゲームエンジン | タイプ |
---|---|---|---|---|
誰でもアニメーション化します | キャラクターアニメーションのための一貫した制御可能な画像間合成。 | arxiv | アニメーション | |
アニメイチング | モーションガイダンスを備えたファイングレインのオープンドメイン画像アニメーション。 | arxiv | アニメーション | |
Animatediff | 特定のチューニングなしで、パーソナライズされたテキストから画像間拡散モデルをアニメーション化します。 | arxiv | アニメーション | |
Animatelcm | ビデオ生成を4ステップ以内に加速しましょう! | arxiv | アニメーション | |
Animate-x | Animate-X:モーション表現が強化されたユニバーサルキャラクターイメージアニメーション。 | arxiv | アニメーション | |
Animatezero | ビデオ拡散モデルは、ゼロショット画像アニメーターです。 | arxiv | アニメーション | |
Animationgpt | ゲーム戦闘モーションアセットを生成するためのAIGCツール。 | アニメーション | ||
deforum | Deforumは、安定した拡散を活用して、進化するAIビジュアルを生成します。 | アニメーション | ||
Drawingspinup | Drawingspinup:単一の文字図面からの3Dアニメーション。 | arxiv | アニメーション | |
夢を見る | 拡散モデルに基づく人間のビデオ生成フレームワーク。 | arxiv | アニメーション | |
フェイスフュージョン | 次世代の顔のスワッパーとエンハンサー。 | アニメーション | ||
FreeInit | ビデオ拡散モデルの初期化ギャップを橋渡しします。 | arxiv | アニメーション | |
ジーンフェイス | 一般化された高忠実度のオーディオ駆動型の3Dトーキングフェイス合成。 | arxiv | アニメーション | |
IDアニメーター | ゼロショットアイデンティティを摂取する人間のビデオ生成。 | arxiv | アニメーション | |
魔術師 | 拡散モデルを使用した時間的に一貫したヒューマンイメージアニメーション。 | arxiv | アニメーション | |
ヌワ | Dragnuwaは、制御可能なビデオ生成を実現するための入力としてテキスト、画像、および軌道コントロールを採取するオープンドメイン拡散ベースのビデオ生成モデルです。 | arxiv | アニメーション | |
Nuwa-Infinity | Nuwa-Infinityは、与えられたテキスト、画像、またはビデオ入力から高品質の画像とビデオを生成するように設計されたマルチモーダル生成モデルです。 | アニメーション | ||
nuwa-xl | 非常に長いビデオ生成のための拡散アーキテクチャを介した新しい拡散。 | アニメーション | ||
オムニアニメーション | AIは高忠実度アニメーションを生成しました。 | アニメーション | ||
ぴあ | テキストから画像モデルのプラグアンドプレイモジュールを介したパーソナライズされた画像アニメーター。 | arxiv | アニメーション | |
サダルカー | 様式化されたオーディオ駆動型のシングル画像のトーキングフェイスアニメーションの現実的な3Dモーション係数を学習します。 | arxiv | アニメーション | |
Sadtalker-Video-Lip-Sync | このプロジェクトは、ビデオリップ統合のためのSadtalkers WAV2LIPに基づいています。 | アニメーション | ||
安定したアニメーション | 開発者向けの強力なテキストからアミメーションツール。 | アニメーション | ||
Talecrafter | 複数の文字をサポートするインタラクティブなストーリー視覚化ツール。 | arxiv | アニメーション | |
tooncrafter | tooncrafter:生成漫画の補間。 | arxiv | アニメーション | |
wav2lip | 野生の動画を正確にリップするビデオ。 | arxiv | アニメーション | |
ワンダースタジオ | CG文字を自動的にアニメーション化、ライト、構成するAIツールは、実写シーンになります。 | アニメーション |
^ 目次に戻る ^
ソース | 説明 | 紙 | ゲームエンジン | タイプ |
---|---|---|---|---|
カンブリアン-1 | CAMBRIAN-1:マルチモーダルLLMの完全にオープンな視覚中心の探索。 | arxiv | マルチモーダルLLMS | |
cogvlm2 | LLAMA3-8Bに基づくGPT4Vレベルのオープンソースマルチモーダルモデル。 | ビジュアル | ||
コットラッカー | 一緒に追跡する方が良いです。 | arxiv | ビジュアル | |
evf-sam | EVF-SAM:テキストプロンプトセグメントのすべてのモデルのための初期の視力式融合。 | arxiv | ビジュアル | |
facehi | 一緒に追跡する方が良いです。 | ビジュアル | ||
internlm-xcomposer2 | internlm-xcomposer2は、フリーフォームのテキストイメージの構成と理解に優れている画期的なビジョン言語大型モデル(VLLM)です。 | arxiv | ビジュアル | |
カンガルー | Kangaroo:ロングコンテキストビデオ入力をサポートする強力なビデオ言語モデル。 | ビジュアル | ||
LGVI | マルチモーダルの大手言語モデルを介した言語駆動型のビデオに向けて。 | ビジュアル | ||
llava ++ | llama-3およびphi-3を使用して視覚機能を拡張します。 | ビジュアル | ||
llava-onevision | llava-onevision:簡単な視覚的なタスク転送。 | arxiv | ビジュアル | |
ロングヴァ | 言語からビジョンへの長いコンテキスト転送。 | arxiv | ビジュアル | |
maskvit | ビデオ予測のためのマスクされた視覚的な事前トレーニング。 | arxiv | ビジュアル | |
MINICPM-llama3-V 2.5 | お使いの携帯電話のGPT-4VレベルMLLM。 | ビジュアル | ||
Moe-Llava | 大規模なビジョン言語モデルの専門家の混合。 | arxiv | ビジュアル | |
motionllm | 人間の動きやビデオからの人間の行動を理解する。 | arxiv | ビジュアル | |
pllava | 画像からビデオまでのパラメーターフリーのLlava拡張機能密なキャプションのためのビデオ。 | arxiv | ビジュアル | |
QWEN-VL | 理解、ローカリゼーション、テキストの読み取りなどのための汎用性の高いビジョン言語モデル。 | arxiv | ビジュアル | |
sapiens | SAPIENS:人間の視覚モデルの基礎。 | arxiv | ビジュアル | |
sharegpt4v | より良いキャプションで大規模なマルチモーダルモデルを改善します。 | arxiv | ビジュアル | |
ソロ | ソロ:スケーラブルなビジョン言語モデリング用の単一の変圧器。 | arxiv | ビジュアル | |
Video-Ccam | Video-Ccam:因果的な横断的なマスクでビデオ言語の理解を進めます。 | ビジュアル | ||
ビデオラバ | 投影前のアライメントによる統一された視覚表現を学習します。 | arxiv | ビジュアル | |
videdollama 2 | Video-llmsでの空間的モデリングとオーディオ理解の進歩。 | arxiv | ビジュアル | |
ビデオ-mme | ビデオ分析におけるマルチモーダルLLMの初めての包括的な評価ベンチマーク。 | arxiv | ビジュアル | |
ヴィトン | 理解、生成、セグメント化、編集のための統一されたピクセルレベルのビジョンLLM。 | ビジュアル | ||
ヴィラ | Vila:視覚言語モデルのトレーニング前。 | arxiv | ビジュアル |
^ 目次に戻る ^
ソース | 説明 | 紙 | ゲームエンジン | タイプ |
---|---|---|---|---|
360dvd | 360度ビデオ拡散モデルを備えた制御可能なパノラマビデオ生成。 | arxiv | ビデオ | |
アニメート - ストーリー | ストーリーを語るための検索されたビデオ生成。 | arxiv | ビデオ | |
どんなシーンでも何でも | フォトリアリックなビデオオブジェクトの挿入。 | ビデオ | ||
アート•v | 拡散モデルを備えた自動回帰テキストからビデオへの生成。 | arxiv | ビデオ | |
支援 | あなたのアイデアを生き生きとさせる生成ビデオプラットフォームに会います。 | ビデオ | ||
アトモビド | 高忠実度の画像からビデオへの生成。 | arxiv | ビデオ | |
BackgroundRemover | 背景リムーバーを使用すると、無料でオープンソースの単純なコマンドラインインターフェイスを使用して、AIを使用して画像やビデオから背景を削除できます。 | ビデオ | ||
ボクシメーター | ビデオ統合のためのリッチで制御可能な動きを生成します。 | arxiv | ビデオ | |
codef | 一時的に一貫したビデオ処理のためのコンテンツ変形フィールド。 | arxiv | ビデオ | |
Cogvideo | テキストの説明からビデオを生成します。 | ビデオ | ||
コグビデオX | Cogvideoxは、清影と相同であるビデオ生成モデルのオープンソースバージョンです。 | ビデオ | ||
cogvlm | COGVLMは、強力なオープンソースビジュアル言語モデル(VLM)です。 | ビジュアル | ||
conr | 手描きのアニメキャラクターシート(ACS)のGenarate Vivid Dancingビデオ。 | arxiv | ビデオ | |
デコホア | 撮影できないものを作成します。 | ビデオ | ||
記述 | 記述は、編集するシンプルで強力で楽しい方法です。 | ビデオ | ||
Diffutoon | 拡散モデルを介した高解像度の編集可能なトゥーンシェーディング。 | arxiv | ビデオ | |
イルカ | LLMSに基づく一般的なビデオインタラクションプラットフォーム。 | ビデオ | ||
ドモアイ | Domoaiで創造性を増幅します。 | ビデオ | ||
DreamCinema | DreamCinema:無料のカメラと3Dキャラクターを使用した映画の転写。 | arxiv | ビデオ | |
DynamicRafter | ビデオ拡散前のオープンドメイン画像をアニメーション化します。 | arxiv | ビデオ | |
角 | エッジを紹介します。エッジは、任意の入力音楽に忠実でありながら、現実的で肉体的には柔軟なダンスを作成することができる編集可能なダンス生成の強力な方法です。 | arxiv | ビデオ | |
エモ | エモートポートレートアライブ - 弱い条件下でAudio2Video拡散モデルを使用して表現力豊かなポートレートビデオを生成します。 | arxiv | ビデオ | |
EMUビデオ | 明示的な画像条件付けによるテキストからビデオへの生成を考慮します。 | ビデオ | ||
エトナ | Etnaは、短いテキストの説明に基づいて対応するビデオコンテンツを生成できます。 | ビデオ | ||
妖精 | 高速並列化された命令誘導ビデオからビデオへの統合。 | ビデオ | ||
カンバスをフォローしてください | フォローあなたのカンバス:大規模なコンテンツ生成により、高解像度のビデオが廃止されます。 | arxiv | ビデオ | |
あなたのポーズに従ってください | ポーズフリーのビデオを使用したポーズガイド付きテキストからビデオへの生成。 | arxiv | ビデオ | |
FullJourney | AI作成ツールの完全なスイートは、指先にあります。 | ビデオ | ||
Gen-2 | テキスト、画像、またはビデオクリップで新しいビデオを生成できるマルチモーダルAIシステム。 | ビデオ | ||
生成ダイナミクス | 生成画像ダイナミクス。 | ビデオ | ||
ジーニー | 生成的インタラクティブ環境。 | arxiv | ビデオ | |
ジェンモ | AIで魔法のようにビデオを作成します。 | ビデオ | ||
紳士 | 画像とビデオ生成用の拡散トランス。 | ビデオ | ||
ヒゲン | テキストからビデオへの生成のための階層的な空間的デカップリング。 | ビデオ | ||
hotshot-xl | HotShot-XLは、安定した拡散XLと一緒に動作するように訓練されたAIテキストからGIFモデルです。 | ビデオ | ||
Hunyuanvideo | Hunyuanvideo:大規模なビデオ生成モデルのための体系的なフレームワーク。 | arxiv | ビデオ | |
画像ビデオ | テキストプロンプトが与えられた場合、Imagenビデオは、ベースビデオ生成モデルと、インターリーブされた空間的および時間的なビデオスーパー解像度モデルのシーケンスを使用して、高解像度ビデオを生成します。 | ビデオ | ||
InstructVideo | 人間のフィードバックを使用したビデオ拡散モデルを指示します。 | arxiv | ビデオ | |
i2vgen-xl | カスケードされた拡散モデルを介した高品質の画像間合成。 | arXiv | ビデオ | |
ラビー | カスケードされた潜在拡散モデルを使用した高品質のビデオ生成。 | arxiv | ビデオ | |
LTXスタジオ | LTX Studioは、クリエイター、マーケティング担当者、映画製作者、スタジオ向けの全体的なAI主導の映画製作プラットフォームです。 | ビデオ | ||
LTX-Video | LTX-Videoは、高品質のビデオをリアルタイムで生成できる最初のDITベースのビデオ生成モデルです。 768x512の解像度で24のFPSビデオを生成できます。これは、視聴するのにかかるよりも速いです。 | ビデオ | ||
ルミエール | ビデオ生成のための時空拡散モデル。 | arxiv | ビデオ | |
lvdm | 高忠実度の長いビデオ生成のための潜在的なビデオ拡散モデル。 | arxiv | ビデオ | |
MagicVideo | 潜在的な拡散モデルを備えた効率的なビデオ生成。 | arxiv | ビデオ | |
MagicVideo-V2 | マルチステージの高審美的なビデオ生成。 | arxiv | ビデオ | |
魔法の時間 | クリエイター向けのAIビデオはシンプルになりました。 | ビデオ | ||
MagVit-V2 | トークンザーは視覚生成の鍵です。 | ビデオ | ||
マグビット | マスクされた生成ビデオトランス。 | ビデオ | ||
make-a-video | Make-A-Videoは、テキストからビデオを生成する最先端のAIシステムです。 | arxiv | ビデオ | |
ピクセルを踊らせます | 高ダイナミックビデオ生成。 | arxiv | ビデオ | |
your-video make | テキストおよび構造ガイダンスを使用したカスタマイズされたビデオ生成。 | arxiv | ビデオ | |
マイクロシネマ | テキストからビデオへの生成のための分裂と征服のアプローチ。 | arxiv | ビデオ | |
ミモ | MIMO:空間分解されたモデリングを使用した制御可能なキャラクタービデオ統合。 | arxiv | ビデオ | |
ミニゲミニ | マルチモダリティビジョン言語モデルの可能性をマイニングします。 | ビジョン | ||
MobileVidFactory | テキストからのモバイルデバイス用の自動拡散ベースのソーシャルメディアビデオ生成。 | ビデオ | ||
モチ1 | Mochi 1は、高忠実度の動きと予備評価の強力な迅速な順守を備えたオープンな最先端のビデオ生成モデルです。 | ビデオ | ||
Mofa-Video | 凍結画像間拡散モデルにおける生成モーションフィールド適応による制御可能な画像アニメーション。 | arxiv | ビデオ | |
MoneyPrinterturbo | 大きなモデルを使用して、ワンクリックで短いビデオを生成します。 | ビデオ | ||
ムーンバレー | Moonvalleyは、画期的な新しいテキストからビデオへの生成AIモデルです。 | ビデオ | ||
モラ | ジェネラリストのビデオ生成のためのソラのように。 | arxiv | ビデオ | |
Morph Studio | 私たちのテキストからビデオへのAIマジックで、あなたのプロンプトを通してあなたの創造性を明示してください。 | ビデオ | ||
MotionClone | MotionClone:制御可能なビデオ生成のためのトレーニングフリーモーションクローニング。 | arxiv | ビデオ | |
motionctrl | ビデオ生成のための統一された柔軟なモーションコントローラー。 | arxiv | ビデオ | |
MotionDirector | テキスト間拡散モデルのモーションカスタマイズ。 | arxiv | ビデオ | |
Motionshop | ビデオの文字を3Dアバターに置き換えるアプリケーション。 | ビデオ | ||
mov2mov | 自動1111/stable-diffusion-webui用のmov2movプラグイン。 | ビデオ | ||
moviefactory | 言語と画像に大きな生成モデルを使用したテキストからの自動ムービーの作成。 | arxiv | ビデオ | |
ニューラルフレーム | 視覚世界のシンセサイザーを発見してください。 | ビデオ | ||
NeverEnds | あなたの世界を作ります。 | ビデオ | ||
オープンソラ | すべての人に効率的なビデオ制作を民主化する。 | ビデオ | ||
オープンソラ | オープンソラプラン。 | ビデオ | ||
フェナキ | テキストからビデオを生成するためのモデル、時間の経過とともに変化するプロンプト、および複数分と同じ長さのビデオがあります。 | arxiv | ビデオ | |
ピカラボ | Pika Labsは、AIでのビデオ作成体験に革命をもたらしています。 | ビデオ | ||
ピクセル | Pixelingは、画像、ビデオ、3Dモデルなど、非常に正確で、超現実的で非常に制御可能な視覚コンテンツを作成することができます。 | ビデオ | ||
pixverse | AIで息をのむようなビデオを作成します。 | ビデオ | ||
受粉 | 作成は簡単で、速く、楽しくなります。 | ビデオ | ||
再利用と拡散 | テキストからビデオへの生成のための反復除去。 | arxiv | ビデオ | |
如意 | Ruyiは、768の解像度で映画品質のビデオを生成できる画像からビデオへのモデルであり、フレームレートは1秒あたり24フレーム、合計5秒、120フレームです。 | ビデオ | ||
shortgpt | 自動化された短い/ビデオコンテンツの作成のための実験的なAIフレームワーク。 | ビデオ | ||
show-1 | テキストからビデオへの生成のためのピクセルと潜在拡散モデルの結婚。 | arxiv | ビデオ | |
ビデオをスナップします | テキストからビデオへの合成のためのスケーリングされた時空変圧器。 | arxiv | ビデオ | |
ソラ | テキストからビデオを作成します。 | ビデオ | ||
Sorawebui | SorawebuiはオープンソースのSORA Webクライアントであり、ユーザーがOpenaiのSORAモデルを使用してテキストからビデオを簡単に作成できるようになりました。 | ビデオ | ||
stablevideo | テキスト駆動型の一貫性が認識される拡散ビデオ編集。 | ビデオ | ||
安定したビデオ拡散 | 安定したビデオ拡散(SVD)画像からビデオへ。 | ビデオ | ||
StoryDiffusion | 長距離画像とビデオ生成のための一貫した自己関節。 | arxiv | ビデオ | |
Streamingt2v | テキストからの一貫性があり、動的で、拡張可能な長いビデオ生成。 | arxiv | ビデオ | |
StyleCrafter | スタイルアダプターを備えた様式化されたテキストからビデオへの生成。 | arxiv | ビデオ | |
タット | 時間依存のVQGANと時間に敏感な変圧器を備えた長いビデオ生成。 | ビデオ | ||
text2video-zero | テキストからイメージへの拡散モデルは、ゼロショットビデオジェネレーターです。 | arxiv | ビデオ | |
TF-T2V | テキストのないビデオでテキストからビデオへの生成を拡大するためのレシピ。 | arxiv | ビデオ | |
トラ | Tora:ビデオ生成のための軌道指向の拡散トランス。 | arxiv | ビデオ | |
トラック - 何でも | Track-Anythingは、セグメントのあらゆるものとXMEMに基づいて、ビデオオブジェクトの追跡とセグメンテーションのための柔軟でインタラクティブなツールです。 | arxiv | ビデオ | |
tune-a-video | テキストからビデオへの生成のための画像拡散モデルのワンショットチューニング。 | arxiv | ビデオ | |
Twelvelabs | 人間のようなビデオを理解しているマルチモーダルAI。 | ビデオ | ||
大学 | 統一されたモーダルビデオ生成に向けて。 | ビデオ | ||
VCHITECT-2.0 | VCHITECT-2.0:ビデオ拡散モデルをスケーリングするためのパラレルトランス。 | ビデオ | ||
vgen | 拡散モデル上のビデオ生成構築のためのホリスティックなビデオ生成エコシステム。 | arxiv | ビデオ | |
viewcrafter | ViewCrafter:高忠実度の新規ビュー統合のためのタミングビデオ拡散モデル。 | arxiv | ビデオ | |
Video-chatgpt | Video-chatgptは、ビデオに関する意味のある会話を生成できるビデオ会話モデルです。 | arxiv | ビデオ | |
VideoComposer | モーション制御性を備えた組成ビデオ統合。 | arxiv | ビデオ | |
Videocrafter1 | 高品質のビデオ生成のための拡散モデルを開きます。 | arxiv | ビデオ | |
Videocrafter2 | 高品質のビデオ拡散モデルのデータ制限を克服します。 | arxiv | ビデオ | |
videodrafter | LLMを使用したコンテンツに一貫性のあるマルチシーンビデオ生成。 | arxiv | ビデオ | |
VideoElevator | 汎用性の高いテキストから画像への拡散モデルでビデオ生成品質を高める。 | arxiv | ビデオ | |
ビデオファクタリー | テキストからビデオへの生成のために、時空間的拡散に注意を交換します。 | ビデオ | ||
Videogen | 高解像度のテキストからビデオへの生成のための参照誘導潜在的拡散アプローチ。 | arxiv | ビデオ | |
videolcm | ビデオ潜在的な一貫性モデル。 | arxiv | ビデオ | |
ビデオLDMS | 潜在性を調整します:高解像度のビデオ統合は、潜在的な拡散モデルを使用します。 | arxiv | ビデオ | |
ビデオラバ | 投影前のアライメントによる統一された視覚表現を学習します。 | arxiv | ビデオ | |
ビデオマンバ | 効率的なビデオ理解のための状態空間モデル。 | arxiv | ビデオ | |
考え方 | ビデオのビデオ:知覚から認知までの段階的なビデオ推論。 | ビデオ | ||
videopoet | ゼロショットビデオ生成のための大規模な言語モデル。 | arxiv | ビデオ | |
ヴィスパンクの動き | テキストだけを使用してリアルなビデオを作成します。 | ビデオ | ||
VisualRwkv | VisualRWKVは、RWKV言語モデルの視覚的に強化されたバージョンであり、RWKVがさまざまな視覚タスクを処理できるようにします。 | ビジュアル | ||
V-ジェパ | 予測アーキテクチャを埋め込むビデオジョイント。 | arxiv | ビデオ | |
ウォルト | 拡散モデルを備えたフォトリアリスティックビデオ生成。 | arxiv | ビデオ | |
ゼロスコープ | ゼロスコープテキストからビデオへ。 | ビデオ |
^ 目次に戻る ^
ソース | 説明 | 紙 | ゲームエンジン | タイプ |
---|---|---|---|---|
Academicodec | 学術研究のためのオープンソースオーディオコーデックモデル。 | オーディオ | ||
アンフィオン | オープンソースオーディオ、音楽、音声生成ツールキット。 | arxiv | オーディオ | |
Archisound | Pytorchで拡散モデルを使用したオーディオ生成。 | オーディオ | ||
オーディオボックス | 自然言語のプロンプトを備えた統一オーディオ生成。 | オーディオ | ||
オーディオ編集 | DDPM反転を使用した監視なしおよびテキストベースのオーディオ編集ゼロ。 | arxiv | オーディオ | |
オーディオゲンコーデック | 一般的なオーディオのための低圧縮48kHzステレオニューラルオーディオコーデック、オーディオフィデリティの最適化? | オーディオ | ||
audiogpt | スピーチ、音楽、サウンド、トーキングヘッドの理解と生成。 | arxiv | オーディオ | |
audiolcm | 潜在的な一貫性モデルを備えたテキストからオーディオの生成。 | arxiv | オーディオ | |
audioldm | 潜在的な拡散モデルを備えたテキストからオーディオの生成。 | arxiv | オーディオ | |
audioldm 2 | 自己監視前の事前削除を伴う全体的なオーディオ生成を学習します。 | arxiv | オーディオ | |
auffusion | テキストからオーディオの生成のための拡散の力と大規模な言語モデルを活用します。 | arxiv | オーディオ | |
ctag | シンセサイザープログラミングを介したクリエイティブテキストからオーディオの生成。 | オーディオ | ||
foleycrafter | foleycrafter:リアルな同期音で静かなビデオを生き生きとさせます。 | arxiv | オーディオ | |
磁石 | 単一の非自動網膜トランスを使用したマスクオーディオ生成。 | オーディオ | ||
Make-An-Audio | 迅速な拡散モデルを備えたテキストからオーディオの生成。 | arxiv | オーディオ | |
Make-An-Audio 3 | フローベースの大型拡散トランスを介してテキストをオーディオに変換します。 | arxiv | オーディオ | |
Nealalsound | 音響転送による学習ベースのモーダルサウンド合成。 | arxiv | オーディオ | |
Optimizerai | クリエイター、ゲームメーカー、アーティスト、ビデオメーカーのためのサウンド。 | オーディオ | ||
QWEN2-AUDIO | QWEN2-AUDIOチャットとAlibaba Cloudが提案する前提条件の大規模なオーディオ言語モデル。 | arxiv | オーディオ | |
-2-Soundを参照してください | ゼロショット空間環境から空間的なサウンド。 | arxiv | オーディオ | |
サウンドストーム | 効率的な並列オーディオ生成。 | arxiv | オーディオ | |
安定したオーディオ | 高速タイミング条件付き潜在オーディオ拡散。 | オーディオ | ||
安定したオーディオオープン | Stable Audio Open 1.0は、テキストプロンプトから44.1kHzで可変長(最大47秒)ステレオオーディオを生成します。 | オーディオ | ||
SyncFusion | SyncFusion:マルチモーダル開始ビデオからオーディオフォーリーシンセシス。 | arxiv | オーディオ | |
タンゴ | 命令調整LLMおよび潜在的拡散モデルを使用したテキストからオーディオの生成。 | オーディオ | ||
VTA-LDM | 隠されたアライメントを伴うビデオからオーディオの生成。 | arxiv | オーディオ | |
Wavjourney | 大規模な言語モデルを使用した構成オーディオ作成。 | arxiv | オーディオ |
^ 目次に戻る ^
ソース | 説明 | 紙 | ゲームエンジン | タイプ |
---|---|---|---|---|
アイヴァ | 感情的なサウンドトラック音楽を構成する人工知能。 | 音楽 | ||
アンパーミュージック | アンパーを搭載したカスタムミュージック生成テクノロジー。 | 音楽 | ||
ブーミー | 生成音楽を作成します。それを世界と共有してください。 | 音楽 | ||
Chatmusian | 本質的な音楽能力をLLMに育てます。 | 音楽 | ||
chord2melody | 自動音楽ジェネレーションAI。 | 音楽 | ||
diff-bgm | ビデオバックグラウンドミュージック生成の拡散モデル。 | arxiv | 音楽 | |
流動性 | Fluxmusic:整流フロートランスを使用したテキストから音楽への生成。 | arxiv | 音楽 | |
Gptableton | GPT応答を処理し、AbletonoscとPython-OSCを使用してAbletonクリップにMIDIノートを送信するためのドラフトスクリプト。 | 音楽 | ||
heymusic.ai | AIミュージックジェネレーター | 音楽 | ||
音楽への画像 | AI Image to Music Generatorは、人工知能を使用して画像を音楽に変換するツールです。 | 音楽 | ||
Jen-1 | 全方向性拡散モデルを備えたテキスト誘導ユニバーサル音楽生成。 | 音楽 | ||
ジュークボックス | 音楽の生成モデル。 | arxiv | 音楽 | |
マゼンタ | マゼンタは、アートと音楽の作成プロセスにおける機械学習の役割を探る研究プロジェクトです。 | 音楽 | ||
メロディー | 効率的なニューラル音楽生成 | 音楽 | ||
マバート | AI生成音楽。 | 音楽 | ||
ミューセネット | 10種類の楽器を備えた4分間の音楽作曲を生成できる深いニューラルネットワークで、国からモーツァルトまでスタイルを組み合わせることができます。 | 音楽 | ||
MusicGen | シンプルで制御可能な音楽生成。 | arxiv | 音楽 | |
Musicldm | 鼓動同期ミックス戦略を使用したテキストから音楽の世代の斬新さを強化します。 | arxiv | 音楽 | |
音楽LM | テキストから音楽を生成します。 | arxiv | 音楽 | |
リフュージョンアプリ | Riffusionは、安定した拡散を備えたリアルタイムの音楽生成向けのアプリです。 | 音楽 | ||
ソナウート | Sonautoは、AIの音楽エディターであり、プロンプト、歌詞、またはメロディーをあらゆるスタイルのフルソングに変えます。 | 音楽 | ||
soundraw | クリエイター向けのAI音楽ジェネレーター。 | 音楽 | ||
Soundry AI | テキストツーサウンドや無限のサンプルパックを含む生成AIツール。 | 音楽 |
^ 目次に戻る ^
ソース | 説明 | 紙 | ゲームエンジン | タイプ |
---|---|---|---|---|
diffsinger | 浅い拡散メカニズムを介した歌声合成。 | arxiv | 歌声 | |
検索ベースのVoice-Conversion-Webui | VITに基づく使いやすいSVCフレームワーク。 | 歌声 | ||
so-vits-svc | SoftVCは音声変換を歌うvits。 | 歌声 | ||
VI-SVS | vitsとopencpopを使用して、歌声合成を開発します。 Visingerとは異なります。 | 歌声 |
^ 目次に戻る ^
ソース | 説明 | 紙 | ゲームエンジン | タイプ |
---|---|---|---|---|
Applio | 比類のないパワー、モジュール性、ユーザーフレンドリーな体験のために細心の注意を払って最適化された究極の音声クローニングツール。 | スピーチ | ||
オーディオ | テキストイン。オーディオアウト。 | スピーチ | ||
吠える | テキストプロンプト化生成オーディオモデル。 | スピーチ | ||
Bert-vits2 | 多言語のバートを備えたVits2バックボーン。 | スピーチ | ||
チャット | Chatttsは、毎日の対話のための生成的な音声モデルです。 | スピーチ | ||
拍手用 | 対照的な言語監査でテキストのコンテキストから韻律を学習します。 | arxiv | スピーチ | |
cosyvoice | 多言語の大規模な音声生成モデル、推論、トレーニング、展開フルスタック機能を提供します。 | スピーチ | ||
dex-tts | 時間の変動性に関するスタイルモデリングを備えた拡散ベースの表現テキストからスピーチ。 | arxiv | スピーチ | |
emotivoice | マルチボイスおよびプロンプト制御TTSエンジン。 | スピーチ | ||
フリキ | テキストをAI Voicesを使用してビデオに変えます。 | スピーチ | ||
GLM-4-Voice | GLM-4-Voiceは、Zhipu AIによって発売されたエンドツーエンドの音声モデルです。 GLM-4-Voiceは、中国語と英語のスピーチを直接理解して生成し、リアルタイムの音声会話に従事し、ユーザーの指示に基づいて感情、イントネーション、音声レート、方言などの属性を変更できます。 | スピーチ | ||
glow-tts | 単調なアライメント検索を介したテキスト間の生成フロー。 | arxiv | スピーチ | |
gpt-sovits | 強力な少数の音声変換とテキストからスピーチへのWebUI。 | スピーチ | ||
lovo | Lovoは、何千人ものクリエイター向けのAI Voice Generator&Text to Speechプラットフォームです。 | スピーチ | ||
マハット | オープンソースの大規模な音声生成モデル。 | スピーチ | ||
抹茶 | 条件付きフローマッチングを備えた高速TTSアーキテクチャ。 | arxiv | スピーチ | |
メロット | myshell.aiによる高品質の多言語テキストからスピーチへのライブラリ。英語、スペイン語、フランス語、中国語、日本語、韓国語をサポートします。 | スピーチ | ||
metavoice-1B | 人間レベルの音声知能のためのAI。 | スピーチ | ||
narakeet | 現実的なテキストからスピーチを使用して、簡単にナレーションを作成します。 | スピーチ | ||
ミニオムニ | Mini-Omni:言語モデルは、ストリーミングで考えながら聞くことができます。 Mini-Omniは、耳を傾け、考えながら話すことができるオープンソースマルチモデルの大規模な言語モデルです。リアルタイムのエンドツーエンドの音声入力とストリーミングオーディオ出力会話機能を備えています。 | arxiv | スピーチ | |
ワンショットボイスクローニング | UNET-TTSの1つのショット音声クローニングベース。 | スピーチ | ||
OpenVoice | MyShellによるインスタント音声クローニング。 | スピーチ | ||
オーバーフロー | より良いTTSのために、ニューラルトランスデューサの上に流れを置きます。 | スピーチ | ||
Realtimetts | RealTimettsは、リアルタイムアプリケーション向けに設計された最先端のテキストからスピーチ(TTS)ライブラリです。 | スピーチ | ||
Sensevoice | Sensevoiceは、自動音声認識(ASR)、音声言語識別(LID)、音声感情認識(SER)、オーディオイベント検出(AED)など、複数の音声理解機能を備えた音声基盤モデルです。 | スピーチ | ||
speechgpt | 本質的なクロスモーダルの会話能力を持つ大規模な言語モデルに力を与えます。 | arxiv | スピーチ | |
スピーチとテキスト-GPT3ユニティ | これは、unityのopenaiのWhisperとChatGpt APIを使用するリポジトリです。 | 団結 | スピーチ | |
安定した音声 | 安定性AIのテキストからスピーチモデル。 | スピーチ | ||
スタブレット | 安定した拡散3に触発されたフローマッチングとDITを使用した次世代TTSモデル。 | スピーチ | ||
Styletts 2 | スタイルの拡散と、大規模な音声言語モデルを使用した敵対的なトレーニングを通じて、人間レベルのテキストからスピーチに向けて。 | arxiv | スピーチ | |
Tortoise.cpp | Tortoise.cpp:Tortoise-TTSのGGML実装。 | スピーチ | ||
Tortoise-Tts | 品質に重点を置いて訓練されたマルチボイスTTSシステム。 | スピーチ | ||
TTS Generation WebUI | TTS Generation WebUI(Bark、MusicGen、Tortoise、RVC、Vocos、Demucs)。 | スピーチ | ||
vall-e | ニューラルコーデック言語モデルは、音声シンセサイザーのゼロショットテキストです。 | arxiv | スピーチ | |
Vall-e x | あなた自身の声で外国語を話す:横断的な神経コーデック言語モデリング | arxiv | スピーチ | |
Vocode | VoCodeは、音声ベースのLLMアプリケーションを構築するためのオープンソースライブラリです。 | スピーチ | ||
Voicebox | 大規模なテキスト誘導多言語普遍的な音声生成。 | arxiv | スピーチ | |
ヴォイククラフト | 野生のゼロショットの音声編集とテキストからスピーチ。 | スピーチ | ||
ささやき | Whisperは、汎用音声認識モデルです。 | スピーチ | ||
ささやき声 | ささやきを反転させることによって構築されたオープンソースのテキストからスピーチシステム。 | スピーチ | ||
Xe-Speech | 非自動格納と言語間の感情的なテキストへの物語と音声変換の共同トレーニングフレームワーク。 | スピーチ | ||
XTTS | XTTSは、高度なテキストからスピーチの生成のライブラリです。 | スピーチ | ||
yourtts | ゼロショットマルチスピーカーTTSと、すべての人のためのゼロショット音声変換に向けて。 | arxiv | スピーチ | |
zmm-tts | ゼロショットマルチリンギャルおよびマルチスピーカーの音声合成は、自己監視された個別の音声表現を条件としています。 | arxiv | スピーチ |
^ 目次に戻る ^
ソース | 説明 | ゲームエンジン | タイプ |
---|---|---|---|
ludo.ai | ゲームの研究とデザインのアシスタント。 | 分析 |
^ 目次に戻る ^