ai game devtools herunterladen - ai game devtools Quellcode herunterladen

AI Game DevTools (AI-GDT)?

KI-Spiel

Hier behalten wir den Überblick über die neuesten KI-Spieleentwicklungstools, einschließlich LLM, Agent, Code, Writer, Bild, Textur, Shader, 3D-Modell, Animation, Video, Audio, Musik, Gesangsstimme und Analyse.

Inhaltsverzeichnis

Werkzeug (AI LLM)
Spiel (Agent)
Code
Schriftsteller
Bild
Textur
Shader
3D-Modell
Avatar
Animation
Visuell
Video
Audio
Musik
Singende Stimme
Rede
Analytik

Projektliste

Werkzeug (AI LLM)

Quelle	Beschreibung	Papier	Spiel-Engine	Typ
AgentGPT	? Stellen Sie autonome KI-Agenten in Ihrem Browser zusammen, konfigurieren Sie sie und stellen Sie sie bereit.			Werkzeug
AICommand	ChatGPT-Integration mit Unity Editor.		Einheit	Werkzeug
AIOS	Betriebssystem des LLM-Agenten.			Werkzeug
KI-Wissenschaftler	Der KI-Wissenschaftler: Auf dem Weg zu einer vollautomatischen, ergebnisoffenen wissenschaftlichen Entdeckung.	arXiv		Werkzeug
Assistent-CLI	Ein komfortables CLI-Tool zur Nutzung des ChatGPT-Dienstes			Werkzeug
Auto-GPT	Ein experimenteller Open-Source-Versuch, GPT-4 vollständig autonom zu machen.			Werkzeug
BabyAGI	Dieses Python-Skript ist ein Beispiel für ein KI-gestütztes Aufgabenverwaltungssystem.			Werkzeug
?? BabyAGI-Benutzeroberfläche	Die Benutzeroberfläche von BabyAGI wurde entwickelt, um die Ausführung und Entwicklung von Babyagi in einer Web-App wie einem ChatGPT zu vereinfachen.			Werkzeug
Baichuan-7B	Ein groß angelegtes 7B-Pretraining-Sprachmodell, das von Baichuan entwickelt wurde.			Werkzeug
Baichuan-13B	Ein 13B großes Sprachmodell, das von Baichuan Intelligent Technology entwickelt wurde.			Werkzeug
Baichuan 2	Eine Reihe großer Sprachmodelle, die von Baichuan Intelligent Technology entwickelt wurden.			Werkzeug
Bisheng	Bisheng ist eine offene LLM-Entwicklungsplattform für KI-Anwendungen der nächsten Generation.			Werkzeug
Charakter-LLM	Ein trainierbarer Agent für Rollenspiele.	arXiv		Werkzeug
ChatDev	Kommunikative Agenten für die Softwareentwicklung.	arXiv		Werkzeug
ChatGPT-API-Einheit	Bindet die ChatGPT-Chat-Abschluss-API an reines C# auf Unity.		Einheit	Werkzeug
ChatGPTForUnity	ChatGPT für Einheit.		Einheit	Werkzeug
ChatRWKV	ChatRWKV ist wie ChatGPT, basiert jedoch auf dem RWKV-Sprachmodell (100 % RNN) und ist Open Source.			Werkzeug
ChatYuan	Großes Sprachmodell für den Dialog in Chinesisch und Englisch.			Werkzeug
Chinesisch-LLaMA-Alpaka-3	(Chinese Llama-3 LLMs) entwickelt aus Meta Llama 3.			Werkzeug
Chrome-GPT	Ein AutoGPT-Agent, der Chrome auf Ihrem Desktop steuert.			Werkzeug
CogVLM	CogVLM, ein leistungsstarkes Open-Source-Grundlagenmodell für visuelle Sprache.	arXiv		Werkzeug
CoreNet	Eine Bibliothek zum Training tiefer neuronaler Netze.			Werkzeug
Kosmos	Cosmos ist eine Weltmodell-Entwicklungsplattform, die aus Weltgrundmodellen, Tokenisierern und einer Videoverarbeitungspipeline besteht, um die Entwicklung der physischen KI in Robotik- und AV-Laboren zu beschleunigen.			LLM
DBRX	DBRX ist ein großes Sprachmodell, das von Databricks trainiert wird.			Werkzeug
DCLM	DataComp für Sprachmodelle.	arXiv		Werkzeug
DeepSeek-V3	DeepSeek-V3 ist ein starkes Mixture-of-Experts (MoE)-Sprachmodell mit insgesamt 671B Parametern, wobei 37B für jedes Token aktiviert sind.	arXiv		LLM
DemoGPT	Automatischer Gen-AI-App-Generator mit der Kraft von Lama 2			Werkzeug
Design2Code	Automatisierung des Front-End-Engineerings			Werkzeug
Devika	Devika ist ein Agentic AI Software Engineer.			Werkzeug
Devon	Ein Open-Source-Paarprogrammierer.			Werkzeug
Dora	Erstellen Sie leistungsstarke Websites, Eingabeaufforderung für Eingabeaufforderung.			Werkzeug
Flowise	Ziehen Sie die Benutzeroberfläche per Drag & Drop, um Ihren individuellen LLM-Ablauf mit LangchainJS zu erstellen.			Werkzeug
Zwillinge	Gemini ist von Grund auf auf Multimodalität ausgelegt – nahtlose Argumentation über Text, Bilder, Video, Audio und Code hinweg.			Werkzeug
Gemma	Gemma ist eine Familie leichter, hochmoderner offener Modelle, die auf der Grundlage von Forschung und Technologie zur Erstellung von Google Gemini-Modellen erstellt wurden.			Werkzeug
gemma.cpp	Leichte, eigenständige C++-Inferenz-Engine für die Gemma-Modelle von Google.			Werkzeug
GLM-4	GLM-4-9B ist die Open-Source-Version der neuesten Generation vorab trainierter Modelle der von Zhipu AI eingeführten GLM-4-Serie.			Werkzeug
GPT4All	Ein Chatbot, der auf einer riesigen Sammlung sauberer Assistentendaten trainiert wurde, einschließlich Code, Geschichten und Dialogen.			Werkzeug
GPT-4o	GPT-4o („o“ für „omni“) ist ein Schritt hin zu einer viel natürlicheren Mensch-Computer-Interaktion – es akzeptiert jede Kombination aus Text, Audio, Bild und Video als Eingabe und generiert jede Kombination aus Text, Audio und Bild Ausgänge.			Werkzeug
GPTScript	Entwickeln Sie LLM-Apps in natürlicher Sprache.			Werkzeug
Grok-1	Die Gewichte und die Architektur unseres Mixture-of-Experts-Modells mit 314 Milliarden Parametern, Grok-1.			Werkzeug
HuggingChat	Die besten KI-Chat-Modelle der Community für alle verfügbar machen.			Werkzeug
Hugging Face API Unity-Integration	Dieses Unity-Paket bietet eine benutzerfreundliche Integration für die Hugging Face Inference API, die es Entwicklern ermöglicht, in ihren Unity-Projekten auf Hugging Face AI-Modelle zuzugreifen und diese zu verwenden.		Einheit	Werkzeug
ImageBind	ImageBind Ein Einbettungsraum, um sie alle zu binden.	arXiv		Werkzeug
Index-1,9B	Ein leichtes mehrsprachiges SOTA-LLM.			Werkzeug
InteractML-Unity	InteractML, ein interaktives visuelles Scripting-Framework für maschinelles Lernen für Unity3D.		Einheit	Werkzeug
InteractML-Unreal Engine	Maschinelles Lernen in die Unreal Engine integrieren.		Unwirkliche Engine	Werkzeug
InternLM	InternLM hat ein 7-Milliarden-Parameter-Basismodell, ein auf praktische Szenarien zugeschnittenes Chat-Modell und das Trainingssystem als Open-Source-Lösung bereitgestellt.	arXiv		Werkzeug
InternLM-XComposer	InternLM-XComposer2 ist ein bahnbrechendes Vision-Language-Large-Modell (VLLM), das sich durch die Text-Bild-Komposition und das Verständnis in freier Form auszeichnet.	arXiv		Werkzeug
Jan	Bringen Sie KI auf Ihren Desktop.			Werkzeug
Lamini	Lamini ermöglicht es jedem Ingenieurteam, durch RLHF und die Feinabstimmung seiner eigenen Daten die Leistung von Allzweck-LLMs zu übertreffen.			Werkzeug
LaMini-LM	LaMini-LM ist eine Sammlung kleiner, effizienter Sprachmodelle, die aus ChatGPT destilliert und auf einem großen Datensatz von 2,58 Millionen Anweisungen trainiert wurden.			Werkzeug
LangChain	LangChain ist ein Framework zur Entwicklung von Anwendungen, die auf Sprachmodellen basieren.			Werkzeug
LangFlow	⛓️ LangFlow ist eine Benutzeroberfläche für LangChain, die mit React-Flow entwickelt wurde, um eine mühelose Möglichkeit zum Experimentieren und Prototypieren von Abläufen zu bieten.			Werkzeug
LaVague	Automatisieren Sie die Automatisierung mit dem Large Action Model Framework.			Werkzeug
Lemur	Offene Foundation-Modelle für Sprachagenten.			Werkzeug
Lepton-KI	Ein Pythonic-Framework zur Vereinfachung der Erstellung von KI-Diensten.			Werkzeug
Lit-LLaMA	Implementierung des LLaMA-Sprachmodells basierend auf nanoGPT. Unterstützt Flash-Aufmerksamkeit, Int8- und GPTQ-4-Bit-Quantisierung, LoRA- und LLaMA-Adapter-Feinabstimmung, Vortraining.			Werkzeug
llama2-webui	Führen Sie Llama 2 lokal mit der Gradio-Benutzeroberfläche auf der GPU oder CPU von überall aus (Linux/Windows/Mac).			Werkzeug
Lama 3	Die offizielle Meta Llama 3 GitHub-Seite.			Werkzeug
Lama 3.1	Llama ist ein zugängliches, offenes Large Language Model (LLM), das für Entwickler, Forscher und Unternehmen entwickelt wurde, um ihre generativen KI-Ideen zu entwickeln, zu experimentieren und verantwortungsvoll zu skalieren.			Werkzeug
LLaSM	Großes Sprach- und Sprachmodell.			Werkzeug
LLM-Antwortmaschine	Erstellen Sie eine von Ratlosigkeit inspirierte Antwort-Engine mit Next.js, Groq, Mixtral, Langchain, OpenAI, Brave und Serper.			Werkzeug
llm.c	LLM-Schulung in einfachem, rohem C/CUDA.			Werkzeug
LLMUnity	Erstellen Sie Charaktere in Unity mit LLMs!		Einheit	Werkzeug
LLocalSearch	LLocalSearch ist eine vollständig lokal laufende Suchmaschine, die LLM-Agenten verwendet.			Werkzeug
LogicGamesSolver	Ein Python-Tool zum Lösen von Logikspielen mit KI, Deep Learning und Computer Vision.			Werkzeug
LongWriter	LongWriter: Ermöglicht die Generierung von mehr als 10.000 Wörtern aus LLMs mit langem Kontext.	arXiv		Werkzeug
Großes Weltmodell (LWM)	Das Large World Model (LWM) ist ein universelles multimodales autoregressives Modell mit großem Kontext.	arXiv		Werkzeug
Lumina-T2X	Lumina-T2X ist ein einheitliches Framework für die Text-to-Any-Modality-Generierung.	arXiv		Werkzeug
MetaGPT	Das Multi-Agent-Framework			Werkzeug
MiniCPM-2B	Ein endseitiges LLM übertrifft Llama2-13B.			Werkzeug
MiniGPT-4	Verbesserung des Vision-Sprachverständnisses mit fortschrittlichen großen Sprachmodellen.	arXiv		Werkzeug
MiniGPT-5	Interleaved Vision-and-Language Generation über generative Vokens.	arXiv		Werkzeug
Mixtral 8x7B	Eine hochwertige Sparse-Mischung aus Experten.	arXiv		Werkzeug
Mistral 7B	Das bisher beste 7B-Modell, Apache 2.0.			Werkzeug
Mistral Groß	Mistral Large ist ein neues, hochmodernes Textgenerierungsmodell. Es erreicht erstklassige Denkfähigkeiten.			Werkzeug
MLC LLM	Ermöglichen Sie jedem, KI-Modelle nativ auf allen Geräten zu entwickeln, zu optimieren und bereitzustellen.			Werkzeug
MobiLlama	Auf dem Weg zu präzisem und leichtem, vollständig transparentem GPT.	arXiv		Werkzeug
MoE-LLaVA	Expertenmix für große Vision-Sprach-Modelle.	arXiv		Werkzeug
Moshi	Moshi ist eine experimentelle Konversations-KI.			Werkzeug
Moshi	Moshi: ein Sprachtext-Grundlagenmodell für Echtzeitdialoge.			Werkzeug
MOOS	Ein Open-Source-Tool-erweitertes Konversationssprachmodell der Fudan-Universität.			Werkzeug
mPLUG-Eule?	Modularisierung ermöglicht großen Sprachmodellen Multimodalität.	arXiv		Werkzeug
Nemotron-4	Ein großes mehrsprachiges Sprachmodell mit 15 Milliarden Parametern, das auf 8 Billionen Text-Tokens trainiert wurde.	arXiv		Werkzeug
NExT-GPT	Any-to-Any-multimodales großes Sprachmodell.			Werkzeug
OLMo	Offenes Sprachmodell	arXiv		Werkzeug
OmniLMM	Große multimodale Modelle für starke Leistung und effiziente Bereitstellung.			Werkzeug
OneLLM	Ein Framework, um alle Modalitäten mit der Sprache in Einklang zu bringen.	arXiv		Werkzeug
Offener Assistent	OpenAssistant ist ein chatbasierter Assistent, der Aufgaben versteht, mit Drittsystemen interagieren kann und dazu dynamisch Informationen abruft.			Werkzeug
OpenDevin	Ein autonomer KI-Softwareentwickler.			Werkzeug
Orion-14B	Orion-14B ist eine Modellfamilie, die ein 14B-Fundament-LLM und eine Reihe von Modellen umfasst.	arXiv		Werkzeug
Panda	Übersee-Chinesisches Open-Source-Großsprachenmodell, basierend auf Llama-7B, -13B, -33B, -65B für kontinuierliches Vortraining im chinesischen Bereich.			Werkzeug
Perplexica	Eine KI-gestützte Suchmaschine.			Werkzeug
Pi	KI-Chatbot für persönliche Assistenz und emotionale Unterstützung.			Werkzeug
Qwen1.5	Qwen1.5 ist die verbesserte Version von Qwen.			Werkzeug
Qwen2	Qwen2 ist die große Sprachmodellreihe, die vom Qwen-Team Alibaba Cloud entwickelt wurde.			Werkzeug
Qwen-7B	Das offizielle Repo des Qwen-7B-Chats (通义千问-7B) und des vorab trainierten großen Sprachmodells, vorgeschlagen von Alibaba Cloud.			Werkzeug
RepoAgent	RepoAgent ist ein Open-Source-Projekt, das von Large Language Models (LLMs) vorangetrieben wird und darauf abzielt, eine intelligente Möglichkeit zur Dokumentation von Projekten bereitzustellen.	arXiv		Werkzeug
Sanity AI Engine	Sanity AI Engine für das Unity Game Development Tool.		Einheit	Werkzeug
SucheGPT	? ChatGPT mit dem Internet verbinden			Werkzeug
TeilenGPT4V	Verbesserung großer multimodaler Modelle mit besseren Beschriftungen.			Werkzeug
Himmelswerk	Die Modelle der Skywork-Serie sind auf 3,2 TB hochwertiger mehrsprachiger (hauptsächlich Chinesisch und Englisch) und Codedaten vorab trainiert.			Werkzeug
StabilLM	Stabilität von KI-Sprachmodellen.	arXiv		Werkzeug
Stanford-Alpaka	Ein Anweisungsfolgendes LLaMA-Modell.			Werkzeug
Web-Benutzeroberfläche zur Textgenerierung	Eine erstklassige Web-Benutzeroberfläche zum Ausführen großer Sprachmodelle wie LLaMA, llama.cpp, GPT-J, OPT und GALACTICA.			Werkzeug
TinyChatEngine	LLM-Inferenzbibliothek auf dem Gerät.			Werkzeug
ToolBench	Eine offene Plattform zum Trainieren, Bereitstellen und Bewerten großer Sprachmodelle für das Tool-Lernen.			Werkzeug
Unity ChatGPT	Unity ChatGPT-Experimente.		Einheit	Werkzeug
Unity OpenAI-API-Integration	Integrieren Sie das OpenAI-GPT-3-Sprachmodell und die ChatGPT-API in ein Unity-Projekt.		Einheit	Werkzeug
Unreal Engine 5 Lama LoRA	Ein Proof-of-Concept-Projekt, das das Potenzial für den Einsatz kleiner, lokal trainierbarer LLMs zur Entwicklung von Dokumentationstools der nächsten Generation aufzeigt.		Unwirkliche Engine	Werkzeug
UnrealGPT	Eine Sammlung von Unreal Engine 5 Editor Utility-Widgets, die auf GPT3/4 basieren.		Unwirkliche Engine	Werkzeug
Video-LLaVA	Erlernen der einheitlichen visuellen Darstellung durch Ausrichtung vor der Projektion.	arXiv		Werkzeug
WebGPT	Führen Sie das GPT-Modell im Browser mit WebGPU aus.			Werkzeug
Web3-GPT	Setzen Sie intelligente Verträge mit KI ein			Werkzeug
WordGPT	? Bringen Sie die Leistungsfähigkeit von ChatGPT in Microsoft Word ein			Werkzeug
XAgent	Ein autonomer LLM-Agent zur Lösung komplexer Aufgaben.			Werkzeug
Yi	Eine Reihe großer Sprachmodelle, die von Entwicklern von Grund auf trainiert wurden.			Werkzeug
01 Projekt	Der Open-Source-Sprachmodellcomputer.			Werkzeug

^ Zurück zum Inhalt ^

Spiel (Agent)

Quelle	Beschreibung	Papier	Typ
AgentBench	Ein umfassender Benchmark zur Bewertung von LLMs als Agenten.	arXiv	Agent
Agentengruppen-Chat	Ein interaktives Gruppenchat-Simulator zur besseren Ermittlung kollektiven Verhaltens.	arXiv	Agent
Agent K	Eine autoagentische AGI, die sich selbst entwickelt und modular ist.		Agent
AgentScope	Beginnen Sie mit der einfacheren Erstellung von LLM-gestützten Multi-Agent-Anwendungen.	arXiv	Agent
AgentSims	Eine Open-Source-Sandbox für die Evaluierung großer Sprachmodelle.		Agent
KI-Stadt	AI Town ist eine virtuelle Stadt, in der KI-Charaktere leben, chatten und Kontakte knüpfen.		Agent
anime.gf	Lokale und Open-Source-Alternative zu CharacterAI.		Spiel
Astrokade	Erstellen Sie Spiele mit KI		Spiel
Atomare Agenten	Das Atomic Agents-Framework ist modular, erweiterbar und einfach zu verwenden.		Agent
AutoAgents	Ein Framework für die automatische Agentengenerierung.		Agent
AutoGen	Ermöglichen Sie große Sprachmodellanwendungen der nächsten Generation.	arXiv	Agent
Verhalten	Behaviac ist ein Rahmenwerk für die KI-Entwicklung von Spielen.		Rahmen
Biome	Biomes ist ein Open-Source-Sandbox-MMORPG, das für das Web entwickelt wurde und Webtechnologien wie Next.js, Typescript, React und WebAssembly verwendet.		Spiel
Gedankenpuffer	Gedankenerweitertes Denken mit großen Sprachmodellen.	arXiv	Agent
Byzer-Agent	Einfaches, schnelles und verteiltes Agenten-Framework für alle.		Agent
Katzenstadt	AC(h)atGPT-gestützte Simulation mit Katzen.		Agent
Katzenstadt	AC(h)atGPT-gestützte Simulation mit Katzen.		Agent
CharakterGLM	Anpassen chinesischer Konversations-KI-Zeichen mit großen Sprachmodellen.	arXiv	Agent
ChatDev	Kommunikative Agenten für die Softwareentwicklung.	arXiv	Agent
CogAgent	CogAgent ist ein visuelles Open-Source-Sprachmodell, das auf CogVLM basiert.	arXiv	Agent
Wiege	Auf dem Weg zur allgemeinen Computersteuerung.		Agent
CrewAI	Framework zur Orchestrierung rollenspielender, autonomer KI-Agenten.		Agent
Verändern	Dify ist eine Open-Source-Plattform zum Erstellen von LLM-Apps.		Agent
Digitales Lebensprojekt	Autonome 3D-Charaktere mit sozialer Intelligenz.	arXiv	Agent
alles-ai	Ihr kompetenter, KI-gestützter und lokaler Chatbot-Assistent?		Agent
Stoff	Fabric ist ein Open-Source-Framework zur Verbesserung des Menschen mithilfe von KI.		Agent
FastGPT	FastGPT ist eine wissensbasierte Plattform, die auf dem LLM basiert.		Agent
fastRAG	Effizientes Retrieval-Augmentation- und Generation-Framework.		Agent
GameAISDK	Bildbasiertes KI-Automatisierungsframework für Spiele.		Rahmen
GameNGen	Diffusionsmodelle sind Echtzeit-Game-Engines.	arXiv	Spiel
GameGen-O	GameGen-O: Open-World-Videospielgeneration.		Spiel
GenAgent	GenAgent: Erstellen Sie kollaborative KI-Systeme mit automatisierter Workflow-Generierung – Fallstudien zu ComfyUI.	arXiv	Agent
Generative Agenten	Interaktive Simulakren menschlichen Verhaltens.	arXiv	Agent
Genesis	Genesis: Eine generative und universelle Physik-Engine für die Robotik und darüber hinaus.		Spiel
Genie	Generative interaktive Umgebungen.		Spiel
gigax	Laufzeit, LLM-basierte NPCs.		Spiel
HippoRAG	Neurobiologisch inspiriertes Langzeitgedächtnis für große Sprachmodelle.	arXiv	Agent
Interaktive LLM-basierte NPCs	Interactive LLM Powered NPCs ist ein Open-Source-Projekt, das Ihre Interaktion mit Nicht-Spieler-Charakteren (NPCs) in jedem Spiel völlig verändert!		Spiel
IoA	Ein Open-Source-Framework für kollaborative KI-Agenten, das es verschiedenen, verteilten Agenten ermöglicht, sich zusammenzuschließen und komplexe Aufgaben durch internetähnliche Konnektivität zu bewältigen.		Agent
KwaiAgents	Ein verallgemeinertes informationssuchendes Agentensystem mit Large Language Models (LLMs).	arXiv	Agent
LangChain	Bringen Sie Ihre LLM-Anwendung vom Prototyp bis zur Produktion.		Agent
Langflow	Langflow ist eine Benutzeroberfläche für LangChain, die mit React-Flow entwickelt wurde, um eine mühelose Möglichkeit zum Experimentieren und Prototypieren von Abläufen zu bieten.		Agent
LangGraph Studio	LangGraph Studio bietet eine neue Möglichkeit zur Entwicklung von LLM-Anwendungen, indem es eine spezielle Agenten-IDE bereitstellt, die die Visualisierung, Interaktion und das Debuggen komplexer Agentenanwendungen ermöglicht.		Agent
LARP	Sprachagenten-Rollenspiel für Open-World-Spiele.	arXiv	Agent
LLama-Agentensystem	Agentische Komponenten der Llama Stack APIs.		Agent
LamaIndex	LlamaIndex ist ein Datenframework für Ihre LLM-Anwendung.		Agent
MindSearch	? Ein LLM-basiertes Multi-Agent-Framework einer Websuchmaschine (wie Perplexity.ai Pro und SearchGPT).		Agent
Wirkstoffmischung (MoA)	Mixture-of-Agents verbessert die Fähigkeiten großer Sprachmodelle.	arXiv	Agent
MMRole	MMRole: Ein umfassendes Framework zur Entwicklung und Bewertung multimodaler Rollenspielagenten.	arXiv	Agent
Moonlander.ai	Beginnen Sie mit der Entwicklung von 3D-Spielen ohne Programmieraufwand mithilfe generativer KI.		Rahmen
MuG-Diffusion	MuG Diffusion ist eine Charting-KI für Rhythmusspiele, die auf Stable Diffusion (einem der leistungsstärksten AIGC-Modelle) mit einer großen Modifikation zur Einbindung von Audiowellen basiert.		Spiel
Oase	Oasis ist ein interaktives Weltmodell, das von Decart und Etched entwickelt wurde. Basierend auf Diffusionstransformatoren nimmt Oasis Benutzertastatureingaben auf und generiert das Gameplay auf autoregressive Weise.		Spiel
OmAgent	Ein multimodales Agenten-Framework zur Lösung komplexer Aufgaben.		Agent
OpenAgents	Eine offene Plattform für Sprachagenten in freier Wildbahn.		Agent
Opus	Eine KI-App, die Text in ein Videospiel verwandelt.		Spiel
Pipecat	Open-Source-Framework für Sprach- und multimodale Konversations-KI.		Agent
Qwen-Agent	Qwen-Agent ist ein Framework für die Entwicklung von LLM-Anwendungen, das auf der Befehlsfolge, der Werkzeugnutzung, der Planung und den Speicherfunktionen von Qwen basiert.		Agent
Ragas	Ragas ist ein Framework, das Ihnen bei der Bewertung Ihrer RAG-Pipelines (Retrieval Augmented Generation) hilft.		Agent
RPBench-Auto	Eine automatisierte Pipeline zur Bewertung von LLMs für Rollenspiele.		Spiel
SIMA	Ein generalistischer KI-Agent für virtuelle 3D-Umgebungen.		Agent
StoryGames.ai	KI für Träumer macht Spiele.		Spiel
SWE-Agent	Agent-Computerschnittstellen ermöglichen Software-Engineering-Sprachmodelle.	arXiv	Agent
TaskGen	Ein aufgabenbasiertes Agenten-Framework, das auf StrictJSON-Ausgaben von LLM-Agenten aufbaut.		Agent
TEN-Agent	TEN Agent ist der weltweit erste multimodale Echtzeitagent, der in die OpenAI Realtime API, RTC, integriert ist und Wetterprüfungen, Websuche, Vision und RAG-Funktionen bietet.		Agent
Übersetzungsagent	Agentische Übersetzung mithilfe des Reflexionsworkflows.		Agent
Twitter	Twitter Personality ist eine Webanwendung, die Ihren Twitter-Benutzernamen analysiert, um mithilfe des Wordware AI Agent ein personalisiertes Persönlichkeitsprofil zu erstellen.		Agent
Unbegrenzt	Unbounded: Ein generatives, unendliches Spiel zur Simulation des Charakterlebens.	arXiv	Spiel
Video2Game	Echtzeit-, interaktive, realistische und browserkompatible Umgebung aus einem einzigen Video.	arXiv	Spiel
V-IRL	Virtuelle Intelligenz im wirklichen Leben verankern.	arXiv	Agent
WebDesignAgent	Ein Agent, der für Webdesign verwendet wird.		Agent
XAgent	Ein autonomer LLM-Agent zur Lösung komplexer Aufgaben.		Agent

^ Zurück zum Inhalt ^

Code

Quelle	Beschreibung	Papier	Spiel-Engine	Typ
AI-Code-Übersetzer	Verwenden Sie KI, um Code von einer Sprache in eine andere zu übersetzen.			Code
aiXcoder-7B	aiXcoder-7B Code Großes Sprachmodell.			Code
bloop	bloop ist eine in Rust geschriebene schnelle Codesuchmaschine.			Code
Kapitel	ChatGPT-Code-Interpreter in Jupyter-Notebooks.			Code
CodeGeeX	Ein offenes mehrsprachiges Codegenerierungsmodell.	arXiv		Code
CodeGeeX2	Ein leistungsfähigeres mehrsprachiges Codegenerierungsmodell.			Code
CodeGeeX4	CodeGeeX4: Offenes mehrsprachiges Codegenerierungsmodell.			Code
CodeGen	CodeGen ist ein Open-Source-Modell zur Programmsynthese. Auf TPU-v4 geschult. Konkurrierend mit OpenAI Codex.	arXiv		Code
CodeGen2	CodeGen2-Modelle für die Programmsynthese.	arXiv		Code
Code Lama	Code Llama ist ein großes Sprachmodell für Code, das auf Llama 2 basiert.			Code
CodeTF	One-Stop-Transformer-Bibliothek für hochmodernes Code-LLM.			Code
CodeT5	Open-Code-LLMs für Code-Verständnis und -Generierung.			Code
Cursor	Schreiben, bearbeiten und chatten Sie über Ihren Code mit GPT-4 in einem neuen Editortyp.			Code
DeepSeek-Codierer	DeepSeek Coder: Lassen Sie den Code sich selbst schreiben.	arXiv		Code
OpenAI-Codex	OpenAI Codex ist ein Nachkomme von GPT-3.			Code
PandasAI	Pandas AI ist eine Python-Bibliothek, die generative künstliche Intelligenzfunktionen in Pandas integriert und so Datenrahmen konversationsfähig macht.			Code
RobloxScripterAI	RobloxScripterAI ist ein KI-gestütztes Codegenerierungstool für Roblox.		Roblox	Code
Scikit-LLM	Integrieren Sie leistungsstarke Sprachmodelle wie ChatGPT nahtlos in scikit-learn für erweiterte Textanalyseaufgaben.			Code
SoTaNa	Der Open-Source-Softwareentwicklungsassistent.	arXiv		Code
Stabiler Code 3B	Codierung am Rande.			Code
StarCoder	? StarCoder ist ein Sprachmodell (LM), das auf Quellcode und Text in natürlicher Sprache trainiert wird.	arXiv		Code
StarCoder 2	StarCoder2 ist eine Familie von Codegenerierungsmodellen (3B, 7B und 15B), die auf über 600 Programmiersprachen von The Stack v2 und einigen natürlichsprachigen Texten wie Wikipedia, Arxiv und GitHub-Problemen trainiert wurden.	arXiv		Code
UnityGen-KI	UnityGen AI ist ein KI-gestütztes Codegenerierungs-Plugin für Unity.		Einheit	Code
Leere	Void ist eine Open-Source-Cursor-Alternative. Schreiben Sie Code mit den besten KI-Tools, behalten Sie die volle Kontrolle über Ihre Daten und greifen Sie auf leistungsstarke KI-Funktionen zu.			Code

^ Zurück zum Inhalt ^

Schriftsteller

Quelle	Beschreibung	Typ
KI-Autor	KI schreibt Romane, generiert Fantasy- und Liebes-Webartikel usw. Chinesisches vorab trainiertes generatives Modell.	Schriftsteller
Notebook.ai	Notebook.ai ist eine Reihe von Tools für Autoren, Spieledesigner und Rollenspieler, um großartige Universen zu erschaffen – und alles darin.	Schriftsteller
Roman	WYSIWYG-Editor im Notion-Stil mit KI-gestützter automatischer Vervollständigung.	Schriftsteller
NovelAI	Erstellen Sie mithilfe der KI mühelos einzigartige Geschichten, spannende Erzählungen, verführerische Romanzen oder albern Sie einfach nur herum.	Schriftsteller

^ Zurück zum Inhalt ^

Bild

Quelle	Beschreibung	Papier	Spiel-Engine	Typ
AnyDoor	Zero-Shot-Bildanpassung auf Objektebene.	arXiv		Bild
AnyText	Mehrsprachige visuelle Textgenerierung und -bearbeitung.	arXiv		Bild
AutoStudio	Erstellen konsistenter Motive bei der interaktiven Bildgenerierung mit mehreren Durchgängen.	arXiv		Bild
Blender-ControlNet	ControlNet direkt in Blender verwenden.		Mixer	Bild
BriVL	Überbrückung von Vision und Sprachmodell.	arXiv		Bild
CatVTON	CatVTON: Verkettung ist alles, was Sie zum virtuellen Anprobieren mit Diffusionsmodellen benötigen.	arXiv		Bild
CLIPasso	Eine Methode zum Konvertieren eines Bildes eines Objekts in eine Skizze, die unterschiedliche Abstraktionsebenen ermöglicht.	arXiv		Bild
ClipDrop	Erstellen Sie in Sekundenschnelle atemberaubende Bilder.			Bild
ComfyUI	Eine leistungsstarke und modulare stabile Diffusions-GUI mit einer Graph/Knoten-Schnittstelle.			Bild
ConceptLab	Kreative Generierung unter Verwendung früherer Diffusionsbeschränkungen.	arXiv		Bild
ControlNet	ControlNet ist eine neuronale Netzwerkstruktur zur Steuerung von Diffusionsmodellen durch Hinzufügen zusätzlicher Bedingungen.	arXiv		Bild
CSGO	CSGO: Inhaltsstilkomposition bei der Text-zu-Bild-Generierung.	arXiv		Bild
DALL·E 2	DALL·E 2 ist ein KI-System, das aus einer Beschreibung in natürlicher Sprache realistische Bilder und Kunstwerke erstellen kann.			Bild
Dashtoon Studio	Dashtoon Studio ist eine KI-gestützte Comic-Erstellungsplattform.			Komisch
DeepAI	DeepAI bietet eine Reihe von Tools, die KI nutzen, um Ihre Kreativität zu steigern.			Bild
DeepFloyd IF	IF von DeepFloyd Lab bei StabilityAI.			Bild
Tiefe Alles V2	Tiefe Alles V2	arXiv		Bild
Tiefenkartenbibliothek und Poser	Tiefenkartenbibliothek zur Verwendung mit der Control Net-Erweiterung für Automatic1111/stable-diffusion-webui.			Bild
Diffusor zur Auswahl	Bereicherung des bildbedingten Inpaintings in Modellen mit latenter Diffusion für virtuelle Try-All.	arXiv		Bild
Disco-Verbreitung	Eine frankensteinische Verschmelzung von Notizbüchern, Modellen und Techniken zur Erstellung von KI-Kunst und Animationen.			Bild
DragGAN	Interaktive punktbasierte Manipulation der generativen Bildvielfalt.	arXiv		Bild
Zeichne Dinge	KI-gestützte Bilderzeugung in Ihrer Tasche.			Bild
DWPose	Effektive Ganzkörper-Posenschätzung mit zweistufiger Destillation.	arXiv		Bild
EasyPhoto	Ihr intelligenter KI-Fotogenerator.			Bild
Fluss	Dieses Repo enthält minimalen Inferenzcode, um Text-zu-Bild und Bild-zu-Bild mit unseren Flux-Transformatoren für latente gleichgerichtete Strömungen auszuführen.			Bild
Folgen Sie Ihrem Klick	Open-Domain-Regionalbildanimation über kurze Eingabeaufforderungen.	arXiv		Bild
Fooocus	Konzentrieren Sie sich auf Anregungen und Generierung.			Bild
GIFfusion	Erstellen Sie GIFs und Videos mit Stable Diffusion.			Bild
Grounded-Segment-Anything	Erkennen, segmentieren und generieren Sie automatisch alles mit Bild-, Text- und Audioeingaben.	arXiv		Bild
HivisionIDPhotos	HivisionIDPhotos: ein leichtes und effizientes KI-Tool für ID-Fotos.			Bild
Hua	Hua ist ein KI-Bildeditor mit Stable Diffusion (und mehr).			Bild
Hunyuan-DiT	Ein leistungsstarker Diffusionstransformator mit mehreren Auflösungen und feinkörnigem chinesischem Verständnis.	arXiv		Bild
IC-Licht	IC-Light ist ein Projekt zur Manipulation der Beleuchtung von Bildern.			Bild
Ideogramm	Wir helfen Menschen, kreativer zu werden.			Bild
Bild	Imagen ist ein KI-System, das aus Eingabetext fotorealistische Bilder erstellt.			Bild
img2img-turbo	Bild-zu-Bild in einem Schritt mit SD-Turbo.			Bild
Img2Prompt	Erhalten Sie Anregungen von durch stabile Diffusion erzeugten Bildern.			Bild
Unendlichkeit	Infinity: Skalierung der bitweisen autoregressiven Modellierung für die hochauflösende Bildsynthese.	arXiv		Bild
InstantID	Identitätserhaltende Zero-Shot-Generierung in Sekundenschnelle.	arXiv		Bild
InternLM-XComposer2	InternLM-XComposer2 ist ein bahnbrechendes Vision-Language-Large-Modell (VLLM), das sich durch die Text-Bild-Komposition und das Verständnis in freier Form auszeichnet.	arXiv		Bild
KOALA	Selbstaufmerksamkeit ist wichtig bei der Wissensdestillation latenter Diffusionsmodelle für eine gedächtniseffiziente und schnelle Bildsynthese.			Bild
Kolors	Kolors: Effektives Training des Diffusionsmodells für die fotorealistische Text-zu-Bild-Synthese.			Bild
KREA	Generieren Sie Bilder und Videos mit einem entzückenden KI-gestützten Designtool.			Bild
LaVi-Brücke	Überbrückung verschiedener Sprachmodelle und generativer Visionsmodelle für die Text-zu-Bild-Generierung.	arXiv		Bild
LayerDiffusion	Transparente Bildschichtdiffusion mithilfe latenter Transparenz.	arXiv		Bild
Lexika	Eine stabile Diffusion fordert die Suchmaschine auf.			Bild
LamaGen	Autoregressives Modell schlägt Diffusion: Lama für skalierbare Bilderzeugung.	arXiv		Bild
Lumina-mGPT	Lumina-mGPT: Beleuchten Sie die flexible fotorealistische Text-zu-Bild-Generierung mit multimodalem generativem Vortraining.	arXiv		Bild
MetaShoot	MetaShoot ist ein digitaler Zwilling eines Fotostudios, der als Plugin für die Unreal Engine entwickelt wurde und jedem Entwickler die Möglichkeit gibt, auf einfachste und schnellste Weise äußerst realistische Renderings zu erstellen.		Unwirkliche Engine	Bild
Mitten auf der Reise	Midjourney ist ein unabhängiges Forschungslabor, das neue Denkmedien erforscht und die Vorstellungskraft der menschlichen Spezies erweitert.			Bild
MIGC	MIGC: Multi-Instance Generation Controller für die Text-zu-Bild-Synthese.	arXiv		Bild
MimicBrush	Zero-Shot-Bildbearbeitung mit Referenzimitation.	arXiv		Bild
OmniGen	OmniGen: Einheitliche Bildgenerierung.	arXiv		Bild
Omost	Omost ist ein Projekt zur Umwandlung der Codierungsfunktionen von LLM in die Fähigkeit zur Bilderzeugung (oder genauer gesagt zur Bildkomposition).			Bild
Openpose-Editor	Openpose-Editor für die Stable-Diffusion-Webui von AUTOMATIC1111.			Bild
Outfit jeden	Hochwertige virtuelle Anprobe für jede Kleidung und jede Person.			Bild
FarbenRückgängig machen	PaintsUndo: Ein Basismodell des Zeichenverhaltens in digitalen Gemälden.			Bild
PhotoMaker	Anpassen realistischer menschlicher Fotos durch gestapelte ID-Einbettung.	arXiv		Bild
Fotoraum	AI-Hintergrundgenerator.			Bild
Plask	KI-Bilderzeugung in der Cloud.			Bild
Prompt.Art	Der Generatoren-Hub.			Bild
PuLID	Pure- und Lightning-ID-Anpassung über Kontrastausrichtung.	arXiv		Bild
Rich-Text-to-Image	Ausdrucksstarke Text-zu-Bild-Generierung mit Rich Text.	arXiv		Bild
RPG-DiffusionMaster	Beherrschung der Text-zu-Bild-Diffusion: Recaptioning, Planung und Generierung mit multimodalen LLMs (PRG).			Bild
SEED-Geschichte	SEED-Story: Multimodale Long-Story-Generierung mit großem Sprachmodell.	arXiv		Bild
Segmentieren Sie alles	Segment Anything Model (SAM): ein neues KI-Modell von Meta AI, das jedes Objekt in jedem Bild mit einem einzigen Klick „ausschneiden“ kann.	arXiv		Bild
Segment Anything Modell 2 (SAM 2)	SAM 2: Segmentieren Sie alles in Bildern und Videos.	arXiv		Bild
sd-webui-controlnet	WebUI-Erweiterung für ControlNet.			Bild
SDXL-Lightning	Progressive kontradiktorische Diffusionsdestillation.	arXiv		Bild
SDXS	Einstufige latente Diffusionsmodelle in Echtzeit mit Bildbedingungen.			Bild
Stallkunst	Photoshop-Plugin für Stable Diffusion mit Automatic1111 als Backend (lokal oder mit Google Colab).			Bild
Stabile Kaskade	Stable Cascade besteht aus drei Modellen: Stage A, Stage B und Stage C, die eine Kaskade zur Bilderzeugung darstellen, daher der Name „Stable Cascade“.			Bild
Stabile Verbreitung	Ein latentes Text-zu-Bild-Diffusionsmodell.			Bild
stabile-diffusion.cpp	Stabile Diffusion in reinem C/C++.			Bild
Stabile Diffusion-Web-Benutzeroberfläche	Eine Browseroberfläche basierend auf der Gradio-Bibliothek für Stable Diffusion.			Bild
Stabile Diffusion-Web-Benutzeroberfläche	Webbasierte Benutzeroberfläche für stabile Verbreitung.			Bild
Stabile Verbreitung WebUI Chinesisch	Chinesische Version von Stable-Diffusion-Webui.			Bild
Stabile Diffusion XL	Bilder aus Text generieren.	arXiv		Bild
Stabiler Diffusion XL Turbo	Text-zu-Bild-Generierung in Echtzeit.			Bild
Stabile Diffusion 3.5	Die offene Version von Stable Diffusion 3.5 umfasst mehrere Modellvarianten, darunter Stable Diffusion 3.5 Large und Stable Diffusion 3.5 Large Turbo.			Bild
Stabiles Gekritzel	Stable Doodle ist ein Sketch-to-Image-Tool, das eine einfache Zeichnung in ein dynamisches Bild umwandelt.			Bild
StableStudio	StableStudio von Stability AI			Bild
StoryMaker	StoryMaker: Auf dem Weg zu ganzheitlich konsistenten Charakteren bei der Text-zu-Bild-Generierung.	arXiv		Bild
StreamDiffusion	Eine Lösung auf Pipeline-Ebene für die interaktive Generierung in Echtzeit.			Bild
StyleDrop	Text-zu-Bild-Generierung in jedem Stil.	arXiv		Bild
SyncDreamer	Generieren von Multiview-konsistenten Bildern aus einem Single-View-Bild.	arXiv		Bild
UltraEdit	UltraEdit: Anleitungsbasierte feinkörnige Bildbearbeitung im Maßstab.	arXiv		Bild
UltraPixel	UltraPixel: Die ultrahochauflösende Bildsynthese auf ein neues Niveau bringen.	arXiv		Bild
Unity ML Stabile Diffusion	Stabile Kern-ML-Diffusion auf Unity.		Einheit	Bild
Vispunk-Visionen	Plattform zur Text-zu-Bild-Generierung.			Bild

^ Zurück zum Inhalt ^

Textur

Quelle	Beschreibung	Papier	Spiel-Engine	Typ
CRM	Einzelbild zu 3D-Texturnetz mit Faltungsrekonstruktionsmodell.	arXiv		Textur
DreamMat	Hochwertige PBR-Materialgenerierung mit geometrie- und lichtbewussten Diffusionsmodellen.	arXiv		Textur
DreamSpace	Träumen Sie Ihren Raum mit textgesteuerter Panorama-Texturausbreitung.			Textur
Traumtexturen	Stabile Diffusion im Mixer integriert. Erstellen Sie Texturen, Konzeptzeichnungen, Hintergrundelemente und mehr mit einer einfachen Texteingabe.		Mixer	Textur
Unterweisen Sie Menschen	Bearbeiten animierter menschlicher 3D-Texturen mit Anweisungen.	arXiv		Textur
InteX	Interaktive Text-zu-Textur-Synthese über einheitliches tiefenbewusstes Inpainting.	arXiv		Textur
LLaMA-Mesh	LLaMA-Mesh: Vereinheitlichung der 3D-Netzgenerierung mit Sprachmodellen.	arXiv		Netz
MaterialSeg3D	MaterialSeg3D: Segmentierung dichter Materialien aus 2D-Vorgängen für 3D-Assets.	arXiv		Textur
MeshAnything	MaterialSeg3D: Segmentierung dichter Materialien aus 2D-Vorgängen für 3D-Assets.	arXiv		Netz
Neuralangelo	Hochpräzise Rekonstruktion neuronaler Oberflächen.	arXiv		Textur
Malen Sie es	Text-zu-Textur-Synthese durch Deep Convolutional Texture Map Optimization und Physically-Based Rendering.			Textur
Polycam	Erstellen Sie Ihre eigenen 3D-Texturen einfach durch Eingabe.			Textur
TexFusion	Synthese von 3D-Texturen mit textgesteuerten Bilddiffusionsmodellen.	arXiv		Textur
Text2Tex	Textgesteuerte Textursynthese über Diffusionsmodelle.	arXiv		Textur
Texturlabor	KI-generierte Texturen. Sie können Ihr eigenes mit einer Textaufforderung erstellen.			Textur
Mit Poly	Erstellen Sie Texturen mit Poly. Generieren Sie 3D-Materialien mit KI in einem kostenlosen Online-Editor oder durchsuchen Sie unsere wachsende Community-Bibliothek.			Textur
X-Mesh	X-Mesh: Auf dem Weg zu einer schnellen und präzisen textgesteuerten 3D-Stilisierung durch dynamische Textführung.	arXiv		Textur

^ Zurück zum Inhalt ^

Shader

Quelle	Beschreibung	Papier	Spiel-Engine	Typ
KI-Shader	ChatGPT-basierter Shader-Generator für Unity.		Einheit	Shader

^ Zurück zum Inhalt ^

3D-Modell

Quelle	Beschreibung	Papier	Spiel-Engine	Typ
Animate3D	Animate3D: Animieren jedes 3D-Modells mit Multi-View-Videodiffusion.	arXiv		3D
Alles – 3D	Segment-Alles + 3D. Lassen Sie uns das Ganze in 3D heben.	arXiv		Modell
Any2Point	Any2Point: Ermöglicht große Modelle beliebiger Modalität für ein effizientes 3D-Verständnis.	arXiv		3D
BlenderGPT	Verwenden Sie Befehle in Englisch, um Blender mit GPT-4 von OpenAI zu steuern.		Mixer	Modell
Blender-GPT	Ein All-in-One-Mixer-Assistent mit GPT3/4 + Whisper-Integration.		Mixer	Modell
Blockadelabore	Digitale Alchemie ist real mit Skybox Lab – der ultimativen KI-gestützten Lösung zur Generierung unglaublicher 360°-Skybox-Erlebnisse aus Texteingabeaufforderungen.			Modell
CF-3DGS	COLMAP-freies 3D-Gaußsches Splatting.	arXiv		3D
CharacterGen	CharacterGen: Effiziente 3D-Charaktergenerierung aus Einzelbildern mit Multi-View-Posenkanonisierung.	arXiv		3D
chatGPT-maya	Einfaches Maya-Tool, das offene KI nutzt, um grundlegende Aufgaben basierend auf beschreibenden Anweisungen auszuführen.		Maya	Modell
CityDreamer	Kompositorisches generatives Modell unbegrenzter 3D-Städte.	arXiv		3D
CSM	Generieren Sie 3D-Welten aus Bildern und Videos.			3D
Bindestrich	Ihr Copilot für World Building in Unreal Engine.		Unwirkliche Engine	3D
DreamCatalyst	DreamCatalyst: Schnelle und hochwertige 3D-Bearbeitung durch Steuerung der Bearbeitbarkeit und Identitätserhaltung.	arXiv		3D
DreamGaussian4D	Generatives 4D-Gaußsches Splatting.	arXiv		4D
DUSt3R	Geometrische 3D-Vision leicht gemacht.	arXiv		3D
Erbauen Sie 3D	Edify 3D: Skalierbare, hochwertige 3D-Asset-Generierung.	arXiv		3D
GALA3D	GALA3D: Auf dem Weg zur Generierung komplexer Text-zu-3D-Szenen durch Layout-gesteuertes generatives Gaußsches Splatting.	arXiv		3D
GaussStrg	GaussCtrl: Konsistente textgesteuerte 3D-Gaußsche Splatting-Bearbeitung in mehreren Ansichten.	arXiv		3D
Gaußscher Würfel	Eine strukturierte und explizite Strahlungsdarstellung für die generative 3D-Modellierung.	arXiv		3D
Gaußscher Träumer	Schnelle Generierung von Text zu 3D-Gauß-Splatting mit Point Cloud Priors.	arXiv		3D
GenieLabs	Stärken Sie Ihr Spiel mit AI-UGC.			3D
HiFA	High-Fidelity-Text-zu-3D mit erweiterter Diffusionsführung.			Modell
HoloDreamer	HoloDreamer: Ganzheitliche 3D-Panorama-Weltgenerierung aus Textbeschreibungen.	arXiv		3D
Hunyuan3D-1.0	Hunyuan3D-1.0: Ein einheitliches Framework für die Text-zu-3D- und Bild-zu-3D-Generierung.	arXiv		3D
Infinigen	Unendliche fotorealistische Welten durch prozedurale Generierung.	arXiv		3D
Instruct-NeRF2NeRF	Bearbeiten von 3D-Szenen mit Anweisungen.	arXiv		Modell
Interactive3D	Erstellen Sie mit der interaktiven 3D-Generierung, was Sie wollen.	arXiv		3D
Isotrop3D	Bild-zu-3D-Generierung basierend auf einer einzigen CLIP-Einbettung.			3D
LATTE3D	Umfangreiche amortisierte Text-zu-Enhanced3D-Synthese.	arXiv		3D
LÖWE	Latente Punktdiffusionsmodelle zur 3D-Formgenerierung.	arXiv		Modell
Luma KI	Erfassen Sie in lebensechtem 3D. Unübertroffener Fotorealismus, Reflexionen und Details. Die Zukunft von VFX ist jetzt für alle da!			Modell
Lumine-KI	KI-gestützte Kreativität.			3D
Make-It-3D	Hochpräzise 3D-Erstellung aus einem einzigen Bild mit Diffusion Prior.	arXiv		Modell
Meshy	Erstellen Sie atemberaubende 3D-Spielinhalte mit KI.			3D
Bewegung	Magischer 3D-KI-Animationsersteller.			3D
MVDream	Multi-View-Diffusion für die 3D-Generierung.	arXiv		3D
NVIDIA Instant NeRF	Sofortige neuronale Grafikprimitive: blitzschnelles NeRF und mehr.			Modell
Eins-2-3-45	Jedes einzelne Bild wird in 45 Sekunden in ein 3D-Netz umgewandelt, ohne dass eine Optimierung pro Form erforderlich ist.	arXiv		Modell
Paint3D	Malen Sie alles in 3D mit Texturdiffusionsmodellen ohne Beleuchtung.	arXiv		3D
PAniC-3D	Stilisierte Einzelansicht-3D-Rekonstruktion aus Porträts von Anime-Charakteren.	arXiv		Modell
Punkt·E	Punktwolkendiffusion für die 3D-Modellsynthese.			Modell
Produktiver Träumer	Hochpräzise und vielfältige Text-zu-3D-Generierung mit Variations-Score-Destillation.	arXiv		Modell
SF3D	SF3D: Stabile, schnelle 3D-Netzrekonstruktion mit UV-Abwicklung und Beleuchtungsentwirrung.	arXiv		3D
Form	Generieren Sie 3D-Objekte basierend auf Text oder Bildern.	arXiv		Modell
Sloyd	3D-Modellierung war noch nie einfacher.			Modell
Spline-KI	Die Macht der KI erreicht die 3. Dimension. Generieren Sie mithilfe von Eingabeaufforderungen Objekte, Animationen und Texturen.			Modell
Stabile Dreamfusion	Eine Pytorch-Implementierung des Text-zu-3D-Modells Dreamfusion, unterstützt durch das Stable Diffusion Text-zu-2D-Modell.			Modell
SV3D	Neuartige Multi-View-Synthese und 3D-Generierung aus einem einzelnen Bild mithilfe latenter Videodiffusion.	arXiv		3D
Tafi	KI-Text-zu-3D-Charakter-Engine.			Modell
3D-GPT	Prozedurale 3D-Modellierung mit großen Sprachmodellen.	arXiv		3D
3D-LLM	Einfügung der 3D-Welt in große Sprachmodelle.	arXiv		3D
3Dpresso	Extrahieren Sie ein 3D-Modell eines Objekts, das in einem Video aufgenommen wurde.			Modell
3DTopia	Text-zu-3D-Generierung innerhalb von 5 Minuten.	arXiv		3D
3DTopia-XL	3DTopia-XL: Skalierung hochwertiger 3D-Asset-Generierung durch primitive Diffusion.	arXiv		3D
dreistudio	Ein einheitliches Framework für die Generierung von 3D-Inhalten.			Modell
TripoSR	Ein hochmodernes Open-Source-Modell für eine schnelle 3D-Rekonstruktion von Feedforward aus einem einzigen Bild.	Arxiv		Modell
Unique3d	Hochwertige und effiziente 3D-Netzerzeugung aus einem einzigen Bild.	Arxiv		3d
UnityGaussiansplattierung	TOY GAUSSIANISCHE SPRATTING VISEILISIATION IN DER Einheit.		Einheit	3d
Vivid-1-to-3	Neuartige Ansichtsynthese mit Videodiffusionsmodellen.	Arxiv		3d
Voxcraft	Basteln Sie bereit, 3D-Modelle mit KI zu verwenden.			3d
Wonder3d	Einzelbild zu 3D unter Verwendung der Cross-Domänen-Diffusion.	Arxiv		3d
Zero-1-to-3	Null-Shot ein Bild zum 3D-Objekt.	Arxiv		Modell

^ Zurück zum Inhalt ^

Avatar

Quelle	Beschreibung	Papier	Game Engine	Typ
Aniporträt	Audiogetriebene Synthese fotorealistischer Porträtanimationen.	Arxiv		Avatar
RUHIG	Bedingte deverse latente Modelle für Regie virtuelle Zeichen.	Arxiv		Avatar
Chatavatar	Progressive Generation von animatierbaren 3D -Gesichtern unter Textanleitung.			Avatar
Chatdollkit	Mit Chatdollkit können Sie Ihr 3D -Modell zu einem Chatbot machen.		Einheit	Avatar
DreamTalk	Wenn die ausdrucksstarke sprechende Headgeneration diffusions probabilistische Modelle trifft.	Arxiv		Avatar
Duix	Duix - Silicon -basierte digitale menschliche SDK?			Avatar
Echomimisch	Echomimic: LIFELISIONISISCHE PRATETRATRETRATRATRATRAt-Animationen durch bearbeitbare Wahrzeichen.	Arxiv		Avatar
Emoportraits	Emotionsverstärkte multimodale One-Shot-Kopf-Avatare.			Avatar
E3 Gen	Effiziente, ausdrucksstarke und bearbeitbare Avatare -Generation.	Arxiv		Avatar
Exavatar	Exavatar - ausdrucksstarker Ganzkörper 3d Gaußscher Avatar.	Arxiv		Avatar
Genavatar	Generische Expression-bewusstes volumetrisches Kopf-Avatar-Bearbeitung eines einzelnen Bildes.	Arxiv		Avatar
Geneface ++	Verallgemeinerte und stabile Echtzeit-3D-Sprecherzeugung.			Avatar
Hallo	Hierarchische audiogesteuerte visuelle Synthese für Porträtbildanimation.	Arxiv		Avatar
Hallo2	Hallo 2: Langzeit- und hochauflösende audiogesteuerte Porträtbildanimation.	Arxiv		Avatar
Headsculpt	Basteln Sie 3D -Kopf -Avatare mit Text.	Arxiv		Avatar
Intrinsicavatar	Intrinsicavatar: physisch basiertes inverses Rendern von dynamischen Menschen aus monokularen Videos über explizite Strahlenverfolgung.	Arxiv		Avatar
Linle-talker	Digital Avatar Conversational System.			Avatar
LivePortrait	LivePortrait: Effiziente Porträtanimation mit Stich- und Retargeting -Kontrolle.	Arxiv		Avatar
MotionGpt	Menschliche Bewegung als Fremdsprache, ein einheitliches Modell für Bewegungssprachengenerierung unter Verwendung von LLMs.	Arxiv		Avatar
Musicose	MUSEPOSE: Ein posegetriebenes Bild-zu-Video-Framework für die virtuelle menschliche Generation.			Avatar
Musetalk	Echtzeit hochwertige Lippensynchorisierung mit latenten Space Inpainting.			Avatar
Musev	Unendliche Länge und High Fidelity Virtuelle menschliche Videogenerierung mit visuell konditioniertem parallelen Denoising.			Avatar
Porträt4d	Lernen von One-Shot 4D Head Avatar-Synthese mit synthetischen Daten.	Arxiv		Avatar
Bereit mich für mich	Integrieren Sie anpassbare Avatare in Ihrem Spiel oder Ihrer App in Tagen.			Avatar
Rodinhd	RODINHD: High-Fidelity-3D-Avatar-Erzeugung mit Diffusionsmodellen.	Arxiv		Avatar
Styleavatar3d	Nutzung von Bild-Text-Diffusionsmodellen für die 3D-Avatar-Generation mit hoher Fidelität.	Arxiv		Avatar
Text2Control3d	Steuerbare 3D-Avatar-Erzeugung in neuronalen Strahlungsfeldern unter Verwendung von Geometrie-geführtem Text-zu-Image-Diffusionsmodell.	Arxiv		Avatar
Topo4d	Topologie-Präsentierende Gaußsche Splating für die 4D-Kopfeinnahme von High-Fidelity.	Arxiv		Avatar
Unityaiwithchatgpt	Basierend auf Einheit wird Chatgpt+Unitychan Voice Interactive Display realisiert.		Einheit	Avatar
Vid2avatar	3D-Avatar-Rekonstruktion aus Videos in freier Wildbahn durch selbstbewertete Szenenabzug.	Arxiv		Avatar
Vlogger	Multimodale Diffusion für die verkörperte Avatar -Synthese.			Avatar
Wild2avatar	Menschen hinter Okklusionen rendern.	Arxiv		Avatar

^ Zurück zum Inhalt ^

Animation

Quelle	Beschreibung	Papier	Typ
Jemanden animieren	Konsistente und kontrollierbare Bild-zu-Video-Synthese für die Charakteranimation.	Arxiv	Animation
Animateanything	Feinkörnige offene Domänenbildanimation mit Bewegungsanleitung.	Arxiv	Animation
Animatediff	Animieren Sie Ihre personalisierten Text-zu-Imager-Diffusionsmodelle ohne spezifische Abstimmung.	Arxiv	Animation
Animatelcm	Lassen Sie uns die Videogenerierung innerhalb von 4 Schritten beschleunigen!	Arxiv	Animation
Animate-X	Animate-X: Universelle Charakterbildanimation mit verbesserter Bewegungsdarstellung.	Arxiv	Animation
Animatezero	Videodiffusionsmodelle sind Null-Shot-Bildanimatoren.	Arxiv	Animation
Animationgpt	Ein AIGC -Tool zur Generierung von Spielkampfbewegungsgütern.		Animation
DeForum	DeForum nutzt eine stabile Diffusion, um sich entwickelnde KI -Visuals zu erzeugen.		Animation
Zeichnungsspeicher	Zeichnungsspannung: 3D -Animation aus einzelnen Zeichenzeichnungen.	Arxiv	Animation
Träumen	Ein Rahmen der menschlichen Videogenerierung basierend auf Diffusionsmodellen.	Arxiv	Animation
Gesichtsfusion	Face Swapper und Enhancer der nächsten Generation.		Animation
FreeInit	Überbrückungsinitialisierungslücke in Videodiffusionsmodellen.	Arxiv	Animation
Geneface	Verallgemeinerte und hohe Audio-gesteuerte 3D-Gesprächssynthese.	Arxiv	Animation
ID-Animator	Null-Shot-Identitätspräsentation menschlicher Videogenerierung.	Arxiv	Animation
Magicanimate	Zeitlich konsistente menschliche Bildanimation mit Diffusionsmodell.	Arxiv	Animation
Nuwa	Dragnuwa ist ein offenes Diffusions-basierter Videogenerierungsmodell mit offener Domänen nimmt Text-, Bild- und Trajektoriensteuerungen als Eingänge an, um die steuerbare Videogenerierung zu erreichen.	Arxiv	Animation
Nuwa-Steigerung	Nuwa-Infinity ist ein multimodales generatives Modell, mit dem hochwertige Bilder und Videos aus angegebenem Text, Bild oder Videoeingabe generiert werden sollen.		Animation
Nuwa-xl	Eine neuartige Diffusion über Diffusionsarchitektur für die extrem lange Videogenerierung.		Animation
Omni -Animation	KI generierte High -Fidelity -Animationen.		Animation
Pia	Ihr personalisierter Bildanimator über Plug-and-Play-Module in Text-zu-Image-Modellen.	Arxiv	Animation
Sadtalker	Lernen realistischer 3D-Bewegungskoeffizienten für stilisierte audiogesteuerte Einzelbild-sprechende Gesichtsanimation.	Arxiv	Animation
Sadtalker-video-lip-sync	Dieses Projekt basiert auf Sadtalkern WAV2LIP für die Video -Lippen -Synthese.		Animation
Stabile Animation	Ein leistungsstarkes Text-zu-Animation-Tool für Entwickler.		Animation
Talecrafter	Ein interaktives Tool zur Visualisierung von Story, das mehrere Charaktere unterstützt.	Arxiv	Animation
Tooncrafter	Tooncrafter: Generative Cartoon Interpolation.	Arxiv	Animation
Wav2lip	Genauige Lippensynchronisierungsvideos in freier Wildbahn.	Arxiv	Animation
Wonder Studio	Ein KI-Tool, das automatisch CG-Zeichen animiert, beleuchtet und in einer Live-Action-Szene komponiert.		Animation

^ Zurück zum Inhalt ^

Visuell

Quelle	Beschreibung	Papier	Typ
Cambrian-1	Cambrian-1: Eine vollständig offene, sehzentrierte Erkundung multimodaler LLMs.	Arxiv	Multimodale LLMs
Cogvlm2	Open-Source-Multi-Modal-Modell auf GPT4V-Ebene basierend auf LLAMA3-8B.		Visuell
Cotracker	Es ist besser, gemeinsam zu verfolgen.	Arxiv	Visuell
EVF-SAM	EVF-SAM: Early Vision-Sprache Fusion für textgepomptierte Segmente irgendetwas Modell.	Arxiv	Visuell
FaceHi	Es ist besser, gemeinsam zu verfolgen.		Visuell
Internlm-Xcomposer2	Internlm-Xcomposer2 ist ein bahnbrechender Vision-Sprach-Langermodell (VLLM) in der Komposition und des Verständnisses von freier Form in freier Form.	Arxiv	Visuell
Känguru	Kangaroo: Ein leistungsstarkes Videosprachmodell, das die lang kontextbezogene Videoeingabe unterstützt.		Visuell
LGVI	In Richtung sprachgetriebener Video-Inpainting über multimodale Großsprachenmodelle.		Visuell
Llava ++	Erweiterung der visuellen Fähigkeiten mit Lama-3 und Phi-3.		Visuell
Llava-Onevision	LLAVA-Onevision: Einfach visuelle Aufgabenübertragung.	Arxiv	Visuell
Longva	Langer Kontextübertragung von Sprache zu Vision.	Arxiv	Visuell
Maskvit	Maskiertes visuelles Pre-Training für die Videovorhersage.	Arxiv	Visuell
Minicpm-Llama3-V 2.5	Ein GPT-4V-Level MLLM auf Ihrem Telefon.		Visuell
Moe-Llava	Mischung von Experten für große Sichtsprachmodelle.	Arxiv	Visuell
Motionllm	Menschliches Verhalten durch menschliche Bewegungen und Videos verstehen.	Arxiv	Visuell
Pllava	Parameter-freie LLAVA-Erweiterung von Bildern zu Videos für Video-dichter Bildunterschriften.	Arxiv	Visuell
Qwen-vl	Ein vielseitiges visuelles Modell zum Verständnis, Lokalisierung, Textlesen und darüber hinaus.	Arxiv	Visuell
Sapiens	Sapiens: Grundlage für menschliche Sehmodelle.	Arxiv	Visuell
Sharegpt4v	Verbesserung großer multimodaler Modelle mit besseren Bildunterschriften.	Arxiv	Visuell
SOLO	Solo: Ein einzelner Transformator für skalierbare Sichtsprachmodellierung.	Arxiv	Visuell
Video-CCAM	Video-CCAM: Fortschritte auf Videosprachenverständnis mit kausalen Kreuzbewegungsmasken.		Visuell
Video-Llava	Erlernen der visuellen Darstellung der Vereinigten visuellen Repräsentation durch Ausrichtung vor der Projektion.	Arxiv	Visuell
Videollama 2	Förderung der räumlich-zeitlichen Modellierung und des Audioverständnisses in Videolls.	Arxiv	Visuell
Video-Mme	Der erste umfassende Bewertungsmaßstab für multimodale LLMs in der Videoanalyse.	Arxiv	Visuell
Vitron	Eine einheitliche Vixel-Vision LLM zum Verständnis, Erzeugen, Segmentieren, Bearbeiten.		Visuell
Vila	VILA: Über die Vorausbildung für visuelle Sprachmodelle.	Arxiv	Visuell

^ Zurück zum Inhalt ^

Video

Quelle	Beschreibung	Papier	Typ
360dvd	Kontrollierbare Panorama-Videogenerierung mit 360-Grad-Video-Diffusionsmodell.	Arxiv	Video
Animate-a-Story	Abrufen von Video-Generation für die Erzählen einer Geschichte.	Arxiv	Video
Alles in jeder Szene	Photorealistische Videoobjekteinfügung.		Video
Kunst • v	Automatisch-tergressive Text-zu-Video-Erzeugung mit Diffusionsmodellen.	Arxiv	Video
Assistiv	Treffen Sie die generative Videoplattform, die Ihre Ideen zum Leben erweckt.		Video
Atomovideo	High Fidelity Image-zu-Video-Generation.	Arxiv	Video
Hintergrundremover	Mit Hintergrundentferner können Sie Hintergrund von Bildern und Videoen mit AI mit einer einfachen Befehlszeilenschnittstelle entfernen, die kostenlos und Open Source ist.		Video
Boximator	Erzeugen von reichhaltigen und kontrollierbaren Bewegungen für die Video -Synthese.	Arxiv	Video
Codef	Inhaltsverformungsfelder für die zeitlich konsistente Videoverarbeitung.	Arxiv	Video
Cogvideo	Generieren Sie Videos aus Textbeschreibungen.		Video
Cogvideox	Cogvideox ist eine Open-Source-Version des Videogenerierungsmodells, das zu 清影 homolog ist.		Video
Cogvlm	COGVLM ist ein leistungsstarkes Open-Source-Modell für visuelle Sprache (VLM).		Visuell
Conr	Genarat lebendige Tanzvideos von handgezeichneten Anime-Charakterblättern (ACS).	Arxiv	Video
Dekoe	Erstellen Sie das, was nicht gefilmt werden kann.		Video
Beschreiben	Beschreibung ist die einfache, leistungsstarke und unterhaltsame Art zu bearbeiten.		Video
Diffutoon	Hochauflösende toon-Schattierung über Diffusionsmodelle.	Arxiv	Video
Delphin	Allgemeine Video -Interaktionsplattform basierend auf LLMs.		Video
Domoai	Verstärken Sie Ihre Kreativität mit Domoai.		Video
Dreamcinema	Dreamcinema: Filmtransfer mit kostenloser Kamera und 3D -Charakter.	Arxiv	Video
Dynamicrafter	Animieren von Bildern mit Open-Domänen mit Videodiffusionspriors.	Arxiv	Video
RAND	Wir stellen Edge vor, eine mächtige Methode für die editable Tanzgeneration, die in der Lage ist, realistische, physisch plausible Tänze zu erstellen und gleichzeitig willkürlichem Eingangsmusik treu zu bleiben.	Arxiv	Video
Emo	Lebendigem Porträt - Erzeugen von ausdrucksstarken Porträtvideos mit Audio2Video -Diffusionsmodell unter schwachen Bedingungen.	Arxiv	Video
Emu Video	Faktorisieren Sie die Erzeugung von Text-zu-Video-Erzeugung durch explizite Bildkonditionierung.		Video
Ätna	ETNA kann entsprechende Videoinhalte basierend auf kurzen Textbeschreibungen erzeugen.		Video
Fee	Schnelle parallelisierte, anleitende Video-zu-Video-Synthese.		Video
Folgen Sie Ihren Canvas	Folgen Sie Ihren Canvas: Video mit höherer Auflösung mit umfangreicher Inhaltsgenerierung.	Arxiv	Video
Folgen Sie Ihrer Pose	Pose-gesteuerte Text-zu-Video-Generierung mit posenfreien Videos.	Arxiv	Video
Fulljourney	Ihre vollständige Suite von KI -Erstellungswerkzeugen an Ihren Fingerspitzen.		Video
Gen-2	Ein multimodales KI-System, das neuartige Videos mit Text, Bildern oder Videoclips generieren kann.		Video
Generative Dynamik	Generative Bilddynamik.		Video
Genie	Generative interaktive Umgebungen.	Arxiv	Video
Genmo	Machen Sie auf magische Weise Videos mit KI.		Video
Gentron	Diffusionstransformatoren für Bild- und Videogenerierung.		Video
Higen	Hierarchische räumlich-zeitliche Entkopplung für die Erzeugung von Text-zu-Video-Erzeugung.		Video
HOTSHOT-XL	Hotshot-XL ist ein AI-Text-zu-GIF-Modell, das zusammen mit stabilen Diffusion xl geschult ist.		Video
Hunyuanvideo	Hunyuanvideo: Ein systematisches Rahmen für das große Modell der Videogenerierung.	Arxiv	Video
Imagin Video	Bei einer Textaufforderung generiert Imageen Video High-Definition-Videos mit einem Basis-Videogenerierungsmodell und einer Folge von verzogenen räumlichen und zeitlichen Video-Superauflösungsmodellen.		Video
Unterweisen	Anweisung von Videodiffusionsmodellen mit menschlichem Feedback.	Arxiv	Video
I2vgen-xl	Hochwertige Bild-zu-Video-Synthese über kaskadierte Diffusionsmodelle.	Arxiv	Video
Lavie	Hochwertige Videogenerierung mit kaskadierten latenten Diffusionsmodellen.	Arxiv	Video
LTX Studio	LTX Studio ist eine ganzheitliche, kI-gesteuerte Filmemachenplattform für Schöpfer, Vermarkter, Filmemacher und Studios.		Video
Ltx-video	LTX-VIDEO ist das erste DIT-basierte Videogenerierungsmodell, das in Echtzeit hochwertige Videos erzeugen kann. Es kann 24 FPS -Videos bei 768x512 -Auflösung erzeugen, schneller als es braucht, um sie anzusehen.		Video
Lumiere	Ein Raum-Zeit-Diffusionsmodell für die Videogenerierung.	Arxiv	Video
Lvdm	Latente Videodiffusionsmodelle für lange Videogenerierung von hohen Fidelity.	Arxiv	Video
MagicVideo	Effiziente Videogenerierung mit latenten Diffusionsmodellen.	Arxiv	Video
MagicVideo-V2	Multi-Stufe hochästhetische Videogenerierung.	Arxiv	Video
Magische Stunde	KI -Video für Schöpfer einfach gemacht.		Video
Magvit-V2	Tokenizer ist der Schlüssel zur visuellen Generierung.		Video
Magvit	Maskierter generativer Video -Transformer.		Video
Make-a-video	Make-a-video ist ein hochmodernes KI-System, das Videos aus Text generiert.	Arxiv	Video
Pixel tanzen lassen	Hochdynamische Videogenerierung.	Arxiv	Video
Machen Sie Ihre Video	Customisierte Videogenerierung mithilfe der textlichen und strukturellen Führung.	Arxiv	Video
Mikrocinem	Ein Divide-and-Conquer-Ansatz für die Erzeugung von Text-zu-Video-Erzeugung.	Arxiv	Video
Mimo	MIMO: VIDEA -VIDEO -Synthese mit räumlicher zersetzter Modellierung.	Arxiv	Video
Mini-Gemini	Mining des Potenzials von Multimodalitäts-Vision-Sprachmodellen.		Vision
Mobilevidfactory	Automatische diffusionsbasierte Social-Media-Videogenerierung für mobile Geräte aus Text.		Video
Mochi 1	Mochi 1 ist ein offenes modernes Videogenerierungsmodell mit hoher Anmeldung und starker Einhaltung der vorläufigen Bewertung.		Video
Mofa-video	Steuerbare Bildanimation über generative Bewegungsfeld-Anpassungen im gefrorenen Bild-zu-Video-Diffusionsmodell.	Arxiv	Video
Geldprinterturbo	Verwenden Sie große Modelle, um kurze Videos mit einem Klick zu generieren.		Video
Moonvalley	Moonvalley ist ein bahnbrechender neuer AI-Modell für Text-zu-Video-Generativen.		Video
Mora	Eher wie Sora für die Generalistin der Generalistin.	Arxiv	Video
Morph Studio	Manifestieren Sie Ihre Kreativität durch Ihre Aufforderung.		Video
Motionclone	MotionClone: Trainingsfreies Bewegungsklonen für die steuerbare Videogenerierung.	Arxiv	Video
Motionctrl	Ein einheitlicher und flexibler Bewegungscontroller für die Videogenerierung.	Arxiv	Video
MotionDirector	Bewegungsanpassung von Text-zu-Video-Diffusionsmodellen.	Arxiv	Video
MotionShop	Eine Anwendung des Ersetzens der Zeichen in Video durch 3D -Avatare.		Video
Mov2mov	MOV2MOV-Plugin für Automatic11111/Stable-Diffusion-Webui.		Video
Beweglich	Automatische Filmerstellung aus Text mit großen generativen Modellen für Sprache und Bilder.	Arxiv	Video
Neuronale Rahmen	Entdecken Sie den Synthesizer für die visuelle Welt.		Video
Nie	Erstellen Sie Ihre Welt.		Video
Open-Sora	Demokratisierung der effizienten Videoproduktion für alle.		Video
Open-Sora	Open-Sora-Plan.		Video
Phenaki	Ein Modell zum Generieren von Videos aus Text mit Eingabeaufforderungen, die sich im Laufe der Zeit ändern können, und Videos, die bis zu mehreren Minuten betragen können.	Arxiv	Video
Pika Labs	Pika Labs revolutioniert die Videomobilerfahrung mit KI.		Video
Pixeling	Pixeling ermöglicht es unseren Kunden, sehr präzise, ultra-realistische und extrem kontrollierbare visuelle Inhalte zu erstellen, einschließlich Bildern, Videos und 3D-Modellen.		Video
Pixverse	Erstellen Sie atemberaubende Videos mit KI.		Video
Bestäubung	Das Erstellen wird einfach, schnell und Spaß.		Video
Wiederverwenden und diffus	Iterative Denoising für Text-zu-Video-Generation.	Arxiv	Video
Ruyi	Ruyi ist ein Bild-zu-Video-Modell, das Videos in filmische Qualität mit einer Auflösung von 768 erzeugen kann, mit einer Bildrate von 24 Bildern pro Sekunde, insgesamt 5 Sekunden und 120 Frames.		Video
Shortgpt	Ein experimentelles KI -Framework für die Erstellung von Kurz-/Video -Inhalten.		Video
Show-1	Heiraten von Pixel- und latenten Diffusionsmodellen für die Erzeugung von Text-zu-Videos.	Arxiv	Video
Snap Video	Skalierte räumlich-zeitliche Transformatoren für die Text-zu-Video-Synthese.	Arxiv	Video
Sora	Video aus dem Text erstellen.		Video
Sorawebui	Sorawebui ist ein Open-Source-Web-Client, mit dem Benutzer mit dem Sora-Modell von OpenAI auf einfache Weise Videos aus dem Text erstellen können.		Video
Stablevideo	Textgetriebene Konsistenzdiffusionsvideobearbeitung.		Video
Stabile Videodiffusion	Stable Video Diffusion (SVD) Image-zu-Video.		Video
Storydiffusion	Konsistente Selbstbekämpfung für Fernbild- und Videogenerierung.	Arxiv	Video
Streamingt2v	Konsistente, dynamische und erweiterbare lange Videogenerierung aus Text.	Arxiv	Video
Stylecrafter	NHancing Stylized Text-to-Video-Generation mit Stiladapter.	Arxiv	Video
Tats	Lange Videogenerierung mit zeitagnostischer Vqgan und zeitempfindlicher Transformator.		Video
Text2Video-Null	Text-to-Image-Diffusionsmodelle sind null-Shot-Videogeneratoren.	Arxiv	Video
Tf-t2v	Ein Rezept zur Skalierung von Text-zu-Video-Generation mit textfreien Videos.	Arxiv	Video
Tora	Tora: Trajektorienorientierter Diffusionstransformator für die Videogenerierung.	Arxiv	Video
Spur	Track-Bything ist ein flexibles und interaktives Werkzeug für die Verfolgung und Segmentierung von Videoobjekten, basierend auf Segment Anything und XMEM.	Arxiv	Video
Tune-a-video	One-Shot-Abstimmung von Bilddiffusionsmodellen für die Erzeugung von Text-zu-Video-Erzeugung.	Arxiv	Video
Zwölfs	Multimodale KI, die Videos wie Menschen versteht.		Video
Univg	In Richtung Unified-Modal Video Generation.		Video
Vchitect-2.0	Vchitect-2.0: Parallel Transformator zum Skalieren von Videodiffusionsmodellen.		Video
Vgen	Ein ganzheitliches Ökosystem der Videogenerierung für die Videogenerierung auf Diffusionsmodellen.	Arxiv	Video
ViewCrafter	ViewCrafter: Taming von Videodiffusionsmodellen für die neuartige Ansichtssynthese mit hoher Fidelity.	Arxiv	Video
Video-Chatgpt	Video-Chatgpt ist ein Video-Konversationsmodell, das aussagekräftige Gespräche über Videos generieren kann.	Arxiv	Video
Videokomponisten	Kompositionelle Video -Synthese mit Bewegungskontrollierbarkeit.	Arxiv	Video
Videocrafter1	Offene Diffusionsmodelle für die hochwertige Videogenerierung.	arXiv	Video
Videcrafter2	Überwindung von Datenbeschränkungen für hochwertige Videodiffusionsmodelle.	arXiv	Video
Videodrafter	Inhaltskonsistente Multi-Szenen-Videogenerierung mit LLM.	arXiv	Video
Videoelevator	Erhöhen Sie die Qualität der Videogenerierung mit vielseitigen Text-zu-Im-Im-Im-Im-Im -ät-Diffusionsmodellen.	Arxiv	Video
Videofaktor	Tauschen Sie die Aufmerksamkeit in räumlich-zeitlichen Diffusionen für die Erzeugung von Text-zu-Videos aus.		Video
Videogen	Ein referenzgesteuerter latenter Diffusionsansatz für die Hochaufnahme-Text-zu-Video-Erzeugung.	Arxiv	Video
Videolcm	Video Latente Konsistenzmodell.	Arxiv	Video
Video LDMs	Richten Sie Ihre Leitungen aus: Video-Synthese mit hoher Auflösung mit latenten Diffusionsmodellen.	Arxiv	Video
Video-Llava	Erlernen der visuellen Darstellung der Vereinigten visuellen Repräsentation durch Ausrichtung vor der Projektion.	Arxiv	Video
Videomamba	Zustandsraummodell für ein effizientes Videoverständnis.	Arxiv	Video
Video-des Gedanke	Video-of-Gedanken: Schritt-für-Schritt-Video-Argumentation von der Wahrnehmung bis zur Wahrnehmung.		Video
Videopoet	Ein großes Sprachmodell für die Videogenerierung von Zero-Shot.	arXiv	Video
Visspunk -Bewegung	Erstellen Sie realistische Videos mit nur Text.		Video
Visualrwkv	VisualRWKV ist die visuell verstärkte Version des RWKV-Sprachmodells, sodass RWKV verschiedene visuelle Aufgaben erledigen kann.		Visuell
V-JEPA	Video Joint einbettende Vorhersagearchitektur.	Arxiv	Video
Walt	Photorealistische Videogenerierung mit Diffusionsmodellen.	Arxiv	Video
Nullenkop	Nullenkop Text-zu-Video.		Video

^ Zurück zum Inhalt ^

Audio

Quelle	Beschreibung	Papier	Typ
Academicodec	Ein Open -Source -Audio -Codec -Modell für die akademische Forschung.		Audio
Amphion	Ein Open-Source-Audio-, Musik- und Sprachgenerierungs-Toolkit.	Arxiv	Audio
Erzisound	Audiogenerierung unter Verwendung von Diffusionsmodellen in Pytorch.		Audio
Audiobox	Einheitliche Audiogenerierung mit natürlichen Sprachaufforderungen.		Audio
Audioediting	Null-Shot Unbeaufsichtigtes und textbasiertes Audiobearbeitung unter Verwendung der DDPM-Inversion.	Arxiv	Audio
Audiogen Codec	Eine niedrige Kompression von 48 kHz Stereo -Audio -Codec für allgemeine Audio, die die Audio -Treue optimiert?		Audio
Audiogpt	Sprache, Musik, Klang und sprechender Kopf verstehen und erzeugen.	Arxiv	Audio
Audiolcm	Text-to-Audio-Generation mit latenten Konsistenzmodellen.	Arxiv	Audio
Audioldm	Text-to-Audio-Erzeugung mit latenten Diffusionsmodellen.	Arxiv	Audio
Audioldm 2	Lernen ganzheitlicher Audiogenerierung mit selbstüberwachender Vorbereitung.	Arxiv	Audio
Äuffusion	Nutzung der Kraft der Diffusions- und Großsprachmodelle für die Erzeugung von Text-zu-Audio.	Arxiv	Audio
CTAG	Kreative Text-to-Audio-Generation über Synthesizer-Programmierung.		Audio
Foleycrafter	Foleycrafter: Zeigen Sie stille Videos mit lebensechten und synchronisierten Klängen zum Leben.	arXiv	Audio
Magnet	Maskierte Audiogenerierung unter Verwendung eines einzelnen nicht autoregressiven Transformators.		Audio
Make-An-Audio	Text-to-Audio-Generierung mit prompt verstärkten Diffusionsmodellen.	Arxiv	Audio
Make-An-Audio 3	Verwandeln von Text in Audio über fließbasierte große Diffusionstransformatoren.	Arxiv	Audio
NeuralSound	Lernbasierte modale Klangsynthese mit akustischer Übertragung.	Arxiv	Audio
Optimizera	Sounds für Schöpfer, Spielmacher, Künstler, Videohersteller.		Audio
Qwen2-Audio	QWEN2-ADIO CHAT & vorgeschlagenes großes Audiosprachenmodell von Alibaba Cloud vorgeschlagen.	Arxiv	Audio
Siehe 2-säuerlich	Räumliche Umgebung zu räumlicher Klang.	Arxiv	Audio
Soundstorming	Effiziente parallele Audiogenerierung.	arXiv	Audio
Stabiler Audio	Schnell-zeitgesteuerte latente Audiodiffusion.		Audio
Stabiler Audio offen	Stabiles Audio Open 1.0 erzeugt Stereo-Audio-Audio mit 44,1 kHz aus Texteingabeaufforderungen.		Audio
Synkfusion	Synkfusion: Multimodal Beginnsynchronisierte Video-zu-Audio-Foley-Synthese.	Arxiv	Audio
TANGO	Text-to-Audio-Erzeugung unter Verwendung von Anweisungen abgestimmtes LLM und latentes Diffusionsmodell.		Audio
Vta-ldm	Video-to-Audio-Generation mit versteckter Ausrichtung.	Arxiv	Audio
Wavjourney	Kompositionelle Audioerstellung mit großen Sprachmodellen.	Arxiv	Audio

^ Zurück zum Inhalt ^

Musik

Quelle	Beschreibung	Papier	Typ
AIVA	Die künstliche Intelligenz, die emotionale Soundtrack -Musik komponiert.		Musik
Ampermusik	Benutzerdefinierte Musikgenerierungstechnologie von Amper.		Musik
Boomy	Generative Musik erstellen. Teilen Sie es mit der Welt.		Musik
Chatmusiker	Förderung der intrinsischen musikalischen Fähigkeiten in LLM.		Musik
Chord2Melody	Automatische Musikgenerierung KI.		Musik
Diff-BGM	Ein Diffusionsmodell für die Generierung von Video -Hintergrundmusik.	Arxiv	Musik
Fluxmusic	FluxMusic: Text-zu-Music-Erzeugung mit behobenem Flusstransformator.	Arxiv	Musik
Gptableton	Entwurfskript zur Verarbeitung von GPT-Antwort und das Senden der MIDI-Notizen in die Ableton-Clips mit Abletonosc und Python-OSC.		Musik
Heymusic.ai	AI -Musikgenerator		Musik
Bild zu Musik	AI Image to Music Generator ist ein Tool, das künstliche Intelligenz verwendet, um Bilder in Musik umzuwandeln.		Musik
Jen-1	Textgesteuerte universelle Musikgenerierung mit omnidirektionalen Diffusionsmodellen.		Musik
Jukebox	Ein generatives Modell für Musik.	Arxiv	Musik
Magenta	Magenta ist ein Forschungsprojekt, das die Rolle des maschinellen Lernens im Prozess der Erstellung von Kunst und Musik untersucht.		Musik
Melodie	Effiziente Generation der neuronalen Musik		Musik
Mubert	AI generative Musik.		Musik
Musenet	Ein tiefes neuronales Netzwerk, das 4-minütige musikalische Kompositionen mit 10 verschiedenen Instrumenten erzeugen und Stile von Land bis Mozart bis zu den Beatles kombinieren kann.		Musik
Musikgen	Einfache und kontrollierbare Musikgenerierung.	arXiv	Musik
MusicLdm	Verbesserung der Neuheit in der Text-zu-Musik-Generation mit Beat-Synchronous-Mischungsstrategien.	Arxiv	Musik
MusicLM	Musik aus Text erzeugen.	Arxiv	Musik
Riffusion App	Riffusion ist eine App für die Echtzeit-Musikgenerierung mit stabiler Diffusion.		Musik
Sonauto	Sonauto ist ein AI -Musikredakteur, der Eingabeaufforderungen, Texte oder Melodien in vollständige Songs in jedem Stil verwandelt.		Musik
Soundraw	AI -Musikgenerator für Schöpfer.		Musik
Klang KI	Generative KI-Tools einschließlich Text-zu-Klingel-Probenpackungen.		Musik

^ Zurück zum Inhalt ^

Stimme singen

Quelle	Beschreibung	Papier	Typ
Diffsinger	Singen der Sprachsynthese über einen flachen Diffusionsmechanismus.	arXiv	Stimme singen
Abrufbasiertes Voice-Conversion-Webui	Ein benutzerfreundliches SVC-Framework basierend auf Vits.		Stimme singen
so-vits-svc	Softvc Vits singen Sprachumwandlung.		Stimme singen
Vi-svs	Verwenden Sie Vits und OpenCPOP, um die Synthese der Gesangssprache zu entwickeln. Anders als Visinger.		Stimme singen

^ Zurück zum Inhalt ^

Rede

Quelle	Beschreibung	Papier	Game Engine	Typ
Applio	Ultimate Voice Cloning Tool, sorgfältig optimiert für unvergleichliche Leistung, Modularität und benutzerfreundliche Erfahrung.			Rede
Audyo	Text in. Audio aus.			Rede
Bellen	Textgeprägtes generatives Audiomodell.			Rede
Bert-vits2	Vits2 Backbone mit mehrsprachiger Bert.			Rede
Chattts	Chattts ist ein generatives Sprachmodell für den täglichen Dialog.			Rede
Klapsspezifikum	Lernprosodie aus dem Textkontext mit kontrastiver Sprache-Audio vor der Ausbildung.	Arxiv		Rede
Cosyvoice	Mehrsprachiges Modell mit großer Sprachgenerierung, die Inferenz-, Schulungs- und Bereitstellungsfähigkeit mit Vollstapel bietet.			Rede
Dex-TTS	Diffusionsbasierte ausdrucksstarke Text-zu-Sprache mit Stilmodellierung in der Zeitvariabilität.	Arxiv		Rede
Emotivoice	Ein Multi-Voice und ein prompt kontrollierter TTS-Motor.			Rede
Fliki	Verwandeln Sie Text in Videos mit KI -Stimmen.			Rede
GLM-4-VOICE	GLM-4-VOICE ist ein von Zhipu AI gestarteter End-to-End-Sprachmodell. GLM-4-Voice kann chinesische und englische Sprache direkt verstehen und generieren, Echtzeit-Sprachgespräche führen und Attribute wie Emotionen, Intonation, Sprachrate und Dialekt basierend auf Benutzeranweisungen ändern.			Rede
Glühen-TTS	Ein generativer Fluss für Text-zu-Sprache über monotonische Ausrichtungssuche.	Arxiv		Rede
GPT-SoVits	Ein leistungsstarkes WEBE-SHOT-Sprachumwandlungen und Text-to-Speech-Webui.			Rede
Lovo	Lovo ist der Go-to-AI-Sprachgenerator und Text-zu-Sprach-Plattform für Tausende von Schöpfer.			Rede
Mahatt	Ein Open-Source-Modell mit großer Sprachgenerierung.			Rede
Matcha-tts	Eine schnelle TTS -Architektur mit bedingter Flussanpassung.	Arxiv		Rede
Meloten	Hochwertige multi-linguale Text-zu-Sprache-Bibliothek von myshell.ai. Unterstützt Englisch, Spanisch, Französisch, Chinesisch, Japanisch und Koreanisch.			Rede
Metavoice-1b	KI für Sprachintelligenz auf menschlicher Ebene.			Rede
Narakeet	Erstellen Sie einfach Voiceovers mit realistischem Text zur Sprache.			Rede
Mini-omni	Mini-OMNI: Sprachmodelle können hören, sprechen, während sie im Streaming denken. Mini-omni ist ein Open-Source-Multimodel-Großsprachmodell, das beim Nachdenken hören und sprechen kann. Mit Echtzeit-End-to-End-Spracheingabe- und Streaming-Konversationsfunktionen der Audioausgabe.	Arxiv		Rede
One-Shot-Voice-Kloning	One Shot Voice Cloning Basis auf Unet-TTs.			Rede
OpenVoice	Sofortiges Stimme klonen von Myshell.			Rede
Überlauf	Durch bessere TTs fließen auf neuronale Wandler.			Rede
Realtimetts	Realtimetts ist eine hochmoderne Text-to-Speech-Bibliothek (TTS) für Echtzeitanwendungen.			Rede
Sensevoice	Sensevoice ist ein Sprachgrundmodell mit mehreren Sprachverständnisfunktionen, einschließlich der automatischen Spracherkennung (ASR), der Identifizierung von Spoken Language (LID), der Erkennung von Sprachemotionen (SER) und der Erkennung von Audioereignissen (AED).			Rede
Sprache	Ermächtigung großer Sprachmodelle mit intrinsischen Kreuzungsfähigkeiten mit Kreuzmodal.	Arxiv		Rede
Sprach-zu-Text-GPT3-Unität	Dies ist das Repo, das ich Whisper und Chatgpt -API von Openai in Einheit benutze.		Einheit	Rede
Stabile Sprache	Text-to-Speech-Modell der Stabilität AI.			Rede
Stabletts	TTS-Modell der nächsten Generation unter Verwendung von Flow-Matching und DIT, inspiriert von stabiler Diffusion 3.			Rede
Styletts 2	In Richtung Text-to-Sprache auf menschlicher Ebene durch Stildiffusion und kontroverses Training mit großen Sprachmodellen.	Arxiv		Rede
tortoise.cpp	Tortoise.cpp: GGML-Umsetzung von Schildkröten-TTs.			Rede
Schildkröte	Ein Multi-Voice-TTS-System mit Schwerpunkt auf Qualität.			Rede
TTS -Generation Webui	TTS Generation Webui (Bark, Musicgen, Tortoise, RVC, Vocos, Demucs).			Rede
Vall-e	Neuronale Codec-Sprachmodelle sind Null-Shot-Text zu Sprachsynthesizern.	Arxiv		Rede
Vall-e x	Sprechen Sie Fremdsprachen mit Ihrer eigenen Stimme: bringliche neuronale Codec-Sprachmodellierung	Arxiv		Rede
Vocode	Code ist eine Open-Source-Bibliothek zum Erstellen von Sprach-basierte LLM-Anwendungen.			Rede
Voicebox	Textgesteuerte mehrsprachige universelle Sprachgenerierung im Maßstab.	Arxiv		Rede
Voicecraft	Sprachbearbeitung von Zero-Shot und Text-zu-Sprache in freier Wildbahn.			Rede
Flüstern	Whisper ist ein allgemeines Spracherkennungsmodell.			Rede
Flüstern	Ein Open-Source-Text-zu-Sprach-System, das von Inverting Whisper erstellt wurde.			Rede
Xe-Speech	Gemeinsamer Trainingsrahmen für nicht-autoregressive, übersprachige emotionale Text-zu-Sprache-Konvertierung.			Rede
XTTs	XTTS ist eine Bibliothek für erweiterte Text-zu-Sprache-Generation.			Rede
Yourtts	In Richtung Null-Shot-Multi-Sprecher-TTS und Null-Shot-Sprachumwandlung für alle.	Arxiv		Rede
Zmm-tts	Null-Shot-mehrsprachige und Multispeaker-Sprachsynthese, die auf selbstversorgungen diskreten Sprachdarstellungen konditioniert sind.	Arxiv		Rede