ai game devtools
1.0.0
Hier behalten wir den Überblick über die neuesten KI-Spieleentwicklungstools, einschließlich LLM, Agent, Code, Writer, Bild, Textur, Shader, 3D-Modell, Animation, Video, Audio, Musik, Gesangsstimme und Analyse.
Quelle | Beschreibung | Papier | Spiel-Engine | Typ |
---|---|---|---|---|
AgentGPT | ? Stellen Sie autonome KI-Agenten in Ihrem Browser zusammen, konfigurieren Sie sie und stellen Sie sie bereit. | Werkzeug | ||
AICommand | ChatGPT-Integration mit Unity Editor. | Einheit | Werkzeug | |
AIOS | Betriebssystem des LLM-Agenten. | Werkzeug | ||
KI-Wissenschaftler | Der KI-Wissenschaftler: Auf dem Weg zu einer vollautomatischen, ergebnisoffenen wissenschaftlichen Entdeckung. | arXiv | Werkzeug | |
Assistent-CLI | Ein komfortables CLI-Tool zur Nutzung des ChatGPT-Dienstes | Werkzeug | ||
Auto-GPT | Ein experimenteller Open-Source-Versuch, GPT-4 vollständig autonom zu machen. | Werkzeug | ||
BabyAGI | Dieses Python-Skript ist ein Beispiel für ein KI-gestütztes Aufgabenverwaltungssystem. | Werkzeug | ||
?? BabyAGI-Benutzeroberfläche | Die Benutzeroberfläche von BabyAGI wurde entwickelt, um die Ausführung und Entwicklung von Babyagi in einer Web-App wie einem ChatGPT zu vereinfachen. | Werkzeug | ||
Baichuan-7B | Ein groß angelegtes 7B-Pretraining-Sprachmodell, das von Baichuan entwickelt wurde. | Werkzeug | ||
Baichuan-13B | Ein 13B großes Sprachmodell, das von Baichuan Intelligent Technology entwickelt wurde. | Werkzeug | ||
Baichuan 2 | Eine Reihe großer Sprachmodelle, die von Baichuan Intelligent Technology entwickelt wurden. | Werkzeug | ||
Bisheng | Bisheng ist eine offene LLM-Entwicklungsplattform für KI-Anwendungen der nächsten Generation. | Werkzeug | ||
Charakter-LLM | Ein trainierbarer Agent für Rollenspiele. | arXiv | Werkzeug | |
ChatDev | Kommunikative Agenten für die Softwareentwicklung. | arXiv | Werkzeug | |
ChatGPT-API-Einheit | Bindet die ChatGPT-Chat-Abschluss-API an reines C# auf Unity. | Einheit | Werkzeug | |
ChatGPTForUnity | ChatGPT für Einheit. | Einheit | Werkzeug | |
ChatRWKV | ChatRWKV ist wie ChatGPT, basiert jedoch auf dem RWKV-Sprachmodell (100 % RNN) und ist Open Source. | Werkzeug | ||
ChatYuan | Großes Sprachmodell für den Dialog in Chinesisch und Englisch. | Werkzeug | ||
Chinesisch-LLaMA-Alpaka-3 | (Chinese Llama-3 LLMs) entwickelt aus Meta Llama 3. | Werkzeug | ||
Chrome-GPT | Ein AutoGPT-Agent, der Chrome auf Ihrem Desktop steuert. | Werkzeug | ||
CogVLM | CogVLM, ein leistungsstarkes Open-Source-Grundlagenmodell für visuelle Sprache. | arXiv | Werkzeug | |
CoreNet | Eine Bibliothek zum Training tiefer neuronaler Netze. | Werkzeug | ||
Kosmos | Cosmos ist eine Weltmodell-Entwicklungsplattform, die aus Weltgrundmodellen, Tokenisierern und einer Videoverarbeitungspipeline besteht, um die Entwicklung der physischen KI in Robotik- und AV-Laboren zu beschleunigen. | LLM | ||
DBRX | DBRX ist ein großes Sprachmodell, das von Databricks trainiert wird. | Werkzeug | ||
DCLM | DataComp für Sprachmodelle. | arXiv | Werkzeug | |
DeepSeek-V3 | DeepSeek-V3 ist ein starkes Mixture-of-Experts (MoE)-Sprachmodell mit insgesamt 671B Parametern, wobei 37B für jedes Token aktiviert sind. | arXiv | LLM | |
DemoGPT | Automatischer Gen-AI-App-Generator mit der Kraft von Lama 2 | Werkzeug | ||
Design2Code | Automatisierung des Front-End-Engineerings | Werkzeug | ||
Devika | Devika ist ein Agentic AI Software Engineer. | Werkzeug | ||
Devon | Ein Open-Source-Paarprogrammierer. | Werkzeug | ||
Dora | Erstellen Sie leistungsstarke Websites, Eingabeaufforderung für Eingabeaufforderung. | Werkzeug | ||
Flowise | Ziehen Sie die Benutzeroberfläche per Drag & Drop, um Ihren individuellen LLM-Ablauf mit LangchainJS zu erstellen. | Werkzeug | ||
Zwillinge | Gemini ist von Grund auf auf Multimodalität ausgelegt – nahtlose Argumentation über Text, Bilder, Video, Audio und Code hinweg. | Werkzeug | ||
Gemma | Gemma ist eine Familie leichter, hochmoderner offener Modelle, die auf der Grundlage von Forschung und Technologie zur Erstellung von Google Gemini-Modellen erstellt wurden. | Werkzeug | ||
gemma.cpp | Leichte, eigenständige C++-Inferenz-Engine für die Gemma-Modelle von Google. | Werkzeug | ||
GLM-4 | GLM-4-9B ist die Open-Source-Version der neuesten Generation vorab trainierter Modelle der von Zhipu AI eingeführten GLM-4-Serie. | Werkzeug | ||
GPT4All | Ein Chatbot, der auf einer riesigen Sammlung sauberer Assistentendaten trainiert wurde, einschließlich Code, Geschichten und Dialogen. | Werkzeug | ||
GPT-4o | GPT-4o („o“ für „omni“) ist ein Schritt hin zu einer viel natürlicheren Mensch-Computer-Interaktion – es akzeptiert jede Kombination aus Text, Audio, Bild und Video als Eingabe und generiert jede Kombination aus Text, Audio und Bild Ausgänge. | Werkzeug | ||
GPTScript | Entwickeln Sie LLM-Apps in natürlicher Sprache. | Werkzeug | ||
Grok-1 | Die Gewichte und die Architektur unseres Mixture-of-Experts-Modells mit 314 Milliarden Parametern, Grok-1. | Werkzeug | ||
HuggingChat | Die besten KI-Chat-Modelle der Community für alle verfügbar machen. | Werkzeug | ||
Hugging Face API Unity-Integration | Dieses Unity-Paket bietet eine benutzerfreundliche Integration für die Hugging Face Inference API, die es Entwicklern ermöglicht, in ihren Unity-Projekten auf Hugging Face AI-Modelle zuzugreifen und diese zu verwenden. | Einheit | Werkzeug | |
ImageBind | ImageBind Ein Einbettungsraum, um sie alle zu binden. | arXiv | Werkzeug | |
Index-1,9B | Ein leichtes mehrsprachiges SOTA-LLM. | Werkzeug | ||
InteractML-Unity | InteractML, ein interaktives visuelles Scripting-Framework für maschinelles Lernen für Unity3D. | Einheit | Werkzeug | |
InteractML-Unreal Engine | Maschinelles Lernen in die Unreal Engine integrieren. | Unwirkliche Engine | Werkzeug | |
InternLM | InternLM hat ein 7-Milliarden-Parameter-Basismodell, ein auf praktische Szenarien zugeschnittenes Chat-Modell und das Trainingssystem als Open-Source-Lösung bereitgestellt. | arXiv | Werkzeug | |
InternLM-XComposer | InternLM-XComposer2 ist ein bahnbrechendes Vision-Language-Large-Modell (VLLM), das sich durch die Text-Bild-Komposition und das Verständnis in freier Form auszeichnet. | arXiv | Werkzeug | |
Jan | Bringen Sie KI auf Ihren Desktop. | Werkzeug | ||
Lamini | Lamini ermöglicht es jedem Ingenieurteam, durch RLHF und die Feinabstimmung seiner eigenen Daten die Leistung von Allzweck-LLMs zu übertreffen. | Werkzeug | ||
LaMini-LM | LaMini-LM ist eine Sammlung kleiner, effizienter Sprachmodelle, die aus ChatGPT destilliert und auf einem großen Datensatz von 2,58 Millionen Anweisungen trainiert wurden. | Werkzeug | ||
LangChain | LangChain ist ein Framework zur Entwicklung von Anwendungen, die auf Sprachmodellen basieren. | Werkzeug | ||
LangFlow | ⛓️ LangFlow ist eine Benutzeroberfläche für LangChain, die mit React-Flow entwickelt wurde, um eine mühelose Möglichkeit zum Experimentieren und Prototypieren von Abläufen zu bieten. | Werkzeug | ||
LaVague | Automatisieren Sie die Automatisierung mit dem Large Action Model Framework. | Werkzeug | ||
Lemur | Offene Foundation-Modelle für Sprachagenten. | Werkzeug | ||
Lepton-KI | Ein Pythonic-Framework zur Vereinfachung der Erstellung von KI-Diensten. | Werkzeug | ||
Lit-LLaMA | Implementierung des LLaMA-Sprachmodells basierend auf nanoGPT. Unterstützt Flash-Aufmerksamkeit, Int8- und GPTQ-4-Bit-Quantisierung, LoRA- und LLaMA-Adapter-Feinabstimmung, Vortraining. | Werkzeug | ||
llama2-webui | Führen Sie Llama 2 lokal mit der Gradio-Benutzeroberfläche auf der GPU oder CPU von überall aus (Linux/Windows/Mac). | Werkzeug | ||
Lama 3 | Die offizielle Meta Llama 3 GitHub-Seite. | Werkzeug | ||
Lama 3.1 | Llama ist ein zugängliches, offenes Large Language Model (LLM), das für Entwickler, Forscher und Unternehmen entwickelt wurde, um ihre generativen KI-Ideen zu entwickeln, zu experimentieren und verantwortungsvoll zu skalieren. | Werkzeug | ||
LLaSM | Großes Sprach- und Sprachmodell. | Werkzeug | ||
LLM-Antwortmaschine | Erstellen Sie eine von Ratlosigkeit inspirierte Antwort-Engine mit Next.js, Groq, Mixtral, Langchain, OpenAI, Brave und Serper. | Werkzeug | ||
llm.c | LLM-Schulung in einfachem, rohem C/CUDA. | Werkzeug | ||
LLMUnity | Erstellen Sie Charaktere in Unity mit LLMs! | Einheit | Werkzeug | |
LLocalSearch | LLocalSearch ist eine vollständig lokal laufende Suchmaschine, die LLM-Agenten verwendet. | Werkzeug | ||
LogicGamesSolver | Ein Python-Tool zum Lösen von Logikspielen mit KI, Deep Learning und Computer Vision. | Werkzeug | ||
LongWriter | LongWriter: Ermöglicht die Generierung von mehr als 10.000 Wörtern aus LLMs mit langem Kontext. | arXiv | Werkzeug | |
Großes Weltmodell (LWM) | Das Large World Model (LWM) ist ein universelles multimodales autoregressives Modell mit großem Kontext. | arXiv | Werkzeug | |
Lumina-T2X | Lumina-T2X ist ein einheitliches Framework für die Text-to-Any-Modality-Generierung. | arXiv | Werkzeug | |
MetaGPT | Das Multi-Agent-Framework | Werkzeug | ||
MiniCPM-2B | Ein endseitiges LLM übertrifft Llama2-13B. | Werkzeug | ||
MiniGPT-4 | Verbesserung des Vision-Sprachverständnisses mit fortschrittlichen großen Sprachmodellen. | arXiv | Werkzeug | |
MiniGPT-5 | Interleaved Vision-and-Language Generation über generative Vokens. | arXiv | Werkzeug | |
Mixtral 8x7B | Eine hochwertige Sparse-Mischung aus Experten. | arXiv | Werkzeug | |
Mistral 7B | Das bisher beste 7B-Modell, Apache 2.0. | Werkzeug | ||
Mistral Groß | Mistral Large ist ein neues, hochmodernes Textgenerierungsmodell. Es erreicht erstklassige Denkfähigkeiten. | Werkzeug | ||
MLC LLM | Ermöglichen Sie jedem, KI-Modelle nativ auf allen Geräten zu entwickeln, zu optimieren und bereitzustellen. | Werkzeug | ||
MobiLlama | Auf dem Weg zu präzisem und leichtem, vollständig transparentem GPT. | arXiv | Werkzeug | |
MoE-LLaVA | Expertenmix für große Vision-Sprach-Modelle. | arXiv | Werkzeug | |
Moshi | Moshi ist eine experimentelle Konversations-KI. | Werkzeug | ||
Moshi | Moshi: ein Sprachtext-Grundlagenmodell für Echtzeitdialoge. | Werkzeug | ||
MOOS | Ein Open-Source-Tool-erweitertes Konversationssprachmodell der Fudan-Universität. | Werkzeug | ||
mPLUG-Eule? | Modularisierung ermöglicht großen Sprachmodellen Multimodalität. | arXiv | Werkzeug | |
Nemotron-4 | Ein großes mehrsprachiges Sprachmodell mit 15 Milliarden Parametern, das auf 8 Billionen Text-Tokens trainiert wurde. | arXiv | Werkzeug | |
NExT-GPT | Any-to-Any-multimodales großes Sprachmodell. | Werkzeug | ||
OLMo | Offenes Sprachmodell | arXiv | Werkzeug | |
OmniLMM | Große multimodale Modelle für starke Leistung und effiziente Bereitstellung. | Werkzeug | ||
OneLLM | Ein Framework, um alle Modalitäten mit der Sprache in Einklang zu bringen. | arXiv | Werkzeug | |
Offener Assistent | OpenAssistant ist ein chatbasierter Assistent, der Aufgaben versteht, mit Drittsystemen interagieren kann und dazu dynamisch Informationen abruft. | Werkzeug | ||
OpenDevin | Ein autonomer KI-Softwareentwickler. | Werkzeug | ||
Orion-14B | Orion-14B ist eine Modellfamilie, die ein 14B-Fundament-LLM und eine Reihe von Modellen umfasst. | arXiv | Werkzeug | |
Panda | Übersee-Chinesisches Open-Source-Großsprachenmodell, basierend auf Llama-7B, -13B, -33B, -65B für kontinuierliches Vortraining im chinesischen Bereich. | Werkzeug | ||
Perplexica | Eine KI-gestützte Suchmaschine. | Werkzeug | ||
Pi | KI-Chatbot für persönliche Assistenz und emotionale Unterstützung. | Werkzeug | ||
Qwen1.5 | Qwen1.5 ist die verbesserte Version von Qwen. | Werkzeug | ||
Qwen2 | Qwen2 ist die große Sprachmodellreihe, die vom Qwen-Team Alibaba Cloud entwickelt wurde. | Werkzeug | ||
Qwen-7B | Das offizielle Repo des Qwen-7B-Chats (通义千问-7B) und des vorab trainierten großen Sprachmodells, vorgeschlagen von Alibaba Cloud. | Werkzeug | ||
RepoAgent | RepoAgent ist ein Open-Source-Projekt, das von Large Language Models (LLMs) vorangetrieben wird und darauf abzielt, eine intelligente Möglichkeit zur Dokumentation von Projekten bereitzustellen. | arXiv | Werkzeug | |
Sanity AI Engine | Sanity AI Engine für das Unity Game Development Tool. | Einheit | Werkzeug | |
SucheGPT | ? ChatGPT mit dem Internet verbinden | Werkzeug | ||
TeilenGPT4V | Verbesserung großer multimodaler Modelle mit besseren Beschriftungen. | Werkzeug | ||
Himmelswerk | Die Modelle der Skywork-Serie sind auf 3,2 TB hochwertiger mehrsprachiger (hauptsächlich Chinesisch und Englisch) und Codedaten vorab trainiert. | Werkzeug | ||
StabilLM | Stabilität von KI-Sprachmodellen. | arXiv | Werkzeug | |
Stanford-Alpaka | Ein Anweisungsfolgendes LLaMA-Modell. | Werkzeug | ||
Web-Benutzeroberfläche zur Textgenerierung | Eine erstklassige Web-Benutzeroberfläche zum Ausführen großer Sprachmodelle wie LLaMA, llama.cpp, GPT-J, OPT und GALACTICA. | Werkzeug | ||
TinyChatEngine | LLM-Inferenzbibliothek auf dem Gerät. | Werkzeug | ||
ToolBench | Eine offene Plattform zum Trainieren, Bereitstellen und Bewerten großer Sprachmodelle für das Tool-Lernen. | Werkzeug | ||
Unity ChatGPT | Unity ChatGPT-Experimente. | Einheit | Werkzeug | |
Unity OpenAI-API-Integration | Integrieren Sie das OpenAI-GPT-3-Sprachmodell und die ChatGPT-API in ein Unity-Projekt. | Einheit | Werkzeug | |
Unreal Engine 5 Lama LoRA | Ein Proof-of-Concept-Projekt, das das Potenzial für den Einsatz kleiner, lokal trainierbarer LLMs zur Entwicklung von Dokumentationstools der nächsten Generation aufzeigt. | Unwirkliche Engine | Werkzeug | |
UnrealGPT | Eine Sammlung von Unreal Engine 5 Editor Utility-Widgets, die auf GPT3/4 basieren. | Unwirkliche Engine | Werkzeug | |
Video-LLaVA | Erlernen der einheitlichen visuellen Darstellung durch Ausrichtung vor der Projektion. | arXiv | Werkzeug | |
WebGPT | Führen Sie das GPT-Modell im Browser mit WebGPU aus. | Werkzeug | ||
Web3-GPT | Setzen Sie intelligente Verträge mit KI ein | Werkzeug | ||
WordGPT | ? Bringen Sie die Leistungsfähigkeit von ChatGPT in Microsoft Word ein | Werkzeug | ||
XAgent | Ein autonomer LLM-Agent zur Lösung komplexer Aufgaben. | Werkzeug | ||
Yi | Eine Reihe großer Sprachmodelle, die von Entwicklern von Grund auf trainiert wurden. | Werkzeug | ||
01 Projekt | Der Open-Source-Sprachmodellcomputer. | Werkzeug |
^ Zurück zum Inhalt ^
Quelle | Beschreibung | Papier | Spiel-Engine | Typ |
---|---|---|---|---|
AgentBench | Ein umfassender Benchmark zur Bewertung von LLMs als Agenten. | arXiv | Agent | |
Agentengruppen-Chat | Ein interaktives Gruppenchat-Simulator zur besseren Ermittlung kollektiven Verhaltens. | arXiv | Agent | |
Agent K | Eine autoagentische AGI, die sich selbst entwickelt und modular ist. | Agent | ||
AgentScope | Beginnen Sie mit der einfacheren Erstellung von LLM-gestützten Multi-Agent-Anwendungen. | arXiv | Agent | |
AgentSims | Eine Open-Source-Sandbox für die Evaluierung großer Sprachmodelle. | Agent | ||
KI-Stadt | AI Town ist eine virtuelle Stadt, in der KI-Charaktere leben, chatten und Kontakte knüpfen. | Agent | ||
anime.gf | Lokale und Open-Source-Alternative zu CharacterAI. | Spiel | ||
Astrokade | Erstellen Sie Spiele mit KI | Spiel | ||
Atomare Agenten | Das Atomic Agents-Framework ist modular, erweiterbar und einfach zu verwenden. | Agent | ||
AutoAgents | Ein Framework für die automatische Agentengenerierung. | Agent | ||
AutoGen | Ermöglichen Sie große Sprachmodellanwendungen der nächsten Generation. | arXiv | Agent | |
Verhalten | Behaviac ist ein Rahmenwerk für die KI-Entwicklung von Spielen. | Rahmen | ||
Biome | Biomes ist ein Open-Source-Sandbox-MMORPG, das für das Web entwickelt wurde und Webtechnologien wie Next.js, Typescript, React und WebAssembly verwendet. | Spiel | ||
Gedankenpuffer | Gedankenerweitertes Denken mit großen Sprachmodellen. | arXiv | Agent | |
Byzer-Agent | Einfaches, schnelles und verteiltes Agenten-Framework für alle. | Agent | ||
Katzenstadt | AC(h)atGPT-gestützte Simulation mit Katzen. | Agent | ||
Katzenstadt | AC(h)atGPT-gestützte Simulation mit Katzen. | Agent | ||
CharakterGLM | Anpassen chinesischer Konversations-KI-Zeichen mit großen Sprachmodellen. | arXiv | Agent | |
ChatDev | Kommunikative Agenten für die Softwareentwicklung. | arXiv | Agent | |
CogAgent | CogAgent ist ein visuelles Open-Source-Sprachmodell, das auf CogVLM basiert. | arXiv | Agent | |
Wiege | Auf dem Weg zur allgemeinen Computersteuerung. | Agent | ||
CrewAI | Framework zur Orchestrierung rollenspielender, autonomer KI-Agenten. | Agent | ||
Verändern | Dify ist eine Open-Source-Plattform zum Erstellen von LLM-Apps. | Agent | ||
Digitales Lebensprojekt | Autonome 3D-Charaktere mit sozialer Intelligenz. | arXiv | Agent | |
alles-ai | Ihr kompetenter, KI-gestützter und lokaler Chatbot-Assistent? | Agent | ||
Stoff | Fabric ist ein Open-Source-Framework zur Verbesserung des Menschen mithilfe von KI. | Agent | ||
FastGPT | FastGPT ist eine wissensbasierte Plattform, die auf dem LLM basiert. | Agent | ||
fastRAG | Effizientes Retrieval-Augmentation- und Generation-Framework. | Agent | ||
GameAISDK | Bildbasiertes KI-Automatisierungsframework für Spiele. | Rahmen | ||
GameNGen | Diffusionsmodelle sind Echtzeit-Game-Engines. | arXiv | Spiel | |
GameGen-O | GameGen-O: Open-World-Videospielgeneration. | Spiel | ||
GenAgent | GenAgent: Erstellen Sie kollaborative KI-Systeme mit automatisierter Workflow-Generierung – Fallstudien zu ComfyUI. | arXiv | Agent | |
Generative Agenten | Interaktive Simulakren menschlichen Verhaltens. | arXiv | Agent | |
Genesis | Genesis: Eine generative und universelle Physik-Engine für die Robotik und darüber hinaus. | Spiel | ||
Genie | Generative interaktive Umgebungen. | Spiel | ||
gigax | Laufzeit, LLM-basierte NPCs. | Spiel | ||
HippoRAG | Neurobiologisch inspiriertes Langzeitgedächtnis für große Sprachmodelle. | arXiv | Agent | |
Interaktive LLM-basierte NPCs | Interactive LLM Powered NPCs ist ein Open-Source-Projekt, das Ihre Interaktion mit Nicht-Spieler-Charakteren (NPCs) in jedem Spiel völlig verändert! | Spiel | ||
IoA | Ein Open-Source-Framework für kollaborative KI-Agenten, das es verschiedenen, verteilten Agenten ermöglicht, sich zusammenzuschließen und komplexe Aufgaben durch internetähnliche Konnektivität zu bewältigen. | Agent | ||
KwaiAgents | Ein verallgemeinertes informationssuchendes Agentensystem mit Large Language Models (LLMs). | arXiv | Agent | |
LangChain | Bringen Sie Ihre LLM-Anwendung vom Prototyp bis zur Produktion. | Agent | ||
Langflow | Langflow ist eine Benutzeroberfläche für LangChain, die mit React-Flow entwickelt wurde, um eine mühelose Möglichkeit zum Experimentieren und Prototypieren von Abläufen zu bieten. | Agent | ||
LangGraph Studio | LangGraph Studio bietet eine neue Möglichkeit zur Entwicklung von LLM-Anwendungen, indem es eine spezielle Agenten-IDE bereitstellt, die die Visualisierung, Interaktion und das Debuggen komplexer Agentenanwendungen ermöglicht. | Agent | ||
LARP | Sprachagenten-Rollenspiel für Open-World-Spiele. | arXiv | Agent | |
LLama-Agentensystem | Agentische Komponenten der Llama Stack APIs. | Agent | ||
LamaIndex | LlamaIndex ist ein Datenframework für Ihre LLM-Anwendung. | Agent | ||
MindSearch | ? Ein LLM-basiertes Multi-Agent-Framework einer Websuchmaschine (wie Perplexity.ai Pro und SearchGPT). | Agent | ||
Wirkstoffmischung (MoA) | Mixture-of-Agents verbessert die Fähigkeiten großer Sprachmodelle. | arXiv | Agent | |
MMRole | MMRole: Ein umfassendes Framework zur Entwicklung und Bewertung multimodaler Rollenspielagenten. | arXiv | Agent | |
Moonlander.ai | Beginnen Sie mit der Entwicklung von 3D-Spielen ohne Programmieraufwand mithilfe generativer KI. | Rahmen | ||
MuG-Diffusion | MuG Diffusion ist eine Charting-KI für Rhythmusspiele, die auf Stable Diffusion (einem der leistungsstärksten AIGC-Modelle) mit einer großen Modifikation zur Einbindung von Audiowellen basiert. | Spiel | ||
Oase | Oasis ist ein interaktives Weltmodell, das von Decart und Etched entwickelt wurde. Basierend auf Diffusionstransformatoren nimmt Oasis Benutzertastatureingaben auf und generiert das Gameplay auf autoregressive Weise. | Spiel | ||
OmAgent | Ein multimodales Agenten-Framework zur Lösung komplexer Aufgaben. | Agent | ||
OpenAgents | Eine offene Plattform für Sprachagenten in freier Wildbahn. | Agent | ||
Opus | Eine KI-App, die Text in ein Videospiel verwandelt. | Spiel | ||
Pipecat | Open-Source-Framework für Sprach- und multimodale Konversations-KI. | Agent | ||
Qwen-Agent | Qwen-Agent ist ein Framework für die Entwicklung von LLM-Anwendungen, das auf der Befehlsfolge, der Werkzeugnutzung, der Planung und den Speicherfunktionen von Qwen basiert. | Agent | ||
Ragas | Ragas ist ein Framework, das Ihnen bei der Bewertung Ihrer RAG-Pipelines (Retrieval Augmented Generation) hilft. | Agent | ||
RPBench-Auto | Eine automatisierte Pipeline zur Bewertung von LLMs für Rollenspiele. | Spiel | ||
SIMA | Ein generalistischer KI-Agent für virtuelle 3D-Umgebungen. | Agent | ||
StoryGames.ai | KI für Träumer macht Spiele. | Spiel | ||
SWE-Agent | Agent-Computerschnittstellen ermöglichen Software-Engineering-Sprachmodelle. | arXiv | Agent | |
TaskGen | Ein aufgabenbasiertes Agenten-Framework, das auf StrictJSON-Ausgaben von LLM-Agenten aufbaut. | Agent | ||
TEN-Agent | TEN Agent ist der weltweit erste multimodale Echtzeitagent, der in die OpenAI Realtime API, RTC, integriert ist und Wetterprüfungen, Websuche, Vision und RAG-Funktionen bietet. | Agent | ||
Übersetzungsagent | Agentische Übersetzung mithilfe des Reflexionsworkflows. | Agent | ||
Twitter Personality ist eine Webanwendung, die Ihren Twitter-Benutzernamen analysiert, um mithilfe des Wordware AI Agent ein personalisiertes Persönlichkeitsprofil zu erstellen. | Agent | |||
Unbegrenzt | Unbounded: Ein generatives, unendliches Spiel zur Simulation des Charakterlebens. | arXiv | Spiel | |
Video2Game | Echtzeit-, interaktive, realistische und browserkompatible Umgebung aus einem einzigen Video. | arXiv | Spiel | |
V-IRL | Virtuelle Intelligenz im wirklichen Leben verankern. | arXiv | Agent | |
WebDesignAgent | Ein Agent, der für Webdesign verwendet wird. | Agent | ||
XAgent | Ein autonomer LLM-Agent zur Lösung komplexer Aufgaben. | Agent |
^ Zurück zum Inhalt ^
Quelle | Beschreibung | Papier | Spiel-Engine | Typ |
---|---|---|---|---|
AI-Code-Übersetzer | Verwenden Sie KI, um Code von einer Sprache in eine andere zu übersetzen. | Code | ||
aiXcoder-7B | aiXcoder-7B Code Großes Sprachmodell. | Code | ||
bloop | bloop ist eine in Rust geschriebene schnelle Codesuchmaschine. | Code | ||
Kapitel | ChatGPT-Code-Interpreter in Jupyter-Notebooks. | Code | ||
CodeGeeX | Ein offenes mehrsprachiges Codegenerierungsmodell. | arXiv | Code | |
CodeGeeX2 | Ein leistungsfähigeres mehrsprachiges Codegenerierungsmodell. | Code | ||
CodeGeeX4 | CodeGeeX4: Offenes mehrsprachiges Codegenerierungsmodell. | Code | ||
CodeGen | CodeGen ist ein Open-Source-Modell zur Programmsynthese. Auf TPU-v4 geschult. Konkurrierend mit OpenAI Codex. | arXiv | Code | |
CodeGen2 | CodeGen2-Modelle für die Programmsynthese. | arXiv | Code | |
Code Lama | Code Llama ist ein großes Sprachmodell für Code, das auf Llama 2 basiert. | Code | ||
CodeTF | One-Stop-Transformer-Bibliothek für hochmodernes Code-LLM. | Code | ||
CodeT5 | Open-Code-LLMs für Code-Verständnis und -Generierung. | Code | ||
Cursor | Schreiben, bearbeiten und chatten Sie über Ihren Code mit GPT-4 in einem neuen Editortyp. | Code | ||
DeepSeek-Codierer | DeepSeek Coder: Lassen Sie den Code sich selbst schreiben. | arXiv | Code | |
OpenAI-Codex | OpenAI Codex ist ein Nachkomme von GPT-3. | Code | ||
PandasAI | Pandas AI ist eine Python-Bibliothek, die generative künstliche Intelligenzfunktionen in Pandas integriert und so Datenrahmen konversationsfähig macht. | Code | ||
RobloxScripterAI | RobloxScripterAI ist ein KI-gestütztes Codegenerierungstool für Roblox. | Roblox | Code | |
Scikit-LLM | Integrieren Sie leistungsstarke Sprachmodelle wie ChatGPT nahtlos in scikit-learn für erweiterte Textanalyseaufgaben. | Code | ||
SoTaNa | Der Open-Source-Softwareentwicklungsassistent. | arXiv | Code | |
Stabiler Code 3B | Codierung am Rande. | Code | ||
StarCoder | ? StarCoder ist ein Sprachmodell (LM), das auf Quellcode und Text in natürlicher Sprache trainiert wird. | arXiv | Code | |
StarCoder 2 | StarCoder2 ist eine Familie von Codegenerierungsmodellen (3B, 7B und 15B), die auf über 600 Programmiersprachen von The Stack v2 und einigen natürlichsprachigen Texten wie Wikipedia, Arxiv und GitHub-Problemen trainiert wurden. | arXiv | Code | |
UnityGen-KI | UnityGen AI ist ein KI-gestütztes Codegenerierungs-Plugin für Unity. | Einheit | Code | |
Leere | Void ist eine Open-Source-Cursor-Alternative. Schreiben Sie Code mit den besten KI-Tools, behalten Sie die volle Kontrolle über Ihre Daten und greifen Sie auf leistungsstarke KI-Funktionen zu. | Code |
^ Zurück zum Inhalt ^
Quelle | Beschreibung | Papier | Spiel-Engine | Typ |
---|---|---|---|---|
KI-Autor | KI schreibt Romane, generiert Fantasy- und Liebes-Webartikel usw. Chinesisches vorab trainiertes generatives Modell. | Schriftsteller | ||
Notebook.ai | Notebook.ai ist eine Reihe von Tools für Autoren, Spieledesigner und Rollenspieler, um großartige Universen zu erschaffen – und alles darin. | Schriftsteller | ||
Roman | WYSIWYG-Editor im Notion-Stil mit KI-gestützter automatischer Vervollständigung. | Schriftsteller | ||
NovelAI | Erstellen Sie mithilfe der KI mühelos einzigartige Geschichten, spannende Erzählungen, verführerische Romanzen oder albern Sie einfach nur herum. | Schriftsteller |
^ Zurück zum Inhalt ^
Quelle | Beschreibung | Papier | Spiel-Engine | Typ |
---|---|---|---|---|
AnyDoor | Zero-Shot-Bildanpassung auf Objektebene. | arXiv | Bild | |
AnyText | Mehrsprachige visuelle Textgenerierung und -bearbeitung. | arXiv | Bild | |
AutoStudio | Erstellen konsistenter Motive bei der interaktiven Bildgenerierung mit mehreren Durchgängen. | arXiv | Bild | |
Blender-ControlNet | ControlNet direkt in Blender verwenden. | Mixer | Bild | |
BriVL | Überbrückung von Vision und Sprachmodell. | arXiv | Bild | |
CatVTON | CatVTON: Verkettung ist alles, was Sie zum virtuellen Anprobieren mit Diffusionsmodellen benötigen. | arXiv | Bild | |
CLIPasso | Eine Methode zum Konvertieren eines Bildes eines Objekts in eine Skizze, die unterschiedliche Abstraktionsebenen ermöglicht. | arXiv | Bild | |
ClipDrop | Erstellen Sie in Sekundenschnelle atemberaubende Bilder. | Bild | ||
ComfyUI | Eine leistungsstarke und modulare stabile Diffusions-GUI mit einer Graph/Knoten-Schnittstelle. | Bild | ||
ConceptLab | Kreative Generierung unter Verwendung früherer Diffusionsbeschränkungen. | arXiv | Bild | |
ControlNet | ControlNet ist eine neuronale Netzwerkstruktur zur Steuerung von Diffusionsmodellen durch Hinzufügen zusätzlicher Bedingungen. | arXiv | Bild | |
CSGO | CSGO: Inhaltsstilkomposition bei der Text-zu-Bild-Generierung. | arXiv | Bild | |
DALL·E 2 | DALL·E 2 ist ein KI-System, das aus einer Beschreibung in natürlicher Sprache realistische Bilder und Kunstwerke erstellen kann. | Bild | ||
Dashtoon Studio | Dashtoon Studio ist eine KI-gestützte Comic-Erstellungsplattform. | Komisch | ||
DeepAI | DeepAI bietet eine Reihe von Tools, die KI nutzen, um Ihre Kreativität zu steigern. | Bild | ||
DeepFloyd IF | IF von DeepFloyd Lab bei StabilityAI. | Bild | ||
Tiefe Alles V2 | Tiefe Alles V2 | arXiv | Bild | |
Tiefenkartenbibliothek und Poser | Tiefenkartenbibliothek zur Verwendung mit der Control Net-Erweiterung für Automatic1111/stable-diffusion-webui. | Bild | ||
Diffusor zur Auswahl | Bereicherung des bildbedingten Inpaintings in Modellen mit latenter Diffusion für virtuelle Try-All. | arXiv | Bild | |
Disco-Verbreitung | Eine frankensteinische Verschmelzung von Notizbüchern, Modellen und Techniken zur Erstellung von KI-Kunst und Animationen. | Bild | ||
DragGAN | Interaktive punktbasierte Manipulation der generativen Bildvielfalt. | arXiv | Bild | |
Zeichne Dinge | KI-gestützte Bilderzeugung in Ihrer Tasche. | Bild | ||
DWPose | Effektive Ganzkörper-Posenschätzung mit zweistufiger Destillation. | arXiv | Bild | |
EasyPhoto | Ihr intelligenter KI-Fotogenerator. | Bild | ||
Fluss | Dieses Repo enthält minimalen Inferenzcode, um Text-zu-Bild und Bild-zu-Bild mit unseren Flux-Transformatoren für latente gleichgerichtete Strömungen auszuführen. | Bild | ||
Folgen Sie Ihrem Klick | Open-Domain-Regionalbildanimation über kurze Eingabeaufforderungen. | arXiv | Bild | |
Fooocus | Konzentrieren Sie sich auf Anregungen und Generierung. | Bild | ||
GIFfusion | Erstellen Sie GIFs und Videos mit Stable Diffusion. | Bild | ||
Grounded-Segment-Anything | Erkennen, segmentieren und generieren Sie automatisch alles mit Bild-, Text- und Audioeingaben. | arXiv | Bild | |
HivisionIDPhotos | HivisionIDPhotos: ein leichtes und effizientes KI-Tool für ID-Fotos. | Bild | ||
Hua | Hua ist ein KI-Bildeditor mit Stable Diffusion (und mehr). | Bild | ||
Hunyuan-DiT | Ein leistungsstarker Diffusionstransformator mit mehreren Auflösungen und feinkörnigem chinesischem Verständnis. | arXiv | Bild | |
IC-Licht | IC-Light ist ein Projekt zur Manipulation der Beleuchtung von Bildern. | Bild | ||
Ideogramm | Wir helfen Menschen, kreativer zu werden. | Bild | ||
Bild | Imagen ist ein KI-System, das aus Eingabetext fotorealistische Bilder erstellt. | Bild | ||
img2img-turbo | Bild-zu-Bild in einem Schritt mit SD-Turbo. | Bild | ||
Img2Prompt | Erhalten Sie Anregungen von durch stabile Diffusion erzeugten Bildern. | Bild | ||
Unendlichkeit | Infinity: Skalierung der bitweisen autoregressiven Modellierung für die hochauflösende Bildsynthese. | arXiv | Bild | |
InstantID | Identitätserhaltende Zero-Shot-Generierung in Sekundenschnelle. | arXiv | Bild | |
InternLM-XComposer2 | InternLM-XComposer2 ist ein bahnbrechendes Vision-Language-Large-Modell (VLLM), das sich durch die Text-Bild-Komposition und das Verständnis in freier Form auszeichnet. | arXiv | Bild | |
KOALA | Selbstaufmerksamkeit ist wichtig bei der Wissensdestillation latenter Diffusionsmodelle für eine gedächtniseffiziente und schnelle Bildsynthese. | Bild | ||
Kolors | Kolors: Effektives Training des Diffusionsmodells für die fotorealistische Text-zu-Bild-Synthese. | Bild | ||
KREA | Generieren Sie Bilder und Videos mit einem entzückenden KI-gestützten Designtool. | Bild | ||
LaVi-Brücke | Überbrückung verschiedener Sprachmodelle und generativer Visionsmodelle für die Text-zu-Bild-Generierung. | arXiv | Bild | |
LayerDiffusion | Transparente Bildschichtdiffusion mithilfe latenter Transparenz. | arXiv | Bild | |
Lexika | Eine stabile Diffusion fordert die Suchmaschine auf. | Bild | ||
LamaGen | Autoregressives Modell schlägt Diffusion: Lama für skalierbare Bilderzeugung. | arXiv | Bild | |
Lumina-mGPT | Lumina-mGPT: Beleuchten Sie die flexible fotorealistische Text-zu-Bild-Generierung mit multimodalem generativem Vortraining. | arXiv | Bild | |
MetaShoot | MetaShoot ist ein digitaler Zwilling eines Fotostudios, der als Plugin für die Unreal Engine entwickelt wurde und jedem Entwickler die Möglichkeit gibt, auf einfachste und schnellste Weise äußerst realistische Renderings zu erstellen. | Unwirkliche Engine | Bild | |
Mitten auf der Reise | Midjourney ist ein unabhängiges Forschungslabor, das neue Denkmedien erforscht und die Vorstellungskraft der menschlichen Spezies erweitert. | Bild | ||
MIGC | MIGC: Multi-Instance Generation Controller für die Text-zu-Bild-Synthese. | arXiv | Bild | |
MimicBrush | Zero-Shot-Bildbearbeitung mit Referenzimitation. | arXiv | Bild | |
OmniGen | OmniGen: Einheitliche Bildgenerierung. | arXiv | Bild | |
Omost | Omost ist ein Projekt zur Umwandlung der Codierungsfunktionen von LLM in die Fähigkeit zur Bilderzeugung (oder genauer gesagt zur Bildkomposition). | Bild | ||
Openpose-Editor | Openpose-Editor für die Stable-Diffusion-Webui von AUTOMATIC1111. | Bild | ||
Outfit jeden | Hochwertige virtuelle Anprobe für jede Kleidung und jede Person. | Bild | ||
FarbenRückgängig machen | PaintsUndo: Ein Basismodell des Zeichenverhaltens in digitalen Gemälden. | Bild | ||
PhotoMaker | Anpassen realistischer menschlicher Fotos durch gestapelte ID-Einbettung. | arXiv | Bild | |
Fotoraum | AI-Hintergrundgenerator. | Bild | ||
Plask | KI-Bilderzeugung in der Cloud. | Bild | ||
Prompt.Art | Der Generatoren-Hub. | Bild | ||
PuLID | Pure- und Lightning-ID-Anpassung über Kontrastausrichtung. | arXiv | Bild | |
Rich-Text-to-Image | Ausdrucksstarke Text-zu-Bild-Generierung mit Rich Text. | arXiv | Bild | |
RPG-DiffusionMaster | Beherrschung der Text-zu-Bild-Diffusion: Recaptioning, Planung und Generierung mit multimodalen LLMs (PRG). | Bild | ||
SEED-Geschichte | SEED-Story: Multimodale Long-Story-Generierung mit großem Sprachmodell. | arXiv | Bild | |
Segmentieren Sie alles | Segment Anything Model (SAM): ein neues KI-Modell von Meta AI, das jedes Objekt in jedem Bild mit einem einzigen Klick „ausschneiden“ kann. | arXiv | Bild | |
Segment Anything Modell 2 (SAM 2) | SAM 2: Segmentieren Sie alles in Bildern und Videos. | arXiv | Bild | |
sd-webui-controlnet | WebUI-Erweiterung für ControlNet. | Bild | ||
SDXL-Lightning | Progressive kontradiktorische Diffusionsdestillation. | arXiv | Bild | |
SDXS | Einstufige latente Diffusionsmodelle in Echtzeit mit Bildbedingungen. | Bild | ||
Stallkunst | Photoshop-Plugin für Stable Diffusion mit Automatic1111 als Backend (lokal oder mit Google Colab). | Bild | ||
Stabile Kaskade | Stable Cascade besteht aus drei Modellen: Stage A, Stage B und Stage C, die eine Kaskade zur Bilderzeugung darstellen, daher der Name „Stable Cascade“. | Bild | ||
Stabile Verbreitung | Ein latentes Text-zu-Bild-Diffusionsmodell. | Bild | ||
stabile-diffusion.cpp | Stabile Diffusion in reinem C/C++. | Bild | ||
Stabile Diffusion-Web-Benutzeroberfläche | Eine Browseroberfläche basierend auf der Gradio-Bibliothek für Stable Diffusion. | Bild | ||
Stabile Diffusion-Web-Benutzeroberfläche | Webbasierte Benutzeroberfläche für stabile Verbreitung. | Bild | ||
Stabile Verbreitung WebUI Chinesisch | Chinesische Version von Stable-Diffusion-Webui. | Bild | ||
Stabile Diffusion XL | Bilder aus Text generieren. | arXiv | Bild | |
Stabiler Diffusion XL Turbo | Text-zu-Bild-Generierung in Echtzeit. | Bild | ||
Stabile Diffusion 3.5 | Die offene Version von Stable Diffusion 3.5 umfasst mehrere Modellvarianten, darunter Stable Diffusion 3.5 Large und Stable Diffusion 3.5 Large Turbo. | Bild | ||
Stabiles Gekritzel | Stable Doodle ist ein Sketch-to-Image-Tool, das eine einfache Zeichnung in ein dynamisches Bild umwandelt. | Bild | ||
StableStudio | StableStudio von Stability AI | Bild | ||
StoryMaker | StoryMaker: Auf dem Weg zu ganzheitlich konsistenten Charakteren bei der Text-zu-Bild-Generierung. | arXiv | Bild | |
StreamDiffusion | Eine Lösung auf Pipeline-Ebene für die interaktive Generierung in Echtzeit. | Bild | ||
StyleDrop | Text-zu-Bild-Generierung in jedem Stil. | arXiv | Bild | |
SyncDreamer | Generieren von Multiview-konsistenten Bildern aus einem Single-View-Bild. | arXiv | Bild | |
UltraEdit | UltraEdit: Anleitungsbasierte feinkörnige Bildbearbeitung im Maßstab. | arXiv | Bild | |
UltraPixel | UltraPixel: Die ultrahochauflösende Bildsynthese auf ein neues Niveau bringen. | arXiv | Bild | |
Unity ML Stabile Diffusion | Stabile Kern-ML-Diffusion auf Unity. | Einheit | Bild | |
Vispunk-Visionen | Plattform zur Text-zu-Bild-Generierung. | Bild |
^ Zurück zum Inhalt ^
Quelle | Beschreibung | Papier | Spiel-Engine | Typ |
---|---|---|---|---|
CRM | Einzelbild zu 3D-Texturnetz mit Faltungsrekonstruktionsmodell. | arXiv | Textur | |
DreamMat | Hochwertige PBR-Materialgenerierung mit geometrie- und lichtbewussten Diffusionsmodellen. | arXiv | Textur | |
DreamSpace | Träumen Sie Ihren Raum mit textgesteuerter Panorama-Texturausbreitung. | Textur | ||
Traumtexturen | Stabile Diffusion im Mixer integriert. Erstellen Sie Texturen, Konzeptzeichnungen, Hintergrundelemente und mehr mit einer einfachen Texteingabe. | Mixer | Textur | |
Unterweisen Sie Menschen | Bearbeiten animierter menschlicher 3D-Texturen mit Anweisungen. | arXiv | Textur | |
InteX | Interaktive Text-zu-Textur-Synthese über einheitliches tiefenbewusstes Inpainting. | arXiv | Textur | |
LLaMA-Mesh | LLaMA-Mesh: Vereinheitlichung der 3D-Netzgenerierung mit Sprachmodellen. | arXiv | Netz | |
MaterialSeg3D | MaterialSeg3D: Segmentierung dichter Materialien aus 2D-Vorgängen für 3D-Assets. | arXiv | Textur | |
MeshAnything | MaterialSeg3D: Segmentierung dichter Materialien aus 2D-Vorgängen für 3D-Assets. | arXiv | Netz | |
Neuralangelo | Hochpräzise Rekonstruktion neuronaler Oberflächen. | arXiv | Textur | |
Malen Sie es | Text-zu-Textur-Synthese durch Deep Convolutional Texture Map Optimization und Physically-Based Rendering. | Textur | ||
Polycam | Erstellen Sie Ihre eigenen 3D-Texturen einfach durch Eingabe. | Textur | ||
TexFusion | Synthese von 3D-Texturen mit textgesteuerten Bilddiffusionsmodellen. | arXiv | Textur | |
Text2Tex | Textgesteuerte Textursynthese über Diffusionsmodelle. | arXiv | Textur | |
Texturlabor | KI-generierte Texturen. Sie können Ihr eigenes mit einer Textaufforderung erstellen. | Textur | ||
Mit Poly | Erstellen Sie Texturen mit Poly. Generieren Sie 3D-Materialien mit KI in einem kostenlosen Online-Editor oder durchsuchen Sie unsere wachsende Community-Bibliothek. | Textur | ||
X-Mesh | X-Mesh: Auf dem Weg zu einer schnellen und präzisen textgesteuerten 3D-Stilisierung durch dynamische Textführung. | arXiv | Textur |
^ Zurück zum Inhalt ^
Quelle | Beschreibung | Papier | Spiel-Engine | Typ |
---|---|---|---|---|
KI-Shader | ChatGPT-basierter Shader-Generator für Unity. | Einheit | Shader |
^ Zurück zum Inhalt ^
Quelle | Beschreibung | Papier | Spiel-Engine | Typ |
---|---|---|---|---|
Animate3D | Animate3D: Animieren jedes 3D-Modells mit Multi-View-Videodiffusion. | arXiv | 3D | |
Alles – 3D | Segment-Alles + 3D. Lassen Sie uns das Ganze in 3D heben. | arXiv | Modell | |
Any2Point | Any2Point: Ermöglicht große Modelle beliebiger Modalität für ein effizientes 3D-Verständnis. | arXiv | 3D | |
BlenderGPT | Verwenden Sie Befehle in Englisch, um Blender mit GPT-4 von OpenAI zu steuern. | Mixer | Modell | |
Blender-GPT | Ein All-in-One-Mixer-Assistent mit GPT3/4 + Whisper-Integration. | Mixer | Modell | |
Blockadelabore | Digitale Alchemie ist real mit Skybox Lab – der ultimativen KI-gestützten Lösung zur Generierung unglaublicher 360°-Skybox-Erlebnisse aus Texteingabeaufforderungen. | Modell | ||
CF-3DGS | COLMAP-freies 3D-Gaußsches Splatting. | arXiv | 3D | |
CharacterGen | CharacterGen: Effiziente 3D-Charaktergenerierung aus Einzelbildern mit Multi-View-Posenkanonisierung. | arXiv | 3D | |
chatGPT-maya | Einfaches Maya-Tool, das offene KI nutzt, um grundlegende Aufgaben basierend auf beschreibenden Anweisungen auszuführen. | Maya | Modell | |
CityDreamer | Kompositorisches generatives Modell unbegrenzter 3D-Städte. | arXiv | 3D | |
CSM | Generieren Sie 3D-Welten aus Bildern und Videos. | 3D | ||
Bindestrich | Ihr Copilot für World Building in Unreal Engine. | Unwirkliche Engine | 3D | |
DreamCatalyst | DreamCatalyst: Schnelle und hochwertige 3D-Bearbeitung durch Steuerung der Bearbeitbarkeit und Identitätserhaltung. | arXiv | 3D | |
DreamGaussian4D | Generatives 4D-Gaußsches Splatting. | arXiv | 4D | |
DUSt3R | Geometrische 3D-Vision leicht gemacht. | arXiv | 3D | |
Erbauen Sie 3D | Edify 3D: Skalierbare, hochwertige 3D-Asset-Generierung. | arXiv | 3D | |
GALA3D | GALA3D: Auf dem Weg zur Generierung komplexer Text-zu-3D-Szenen durch Layout-gesteuertes generatives Gaußsches Splatting. | arXiv | 3D | |
GaussStrg | GaussCtrl: Konsistente textgesteuerte 3D-Gaußsche Splatting-Bearbeitung in mehreren Ansichten. | arXiv | 3D | |
Gaußscher Würfel | Eine strukturierte und explizite Strahlungsdarstellung für die generative 3D-Modellierung. | arXiv | 3D | |
Gaußscher Träumer | Schnelle Generierung von Text zu 3D-Gauß-Splatting mit Point Cloud Priors. | arXiv | 3D | |
GenieLabs | Stärken Sie Ihr Spiel mit AI-UGC. | 3D | ||
HiFA | High-Fidelity-Text-zu-3D mit erweiterter Diffusionsführung. | Modell | ||
HoloDreamer | HoloDreamer: Ganzheitliche 3D-Panorama-Weltgenerierung aus Textbeschreibungen. | arXiv | 3D | |
Hunyuan3D-1.0 | Hunyuan3D-1.0: Ein einheitliches Framework für die Text-zu-3D- und Bild-zu-3D-Generierung. | arXiv | 3D | |
Infinigen | Unendliche fotorealistische Welten durch prozedurale Generierung. | arXiv | 3D | |
Instruct-NeRF2NeRF | Bearbeiten von 3D-Szenen mit Anweisungen. | arXiv | Modell | |
Interactive3D | Erstellen Sie mit der interaktiven 3D-Generierung, was Sie wollen. | arXiv | 3D | |
Isotrop3D | Bild-zu-3D-Generierung basierend auf einer einzigen CLIP-Einbettung. | 3D | ||
LATTE3D | Umfangreiche amortisierte Text-zu-Enhanced3D-Synthese. | arXiv | 3D | |
LÖWE | Latente Punktdiffusionsmodelle zur 3D-Formgenerierung. | arXiv | Modell | |
Luma KI | Erfassen Sie in lebensechtem 3D. Unübertroffener Fotorealismus, Reflexionen und Details. Die Zukunft von VFX ist jetzt für alle da! | Modell | ||
Lumine-KI | KI-gestützte Kreativität. | 3D | ||
Make-It-3D | Hochpräzise 3D-Erstellung aus einem einzigen Bild mit Diffusion Prior. | arXiv | Modell | |
Meshy | Erstellen Sie atemberaubende 3D-Spielinhalte mit KI. | 3D | ||
Bewegung | Magischer 3D-KI-Animationsersteller. | 3D | ||
MVDream | Multi-View-Diffusion für die 3D-Generierung. | arXiv | 3D | |
NVIDIA Instant NeRF | Sofortige neuronale Grafikprimitive: blitzschnelles NeRF und mehr. | Modell | ||
Eins-2-3-45 | Jedes einzelne Bild wird in 45 Sekunden in ein 3D-Netz umgewandelt, ohne dass eine Optimierung pro Form erforderlich ist. | arXiv | Modell | |
Paint3D | Malen Sie alles in 3D mit Texturdiffusionsmodellen ohne Beleuchtung. | arXiv | 3D | |
PAniC-3D | Stilisierte Einzelansicht-3D-Rekonstruktion aus Porträts von Anime-Charakteren. | arXiv | Modell | |
Punkt·E | Punktwolkendiffusion für die 3D-Modellsynthese. | Modell | ||
Produktiver Träumer | Hochpräzise und vielfältige Text-zu-3D-Generierung mit Variations-Score-Destillation. | arXiv | Modell | |
SF3D | SF3D: Stabile, schnelle 3D-Netzrekonstruktion mit UV-Abwicklung und Beleuchtungsentwirrung. | arXiv | 3D | |
Form | Generieren Sie 3D-Objekte basierend auf Text oder Bildern. | arXiv | Modell | |
Sloyd | 3D-Modellierung war noch nie einfacher. | Modell | ||
Spline-KI | Die Macht der KI erreicht die 3. Dimension. Generieren Sie mithilfe von Eingabeaufforderungen Objekte, Animationen und Texturen. | Modell | ||
Stabile Dreamfusion | Eine Pytorch-Implementierung des Text-zu-3D-Modells Dreamfusion, unterstützt durch das Stable Diffusion Text-zu-2D-Modell. | Modell | ||
SV3D | Neuartige Multi-View-Synthese und 3D-Generierung aus einem einzelnen Bild mithilfe latenter Videodiffusion. | arXiv | 3D | |
Tafi | KI-Text-zu-3D-Charakter-Engine. | Modell | ||
3D-GPT | Prozedurale 3D-Modellierung mit großen Sprachmodellen. | arXiv | 3D | |
3D-LLM | Einfügung der 3D-Welt in große Sprachmodelle. | arXiv | 3D | |
3Dpresso | Extrahieren Sie ein 3D-Modell eines Objekts, das in einem Video aufgenommen wurde. | Modell | ||
3DTopia | Text-zu-3D-Generierung innerhalb von 5 Minuten. | arXiv | 3D | |
3DTopia-XL | 3DTopia-XL: Skalierung hochwertiger 3D-Asset-Generierung durch primitive Diffusion. | arXiv | 3D | |
dreistudio | Ein einheitliches Framework für die Generierung von 3D-Inhalten. | Modell | ||
TripoSR | Ein hochmodernes Open-Source-Modell für eine schnelle 3D-Rekonstruktion von Feedforward aus einem einzigen Bild. | Arxiv | Modell | |
Unique3d | Hochwertige und effiziente 3D-Netzerzeugung aus einem einzigen Bild. | Arxiv | 3d | |
UnityGaussiansplattierung | TOY GAUSSIANISCHE SPRATTING VISEILISIATION IN DER Einheit. | Einheit | 3d | |
Vivid-1-to-3 | Neuartige Ansichtsynthese mit Videodiffusionsmodellen. | Arxiv | 3d | |
Voxcraft | Basteln Sie bereit, 3D-Modelle mit KI zu verwenden. | 3d | ||
Wonder3d | Einzelbild zu 3D unter Verwendung der Cross-Domänen-Diffusion. | Arxiv | 3d | |
Zero-1-to-3 | Null-Shot ein Bild zum 3D-Objekt. | Arxiv | Modell |
^ Zurück zum Inhalt ^
Quelle | Beschreibung | Papier | Game Engine | Typ |
---|---|---|---|---|
Aniporträt | Audiogetriebene Synthese fotorealistischer Porträtanimationen. | Arxiv | Avatar | |
RUHIG | Bedingte deverse latente Modelle für Regie virtuelle Zeichen. | Arxiv | Avatar | |
Chatavatar | Progressive Generation von animatierbaren 3D -Gesichtern unter Textanleitung. | Avatar | ||
Chatdollkit | Mit Chatdollkit können Sie Ihr 3D -Modell zu einem Chatbot machen. | Einheit | Avatar | |
DreamTalk | Wenn die ausdrucksstarke sprechende Headgeneration diffusions probabilistische Modelle trifft. | Arxiv | Avatar | |
Duix | Duix - Silicon -basierte digitale menschliche SDK? | Avatar | ||
Echomimisch | Echomimic: LIFELISIONISISCHE PRATETRATRETRATRATRATRAt-Animationen durch bearbeitbare Wahrzeichen. | Arxiv | Avatar | |
Emoportraits | Emotionsverstärkte multimodale One-Shot-Kopf-Avatare. | Avatar | ||
E3 Gen | Effiziente, ausdrucksstarke und bearbeitbare Avatare -Generation. | Arxiv | Avatar | |
Exavatar | Exavatar - ausdrucksstarker Ganzkörper 3d Gaußscher Avatar. | Arxiv | Avatar | |
Genavatar | Generische Expression-bewusstes volumetrisches Kopf-Avatar-Bearbeitung eines einzelnen Bildes. | Arxiv | Avatar | |
Geneface ++ | Verallgemeinerte und stabile Echtzeit-3D-Sprecherzeugung. | Avatar | ||
Hallo | Hierarchische audiogesteuerte visuelle Synthese für Porträtbildanimation. | Arxiv | Avatar | |
Hallo2 | Hallo 2: Langzeit- und hochauflösende audiogesteuerte Porträtbildanimation. | Arxiv | Avatar | |
Headsculpt | Basteln Sie 3D -Kopf -Avatare mit Text. | Arxiv | Avatar | |
Intrinsicavatar | Intrinsicavatar: physisch basiertes inverses Rendern von dynamischen Menschen aus monokularen Videos über explizite Strahlenverfolgung. | Arxiv | Avatar | |
Linle-talker | Digital Avatar Conversational System. | Avatar | ||
LivePortrait | LivePortrait: Effiziente Porträtanimation mit Stich- und Retargeting -Kontrolle. | Arxiv | Avatar | |
MotionGpt | Menschliche Bewegung als Fremdsprache, ein einheitliches Modell für Bewegungssprachengenerierung unter Verwendung von LLMs. | Arxiv | Avatar | |
Musicose | MUSEPOSE: Ein posegetriebenes Bild-zu-Video-Framework für die virtuelle menschliche Generation. | Avatar | ||
Musetalk | Echtzeit hochwertige Lippensynchorisierung mit latenten Space Inpainting. | Avatar | ||
Musev | Unendliche Länge und High Fidelity Virtuelle menschliche Videogenerierung mit visuell konditioniertem parallelen Denoising. | Avatar | ||
Porträt4d | Lernen von One-Shot 4D Head Avatar-Synthese mit synthetischen Daten. | Arxiv | Avatar | |
Bereit mich für mich | Integrieren Sie anpassbare Avatare in Ihrem Spiel oder Ihrer App in Tagen. | Avatar | ||
Rodinhd | RODINHD: High-Fidelity-3D-Avatar-Erzeugung mit Diffusionsmodellen. | Arxiv | Avatar | |
Styleavatar3d | Nutzung von Bild-Text-Diffusionsmodellen für die 3D-Avatar-Generation mit hoher Fidelität. | Arxiv | Avatar | |
Text2Control3d | Steuerbare 3D-Avatar-Erzeugung in neuronalen Strahlungsfeldern unter Verwendung von Geometrie-geführtem Text-zu-Image-Diffusionsmodell. | Arxiv | Avatar | |
Topo4d | Topologie-Präsentierende Gaußsche Splating für die 4D-Kopfeinnahme von High-Fidelity. | Arxiv | Avatar | |
Unityaiwithchatgpt | Basierend auf Einheit wird Chatgpt+Unitychan Voice Interactive Display realisiert. | Einheit | Avatar | |
Vid2avatar | 3D-Avatar-Rekonstruktion aus Videos in freier Wildbahn durch selbstbewertete Szenenabzug. | Arxiv | Avatar | |
Vlogger | Multimodale Diffusion für die verkörperte Avatar -Synthese. | Avatar | ||
Wild2avatar | Menschen hinter Okklusionen rendern. | Arxiv | Avatar |
^ Zurück zum Inhalt ^
Quelle | Beschreibung | Papier | Game Engine | Typ |
---|---|---|---|---|
Jemanden animieren | Konsistente und kontrollierbare Bild-zu-Video-Synthese für die Charakteranimation. | Arxiv | Animation | |
Animateanything | Feinkörnige offene Domänenbildanimation mit Bewegungsanleitung. | Arxiv | Animation | |
Animatediff | Animieren Sie Ihre personalisierten Text-zu-Imager-Diffusionsmodelle ohne spezifische Abstimmung. | Arxiv | Animation | |
Animatelcm | Lassen Sie uns die Videogenerierung innerhalb von 4 Schritten beschleunigen! | Arxiv | Animation | |
Animate-X | Animate-X: Universelle Charakterbildanimation mit verbesserter Bewegungsdarstellung. | Arxiv | Animation | |
Animatezero | Videodiffusionsmodelle sind Null-Shot-Bildanimatoren. | Arxiv | Animation | |
Animationgpt | Ein AIGC -Tool zur Generierung von Spielkampfbewegungsgütern. | Animation | ||
DeForum | DeForum nutzt eine stabile Diffusion, um sich entwickelnde KI -Visuals zu erzeugen. | Animation | ||
Zeichnungsspeicher | Zeichnungsspannung: 3D -Animation aus einzelnen Zeichenzeichnungen. | Arxiv | Animation | |
Träumen | Ein Rahmen der menschlichen Videogenerierung basierend auf Diffusionsmodellen. | Arxiv | Animation | |
Gesichtsfusion | Face Swapper und Enhancer der nächsten Generation. | Animation | ||
FreeInit | Überbrückungsinitialisierungslücke in Videodiffusionsmodellen. | Arxiv | Animation | |
Geneface | Verallgemeinerte und hohe Audio-gesteuerte 3D-Gesprächssynthese. | Arxiv | Animation | |
ID-Animator | Null-Shot-Identitätspräsentation menschlicher Videogenerierung. | Arxiv | Animation | |
Magicanimate | Zeitlich konsistente menschliche Bildanimation mit Diffusionsmodell. | Arxiv | Animation | |
Nuwa | Dragnuwa ist ein offenes Diffusions-basierter Videogenerierungsmodell mit offener Domänen nimmt Text-, Bild- und Trajektoriensteuerungen als Eingänge an, um die steuerbare Videogenerierung zu erreichen. | Arxiv | Animation | |
Nuwa-Steigerung | Nuwa-Infinity ist ein multimodales generatives Modell, mit dem hochwertige Bilder und Videos aus angegebenem Text, Bild oder Videoeingabe generiert werden sollen. | Animation | ||
Nuwa-xl | Eine neuartige Diffusion über Diffusionsarchitektur für die extrem lange Videogenerierung. | Animation | ||
Omni -Animation | KI generierte High -Fidelity -Animationen. | Animation | ||
Pia | Ihr personalisierter Bildanimator über Plug-and-Play-Module in Text-zu-Image-Modellen. | Arxiv | Animation | |
Sadtalker | Lernen realistischer 3D-Bewegungskoeffizienten für stilisierte audiogesteuerte Einzelbild-sprechende Gesichtsanimation. | Arxiv | Animation | |
Sadtalker-video-lip-sync | Dieses Projekt basiert auf Sadtalkern WAV2LIP für die Video -Lippen -Synthese. | Animation | ||
Stabile Animation | Ein leistungsstarkes Text-zu-Animation-Tool für Entwickler. | Animation | ||
Talecrafter | Ein interaktives Tool zur Visualisierung von Story, das mehrere Charaktere unterstützt. | Arxiv | Animation | |
Tooncrafter | Tooncrafter: Generative Cartoon Interpolation. | Arxiv | Animation | |
Wav2lip | Genauige Lippensynchronisierungsvideos in freier Wildbahn. | Arxiv | Animation | |
Wonder Studio | Ein KI-Tool, das automatisch CG-Zeichen animiert, beleuchtet und in einer Live-Action-Szene komponiert. | Animation |
^ Zurück zum Inhalt ^
Quelle | Beschreibung | Papier | Game Engine | Typ |
---|---|---|---|---|
Cambrian-1 | Cambrian-1: Eine vollständig offene, sehzentrierte Erkundung multimodaler LLMs. | Arxiv | Multimodale LLMs | |
Cogvlm2 | Open-Source-Multi-Modal-Modell auf GPT4V-Ebene basierend auf LLAMA3-8B. | Visuell | ||
Cotracker | Es ist besser, gemeinsam zu verfolgen. | Arxiv | Visuell | |
EVF-SAM | EVF-SAM: Early Vision-Sprache Fusion für textgepomptierte Segmente irgendetwas Modell. | Arxiv | Visuell | |
FaceHi | Es ist besser, gemeinsam zu verfolgen. | Visuell | ||
Internlm-Xcomposer2 | Internlm-Xcomposer2 ist ein bahnbrechender Vision-Sprach-Langermodell (VLLM) in der Komposition und des Verständnisses von freier Form in freier Form. | Arxiv | Visuell | |
Känguru | Kangaroo: Ein leistungsstarkes Videosprachmodell, das die lang kontextbezogene Videoeingabe unterstützt. | Visuell | ||
LGVI | In Richtung sprachgetriebener Video-Inpainting über multimodale Großsprachenmodelle. | Visuell | ||
Llava ++ | Erweiterung der visuellen Fähigkeiten mit Lama-3 und Phi-3. | Visuell | ||
Llava-Onevision | LLAVA-Onevision: Einfach visuelle Aufgabenübertragung. | Arxiv | Visuell | |
Longva | Langer Kontextübertragung von Sprache zu Vision. | Arxiv | Visuell | |
Maskvit | Maskiertes visuelles Pre-Training für die Videovorhersage. | Arxiv | Visuell | |
Minicpm-Llama3-V 2.5 | Ein GPT-4V-Level MLLM auf Ihrem Telefon. | Visuell | ||
Moe-Llava | Mischung von Experten für große Sichtsprachmodelle. | Arxiv | Visuell | |
Motionllm | Menschliches Verhalten durch menschliche Bewegungen und Videos verstehen. | Arxiv | Visuell | |
Pllava | Parameter-freie LLAVA-Erweiterung von Bildern zu Videos für Video-dichter Bildunterschriften. | Arxiv | Visuell | |
Qwen-vl | Ein vielseitiges visuelles Modell zum Verständnis, Lokalisierung, Textlesen und darüber hinaus. | Arxiv | Visuell | |
Sapiens | Sapiens: Grundlage für menschliche Sehmodelle. | Arxiv | Visuell | |
Sharegpt4v | Verbesserung großer multimodaler Modelle mit besseren Bildunterschriften. | Arxiv | Visuell | |
SOLO | Solo: Ein einzelner Transformator für skalierbare Sichtsprachmodellierung. | Arxiv | Visuell | |
Video-CCAM | Video-CCAM: Fortschritte auf Videosprachenverständnis mit kausalen Kreuzbewegungsmasken. | Visuell | ||
Video-Llava | Erlernen der visuellen Darstellung der Vereinigten visuellen Repräsentation durch Ausrichtung vor der Projektion. | Arxiv | Visuell | |
Videollama 2 | Förderung der räumlich-zeitlichen Modellierung und des Audioverständnisses in Videolls. | Arxiv | Visuell | |
Video-Mme | Der erste umfassende Bewertungsmaßstab für multimodale LLMs in der Videoanalyse. | Arxiv | Visuell | |
Vitron | Eine einheitliche Vixel-Vision LLM zum Verständnis, Erzeugen, Segmentieren, Bearbeiten. | Visuell | ||
Vila | VILA: Über die Vorausbildung für visuelle Sprachmodelle. | Arxiv | Visuell |
^ Zurück zum Inhalt ^
Quelle | Beschreibung | Papier | Game Engine | Typ |
---|---|---|---|---|
360dvd | Kontrollierbare Panorama-Videogenerierung mit 360-Grad-Video-Diffusionsmodell. | Arxiv | Video | |
Animate-a-Story | Abrufen von Video-Generation für die Erzählen einer Geschichte. | Arxiv | Video | |
Alles in jeder Szene | Photorealistische Videoobjekteinfügung. | Video | ||
Kunst • v | Automatisch-tergressive Text-zu-Video-Erzeugung mit Diffusionsmodellen. | Arxiv | Video | |
Assistiv | Treffen Sie die generative Videoplattform, die Ihre Ideen zum Leben erweckt. | Video | ||
Atomovideo | High Fidelity Image-zu-Video-Generation. | Arxiv | Video | |
Hintergrundremover | Mit Hintergrundentferner können Sie Hintergrund von Bildern und Videoen mit AI mit einer einfachen Befehlszeilenschnittstelle entfernen, die kostenlos und Open Source ist. | Video | ||
Boximator | Erzeugen von reichhaltigen und kontrollierbaren Bewegungen für die Video -Synthese. | Arxiv | Video | |
Codef | Inhaltsverformungsfelder für die zeitlich konsistente Videoverarbeitung. | Arxiv | Video | |
Cogvideo | Generieren Sie Videos aus Textbeschreibungen. | Video | ||
Cogvideox | Cogvideox ist eine Open-Source-Version des Videogenerierungsmodells, das zu 清影 homolog ist. | Video | ||
Cogvlm | COGVLM ist ein leistungsstarkes Open-Source-Modell für visuelle Sprache (VLM). | Visuell | ||
Conr | Genarat lebendige Tanzvideos von handgezeichneten Anime-Charakterblättern (ACS). | Arxiv | Video | |
Dekoe | Erstellen Sie das, was nicht gefilmt werden kann. | Video | ||
Beschreiben | Beschreibung ist die einfache, leistungsstarke und unterhaltsame Art zu bearbeiten. | Video | ||
Diffutoon | Hochauflösende toon-Schattierung über Diffusionsmodelle. | Arxiv | Video | |
Delphin | Allgemeine Video -Interaktionsplattform basierend auf LLMs. | Video | ||
Domoai | Verstärken Sie Ihre Kreativität mit Domoai. | Video | ||
Dreamcinema | Dreamcinema: Filmtransfer mit kostenloser Kamera und 3D -Charakter. | Arxiv | Video | |
Dynamicrafter | Animieren von Bildern mit Open-Domänen mit Videodiffusionspriors. | Arxiv | Video | |
RAND | Wir stellen Edge vor, eine mächtige Methode für die editable Tanzgeneration, die in der Lage ist, realistische, physisch plausible Tänze zu erstellen und gleichzeitig willkürlichem Eingangsmusik treu zu bleiben. | Arxiv | Video | |
Emo | Lebendigem Porträt - Erzeugen von ausdrucksstarken Porträtvideos mit Audio2Video -Diffusionsmodell unter schwachen Bedingungen. | Arxiv | Video | |
Emu Video | Faktorisieren Sie die Erzeugung von Text-zu-Video-Erzeugung durch explizite Bildkonditionierung. | Video | ||
Ätna | ETNA kann entsprechende Videoinhalte basierend auf kurzen Textbeschreibungen erzeugen. | Video | ||
Fee | Schnelle parallelisierte, anleitende Video-zu-Video-Synthese. | Video | ||
Folgen Sie Ihren Canvas | Folgen Sie Ihren Canvas: Video mit höherer Auflösung mit umfangreicher Inhaltsgenerierung. | Arxiv | Video | |
Folgen Sie Ihrer Pose | Pose-gesteuerte Text-zu-Video-Generierung mit posenfreien Videos. | Arxiv | Video | |
Fulljourney | Ihre vollständige Suite von KI -Erstellungswerkzeugen an Ihren Fingerspitzen. | Video | ||
Gen-2 | Ein multimodales KI-System, das neuartige Videos mit Text, Bildern oder Videoclips generieren kann. | Video | ||
Generative Dynamik | Generative Bilddynamik. | Video | ||
Genie | Generative interaktive Umgebungen. | Arxiv | Video | |
Genmo | Machen Sie auf magische Weise Videos mit KI. | Video | ||
Gentron | Diffusionstransformatoren für Bild- und Videogenerierung. | Video | ||
Higen | Hierarchische räumlich-zeitliche Entkopplung für die Erzeugung von Text-zu-Video-Erzeugung. | Video | ||
HOTSHOT-XL | Hotshot-XL ist ein AI-Text-zu-GIF-Modell, das zusammen mit stabilen Diffusion xl geschult ist. | Video | ||
Hunyuanvideo | Hunyuanvideo: Ein systematisches Rahmen für das große Modell der Videogenerierung. | Arxiv | Video | |
Imagin Video | Bei einer Textaufforderung generiert Imageen Video High-Definition-Videos mit einem Basis-Videogenerierungsmodell und einer Folge von verzogenen räumlichen und zeitlichen Video-Superauflösungsmodellen. | Video | ||
Unterweisen | Anweisung von Videodiffusionsmodellen mit menschlichem Feedback. | Arxiv | Video | |
I2vgen-xl | Hochwertige Bild-zu-Video-Synthese über kaskadierte Diffusionsmodelle. | Arxiv | Video | |
Lavie | Hochwertige Videogenerierung mit kaskadierten latenten Diffusionsmodellen. | Arxiv | Video | |
LTX Studio | LTX Studio ist eine ganzheitliche, kI-gesteuerte Filmemachenplattform für Schöpfer, Vermarkter, Filmemacher und Studios. | Video | ||
Ltx-video | LTX-VIDEO ist das erste DIT-basierte Videogenerierungsmodell, das in Echtzeit hochwertige Videos erzeugen kann. Es kann 24 FPS -Videos bei 768x512 -Auflösung erzeugen, schneller als es braucht, um sie anzusehen. | Video | ||
Lumiere | Ein Raum-Zeit-Diffusionsmodell für die Videogenerierung. | Arxiv | Video | |
Lvdm | Latente Videodiffusionsmodelle für lange Videogenerierung von hohen Fidelity. | Arxiv | Video | |
MagicVideo | Effiziente Videogenerierung mit latenten Diffusionsmodellen. | Arxiv | Video | |
MagicVideo-V2 | Multi-Stufe hochästhetische Videogenerierung. | Arxiv | Video | |
Magische Stunde | KI -Video für Schöpfer einfach gemacht. | Video | ||
Magvit-V2 | Tokenizer ist der Schlüssel zur visuellen Generierung. | Video | ||
Magvit | Maskierter generativer Video -Transformer. | Video | ||
Make-a-video | Make-a-video ist ein hochmodernes KI-System, das Videos aus Text generiert. | Arxiv | Video | |
Pixel tanzen lassen | Hochdynamische Videogenerierung. | Arxiv | Video | |
Machen Sie Ihre Video | Customisierte Videogenerierung mithilfe der textlichen und strukturellen Führung. | Arxiv | Video | |
Mikrocinem | Ein Divide-and-Conquer-Ansatz für die Erzeugung von Text-zu-Video-Erzeugung. | Arxiv | Video | |
Mimo | MIMO: VIDEA -VIDEO -Synthese mit räumlicher zersetzter Modellierung. | Arxiv | Video | |
Mini-Gemini | Mining des Potenzials von Multimodalitäts-Vision-Sprachmodellen. | Vision | ||
Mobilevidfactory | Automatische diffusionsbasierte Social-Media-Videogenerierung für mobile Geräte aus Text. | Video | ||
Mochi 1 | Mochi 1 ist ein offenes modernes Videogenerierungsmodell mit hoher Anmeldung und starker Einhaltung der vorläufigen Bewertung. | Video | ||
Mofa-video | Steuerbare Bildanimation über generative Bewegungsfeld-Anpassungen im gefrorenen Bild-zu-Video-Diffusionsmodell. | Arxiv | Video | |
Geldprinterturbo | Verwenden Sie große Modelle, um kurze Videos mit einem Klick zu generieren. | Video | ||
Moonvalley | Moonvalley ist ein bahnbrechender neuer AI-Modell für Text-zu-Video-Generativen. | Video | ||
Mora | Eher wie Sora für die Generalistin der Generalistin. | Arxiv | Video | |
Morph Studio | Manifestieren Sie Ihre Kreativität durch Ihre Aufforderung. | Video | ||
Motionclone | MotionClone: Trainingsfreies Bewegungsklonen für die steuerbare Videogenerierung. | Arxiv | Video | |
Motionctrl | Ein einheitlicher und flexibler Bewegungscontroller für die Videogenerierung. | Arxiv | Video | |
MotionDirector | Bewegungsanpassung von Text-zu-Video-Diffusionsmodellen. | Arxiv | Video | |
MotionShop | Eine Anwendung des Ersetzens der Zeichen in Video durch 3D -Avatare. | Video | ||
Mov2mov | MOV2MOV-Plugin für Automatic11111/Stable-Diffusion-Webui. | Video | ||
Beweglich | Automatische Filmerstellung aus Text mit großen generativen Modellen für Sprache und Bilder. | Arxiv | Video | |
Neuronale Rahmen | Entdecken Sie den Synthesizer für die visuelle Welt. | Video | ||
Nie | Erstellen Sie Ihre Welt. | Video | ||
Open-Sora | Demokratisierung der effizienten Videoproduktion für alle. | Video | ||
Open-Sora | Open-Sora-Plan. | Video | ||
Phenaki | Ein Modell zum Generieren von Videos aus Text mit Eingabeaufforderungen, die sich im Laufe der Zeit ändern können, und Videos, die bis zu mehreren Minuten betragen können. | Arxiv | Video | |
Pika Labs | Pika Labs revolutioniert die Videomobilerfahrung mit KI. | Video | ||
Pixeling | Pixeling ermöglicht es unseren Kunden, sehr präzise, ultra-realistische und extrem kontrollierbare visuelle Inhalte zu erstellen, einschließlich Bildern, Videos und 3D-Modellen. | Video | ||
Pixverse | Erstellen Sie atemberaubende Videos mit KI. | Video | ||
Bestäubung | Das Erstellen wird einfach, schnell und Spaß. | Video | ||
Wiederverwenden und diffus | Iterative Denoising für Text-zu-Video-Generation. | Arxiv | Video | |
Ruyi | Ruyi ist ein Bild-zu-Video-Modell, das Videos in filmische Qualität mit einer Auflösung von 768 erzeugen kann, mit einer Bildrate von 24 Bildern pro Sekunde, insgesamt 5 Sekunden und 120 Frames. | Video | ||
Shortgpt | Ein experimentelles KI -Framework für die Erstellung von Kurz-/Video -Inhalten. | Video | ||
Show-1 | Heiraten von Pixel- und latenten Diffusionsmodellen für die Erzeugung von Text-zu-Videos. | Arxiv | Video | |
Snap Video | Skalierte räumlich-zeitliche Transformatoren für die Text-zu-Video-Synthese. | Arxiv | Video | |
Sora | Video aus dem Text erstellen. | Video | ||
Sorawebui | Sorawebui ist ein Open-Source-Web-Client, mit dem Benutzer mit dem Sora-Modell von OpenAI auf einfache Weise Videos aus dem Text erstellen können. | Video | ||
Stablevideo | Textgetriebene Konsistenzdiffusionsvideobearbeitung. | Video | ||
Stabile Videodiffusion | Stable Video Diffusion (SVD) Image-zu-Video. | Video | ||
Storydiffusion | Konsistente Selbstbekämpfung für Fernbild- und Videogenerierung. | Arxiv | Video | |
Streamingt2v | Konsistente, dynamische und erweiterbare lange Videogenerierung aus Text. | Arxiv | Video | |
Stylecrafter | NHancing Stylized Text-to-Video-Generation mit Stiladapter. | Arxiv | Video | |
Tats | Lange Videogenerierung mit zeitagnostischer Vqgan und zeitempfindlicher Transformator. | Video | ||
Text2Video-Null | Text-to-Image-Diffusionsmodelle sind null-Shot-Videogeneratoren. | Arxiv | Video | |
Tf-t2v | Ein Rezept zur Skalierung von Text-zu-Video-Generation mit textfreien Videos. | Arxiv | Video | |
Tora | Tora: Trajektorienorientierter Diffusionstransformator für die Videogenerierung. | Arxiv | Video | |
Spur | Track-Bything ist ein flexibles und interaktives Werkzeug für die Verfolgung und Segmentierung von Videoobjekten, basierend auf Segment Anything und XMEM. | Arxiv | Video | |
Tune-a-video | One-Shot-Abstimmung von Bilddiffusionsmodellen für die Erzeugung von Text-zu-Video-Erzeugung. | Arxiv | Video | |
Zwölfs | Multimodale KI, die Videos wie Menschen versteht. | Video | ||
Univg | In Richtung Unified-Modal Video Generation. | Video | ||
Vchitect-2.0 | Vchitect-2.0: Parallel Transformator zum Skalieren von Videodiffusionsmodellen. | Video | ||
Vgen | Ein ganzheitliches Ökosystem der Videogenerierung für die Videogenerierung auf Diffusionsmodellen. | Arxiv | Video | |
ViewCrafter | ViewCrafter: Taming von Videodiffusionsmodellen für die neuartige Ansichtssynthese mit hoher Fidelity. | Arxiv | Video | |
Video-Chatgpt | Video-Chatgpt ist ein Video-Konversationsmodell, das aussagekräftige Gespräche über Videos generieren kann. | Arxiv | Video | |
Videokomponisten | Kompositionelle Video -Synthese mit Bewegungskontrollierbarkeit. | Arxiv | Video | |
Videocrafter1 | Offene Diffusionsmodelle für die hochwertige Videogenerierung. | arXiv | Video | |
Videcrafter2 | Überwindung von Datenbeschränkungen für hochwertige Videodiffusionsmodelle. | arXiv | Video | |
Videodrafter | Inhaltskonsistente Multi-Szenen-Videogenerierung mit LLM. | arXiv | Video | |
Videoelevator | Erhöhen Sie die Qualität der Videogenerierung mit vielseitigen Text-zu-Im-Im-Im-Im-Im -ät-Diffusionsmodellen. | Arxiv | Video | |
Videofaktor | Tauschen Sie die Aufmerksamkeit in räumlich-zeitlichen Diffusionen für die Erzeugung von Text-zu-Videos aus. | Video | ||
Videogen | Ein referenzgesteuerter latenter Diffusionsansatz für die Hochaufnahme-Text-zu-Video-Erzeugung. | Arxiv | Video | |
Videolcm | Video Latente Konsistenzmodell. | Arxiv | Video | |
Video LDMs | Richten Sie Ihre Leitungen aus: Video-Synthese mit hoher Auflösung mit latenten Diffusionsmodellen. | Arxiv | Video | |
Video-Llava | Erlernen der visuellen Darstellung der Vereinigten visuellen Repräsentation durch Ausrichtung vor der Projektion. | Arxiv | Video | |
Videomamba | Zustandsraummodell für ein effizientes Videoverständnis. | Arxiv | Video | |
Video-des Gedanke | Video-of-Gedanken: Schritt-für-Schritt-Video-Argumentation von der Wahrnehmung bis zur Wahrnehmung. | Video | ||
Videopoet | Ein großes Sprachmodell für die Videogenerierung von Zero-Shot. | arXiv | Video | |
Visspunk -Bewegung | Erstellen Sie realistische Videos mit nur Text. | Video | ||
Visualrwkv | VisualRWKV ist die visuell verstärkte Version des RWKV-Sprachmodells, sodass RWKV verschiedene visuelle Aufgaben erledigen kann. | Visuell | ||
V-JEPA | Video Joint einbettende Vorhersagearchitektur. | Arxiv | Video | |
Walt | Photorealistische Videogenerierung mit Diffusionsmodellen. | Arxiv | Video | |
Nullenkop | Nullenkop Text-zu-Video. | Video |
^ Zurück zum Inhalt ^
Quelle | Beschreibung | Papier | Game Engine | Typ |
---|---|---|---|---|
Academicodec | Ein Open -Source -Audio -Codec -Modell für die akademische Forschung. | Audio | ||
Amphion | Ein Open-Source-Audio-, Musik- und Sprachgenerierungs-Toolkit. | Arxiv | Audio | |
Erzisound | Audiogenerierung unter Verwendung von Diffusionsmodellen in Pytorch. | Audio | ||
Audiobox | Einheitliche Audiogenerierung mit natürlichen Sprachaufforderungen. | Audio | ||
Audioediting | Null-Shot Unbeaufsichtigtes und textbasiertes Audiobearbeitung unter Verwendung der DDPM-Inversion. | Arxiv | Audio | |
Audiogen Codec | Eine niedrige Kompression von 48 kHz Stereo -Audio -Codec für allgemeine Audio, die die Audio -Treue optimiert? | Audio | ||
Audiogpt | Sprache, Musik, Klang und sprechender Kopf verstehen und erzeugen. | Arxiv | Audio | |
Audiolcm | Text-to-Audio-Generation mit latenten Konsistenzmodellen. | Arxiv | Audio | |
Audioldm | Text-to-Audio-Erzeugung mit latenten Diffusionsmodellen. | Arxiv | Audio | |
Audioldm 2 | Lernen ganzheitlicher Audiogenerierung mit selbstüberwachender Vorbereitung. | Arxiv | Audio | |
Äuffusion | Nutzung der Kraft der Diffusions- und Großsprachmodelle für die Erzeugung von Text-zu-Audio. | Arxiv | Audio | |
CTAG | Kreative Text-to-Audio-Generation über Synthesizer-Programmierung. | Audio | ||
Foleycrafter | Foleycrafter: Zeigen Sie stille Videos mit lebensechten und synchronisierten Klängen zum Leben. | arXiv | Audio | |
Magnet | Maskierte Audiogenerierung unter Verwendung eines einzelnen nicht autoregressiven Transformators. | Audio | ||
Make-An-Audio | Text-to-Audio-Generierung mit prompt verstärkten Diffusionsmodellen. | Arxiv | Audio | |
Make-An-Audio 3 | Verwandeln von Text in Audio über fließbasierte große Diffusionstransformatoren. | Arxiv | Audio | |
NeuralSound | Lernbasierte modale Klangsynthese mit akustischer Übertragung. | Arxiv | Audio | |
Optimizera | Sounds für Schöpfer, Spielmacher, Künstler, Videohersteller. | Audio | ||
Qwen2-Audio | QWEN2-ADIO CHAT & vorgeschlagenes großes Audiosprachenmodell von Alibaba Cloud vorgeschlagen. | Arxiv | Audio | |
Siehe 2-säuerlich | Räumliche Umgebung zu räumlicher Klang. | Arxiv | Audio | |
Soundstorming | Effiziente parallele Audiogenerierung. | arXiv | Audio | |
Stabiler Audio | Schnell-zeitgesteuerte latente Audiodiffusion. | Audio | ||
Stabiler Audio offen | Stabiles Audio Open 1.0 erzeugt Stereo-Audio-Audio mit 44,1 kHz aus Texteingabeaufforderungen. | Audio | ||
Synkfusion | Synkfusion: Multimodal Beginnsynchronisierte Video-zu-Audio-Foley-Synthese. | Arxiv | Audio | |
TANGO | Text-to-Audio-Erzeugung unter Verwendung von Anweisungen abgestimmtes LLM und latentes Diffusionsmodell. | Audio | ||
Vta-ldm | Video-to-Audio-Generation mit versteckter Ausrichtung. | Arxiv | Audio | |
Wavjourney | Kompositionelle Audioerstellung mit großen Sprachmodellen. | Arxiv | Audio |
^ Zurück zum Inhalt ^
Quelle | Beschreibung | Papier | Game Engine | Typ |
---|---|---|---|---|
AIVA | Die künstliche Intelligenz, die emotionale Soundtrack -Musik komponiert. | Musik | ||
Ampermusik | Benutzerdefinierte Musikgenerierungstechnologie von Amper. | Musik | ||
Boomy | Generative Musik erstellen. Teilen Sie es mit der Welt. | Musik | ||
Chatmusiker | Förderung der intrinsischen musikalischen Fähigkeiten in LLM. | Musik | ||
Chord2Melody | Automatische Musikgenerierung KI. | Musik | ||
Diff-BGM | Ein Diffusionsmodell für die Generierung von Video -Hintergrundmusik. | Arxiv | Musik | |
Fluxmusic | FluxMusic: Text-zu-Music-Erzeugung mit behobenem Flusstransformator. | Arxiv | Musik | |
Gptableton | Entwurfskript zur Verarbeitung von GPT-Antwort und das Senden der MIDI-Notizen in die Ableton-Clips mit Abletonosc und Python-OSC. | Musik | ||
Heymusic.ai | AI -Musikgenerator | Musik | ||
Bild zu Musik | AI Image to Music Generator ist ein Tool, das künstliche Intelligenz verwendet, um Bilder in Musik umzuwandeln. | Musik | ||
Jen-1 | Textgesteuerte universelle Musikgenerierung mit omnidirektionalen Diffusionsmodellen. | Musik | ||
Jukebox | Ein generatives Modell für Musik. | Arxiv | Musik | |
Magenta | Magenta ist ein Forschungsprojekt, das die Rolle des maschinellen Lernens im Prozess der Erstellung von Kunst und Musik untersucht. | Musik | ||
Melodie | Effiziente Generation der neuronalen Musik | Musik | ||
Mubert | AI generative Musik. | Musik | ||
Musenet | Ein tiefes neuronales Netzwerk, das 4-minütige musikalische Kompositionen mit 10 verschiedenen Instrumenten erzeugen und Stile von Land bis Mozart bis zu den Beatles kombinieren kann. | Musik | ||
Musikgen | Einfache und kontrollierbare Musikgenerierung. | arXiv | Musik | |
MusicLdm | Verbesserung der Neuheit in der Text-zu-Musik-Generation mit Beat-Synchronous-Mischungsstrategien. | Arxiv | Musik | |
MusicLM | Musik aus Text erzeugen. | Arxiv | Musik | |
Riffusion App | Riffusion ist eine App für die Echtzeit-Musikgenerierung mit stabiler Diffusion. | Musik | ||
Sonauto | Sonauto ist ein AI -Musikredakteur, der Eingabeaufforderungen, Texte oder Melodien in vollständige Songs in jedem Stil verwandelt. | Musik | ||
Soundraw | AI -Musikgenerator für Schöpfer. | Musik | ||
Klang KI | Generative KI-Tools einschließlich Text-zu-Klingel-Probenpackungen. | Musik |
^ Zurück zum Inhalt ^
Quelle | Beschreibung | Papier | Game Engine | Typ |
---|---|---|---|---|
Diffsinger | Singen der Sprachsynthese über einen flachen Diffusionsmechanismus. | arXiv | Stimme singen | |
Abrufbasiertes Voice-Conversion-Webui | Ein benutzerfreundliches SVC-Framework basierend auf Vits. | Stimme singen | ||
so-vits-svc | Softvc Vits singen Sprachumwandlung. | Stimme singen | ||
Vi-svs | Verwenden Sie Vits und OpenCPOP, um die Synthese der Gesangssprache zu entwickeln. Anders als Visinger. | Stimme singen |
^ Zurück zum Inhalt ^
Quelle | Beschreibung | Papier | Game Engine | Typ |
---|---|---|---|---|
Applio | Ultimate Voice Cloning Tool, sorgfältig optimiert für unvergleichliche Leistung, Modularität und benutzerfreundliche Erfahrung. | Rede | ||
Audyo | Text in. Audio aus. | Rede | ||
Bellen | Textgeprägtes generatives Audiomodell. | Rede | ||
Bert-vits2 | Vits2 Backbone mit mehrsprachiger Bert. | Rede | ||
Chattts | Chattts ist ein generatives Sprachmodell für den täglichen Dialog. | Rede | ||
Klapsspezifikum | Lernprosodie aus dem Textkontext mit kontrastiver Sprache-Audio vor der Ausbildung. | Arxiv | Rede | |
Cosyvoice | Mehrsprachiges Modell mit großer Sprachgenerierung, die Inferenz-, Schulungs- und Bereitstellungsfähigkeit mit Vollstapel bietet. | Rede | ||
Dex-TTS | Diffusionsbasierte ausdrucksstarke Text-zu-Sprache mit Stilmodellierung in der Zeitvariabilität. | Arxiv | Rede | |
Emotivoice | Ein Multi-Voice und ein prompt kontrollierter TTS-Motor. | Rede | ||
Fliki | Verwandeln Sie Text in Videos mit KI -Stimmen. | Rede | ||
GLM-4-VOICE | GLM-4-VOICE ist ein von Zhipu AI gestarteter End-to-End-Sprachmodell. GLM-4-Voice kann chinesische und englische Sprache direkt verstehen und generieren, Echtzeit-Sprachgespräche führen und Attribute wie Emotionen, Intonation, Sprachrate und Dialekt basierend auf Benutzeranweisungen ändern. | Rede | ||
Glühen-TTS | Ein generativer Fluss für Text-zu-Sprache über monotonische Ausrichtungssuche. | Arxiv | Rede | |
GPT-SoVits | Ein leistungsstarkes WEBE-SHOT-Sprachumwandlungen und Text-to-Speech-Webui. | Rede | ||
Lovo | Lovo ist der Go-to-AI-Sprachgenerator und Text-zu-Sprach-Plattform für Tausende von Schöpfer. | Rede | ||
Mahatt | Ein Open-Source-Modell mit großer Sprachgenerierung. | Rede | ||
Matcha-tts | Eine schnelle TTS -Architektur mit bedingter Flussanpassung. | Arxiv | Rede | |
Meloten | Hochwertige multi-linguale Text-zu-Sprache-Bibliothek von myshell.ai. Unterstützt Englisch, Spanisch, Französisch, Chinesisch, Japanisch und Koreanisch. | Rede | ||
Metavoice-1b | KI für Sprachintelligenz auf menschlicher Ebene. | Rede | ||
Narakeet | Erstellen Sie einfach Voiceovers mit realistischem Text zur Sprache. | Rede | ||
Mini-omni | Mini-OMNI: Sprachmodelle können hören, sprechen, während sie im Streaming denken. Mini-omni ist ein Open-Source-Multimodel-Großsprachmodell, das beim Nachdenken hören und sprechen kann. Mit Echtzeit-End-to-End-Spracheingabe- und Streaming-Konversationsfunktionen der Audioausgabe. | Arxiv | Rede | |
One-Shot-Voice-Kloning | One Shot Voice Cloning Basis auf Unet-TTs. | Rede | ||
OpenVoice | Sofortiges Stimme klonen von Myshell. | Rede | ||
Überlauf | Durch bessere TTs fließen auf neuronale Wandler. | Rede | ||
Realtimetts | Realtimetts ist eine hochmoderne Text-to-Speech-Bibliothek (TTS) für Echtzeitanwendungen. | Rede | ||
Sensevoice | Sensevoice ist ein Sprachgrundmodell mit mehreren Sprachverständnisfunktionen, einschließlich der automatischen Spracherkennung (ASR), der Identifizierung von Spoken Language (LID), der Erkennung von Sprachemotionen (SER) und der Erkennung von Audioereignissen (AED). | Rede | ||
Sprache | Ermächtigung großer Sprachmodelle mit intrinsischen Kreuzungsfähigkeiten mit Kreuzmodal. | Arxiv | Rede | |
Sprach-zu-Text-GPT3-Unität | Dies ist das Repo, das ich Whisper und Chatgpt -API von Openai in Einheit benutze. | Einheit | Rede | |
Stabile Sprache | Text-to-Speech-Modell der Stabilität AI. | Rede | ||
Stabletts | TTS-Modell der nächsten Generation unter Verwendung von Flow-Matching und DIT, inspiriert von stabiler Diffusion 3. | Rede | ||
Styletts 2 | In Richtung Text-to-Sprache auf menschlicher Ebene durch Stildiffusion und kontroverses Training mit großen Sprachmodellen. | Arxiv | Rede | |
tortoise.cpp | Tortoise.cpp: GGML-Umsetzung von Schildkröten-TTs. | Rede | ||
Schildkröte | Ein Multi-Voice-TTS-System mit Schwerpunkt auf Qualität. | Rede | ||
TTS -Generation Webui | TTS Generation Webui (Bark, Musicgen, Tortoise, RVC, Vocos, Demucs). | Rede | ||
Vall-e | Neuronale Codec-Sprachmodelle sind Null-Shot-Text zu Sprachsynthesizern. | Arxiv | Rede | |
Vall-e x | Sprechen Sie Fremdsprachen mit Ihrer eigenen Stimme: bringliche neuronale Codec-Sprachmodellierung | Arxiv | Rede | |
Vocode | Code ist eine Open-Source-Bibliothek zum Erstellen von Sprach-basierte LLM-Anwendungen. | Rede | ||
Voicebox | Textgesteuerte mehrsprachige universelle Sprachgenerierung im Maßstab. | Arxiv | Rede | |
Voicecraft | Sprachbearbeitung von Zero-Shot und Text-zu-Sprache in freier Wildbahn. | Rede | ||
Flüstern | Whisper ist ein allgemeines Spracherkennungsmodell. | Rede | ||
Flüstern | Ein Open-Source-Text-zu-Sprach-System, das von Inverting Whisper erstellt wurde. | Rede | ||
Xe-Speech | Gemeinsamer Trainingsrahmen für nicht-autoregressive, übersprachige emotionale Text-zu-Sprache-Konvertierung. | Rede | ||
XTTs | XTTS ist eine Bibliothek für erweiterte Text-zu-Sprache-Generation. | Rede | ||
Yourtts | In Richtung Null-Shot-Multi-Sprecher-TTS und Null-Shot-Sprachumwandlung für alle. | Arxiv | Rede | |
Zmm-tts | Null-Shot-mehrsprachige und Multispeaker-Sprachsynthese, die auf selbstversorgungen diskreten Sprachdarstellungen konditioniert sind. | Arxiv | Rede |
^ Zurück zum Inhalt ^
Quelle | Beschreibung | Game Engine | Typ |
---|---|---|---|
Ludo.ai | Assistent für Spieleforschung und Design. | Analytik |
^ Zurück zum Inhalt ^