ai game devtools
1.0.0
ที่นี่เราจะติดตามเครื่องมือพัฒนาเกม AI ล่าสุด รวมถึง LLM, เอเจนต์, โค้ด, นักเขียน, รูปภาพ, พื้นผิว, Shader, โมเดล 3 มิติ, แอนิเมชัน, วิดีโอ, เสียง, เพลง, เสียงร้องเพลง และการวิเคราะห์
แหล่งที่มา | คำอธิบาย | กระดาษ | เครื่องยนต์เกม | พิมพ์ |
---|---|---|---|---|
AgentGPT | - รวบรวม กำหนดค่า และปรับใช้ AI Agent อัตโนมัติในเบราว์เซอร์ของคุณ | เครื่องมือ | ||
คำสั่ง AI | การรวม ChatGPT กับ Unity Editor | ความสามัคคี | เครื่องมือ | |
เอไอเอส | ระบบปฏิบัติการตัวแทน LLM | เครื่องมือ | ||
นักวิทยาศาสตร์เอไอ | นักวิทยาศาสตร์ AI: สู่การค้นพบทางวิทยาศาสตร์แบบเปิดอัตโนมัติเต็มรูปแบบ | อาร์เอ็กซ์ | เครื่องมือ | |
ผู้ช่วยคลี | เครื่องมือ CLI ที่สะดวกสบายในการใช้บริการ ChatGPT | เครื่องมือ | ||
อัตโนมัติ-GPT | ความพยายามแบบโอเพ่นซอร์สแบบทดลองเพื่อทำให้ GPT-4 เป็นอิสระโดยสมบูรณ์ | เครื่องมือ | ||
เบบี้เอจี | สคริปต์ Python นี้เป็นตัวอย่างของระบบการจัดการงานที่ขับเคลื่อนด้วย AI | เครื่องมือ | ||
- UI ของ BabyAGI | BabyAGI UI ได้รับการออกแบบมาเพื่อให้เรียกใช้และพัฒนากับ babyagi ในเว็บแอปได้ง่ายขึ้น เช่น ChatGPT | เครื่องมือ | ||
ไป๋ชวน-7B | โมเดลภาษาฝึกหัด 7B ขนาดใหญ่ที่พัฒนาโดย Baichuan | เครื่องมือ | ||
ไป๋ชวน-13B | โมเดลภาษาขนาดใหญ่ 13B ที่พัฒนาโดย Baichuan Intelligent Technology | เครื่องมือ | ||
ใบชวน 2 | ชุดโมเดลภาษาขนาดใหญ่ที่พัฒนาโดย Baichuan Intelligent Technology | เครื่องมือ | ||
ปี่เฉิง | Bisheng เป็นแพลตฟอร์ม Devops LLM แบบเปิดสำหรับแอปพลิเคชัน AI รุ่นต่อไป | เครื่องมือ | ||
ตัวละคร-LLM | ตัวแทนฝึกหัดสำหรับการเล่นตามบทบาท | อาร์เอ็กซ์ | เครื่องมือ | |
แชทเดฟ | ตัวแทนการสื่อสารเพื่อการพัฒนาซอฟต์แวร์ | อาร์เอ็กซ์ | เครื่องมือ | |
ChatGPT-API-unity | ผูก API การแชท ChatGPT เข้ากับ C # ล้วนๆ บน Unity | ความสามัคคี | เครื่องมือ | |
ChatGPTForUnity | ChatGPT เพื่อความสามัคคี | ความสามัคคี | เครื่องมือ | |
แชทRWKV | ChatRWKV เหมือนกับ ChatGPT แต่ขับเคลื่อนโดยโมเดลภาษา RWKV (100% RNN) และโอเพ่นซอร์ส | เครื่องมือ | ||
แชทหยวน | โมเดลภาษาขนาดใหญ่สำหรับบทสนทนาในภาษาจีนและอังกฤษ | เครื่องมือ | ||
จีน-LLaMA-Alpaca-3 | (LLM จีน Llama-3) พัฒนาจาก Meta Llama 3 | เครื่องมือ | ||
Chrome-GPT | ตัวแทน AutoGPT ที่ควบคุม Chrome บนเดสก์ท็อปของคุณ | เครื่องมือ | ||
CogVLM | CogVLM ซึ่งเป็นโมเดลพื้นฐานภาษาภาพแบบโอเพ่นซอร์สที่ทรงพลัง | อาร์เอ็กซ์ | เครื่องมือ | |
คอร์เน็ต | ห้องสมุดสำหรับการฝึกอบรมโครงข่ายประสาทเทียมเชิงลึก | เครื่องมือ | ||
จักรวาล | Cosmos เป็นแพลตฟอร์มการพัฒนาแบบจำลองโลกที่ประกอบด้วยแบบจำลองพื้นฐานของโลก โทเค็นไนเซอร์ และขั้นตอนการประมวลผลวิดีโอเพื่อเร่งการพัฒนา Physical AI ที่ห้องปฏิบัติการ Robotics & AV | นิติศาสตร์มหาบัณฑิต | ||
ดีบีอาร์เอ็กซ์ | DBRX เป็นโมเดลภาษาขนาดใหญ่ที่ได้รับการฝึกฝนโดย Databricks | เครื่องมือ | ||
ดีซีแอลเอ็ม | DataComp สำหรับโมเดลภาษา | อาร์เอ็กซ์ | เครื่องมือ | |
DeepSeek-V3 | DeepSeek-V3 เป็นโมเดลภาษา Mixture-of-Experts (MoE) ที่แข็งแกร่ง โดยมีพารามิเตอร์รวม 671B โดยเปิดใช้งาน 37B สำหรับแต่ละโทเค็น | อาร์เอ็กซ์ | นิติศาสตร์มหาบัณฑิต | |
การสาธิตGPT | เครื่องสร้างแอป Gen-AI อัตโนมัติพร้อมพลังของ Llama 2 | เครื่องมือ | ||
ดีไซน์2โค้ด | วิศวกรรมส่วนหน้าอัตโนมัติ | เครื่องมือ | ||
เทวีกา | Devika เป็นวิศวกรซอฟต์แวร์ Agentic AI | เครื่องมือ | ||
เดวอน | โปรแกรมเมอร์คู่โอเพ่นซอร์ส | เครื่องมือ | ||
ดอร่า | การสร้างเว็บไซต์ที่มีประสิทธิภาพ ทีละเว็บไซต์ | เครื่องมือ | ||
ไหลลื่น | ลากและวาง UI เพื่อสร้างโฟลว์ LLM ที่คุณกำหนดเองโดยใช้ LangchainJS | เครื่องมือ | ||
ราศีเมถุน | Gemini สร้างขึ้นจากพื้นฐานสำหรับความหลากหลาย — การให้เหตุผลกับข้อความ รูปภาพ วิดีโอ เสียง และโค้ดได้อย่างราบรื่น | เครื่องมือ | ||
เจมม่า | Gemma คือกลุ่มผลิตภัณฑ์โมเดลแบบเปิดน้ำหนักเบาล้ำสมัยที่สร้างขึ้นจากการวิจัยและเทคโนโลยีที่ใช้ในการสร้างโมเดล Google Gemini | เครื่องมือ | ||
gemma.cpp | เครื่องมืออนุมาน C++ แบบสแตนด์อโลนน้ำหนักเบาสำหรับโมเดล Gemma ของ Google | เครื่องมือ | ||
GLM-4 | GLM-4-9B เป็นเวอร์ชันโอเพ่นซอร์สของโมเดลที่ผ่านการฝึกอบรมล่วงหน้ารุ่นล่าสุดในซีรีส์ GLM-4 ที่ Zhipu AI เปิดตัว | เครื่องมือ | ||
GPT4All | แชทบอทที่ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลผู้ช่วยที่สะอาดจำนวนมหาศาล รวมถึงโค้ด เรื่องราว และบทสนทนา | เครื่องมือ | ||
GPT-4o | GPT-4o (“o” สำหรับ “omni”) เป็นก้าวหนึ่งไปสู่การโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์ที่เป็นธรรมชาติมากขึ้น โดยยอมรับเป็นการป้อนข้อความ เสียง รูปภาพ และวิดีโอ และสร้างการผสมผสานระหว่างข้อความ เสียง และรูปภาพ เอาท์พุท | เครื่องมือ | ||
GPTScript | พัฒนาแอป LLM ในภาษาธรรมชาติ | เครื่องมือ | ||
กร็อก-1 | น้ำหนักและสถาปัตยกรรมของ Grok-1 โมเดล Mixture-of-Experts ของเราที่มีพารามิเตอร์ 314 พันล้านพารามิเตอร์ | เครื่องมือ | ||
กอดChat | ทำให้ทุกคนสามารถใช้โมเดลการแชท AI ที่ดีที่สุดของชุมชนได้ | เครื่องมือ | ||
การบูรณาการความสามัคคีของ Face API ของ Hugging Face | แพ็คเกจ Unity นี้มอบการผสานรวมที่ใช้งานง่ายสำหรับ Hugging Face Inference API ช่วยให้นักพัฒนาสามารถเข้าถึงและใช้โมเดล Hugging Face AI ภายในโปรเจ็กต์ Unity ของตนได้ | ความสามัคคี | เครื่องมือ | |
ImageBind | ImageBind One การฝังพื้นที่เพื่อผูกมันทั้งหมด | อาร์เอ็กซ์ | เครื่องมือ | |
ดัชนี-1.9B | SOTA LLM หลายภาษาน้ำหนักเบา | เครื่องมือ | ||
InteractiveML-Unity | InteractML ซึ่งเป็นเฟรมเวิร์กการเขียนสคริปต์ภาพการเรียนรู้ของเครื่องเชิงโต้ตอบสำหรับ Unity3D | ความสามัคคี | เครื่องมือ | |
InteractML-Unreal Engine | นำการเรียนรู้ของเครื่องมาสู่ Unreal Engine | เครื่องยนต์ที่ไม่จริง | เครื่องมือ | |
ฝึกงานLM | InternLM ได้ใช้โมเดลพื้นฐานแบบโอเพ่นซอร์สจำนวน 7 พันล้านแบบ ซึ่งเป็นโมเดลการแชทที่ปรับให้เหมาะกับสถานการณ์จริงและระบบการฝึกอบรม | อาร์เอ็กซ์ | เครื่องมือ | |
ฝึกงานLM-XComposer | InternLM-XComposer2 เป็นโมเดลขนาดใหญ่ภาษาวิสัยทัศน์ (VLLM) ที่ก้าวล้ำซึ่งมีความเป็นเลิศในการจัดองค์ประกอบข้อความและรูปภาพในรูปแบบอิสระและความเข้าใจ | อาร์เอ็กซ์ | เครื่องมือ | |
ม.ค | นำ AI มาสู่เดสก์ท็อปของคุณ | เครื่องมือ | ||
ลามินี | Lamini ช่วยให้ทีมวิศวกรมีประสิทธิภาพเหนือกว่า LLM ทั่วไปผ่าน RLHF และปรับแต่งข้อมูลของตนเองอย่างละเอียด | เครื่องมือ | ||
ลามินิ-LM | LaMini-LM คือคอลเลกชันของโมเดลภาษาขนาดเล็กที่มีประสิทธิภาพซึ่งกลั่นจาก ChatGPT และฝึกฝนบนชุดข้อมูลขนาดใหญ่ที่มีคำสั่ง 2.58M | เครื่องมือ | ||
แลงเชน | LangChain เป็นเฟรมเวิร์กสำหรับการพัฒนาแอปพลิเคชันที่ขับเคลื่อนโดยโมเดลภาษา | เครื่องมือ | ||
แลงโฟลว์ | ⛓️ LangFlow เป็น UI สำหรับ LangChain ที่ออกแบบมาพร้อมโฟลว์ปฏิกิริยาเพื่อให้วิธีการทดสอบและสร้างต้นแบบโฟลว์ที่ง่ายดาย | เครื่องมือ | ||
ลาวาเก้ | ทำให้เป็นอัตโนมัติด้วยเฟรมเวิร์ก Large Action Model | เครื่องมือ | ||
ลีเมอร์ | เปิดโมเดลพื้นฐานสำหรับตัวแทนภาษา | เครื่องมือ | ||
เลปตัน เอไอ | กรอบงาน Pythonic เพื่อทำให้การสร้างบริการ AI ง่ายขึ้น | เครื่องมือ | ||
ลิต-ลามา | การใช้งานโมเดลภาษา LLaMA ที่ใช้ nanoGPT รองรับ Flash Attention, Int8 และ GPTQ 4 บิต, การปรับแต่ง LoRA และ LLaMA-Adapter, การฝึกอบรมล่วงหน้า | เครื่องมือ | ||
llama2-webui | เรียกใช้ Llama 2 ในเครื่องด้วย gradio UI บน GPU หรือ CPU ได้จากทุกที่ (Linux/Windows/Mac) | เครื่องมือ | ||
ลามะ 3 | เว็บไซต์ Meta Llama 3 GitHub อย่างเป็นทางการ | เครื่องมือ | ||
ลามะ 3.1 | Llama คือโมเดลภาษาขนาดใหญ่แบบเปิด (LLM) ที่สามารถเข้าถึงได้และออกแบบมาสำหรับนักพัฒนา นักวิจัย และธุรกิจต่างๆ เพื่อสร้าง ทดลอง และปรับขนาดแนวคิด AI เชิงสร้างสรรค์อย่างมีความรับผิดชอบ | เครื่องมือ | ||
แอลลาเอสเอ็ม | รูปแบบภาษาและคำพูดขนาดใหญ่ | เครื่องมือ | ||
โปรแกรมตอบ LLM | สร้างเอนจิ้นคำตอบที่ได้รับแรงบันดาลใจจากความงุนงงโดยใช้ Next.js, Groq, Mixtral, Langchain, OpenAI, Brave & Serper | เครื่องมือ | ||
llm.c | การฝึกอบรม LLM ด้วย C/CUDA แบบ Raw ที่เรียบง่าย | เครื่องมือ | ||
LLMUnity | สร้างตัวละครใน Unity ด้วย LLM! | ความสามัคคี | เครื่องมือ | |
LLocalSearch | LLocalSearch เป็นเครื่องมือค้นหาที่ทำงานในพื้นที่โดยสมบูรณ์โดยใช้ LLM Agents | เครื่องมือ | ||
LogicGamesSolver | เครื่องมือ Python สำหรับแก้เกมลอจิกด้วย AI, Deep Learning และ Computer Vision | เครื่องมือ | ||
ลองไรท์เตอร์ | LongWriter: ปลดปล่อยการสร้างคำมากกว่า 10,000 คำจาก LLM ที่มีบริบทแบบยาว | อาร์เอ็กซ์ | เครื่องมือ | |
โมเดลโลกขนาดใหญ่ (LWM) | Large World Model (LWM) เป็นโมเดลการถดถอยอัตโนมัติหลายรูปแบบในบริบทขนาดใหญ่สำหรับวัตถุประสงค์ทั่วไป | อาร์เอ็กซ์ | เครื่องมือ | |
ลูมิน่า-T2X | Lumina-T2X เป็นเฟรมเวิร์กแบบรวมสำหรับการสร้างข้อความเป็น Modality ใดๆ | อาร์เอ็กซ์ | เครื่องมือ | |
MetaGPT | กรอบการทำงานหลายตัวแทน | เครื่องมือ | ||
MiniCPM-2B | LLM ด้านท้ายมีประสิทธิภาพเหนือกว่า Llama2-13B | เครื่องมือ | ||
มินิ GPT-4 | ปรับปรุงความเข้าใจภาษาวิสัยทัศน์ด้วยโมเดลภาษาขนาดใหญ่ขั้นสูง | อาร์เอ็กซ์ | เครื่องมือ | |
มินิ GPT-5 | การสร้างวิสัยทัศน์และภาษาแบบแทรกผ่าน Generative Vokens | อาร์เอ็กซ์ | เครื่องมือ | |
มิกซ์ทรัล 8x7B | ส่วนผสมของผู้เชี่ยวชาญคุณภาพสูงกระจัดกระจาย | อาร์เอ็กซ์ | เครื่องมือ | |
มิสทรัล 7B | รุ่น 7B ที่ดีที่สุดในปัจจุบัน Apache 2.0 | เครื่องมือ | ||
มิสทรัล ใหญ่ | Mistral Large คือโมเดลการสร้างข้อความที่ล้ำสมัยรูปแบบใหม่ มันเข้าถึงความสามารถในการให้เหตุผลระดับสูง | เครื่องมือ | ||
MLC แอลแอลเอ็ม | ช่วยให้ทุกคนสามารถพัฒนา เพิ่มประสิทธิภาพ และปรับใช้โมเดล AI บนอุปกรณ์ของทุกคนได้ | เครื่องมือ | ||
โมบีลามะ | สู่ GPT ที่แม่นยำและน้ำหนักเบาอย่างโปร่งใส | อาร์เอ็กซ์ | เครื่องมือ | |
โมอี-ลาวา | การผสมผสานของผู้เชี่ยวชาญสำหรับโมเดลที่มีภาษาวิสัยทัศน์ขนาดใหญ่ | อาร์เอ็กซ์ | เครื่องมือ | |
โมชิ | Moshi คือ AI เชิงสนทนาแบบทดลอง | เครื่องมือ | ||
โมชิ | Moshi: โมเดลพื้นฐานคำพูดและข้อความสำหรับบทสนทนาแบบเรียลไทม์ | เครื่องมือ | ||
มอส | โมเดลภาษาสนทนาที่เสริมด้วยเครื่องมือโอเพ่นซอร์สจากมหาวิทยาลัย Fudan | เครื่องมือ | ||
mPLUG-นกฮูก? | การทำให้เป็นโมดูลช่วยเพิ่มพลังให้กับโมเดลภาษาขนาดใหญ่ที่มีหลากหลายรูปแบบ | อาร์เอ็กซ์ | เครื่องมือ | |
นีโมตรอน-4 | โมเดลภาษาหลายภาษาขนาดใหญ่ 15 พันล้านพารามิเตอร์ที่ฝึกฝนบนโทเค็นข้อความ 8 ล้านล้าน | อาร์เอ็กซ์ | เครื่องมือ | |
ถัดไป-GPT | โมเดลภาษาขนาดใหญ่หลายรูปแบบแบบใดก็ได้ต่อทุกรูปแบบ | เครื่องมือ | ||
โอลโม | เปิดโมเดลภาษา | อาร์เอ็กซ์ | เครื่องมือ | |
OmniLMM | โมเดลหลายรูปแบบขนาดใหญ่เพื่อประสิทธิภาพที่แข็งแกร่งและการปรับใช้ที่มีประสิทธิภาพ | เครื่องมือ | ||
วันแอลเอ็ม | กรอบงานเดียวเพื่อจัดรูปแบบทั้งหมดให้สอดคล้องกับภาษา | อาร์เอ็กซ์ | เครื่องมือ | |
เปิดผู้ช่วย | OpenAssistant เป็นผู้ช่วยทางแชทที่เข้าใจงานต่างๆ สามารถโต้ตอบกับระบบของบุคคลที่สาม และดึงข้อมูลแบบไดนามิกเพื่อดำเนินการดังกล่าว | เครื่องมือ | ||
OpenDevin | วิศวกรซอฟต์แวร์ AI อัตโนมัติ | เครื่องมือ | ||
กลุ่มดาวนายพราน-14B | Orion-14B เป็นตระกูลของรุ่นประกอบด้วย 14B Foundation LLM และซีรีส์ของรุ่น | อาร์เอ็กซ์ | เครื่องมือ | |
แพนด้า | โมเดลภาษาโอเพ่นซอร์สขนาดใหญ่ของจีนในต่างประเทศ อิงตาม Llama-7B, -13B, -33B, -65B สำหรับการฝึกอบรมล่วงหน้าอย่างต่อเนื่องในสาขาภาษาจีน | เครื่องมือ | ||
เพอร์เพล็กซ์ซิกา | เครื่องมือค้นหาที่ขับเคลื่อนด้วย AI | เครื่องมือ | ||
พาย | แชทบอท AI ออกแบบมาเพื่อความช่วยเหลือส่วนบุคคลและการสนับสนุนทางอารมณ์ | เครื่องมือ | ||
คิวเวน1.5 | Qwen1.5 เป็นเวอร์ชันปรับปรุงของ Qwen | เครื่องมือ | ||
คิวเวน2 | Qwen2 เป็นซีรีส์โมเดลภาษาขนาดใหญ่ที่พัฒนาโดยทีม Qwen แห่ง Alibaba Cloud | เครื่องมือ | ||
คิวเวน-7B | การซื้อคืนอย่างเป็นทางการของการแชท Qwen-7B (通义千问-7B) และโมเดลภาษาขนาดใหญ่ที่ได้รับการฝึกอบรมล่วงหน้า เสนอโดย Alibaba Cloud | เครื่องมือ | ||
RepoAgent | RepoAgent เป็นโปรเจ็กต์โอเพ่นซอร์สที่ขับเคลื่อนโดย Large Language Models (LLM) ซึ่งมีจุดมุ่งหมายเพื่อมอบวิธีที่ชาญฉลาดในการจัดทำเอกสารโปรเจ็กต์ | อาร์เอ็กซ์ | เครื่องมือ | |
เครื่องยนต์ Sanity AI | Sanity AI Engine สำหรับเครื่องมือพัฒนาเกม Unity | ความสามัคคี | เครื่องมือ | |
ค้นหาGPT | - การเชื่อมต่อ ChatGPT กับอินเทอร์เน็ต | เครื่องมือ | ||
แชร์GPT4V | การปรับปรุงโมเดล Multi-Modal ขนาดใหญ่พร้อมคำบรรยายที่ดีกว่า | เครื่องมือ | ||
สกายเวิร์ค | รุ่นซีรีส์ Skywork ได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับข้อมูลโค้ดและหลายภาษาคุณภาพสูงขนาด 3.2TB (ส่วนใหญ่เป็นภาษาจีนและอังกฤษ) | เครื่องมือ | ||
LM เสถียร | โมเดลภาษา AI ความเสถียร | อาร์เอ็กซ์ | เครื่องมือ | |
อัลปาก้าสแตนฟอร์ด | โมเดล LLaMA ที่ปฏิบัติตามคำสั่ง | เครื่องมือ | ||
UI เว็บการสร้างข้อความ | UI เว็บ gradio สำหรับการรันโมเดลภาษาขนาดใหญ่ เช่น LLaMA, llama.cpp, GPT-J, OPT และ GALACTICA | เครื่องมือ | ||
TinyChatEngine | ไลบรารีการอนุมาน LLM บนอุปกรณ์ | เครื่องมือ | ||
ToolBench | แพลตฟอร์มแบบเปิดสำหรับการฝึกอบรม การให้บริการ และการประเมินโมเดลภาษาขนาดใหญ่สำหรับการเรียนรู้เครื่องมือ | เครื่องมือ | ||
Unity ChatGPT | การทดลอง Unity ChatGPT | ความสามัคคี | เครื่องมือ | |
การรวมความสามัคคี OpenAI-API | รวมโมเดลภาษา openai GPT-3 และ ChatGPT API เข้ากับโปรเจ็กต์ Unity | ความสามัคคี | เครื่องมือ | |
Unreal Engine 5 ลามะ LoRA | โครงการพิสูจน์แนวคิดที่นำเสนอศักยภาพในการใช้ LLM ขนาดเล็กที่สามารถฝึกอบรมได้ในท้องถิ่น เพื่อสร้างเครื่องมือเอกสารรุ่นต่อไป | เครื่องยนต์ที่ไม่จริง | เครื่องมือ | |
UnrealGPT | ชุดวิดเจ็ตยูทิลิตี้ Unreal Engine 5 Editor ที่ขับเคลื่อนโดย GPT3/4 | เครื่องยนต์ที่ไม่จริง | เครื่องมือ | |
วิดีโอ-LLaVA | การเรียนรู้การเป็นตัวแทนภาพโดยการจัดตำแหน่งก่อนการฉายภาพ | อาร์เอ็กซ์ | เครื่องมือ | |
WebGPT | เรียกใช้โมเดล GPT บนเบราว์เซอร์ด้วย WebGPU | เครื่องมือ | ||
Web3-GPT | ปรับใช้สัญญาอัจฉริยะกับ AI | เครื่องมือ | ||
WordGPT | - นำพลังของ ChatGPT มาสู่ Microsoft Word | เครื่องมือ | ||
XAgent | เอเจนต์ LLM อัตโนมัติสำหรับการแก้ปัญหางานที่ซับซ้อน | เครื่องมือ | ||
ยี | ชุดโมเดลภาษาขนาดใหญ่ที่ได้รับการฝึกอบรมตั้งแต่เริ่มต้นโดยนักพัฒนา | เครื่องมือ | ||
01 โครงการ | คอมพิวเตอร์จำลองภาษาโอเพ่นซอร์ส | เครื่องมือ |
^ กลับสู่เนื้อหา ^
แหล่งที่มา | คำอธิบาย | กระดาษ | เครื่องยนต์เกม | พิมพ์ |
---|---|---|---|---|
ตัวแทนBench | เกณฑ์มาตรฐานที่ครอบคลุมเพื่อประเมิน LLM ในฐานะตัวแทน | อาร์เอ็กซ์ | ตัวแทน | |
แชทกลุ่มตัวแทน | Simulacra แชทกลุ่มแบบโต้ตอบเพื่อกระตุ้นพฤติกรรมฉุกเฉินโดยรวมที่ดีขึ้น | อาร์เอ็กซ์ | ตัวแทน | |
ตัวแทนเค | AGI อัตโนมัติที่พัฒนาตนเองและเป็นโมดูล | ตัวแทน | ||
เอเจนท์สโคป | เริ่มสร้างแอปพลิเคชันหลายตัวแทนที่เสริมศักยภาพ LLM ในวิธีที่ง่ายกว่า | อาร์เอ็กซ์ | ตัวแทน | |
เอเจนท์ซิมส์ | แซนด์บ็อกซ์โอเพ่นซอร์สสำหรับการประเมินโมเดลภาษาขนาดใหญ่ | ตัวแทน | ||
เอไอทาวน์ | AI Town คือเมืองเสมือนจริงที่ตัวละคร AI อาศัยอยู่ พูดคุย และเข้าสังคม | ตัวแทน | ||
anime.gf | ทางเลือกท้องถิ่นและโอเพ่นซอร์สสำหรับ CharacterAI | เกม | ||
โหราศาสตร์ | สร้างเกมด้วย AI | เกม | ||
ตัวแทนอะตอม | กรอบงาน Atomic Agents ได้รับการออกแบบให้เป็นโมดูลาร์ ขยายได้ และใช้งานง่าย | ตัวแทน | ||
ตัวแทนอัตโนมัติ | กรอบการทำงานสำหรับการสร้างตัวแทนอัตโนมัติ | ตัวแทน | ||
ออโต้เจน | เปิดใช้งานแอปพลิเคชันโมเดลภาษาขนาดใหญ่รุ่นถัดไป | อาร์เอ็กซ์ | ตัวแทน | |
พฤติกรรม | Behaviac เป็นกรอบการพัฒนาเกม AI | กรอบ | ||
ไบโอม | Biomes คือ MMORPG แบบแซนด์บ็อกซ์แบบโอเพ่นซอร์สที่สร้างขึ้นสำหรับเว็บโดยใช้เทคโนโลยีเว็บ เช่น Next.js, Typescript, React และ WebAssembly | เกม | ||
บัฟเฟอร์ของความคิด | การใช้เหตุผลเสริมความคิดด้วยแบบจำลองภาษาขนาดใหญ่ | อาร์เอ็กซ์ | ตัวแทน | |
Byzer-ตัวแทน | กรอบงานตัวแทนที่ง่าย รวดเร็ว และกระจายสำหรับทุกคน | ตัวแทน | ||
เมืองแมว | การจำลองที่ขับเคลื่อนด้วย AC (h) atGPT กับแมว | ตัวแทน | ||
เมืองแมว | การจำลองที่ขับเคลื่อนด้วย AC (h) atGPT กับแมว | ตัวแทน | ||
อักขระGLM | การปรับแต่งอักขระ AI สนทนาภาษาจีนด้วยโมเดลภาษาขนาดใหญ่ | อาร์เอ็กซ์ | ตัวแทน | |
แชทเดฟ | ตัวแทนการสื่อสารเพื่อการพัฒนาซอฟต์แวร์ | อาร์เอ็กซ์ | ตัวแทน | |
CogAgent | CogAgent เป็นโมเดลภาษาภาพแบบโอเพ่นซอร์สที่ได้รับการปรับปรุงโดยใช้ CogVLM | อาร์เอ็กซ์ | ตัวแทน | |
เปล | สู่การควบคุมคอมพิวเตอร์ทั่วไป | ตัวแทน | ||
ลูกเรือAI | กรอบการทำงานสำหรับการจัดการตัวแทน AI ที่ทำงานตามบทบาทและเป็นอิสระ | ตัวแทน | ||
ดิฟาย | Dify เป็นแพลตฟอร์มการสร้างแอป LLM แบบโอเพ่นซอร์ส | ตัวแทน | ||
โครงการชีวิตดิจิทัล | ตัวละคร 3 มิติที่เป็นอิสระพร้อมความฉลาดทางสังคม | อาร์เอ็กซ์ | ตัวแทน | |
ทุกอย่าง-ai | ผู้ช่วยแชทบอทท้องถิ่นที่ขับเคลื่อนด้วย AI และเชี่ยวชาญอย่างเต็มที่ของคุณ?. | ตัวแทน | ||
ผ้า | Fabric เป็นเฟรมเวิร์กโอเพ่นซอร์สสำหรับเพิ่มมนุษย์โดยใช้ AI | ตัวแทน | ||
FastGPT | FastGPT เป็นแพลตฟอร์มฐานความรู้ที่สร้างขึ้นบน LLM | ตัวแทน | ||
รวดเร็วRAG | กรอบงานการเสริมและการสร้างการดึงข้อมูลที่มีประสิทธิภาพ | ตัวแทน | ||
เกมAISDK | เฟรมเวิร์กอัตโนมัติ AI ของเกมที่ใช้รูปภาพ | กรอบ | ||
เกมเอ็นเจน | โมเดลการแพร่กระจายเป็นเอ็นจิ้นเกมแบบเรียลไทม์ | อาร์เอ็กซ์ | เกม | |
เกม Gen-O | GameGen-O: การสร้างวิดีโอเกมแบบเปิดโลก | เกม | ||
GenAgent | GenAgent: สร้างระบบ AI ที่ทำงานร่วมกันด้วยการสร้างเวิร์กโฟลว์อัตโนมัติ - กรณีศึกษาบน ComfyUI | อาร์เอ็กซ์ | ตัวแทน | |
เจเนอเรชั่นเอเจนต์ | Simulacra แบบโต้ตอบของพฤติกรรมมนุษย์ | อาร์เอ็กซ์ | ตัวแทน | |
ปฐมกาล | ปฐมกาล: เครื่องยนต์กำเนิดฟิสิกส์สากลสำหรับหุ่นยนต์และอื่นๆ | เกม | ||
มาร | สภาพแวดล้อมแบบโต้ตอบเชิงสร้างสรรค์ | เกม | ||
กิ๊กซ์ | รันไทม์ NPC ที่ขับเคลื่อนด้วย LLM | เกม | ||
ฮิปโปแร็ก | หน่วยความจำระยะยาวที่ได้รับแรงบันดาลใจจากระบบประสาทสำหรับโมเดลภาษาขนาดใหญ่ | อาร์เอ็กซ์ | ตัวแทน | |
NPC ที่ขับเคลื่อนด้วย LLM แบบโต้ตอบ | NPC ที่ขับเคลื่อนด้วย LLM แบบโต้ตอบเป็นโปรเจ็กต์โอเพ่นซอร์สที่แปลงการโต้ตอบของคุณกับตัวละครที่ไม่ใช่ผู้เล่น (NPC) ในเกมใด ๆ อย่างสมบูรณ์! | เกม | ||
ไอโอเอ | เฟรมเวิร์กโอเพ่นซอร์สสำหรับตัวแทน AI ที่ทำงานร่วมกัน ช่วยให้ตัวแทนที่หลากหลายและกระจายตัวสามารถรวมทีมและจัดการงานที่ซับซ้อนผ่านการเชื่อมต่อที่เหมือนกับอินเทอร์เน็ต | ตัวแทน | ||
แควเอเจนท์ | ระบบตัวแทนการค้นหาข้อมูลทั่วไปพร้อม Large Language Models (LLM) | อาร์เอ็กซ์ | ตัวแทน | |
แลงเชน | รับแอปพลิเคชัน LLM ของคุณตั้งแต่ต้นแบบไปจนถึงการใช้งานจริง | ตัวแทน | ||
แลงโฟลว์ | Langflow เป็น UI สำหรับ LangChain ที่ออกแบบมาพร้อมกับโฟลว์ปฏิกิริยาเพื่อให้วิธีการทดสอบและสร้างโฟลว์ต้นแบบได้อย่างง่ายดาย | ตัวแทน | ||
แลงกราฟ สตูดิโอ | LangGraph Studio นำเสนอวิธีใหม่ในการพัฒนาแอปพลิเคชัน LLM โดยการจัดหา IDE ตัวแทนพิเศษที่ช่วยให้สามารถสร้างภาพ การโต้ตอบ และการแก้ไขข้อบกพร่องของแอปพลิเคชันตัวแทนที่ซับซ้อน | ตัวแทน | ||
ลาร์ป | Language-Agent Role Play สำหรับเกมโอเพ่นเวิลด์ | อาร์เอ็กซ์ | ตัวแทน | |
ระบบตัวแทนลามะ | ส่วนประกอบตัวแทนของ Llama Stack API | ตัวแทน | ||
ลามะIndex | LlamaIndex เป็นเฟรมเวิร์กข้อมูลสำหรับแอปพลิเคชัน LLM ของคุณ | ตัวแทน | ||
มายด์ค้นหา | - Multi-agent Framework ที่ใช้ LLM ของ Web Search Engine (เช่น Perplexity.ai Pro และ SearchGPT) | ตัวแทน | ||
ส่วนผสมของตัวแทน (MoA) | การผสมผสานของตัวแทนช่วยเพิ่มความสามารถของโมเดลภาษาขนาดใหญ่ | อาร์เอ็กซ์ | ตัวแทน | |
MMRole | MMRole: กรอบการทำงานที่ครอบคลุมสำหรับการพัฒนาและประเมินตัวแทนการเล่นตามบทบาทหลายรูปแบบ | อาร์เอ็กซ์ | ตัวแทน | |
Moonlander.ai | เริ่มสร้างเกม 3 มิติโดยไม่ต้องเขียนโค้ดใดๆ โดยใช้ generative AI | กรอบ | ||
การแพร่กระจายของ MuG | MuG Diffusion คือ AI ที่สร้างแผนภูมิสำหรับเกมเข้าจังหวะโดยใช้ Stable Diffusion (หนึ่งในโมเดล AIGC ที่ทรงพลังที่สุด) พร้อมการปรับเปลี่ยนครั้งใหญ่เพื่อรวมคลื่นเสียง | เกม | ||
โอเอซิส | Oasis คือโมเดลโลกเชิงโต้ตอบที่พัฒนาโดย Decart และ Etched ขึ้นอยู่กับหม้อแปลงกระจาย Oasis รับอินพุตจากแป้นพิมพ์ของผู้ใช้และสร้างการเล่นเกมในลักษณะที่ถดถอยอัตโนมัติ | เกม | ||
โอมเอเจนท์ | กรอบงานตัวแทนหลายรูปแบบสำหรับการแก้ปัญหางานที่ซับซ้อน | ตัวแทน | ||
OpenAgents | แพลตฟอร์มแบบเปิดสำหรับตัวแทนภาษาในป่า | ตัวแทน | ||
บทประพันธ์ | แอป AI ที่เปลี่ยนข้อความให้เป็นวิดีโอเกม | เกม | ||
ไปป์แคท | กรอบงานโอเพ่นซอร์สสำหรับ AI การสนทนาด้วยเสียงและหลายรูปแบบ | ตัวแทน | ||
Qwen-ตัวแทน | Qwen-Agent เป็นเฟรมเวิร์กสำหรับการพัฒนาแอปพลิเคชัน LLM ตามคำสั่งต่อไปนี้ การใช้เครื่องมือ การวางแผน และความสามารถด้านหน่วยความจำของ Qwen | ตัวแทน | ||
รากัส | Ragas เป็นเฟรมเวิร์กที่ช่วยคุณประเมินไปป์ไลน์การดึงข้อมูล Augmented Generation (RAG) ของคุณ | ตัวแทน | ||
RPBench-อัตโนมัติ | ไปป์ไลน์อัตโนมัติสำหรับการประเมิน LLM สำหรับการสวมบทบาท | เกม | ||
ซิมา | เอเจนต์ AI ทั่วไปสำหรับสภาพแวดล้อมเสมือนจริง 3 มิติ | ตัวแทน | ||
StoryGames.ai | AI สำหรับนักฝันสร้างเกม | เกม | ||
ตัวแทน SWE | อินเทอร์เฟซคอมพิวเตอร์ของตัวแทนเปิดใช้งานโมเดลภาษาวิศวกรรมซอฟต์แวร์ | อาร์เอ็กซ์ | ตัวแทน | |
TaskGen | การสร้างเฟรมเวิร์กเอเจนต์ตามงานบนเอาต์พุต StrictJSON โดยเอเจนต์ LLM | ตัวแทน | ||
ตัวแทนสิบ | TEN Agent คือเอเจนต์หลายรูปแบบแบบเรียลไทม์ตัวแรกของโลกที่ผสานรวมกับ OpenAI Realtime API, RTC และฟีเจอร์การตรวจสอบสภาพอากาศ การค้นหาเว็บ การมองเห็น และความสามารถของ RAG | ตัวแทน | ||
ตัวแทนการแปล | การแปลแบบตัวแทนโดยใช้เวิร์กโฟลว์การสะท้อนกลับ | ตัวแทน | ||
ทวิตเตอร์ | Twitter Personality เป็นเว็บแอปพลิเคชันที่วิเคราะห์ Twitter ของคุณเพื่อสร้างโปรไฟล์บุคลิกภาพส่วนบุคคลโดยใช้ Wordware AI Agent | ตัวแทน | ||
ไม่มีขอบเขต | Unbounded: เกมจำลองชีวิตของตัวละครที่ไม่มีที่สิ้นสุด | อาร์เอ็กซ์ | เกม | |
วีดีโอ2เกม | สภาพแวดล้อมแบบเรียลไทม์ โต้ตอบ สมจริง และเข้ากันได้กับเบราว์เซอร์จากวิดีโอเดียว | อาร์เอ็กซ์ | เกม | |
V-IRL | การต่อสายดินปัญญาเสมือนในชีวิตจริง | อาร์เอ็กซ์ | ตัวแทน | |
ตัวแทนการออกแบบเว็บ | ตัวแทนที่ใช้สำหรับการออกแบบเว็บไซต์ | ตัวแทน | ||
เอ็กซ์เอเจนท์ | เอเจนต์ LLM อัตโนมัติสำหรับการแก้ปัญหางานที่ซับซ้อน | ตัวแทน |
^ กลับสู่เนื้อหา ^
แหล่งที่มา | คำอธิบาย | กระดาษ | เครื่องยนต์เกม | พิมพ์ |
---|---|---|---|---|
เครื่องมือแปลรหัส AI | ใช้ AI เพื่อแปลโค้ดจากภาษาหนึ่งเป็นอีกภาษาหนึ่ง | รหัส | ||
aiXcoder-7B | รหัส aiXcoder-7B รุ่นภาษาขนาดใหญ่ | รหัส | ||
บวม | bloop เป็นเครื่องมือค้นหาโค้ดที่รวดเร็วซึ่งเขียนด้วยภาษา Rust | รหัส | ||
บท | ล่ามรหัส ChatGPT ในสมุดบันทึก Jupyter | รหัส | ||
CodeGeeX | โมเดลการสร้างโค้ดหลายภาษาแบบเปิด | อาร์เอ็กซ์ | รหัส | |
CodeGeeX2 | โมเดลการสร้างโค้ดหลายภาษาที่ทรงพลังยิ่งขึ้น | รหัส | ||
CodeGeeX4 | CodeGeeX4: เปิดโมเดลการสร้างโค้ดหลายภาษา | รหัส | ||
รหัสGen | CodeGen เป็นโมเดลโอเพ่นซอร์สสำหรับการสังเคราะห์โปรแกรม ฝึกฝนบน TPU-v4 แข่งขันกับ OpenAI Codex | อาร์เอ็กซ์ | รหัส | |
รหัส Gen2 | โมเดล CodeGen2 สำหรับการสังเคราะห์โปรแกรม | อาร์เอ็กซ์ | รหัส | |
รหัสลามะ | Code Llama เป็นโมเดลภาษาขนาดใหญ่สำหรับโค้ดที่ใช้ Llama 2 | รหัส | ||
รหัสTF | Transformer Library แบบครบวงจรสำหรับ Code LLM ที่ล้ำสมัย | รหัส | ||
รหัสT5 | Open Code LLM สำหรับการทำความเข้าใจและสร้างโค้ด | รหัส | ||
เคอร์เซอร์ | เขียน แก้ไข และพูดคุยเกี่ยวกับโค้ดของคุณด้วย GPT-4 ในตัวแก้ไขรูปแบบใหม่ | รหัส | ||
โค้ดเดอร์ DeepSeek | DeepSeek Coder: ปล่อยให้โค้ดเขียนเอง | อาร์เอ็กซ์ | รหัส | |
OpenAI Codex | OpenAI Codex เป็นลูกหลานของ GPT-3 | รหัส | ||
แพนด้าเอไอ | Pandas AI เป็นไลบรารี Python ที่รวมความสามารถด้านปัญญาประดิษฐ์เชิงสร้างสรรค์เข้ากับ Pandas ทำให้ดาต้าเฟรมเป็นการสนทนา | รหัส | ||
RobloxScripterAI | RobloxScripterAI เป็นเครื่องมือสร้างโค้ดที่ขับเคลื่อนด้วย AI สำหรับ Roblox | โรบ็อกซ์ | รหัส | |
Scikit-LLM | ผสานรวมโมเดลภาษาที่มีประสิทธิภาพ เช่น ChatGPT เข้ากับ scikit-learn ได้อย่างราบรื่น สำหรับงานวิเคราะห์ข้อความที่ได้รับการปรับปรุง | รหัส | ||
โซทาน่า | ผู้ช่วยพัฒนาซอฟต์แวร์โอเพ่นซอร์ส | อาร์เอ็กซ์ | รหัส | |
รหัสเสถียร 3B | การเข้ารหัสบน Edge | รหัส | ||
สตาร์โคเดอร์ | - StarCoder คือโมเดลภาษา (LM) ที่ได้รับการฝึกอบรมเกี่ยวกับซอร์สโค้ดและข้อความภาษาธรรมชาติ | อาร์เอ็กซ์ | รหัส | |
สตาร์โคเดอร์ 2 | StarCoder2 เป็นตระกูลโมเดลการสร้างโค้ด (3B, 7B และ 15B) ซึ่งได้รับการฝึกฝนเกี่ยวกับภาษาการเขียนโปรแกรมมากกว่า 600 ภาษาจาก The Stack v2 และข้อความภาษาธรรมชาติบางส่วน เช่น ปัญหา Wikipedia, Arxiv และ GitHub | อาร์เอ็กซ์ | รหัส | |
UnityGen AI | UnityGen AI เป็นปลั๊กอินสร้างโค้ดที่ขับเคลื่อนด้วย AI สำหรับ Unity | ความสามัคคี | รหัส | |
เป็นโมฆะ | Void เป็นทางเลือกเคอร์เซอร์โอเพ่นซอร์ส เขียนโค้ดด้วยเครื่องมือ AI ที่ดีที่สุด ควบคุมข้อมูลของคุณได้อย่างเต็มที่ และเข้าถึงฟีเจอร์ AI อันทรงพลัง | รหัส |
^ กลับสู่เนื้อหา ^
แหล่งที่มา | คำอธิบาย | กระดาษ | เครื่องยนต์เกม | พิมพ์ |
---|---|---|---|---|
AI-นักเขียน | AI เขียนนิยาย สร้างบทความบนเว็บแฟนตาซีและโรแมนติก ฯลฯ โมเดลกำเนิดล่วงหน้าของจีนที่ผ่านการฝึกอบรม | นักเขียน | ||
Notebook.ai | Notebook.ai คือชุดเครื่องมือสำหรับนักเขียน นักออกแบบเกม และผู้สวมบทบาทเพื่อสร้างจักรวาลอันงดงามและทุกสิ่งภายในจักรวาล | นักเขียน | ||
นิยาย | โปรแกรมแก้ไข WYSIWYG สไตล์แนวความคิดพร้อมการเติมข้อความอัตโนมัติที่ขับเคลื่อนด้วย AI | นักเขียน | ||
โนเวลเอไอ | ขับเคลื่อนโดย AI สร้างเรื่องราวที่ไม่เหมือนใคร เรื่องราวที่น่าตื่นเต้น ความรักที่เย้ายวนใจ หรือแค่ล้อเล่นเฉยๆ | นักเขียน |
^ กลับสู่เนื้อหา ^
แหล่งที่มา | คำอธิบาย | กระดาษ | เครื่องยนต์เกม | พิมพ์ |
---|---|---|---|---|
ประตูใดก็ได้ | การปรับแต่งภาพระดับวัตถุแบบ Zero-shot | อาร์เอ็กซ์ | ภาพ | |
ข้อความใดก็ได้ | การสร้างและแก้ไขข้อความภาพหลายภาษา | อาร์เอ็กซ์ | ภาพ | |
ออโต้สตูดิโอ | การสร้างวัตถุที่สอดคล้องกันในการสร้างภาพแบบโต้ตอบหลายรอบ | อาร์เอ็กซ์ | ภาพ | |
Blender-ControlNet | ใช้ ControlNet ใน Blender | เครื่องปั่น | ภาพ | |
บริวีแอล | แบบจำลองการเชื่อมโยงวิสัยทัศน์และภาษา | อาร์เอ็กซ์ | ภาพ | |
แคทวีตัน | CatVTON: การต่อข้อมูลคือสิ่งที่คุณต้องการสำหรับการลองใช้งานเสมือนจริงด้วยโมเดลการแพร่กระจาย | อาร์เอ็กซ์ | ภาพ | |
คลิปพาสโซ | วิธีการแปลงรูปภาพของวัตถุให้เป็นภาพร่าง ซึ่งช่วยให้มีระดับนามธรรมที่แตกต่างกันได้ | อาร์เอ็กซ์ | ภาพ | |
คลิปดรอป | สร้างภาพที่น่าทึ่งในไม่กี่วินาที | ภาพ | ||
UI ที่สะดวกสบาย | GUI การแพร่กระจายที่เสถียรและทรงพลังแบบโมดูลาร์พร้อมอินเทอร์เฟซกราฟ/โหนด | ภาพ | ||
คอนเซปต์แล็บ | การสร้างความคิดสร้างสรรค์โดยใช้ข้อจำกัดก่อนหน้าการแพร่กระจาย | อาร์เอ็กซ์ | ภาพ | |
คอนโทรลเน็ต | ControlNet เป็นโครงสร้างโครงข่ายประสาทเทียมเพื่อควบคุมโมเดลการแพร่กระจายโดยการเพิ่มเงื่อนไขพิเศษ | อาร์เอ็กซ์ | ภาพ | |
ซีเอสจีโอ | CSGO: องค์ประกอบสไตล์เนื้อหาในการสร้างข้อความเป็นรูปภาพ | อาร์เอ็กซ์ | ภาพ | |
ดัล·อี 2 | DALL·E 2 เป็นระบบ AI ที่สามารถสร้างภาพและงานศิลปะที่สมจริงจากคำอธิบายในภาษาธรรมชาติ | ภาพ | ||
แดชตูน สตูดิโอ | Dashtoon Studio เป็นแพลตฟอร์มสร้างการ์ตูนที่ขับเคลื่อนด้วย AI | การ์ตูน | ||
DeepAI | DeepAI นำเสนอชุดเครื่องมือที่ใช้ AI เพื่อเพิ่มความคิดสร้างสรรค์ของคุณ | ภาพ | ||
ดีพฟลอยด์ ไอเอฟ | IF โดย DeepFloyd Lab ที่ StabilityAI | ภาพ | ||
ความลึกอะไรก็ได้ V2 | ความลึกอะไรก็ได้ V2 | อาร์เอ็กซ์ | ภาพ | |
ไลบรารีแผนที่ความลึกและปัญหาที่ตอบยาก | ไลบรารีแผนที่ความลึกสำหรับใช้กับส่วนขยาย Control Net สำหรับ Automatic1111/stable-diffusion-webui | ภาพ | ||
กระจายให้เลือก | การเพิ่มสีสันให้กับการวาดภาพแบบมีเงื่อนไขในโมเดลการแพร่กระจายแฝงเพื่อการลองทั้งหมดเสมือนจริง | อาร์เอ็กซ์ | ภาพ | |
การแพร่กระจายของดิสโก้ | การรวมสมุดบันทึก แบบจำลอง และเทคนิคแบบแฟรงเกนสไตเนียนสำหรับการสร้างงานศิลปะและแอนิเมชัน AI | ภาพ | ||
ลากแกน | การจัดการตามจุดแบบโต้ตอบบน Manifold รูปภาพทั่วไป | อาร์เอ็กซ์ | ภาพ | |
วาดสิ่งต่าง ๆ | การสร้างภาพที่ได้รับความช่วยเหลือจาก AI ในกระเป๋าของคุณ | ภาพ | ||
DWPose | การประมาณท่าทางทั้งร่างกายอย่างมีประสิทธิภาพด้วยการกลั่นแบบสองขั้นตอน | อาร์เอ็กซ์ | ภาพ | |
อีซี่โฟโต้ | เครื่องสร้างภาพ AI อัจฉริยะของคุณ | ภาพ | ||
ฟลักซ์ | ที่เก็บนี้มีโค้ดการอนุมานขั้นต่ำเพื่อเรียกใช้ข้อความเป็นรูปภาพและรูปภาพเป็นรูปภาพด้วยตัวแปลงการไหลแบบแฝง Flux ของเรา | ภาพ | ||
ติดตาม-คลิก-ของคุณ | ภาพเคลื่อนไหวรูปภาพภูมิภาคแบบโอเพ่นโดเมนผ่านคำสั่งสั้น ๆ | อาร์เอ็กซ์ | ภาพ | |
ฟูคัส | มุ่งเน้นไปที่การกระตุ้นและสร้าง | ภาพ | ||
GIFฟิวชั่น | สร้าง GIF และวิดีโอโดยใช้ Stable Diffusion | ภาพ | ||
สายดิน-เซ็กเมนต์-อะไรก็ได้ | ตรวจจับ แบ่งส่วน และสร้างทุกสิ่งโดยอัตโนมัติด้วยอินพุตรูปภาพ ข้อความ และเสียง | อาร์เอ็กซ์ | ภาพ | |
HivisionIDรูปภาพ | HivisionIDPhotos: เครื่องมือถ่ายภาพ AI ID ที่มีน้ำหนักเบาและมีประสิทธิภาพ | ภาพ | ||
หัว | Hua เป็นโปรแกรมแก้ไขรูปภาพ AI พร้อม Stable Diffusion (และอื่นๆ) | ภาพ | ||
ฮุนหยวน-DiT | หม้อแปลงกระจายแสงหลายความละเอียดอันทรงพลังพร้อมความเข้าใจภาษาจีนแบบละเอียด | อาร์เอ็กซ์ | ภาพ | |
ไอซี-ไลท์ | IC-Light เป็นโปรเจ็กต์เพื่อจัดการความสว่างของภาพ | ภาพ | ||
อุดมคติ | ช่วยให้ผู้คนมีความคิดสร้างสรรค์มากขึ้น | ภาพ | ||
อิมเมจ | Imagen เป็นระบบ AI ที่สร้างภาพที่เหมือนจริงจากข้อความที่ป้อน | ภาพ | ||
img2img-เทอร์โบ | ภาพต่อภาพในขั้นตอนเดียวด้วย SD-Turbo | ภาพ | ||
Img2พร้อมท์ | รับการแจ้งเตือนจากรูปภาพที่สร้างการแพร่กระจายที่เสถียร | ภาพ | ||
อินฟินิตี้ | อนันต์: ปรับขนาดการสร้างแบบจำลอง Bitwise AutoRegressive สำหรับการสังเคราะห์ภาพที่มีความละเอียดสูง | อาร์เอ็กซ์ | ภาพ | |
รหัสทันที | การสร้างการรักษาเอกลักษณ์แบบ Zero-shot ในไม่กี่วินาที | อาร์เอ็กซ์ | ภาพ | |
ฝึกงานLM-XComposer2 | InternLM-XComposer2 เป็นโมเดลขนาดใหญ่ภาษาวิสัยทัศน์ (VLLM) ที่ก้าวล้ำซึ่งมีความเป็นเลิศในการจัดองค์ประกอบข้อความและรูปภาพในรูปแบบอิสระและความเข้าใจ | อาร์เอ็กซ์ | ภาพ | |
โคอาล่า | การเอาใจใส่ตนเองเป็นสิ่งสำคัญในการกลั่นความรู้ของแบบจำลองการแพร่กระจายแฝงเพื่อการสังเคราะห์ภาพที่มีประสิทธิภาพหน่วยความจำและรวดเร็ว | ภาพ | ||
สี | Kolors: การฝึกอบรมที่มีประสิทธิภาพของแบบจำลองการแพร่กระจายสำหรับการสังเคราะห์ข้อความเป็นภาพเสมือนจริง | ภาพ | ||
ครี | สร้างรูปภาพและวิดีโอด้วยเครื่องมือออกแบบที่ขับเคลื่อนด้วย AI อันน่ารื่นรมย์ | ภาพ | ||
สะพานลาวี | การเชื่อมโยงโมเดลภาษาที่แตกต่างกันและโมเดลการมองเห็นเชิงสร้างสรรค์สำหรับการสร้างข้อความเป็นรูปภาพ | อาร์เอ็กซ์ | ภาพ | |
การแพร่กระจายของเลเยอร์ | การแพร่กระจายเลเยอร์รูปภาพโปร่งใสโดยใช้ความโปร่งใสแฝง | อาร์เอ็กซ์ | ภาพ | |
เล็กซิกา | การแพร่กระจายที่เสถียรพร้อมท์เครื่องมือค้นหา | ภาพ | ||
ลามะเจน | Autoregressive Model Beats Diffusion: Llama สำหรับการสร้างภาพที่ปรับขนาดได้ | อาร์เอ็กซ์ | ภาพ | |
Lumina-mGPT | Lumina-mGPT: ส่องสว่างการสร้างข้อความเป็นรูปภาพเสมือนจริงที่ยืดหยุ่นด้วย Multimodal Generative Pretraining | อาร์เอ็กซ์ | ภาพ | |
MetaShoot | MetaShoot เป็นแฝดดิจิทัลของสตูดิโอถ่ายภาพที่พัฒนาเป็นปลั๊กอินสำหรับ Unreal Engine ซึ่งช่วยให้ผู้สร้างสามารถสร้างการเรนเดอร์ที่สมจริงอย่างมากด้วยวิธีที่ง่ายและรวดเร็วที่สุด | เครื่องยนต์ที่ไม่จริง | ภาพ | |
กลางการเดินทาง | Midjourney เป็นห้องปฏิบัติการวิจัยอิสระที่สำรวจสื่อความคิดใหม่ๆ และขยายพลังจินตนาการของเผ่าพันธุ์มนุษย์ | ภาพ | ||
มิกซี | MIGC: ตัวควบคุมการสร้างอินสแตนซ์หลายอินสแตนซ์สำหรับการสังเคราะห์ข้อความเป็นรูปภาพ | อาร์เอ็กซ์ | ภาพ | |
แปรงเลียนแบบ | การแก้ไขภาพ Zero-shot ด้วยการเลียนแบบการอ้างอิง | อาร์เอ็กซ์ | ภาพ | |
OmniGen | OmniGen: การสร้างภาพแบบครบวงจร | อาร์เอ็กซ์ | ภาพ | |
โอโมสต์ | Omost เป็นโครงการที่จะแปลงความสามารถในการเขียนโค้ดของ LLM ให้เป็นความสามารถในการสร้างภาพ (หรือที่แม่นยำกว่านั้นคือความสามารถในการจัดวางภาพ) | ภาพ | ||
เครื่องมือแก้ไข Openpose | Openpose Editor สำหรับเสถียรการแพร่กระจาย webui ของ AUTOMATIC1111 | ภาพ | ||
แต่งกายใครก็ได้ | การลองสวมเสมือนจริงคุณภาพสูงเป็นพิเศษสำหรับเสื้อผ้าและบุคคลใดๆ | ภาพ | ||
สีเลิกทำ | PaintsUndo: รูปแบบพื้นฐานของพฤติกรรมการวาดภาพในภาพวาดดิจิทัล | ภาพ | ||
โฟโต้เมคเกอร์ | การปรับแต่งภาพถ่ายมนุษย์ที่สมจริงผ่านการฝัง ID แบบซ้อน | อาร์เอ็กซ์ | ภาพ | |
ห้องถ่ายรูป | เครื่องกำเนิดพื้นหลัง AI | ภาพ | ||
พลาสก์ | การสร้างภาพ AI ในระบบคลาวด์ | ภาพ | ||
พรอมต์.อาร์ท | ศูนย์กลางเครื่องกำเนิดไฟฟ้า | ภาพ | ||
พูลลิด | การปรับแต่ง Pure และ Lightning ID ผ่าน Contrastive Alignment | อาร์เอ็กซ์ | ภาพ | |
Rich-Text-to-รูปภาพ | การสร้างข้อความเป็นรูปภาพที่แสดงออกด้วย Rich Text | อาร์เอ็กซ์ | ภาพ | |
RPG-DiffusionMaster | การเรียนรู้การแพร่กระจายข้อความเป็นรูปภาพ: การสรุป การวางแผน และการสร้างด้วย Multimodal LLM (PRG) | ภาพ | ||
เมล็ดพันธุ์-เรื่องราว | SEED-Story: การสร้างเรื่องราวยาวต่อเนื่องหลายรูปแบบพร้อมโมเดลภาษาขนาดใหญ่ | อาร์เอ็กซ์ | ภาพ | |
แบ่งส่วนอะไรก็ได้ | Segment Anything Model (SAM): โมเดล AI ใหม่จาก Meta AI ที่สามารถ "ตัด" วัตถุใด ๆ ในภาพใดก็ได้ ด้วยการคลิกเพียงครั้งเดียว | อาร์เอ็กซ์ | ภาพ | |
แบ่งส่วนโมเดลอะไรก็ได้ 2 (SAM 2) | SAM 2: แบ่งส่วนอะไรก็ได้ในรูปภาพและวิดีโอ | อาร์เอ็กซ์ | ภาพ | |
sd-webui-controlnet.dll | ส่วนขยาย WebUI สำหรับ ControlNet | ภาพ | ||
SDXL-สายฟ้า | การกลั่นแบบแพร่กระจายฝ่ายตรงข้ามแบบก้าวหน้า | อาร์เอ็กซ์ | ภาพ | |
SDXS | โมเดลการแพร่กระจายแฝงในขั้นตอนเดียวแบบเรียลไทม์พร้อมเงื่อนไขของภาพ | ภาพ | ||
มั่นคง.ศิลปะ | ปลั๊กอิน Photoshop สำหรับ Stable Diffusion พร้อมด้วย Automatic1111 เป็นแบ็กเอนด์ (ในเครื่องหรือกับ Google Colab) | ภาพ | ||
น้ำตกที่มีเสถียรภาพ | Stable Cascade ประกอบด้วยสามรุ่น: สเตจ A, สเตจ B และสเตจ C ซึ่งเป็นตัวแทนของคาสเคดสำหรับการสร้างภาพ จึงเป็นที่มาของชื่อ "สเตเบิล คาสเคด" | ภาพ | ||
การแพร่กระจายที่เสถียร | โมเดลการแพร่กระจายข้อความเป็นรูปภาพแฝง | ภาพ | ||
เสถียร-diffusion.cpp | การแพร่กระจายที่เสถียรใน C/C++ บริสุทธิ์ | ภาพ | ||
UI เว็บการแพร่กระจายที่เสถียร | อินเทอร์เฟซเบราว์เซอร์ที่ใช้ไลบรารี Gradio สำหรับ Stable Diffusion | ภาพ | ||
UI เว็บการแพร่กระจายที่เสถียร | UI บนเว็บเพื่อการแพร่กระจายที่เสถียร | ภาพ | ||
WebUI ภาษาจีนที่เสถียร | stable-diffusion-webui เวอร์ชันภาษาจีน | ภาพ | ||
การแพร่กระจายที่เสถียร XL | สร้างภาพจากข้อความ | อาร์เอ็กซ์ | ภาพ | |
การแพร่กระจาย XL Turbo ที่เสถียร | การสร้างข้อความเป็นรูปภาพแบบเรียลไทม์ | ภาพ | ||
การแพร่กระจายที่เสถียร 3.5 | Stable Diffusion 3.5 แบบเปิดมีหลายรุ่น รวมถึง Stable Diffusion 3.5 Large และ Stable Diffusion 3.5 Large Turbo | ภาพ | ||
Doodle ที่มั่นคง | Stable Doodle เป็นเครื่องมือแปลงร่างเป็นภาพที่แปลงภาพวาดธรรมดาให้เป็นภาพไดนามิก | ภาพ | ||
สเตเบิลสตูดิโอ | StableStudio โดย Stability AI | ภาพ | ||
สตอรี่เมคเกอร์ | StoryMaker: มุ่งสู่ตัวละครที่สอดคล้องกันแบบองค์รวมในการสร้างข้อความเป็นรูปภาพ | อาร์เอ็กซ์ | ภาพ | |
StreamDiffusion | โซลูชันระดับไปป์ไลน์สำหรับการสร้างการโต้ตอบแบบเรียลไทม์ | ภาพ | ||
สไตล์ดรอป | การสร้างข้อความเป็นรูปภาพในทุกสไตล์ | อาร์เอ็กซ์ | ภาพ | |
SyncDreamer | การสร้างภาพที่สอดคล้องหลายมุมมองจากภาพมุมมองเดียว | อาร์เอ็กซ์ | ภาพ | |
อัลตร้าแก้ไข | UltraEdit: การแก้ไขภาพที่ละเอียดตามคำสั่งตามขนาด | อาร์เอ็กซ์ | ภาพ | |
อัลตร้าพิกเซล | UltraPixel: ยกระดับการสังเคราะห์ภาพความละเอียดสูงพิเศษสู่จุดสูงสุดใหม่ | อาร์เอ็กซ์ | ภาพ | |
Unity ML การแพร่กระจายที่เสถียร | Core ML การแพร่กระจายที่เสถียรบนความสามัคคี | ความสามัคคี | ภาพ | |
วิสพังค์ วิชั่นส์ | แพลตฟอร์มการสร้างข้อความเป็นรูปภาพ | ภาพ |
^ กลับสู่เนื้อหา ^
แหล่งที่มา | คำอธิบาย | กระดาษ | เครื่องยนต์เกม | พิมพ์ |
---|---|---|---|---|
ซีอาร์เอ็ม | ภาพเดียวเป็น 3D Textured Mesh พร้อมโมเดลการสร้างใหม่แบบ Convolutional | อาร์เอ็กซ์ | พื้นผิว | |
ดรีมแมท | การสร้างวัสดุ PBR คุณภาพสูงพร้อมแบบจำลองการแพร่กระจายแบบเรขาคณิตและการรับรู้แสง | อาร์เอ็กซ์ | พื้นผิว | |
ดรีมสเปซ | ฝันถึงพื้นที่ห้องของคุณด้วยการขยายพันธุ์พื้นผิวแบบพาโนรามาที่ขับเคลื่อนด้วยข้อความ | พื้นผิว | ||
พื้นผิวในฝัน | การแพร่กระจายที่เสถียรในตัวไปยัง Blender สร้างพื้นผิว คอนเซ็ปอาร์ต เนื้อหาพื้นหลัง และอื่นๆ อีกมากมายด้วยข้อความแจ้งง่ายๆ | เครื่องปั่น | พื้นผิว | |
สั่งสอนมนุษย์ | การแก้ไขพื้นผิวมนุษย์แบบเคลื่อนไหว 3 มิติพร้อมคำแนะนำ | อาร์เอ็กซ์ | พื้นผิว | |
อินเทเอ็กซ์ | การสังเคราะห์ข้อความเป็นพื้นผิวเชิงโต้ตอบผ่าน Inpainting ที่รับรู้ความลึกแบบครบวงจร | อาร์เอ็กซ์ | พื้นผิว | |
LLaMA-ตาข่าย | LLaMA-Mesh: การรวมการสร้าง 3D Mesh เข้ากับโมเดลภาษา | อาร์เอ็กซ์ | ตาข่าย | |
วัสดุSeg3D | MaterialSeg3D: การแบ่งส่วนวัสดุที่มีความหนาแน่นจาก 2D Priors สำหรับสินทรัพย์ 3D | อาร์เอ็กซ์ | พื้นผิว | |
ตาข่ายอะไรก็ได้ | MaterialSeg3D: การแบ่งส่วนวัสดุที่มีความหนาแน่นจาก 2D Priors สำหรับสินทรัพย์ 3D | อาร์เอ็กซ์ | ตาข่าย | |
Neuralangelo | การสร้างพื้นผิวประสาทความเที่ยงตรงสูงใหม่ | อาร์เอ็กซ์ | พื้นผิว | |
ทาสีมัน | การสังเคราะห์ข้อความเป็นพื้นผิวผ่านการเพิ่มประสิทธิภาพแผนที่พื้นผิวเชิงลึกและการเรนเดอร์ตามทางกายภาพ | พื้นผิว | ||
โพลีแคม | สร้างพื้นผิว 3 มิติของคุณเองเพียงแค่พิมพ์ | พื้นผิว | ||
เท็กซ์ฟิวชั่น | การสังเคราะห์พื้นผิว 3 มิติด้วยโมเดลการแพร่กระจายรูปภาพที่มีข้อความนำทาง | อาร์เอ็กซ์ | พื้นผิว | |
Text2Tex | การสังเคราะห์พื้นผิวที่ขับเคลื่อนด้วยข้อความผ่านแบบจำลองการแพร่กระจาย | อาร์เอ็กซ์ | พื้นผิว | |
แล็บพื้นผิว | พื้นผิวที่สร้างโดย AI คุณสามารถสร้างของคุณเองได้ด้วยข้อความแจ้ง | พื้นผิว | ||
กับโพลี่ | สร้างพื้นผิวด้วยโพลี สร้างวัสดุ 3 มิติด้วย AI ในโปรแกรมแก้ไขออนไลน์ฟรี หรือค้นหาห้องสมุดชุมชนที่กำลังเติบโตของเรา | พื้นผิว | ||
เอ็กซ์-เมช | X-Mesh: สู่สไตล์ 3 มิติที่ขับเคลื่อนด้วยข้อความอย่างรวดเร็วและแม่นยำผ่านการแนะแนวข้อความแบบไดนามิก | อาร์เอ็กซ์ | พื้นผิว |
^ กลับสู่เนื้อหา ^
แหล่งที่มา | คำอธิบาย | กระดาษ | เครื่องยนต์เกม | พิมพ์ |
---|---|---|---|---|
AI เชดเดอร์ | เครื่องกำเนิดเชเดอร์ที่ขับเคลื่อนโดย ChatGPT สำหรับ Unity | ความสามัคคี | เฉดเดอร์ |
^ กลับสู่เนื้อหา ^
แหล่งที่มา | คำอธิบาย | กระดาษ | เครื่องยนต์เกม | พิมพ์ |
---|---|---|---|---|
เคลื่อนไหว3D | Animate3D: สร้างภาพเคลื่อนไหวให้กับโมเดล 3 มิติด้วยการกระจายวิดีโอหลายมุมมอง | อาร์เอ็กซ์ | 3 มิติ | |
อะไรก็ได้-3D | ส่วน-อะไรก็ได้ + 3D มายกทุกสิ่งให้เป็น 3D กันดีกว่า | อาร์เอ็กซ์ | แบบอย่าง | |
Any2Point | Any2Point: เพิ่มศักยภาพให้กับโมเดลขนาดใหญ่ทุกรูปแบบเพื่อความเข้าใจ 3D ที่มีประสิทธิภาพ | อาร์เอ็กซ์ | 3 มิติ | |
BlenderGPT | ใช้คำสั่งเป็นภาษาอังกฤษเพื่อควบคุม Blender ด้วย GPT-4 ของ OpenAI | เครื่องปั่น | แบบอย่าง | |
เครื่องปั่น-GPT | ผู้ช่วย Blender แบบครบวงจรที่ขับเคลื่อนโดย GPT3/4 + Whisper | เครื่องปั่น | แบบอย่าง | |
ห้องปฏิบัติการปิดล้อม | การเล่นแร่แปรธาตุแบบดิจิทัลเกิดขึ้นจริงด้วย Skybox Lab ซึ่งเป็นโซลูชันที่ขับเคลื่อนด้วย AI ขั้นสุดยอดสำหรับการสร้างประสบการณ์ skybox 360° ที่น่าทึ่งจากข้อความแจ้ง | แบบอย่าง | ||
CF-3DGS | การสาดแบบเกาส์เซียน 3 มิติที่ปราศจาก COLMAP | อาร์เอ็กซ์ | 3 มิติ | |
ตัวละครพล | CharacterGen: การสร้างตัวละคร 3 มิติที่มีประสิทธิภาพจากภาพเดี่ยวพร้อม Canonicalization แบบหลายมุมมอง | อาร์เอ็กซ์ | 3 มิติ | |
chatGPT-มายา | เครื่องมือ Maya อย่างง่ายที่ใช้ AI แบบเปิดเพื่อทำงานพื้นฐานตามคำแนะนำเชิงอธิบาย | มายา | แบบอย่าง | |
ซิตี้ดรีมเมอร์ | แบบจำลองการกำเนิดเชิงองค์ประกอบของเมือง 3 มิติที่ไร้ขอบเขต | อาร์เอ็กซ์ | 3 มิติ | |
ซีเอสเอ็ม | สร้างโลก 3 มิติจากรูปภาพและวิดีโอ | 3 มิติ | ||
แดช | นักบินของคุณสำหรับการสร้างโลกใน Unreal Engine | เครื่องยนต์ที่ไม่จริง | 3 มิติ | |
ดรีมแคตตาลิสต์ | DreamCatalyst: การแก้ไข 3D ที่รวดเร็วและมีคุณภาพสูงผ่านการควบคุมการแก้ไขและการรักษาเอกลักษณ์ | อาร์เอ็กซ์ | 3 มิติ | |
ดรีมเกาส์เซียน4D | การสร้างการสาดแบบเกาส์เซียน 4D | อาร์เอ็กซ์ | 4D | |
ฝุ่น3R | การมองเห็น 3 มิติเชิงเรขาคณิตทำได้ง่าย | อาร์เอ็กซ์ | 3 มิติ | |
แก้ไข 3D | Edify 3D: การสร้างสินทรัพย์ 3D คุณภาพสูงที่ปรับขนาดได้ | อาร์เอ็กซ์ | 3 มิติ | |
GALA3D | GALA3D: สู่การสร้างฉากที่ซับซ้อนจากข้อความเป็น 3D ผ่านการ Splatting แบบเกาส์เซียนที่มีเค้าโครงนำทาง | อาร์เอ็กซ์ | 3 มิติ | |
GaussCtrl | GaussCtrl: การแก้ไขการสลับแบบเกาส์เซียน 3 มิติที่ขับเคลื่อนด้วยข้อความที่สอดคล้องกันหลายมุมมอง | อาร์เอ็กซ์ | 3 มิติ | |
เกาส์เซียนคิวบ์ | การแสดง Radiance ที่มีโครงสร้างและชัดเจนสำหรับการสร้างแบบจำลอง 3 มิติ | อาร์เอ็กซ์ | 3 มิติ | |
GaussianDreamer | การสร้างอย่างรวดเร็วจากข้อความเป็น 3D Gaussian Splatting ด้วย Point Cloud Priors | อาร์เอ็กซ์ | 3 มิติ | |
จีนี่แล็บส์ | เสริมศักยภาพเกมของคุณด้วย AI-UGC | 3 มิติ | ||
ไฮฟา | การแปลงข้อความเป็น 3D ความเที่ยงตรงสูงพร้อมคำแนะนำการแพร่กระจายขั้นสูง | แบบอย่าง | ||
โฮโลดรีมเมอร์ | HoloDreamer: การสร้างโลกแบบพาโนรามา 3 มิติแบบองค์รวมจากคำอธิบายข้อความ | อาร์เอ็กซ์ | 3 มิติ | |
ฮุนหยวน3D-1.0 | Hunyuan3D-1.0: กรอบงานแบบครบวงจรสำหรับการสร้างข้อความเป็น 3D และรูปภาพเป็น 3D | อาร์เอ็กซ์ | 3 มิติ | |
อินฟินิเกน | โลกเสมือนจริงที่ไม่มีที่สิ้นสุดโดยใช้ขั้นตอนการสร้าง | อาร์เอ็กซ์ | 3 มิติ | |
คำสั่ง-NeRF2NeRF | การแก้ไขฉาก 3 มิติพร้อมคำแนะนำ | อาร์เอ็กซ์ | แบบอย่าง | |
Interactive3D | สร้างสิ่งที่คุณต้องการโดย Interactive 3D Generation | อาร์เอ็กซ์ | 3 มิติ | |
ไอโซโทรปิก 3 มิติ | การสร้างภาพเป็น 3D จากการฝัง CLIP เดียว | 3 มิติ | ||
LATTE3D | การสังเคราะห์ข้อความเป็นการปรับปรุง 3D ที่ตัดจำหน่ายขนาดใหญ่ | อาร์เอ็กซ์ | 3 มิติ | |
สิงโต | แบบจำลองการแพร่กระจายจุดแฝงสำหรับการสร้างรูปร่าง 3 มิติ | อาร์เอ็กซ์ | แบบอย่าง | |
ลูม่า ไอ | จับภาพในแบบ 3 มิติที่เหมือนจริง ความสมจริงของภาพถ่าย การสะท้อน และรายละเอียดที่ไม่มีใครเทียบได้ อนาคตของ VFX มาถึงแล้วสำหรับทุกคน! | แบบอย่าง | ||
ลูมีนเอไอ | ความคิดสร้างสรรค์ที่ขับเคลื่อนด้วย AI | 3 มิติ | ||
Make-It-3D | การสร้าง 3D ที่มีความเที่ยงตรงสูงจากภาพเดียวพร้อม Diffusion Prior | อาร์เอ็กซ์ | แบบอย่าง | |
เมชชี่ | สร้างเนื้อหาเกม 3 มิติที่น่าทึ่งด้วย AI | 3 มิติ | ||
การเคลื่อนไหว | Magical 3D AI แอนิเมชั่นผู้สร้าง | 3 มิติ | ||
เอ็มวีดรีม | การแพร่กระจายหลายมุมมองสำหรับการสร้าง 3 มิติ | อาร์เอ็กซ์ | 3 มิติ | |
NVIDIA NeRF ทันที | กราฟิกประสาททันทีแบบดั้งเดิม: NeRF ที่รวดเร็วปานสายฟ้าและอีกมากมาย | แบบอย่าง | ||
วัน-2-3-45 | ภาพเดี่ยวใดๆ ให้เป็น 3D Mesh ใน 45 วินาที โดยไม่มีการปรับให้เหมาะสมต่อรูปร่าง | อาร์เอ็กซ์ | แบบอย่าง | |
เพ้นท์3D | วาดภาพ 3 มิติทุกอย่างด้วยโมเดลการกระจายพื้นผิวที่ไม่ใช้แสง | อาร์เอ็กซ์ | 3 มิติ | |
PAniC-3D | การสร้างภาพ 3 มิติมุมมองเดียวที่เก๋ไก๋จากภาพตัวละครอนิเมะ | อาร์เอ็กซ์ | แบบอย่าง | |
จุด·E | การแพร่กระจายของพอยต์คลาวด์สำหรับการสังเคราะห์โมเดล 3 มิติ | แบบอย่าง | ||
ProlificDreamer | การสร้างข้อความเป็น 3D ที่มีความเที่ยงตรงสูงและหลากหลายพร้อมการกลั่นคะแนนแบบแปรผัน | อาร์เอ็กซ์ | แบบอย่าง | |
SF3D | SF3D: การสร้างตาข่าย 3D ที่รวดเร็วและเสถียรพร้อมการแกะด้วยรังสี UV และการแยกส่วนการส่องสว่าง | อาร์เอ็กซ์ | 3 มิติ | |
รูปร่าง | สร้างวัตถุ 3 มิติที่มีเงื่อนไขบนข้อความหรือรูปภาพ | อาร์เอ็กซ์ | แบบอย่าง | |
สลอยด์ | การสร้างแบบจำลอง 3 มิติง่ายกว่าที่เคย | แบบอย่าง | ||
สไปลน์ AI | พลังของ AI กำลังมาถึงมิติที่ 3 สร้างวัตถุ ภาพเคลื่อนไหว และพื้นผิวโดยใช้ข้อความแจ้ง | แบบอย่าง | ||
ดรีมฟิวชั่นที่เสถียร | การใช้งาน pytorch ของโมเดลข้อความเป็น 3D Dreamfusion ซึ่งขับเคลื่อนโดยโมเดล Stable Diffusion ของข้อความเป็น 2D | แบบอย่าง | ||
SV3D | การสังเคราะห์หลายมุมมองแบบใหม่และการสร้าง 3 มิติจากภาพเดียวโดยใช้การแพร่กระจายวิดีโอแฝง | อาร์เอ็กซ์ | 3 มิติ | |
ทาฟี | ข้อความ AI ไปยังเอ็นจิ้นตัวละคร 3 มิติ | แบบอย่าง | ||
3D-GPT | การสร้างแบบจำลอง 3 มิติตามขั้นตอนด้วยแบบจำลองภาษาขนาดใหญ่ | อาร์เอ็กซ์ | 3 มิติ | |
3D-LLM | การอัดฉีดโลก 3 มิติลงในโมเดลภาษาขนาดใหญ่ | อาร์เอ็กซ์ | 3 มิติ | |
3Dpresso | แยกโมเดล 3 มิติของวัตถุที่ถ่ายไว้ในวิดีโอ | แบบอย่าง | ||
3ดีโทเปีย | การสร้างข้อความเป็น 3D ภายใน 5 นาที | อาร์เอ็กซ์ | 3 มิติ | |
3DTopia-XL | 3DTopia-XL: ปรับขนาดการสร้างเนื้อหา 3 มิติคุณภาพสูงผ่านการแพร่กระจายแบบดั้งเดิม | อาร์เอ็กซ์ | 3 มิติ | |
สามสตูดิโอ | เฟรมเวิร์กแบบรวมสำหรับการสร้างเนื้อหา 3 มิติ | แบบอย่าง | ||
ทริโปเอสอาร์ | โมเดลโอเพนซอร์ซที่ทันสมัยสำหรับการสร้าง 3D Feed Forward Feed Forward จากภาพเดียว | อาร์เอ็กซ์ | แบบอย่าง | |
ไม่ซ้ำกัน 3d | การสร้างตาข่าย 3 มิติคุณภาพสูงและมีประสิทธิภาพจากภาพเดียว | อาร์เอ็กซ์ | 3 มิติ | |
Unitygaussiansplatting | Toy Gaussian Splatting การสร้างภาพข้อมูลเป็นเอกภาพ | ความสามัคคี | 3 มิติ | |
Vivid-1 ถึง 3 | การสังเคราะห์มุมมองใหม่ด้วยโมเดลการแพร่กระจายวิดีโอ | อาร์เอ็กซ์ | 3 มิติ | |
voxcraft | สร้างโมเดล 3 มิติพร้อมใช้งานด้วย AI | 3 มิติ | ||
Wonder3d | ภาพเดียวถึง 3D โดยใช้การแพร่กระจายของโดเมน | อาร์เอ็กซ์ | 3 มิติ | |
zero-1-to-3 | zero-shot ภาพหนึ่งไปยังวัตถุ 3D | อาร์เอ็กซ์ | แบบอย่าง |
^ กลับสู่เนื้อหา ^
แหล่งที่มา | คำอธิบาย | กระดาษ | เครื่องยนต์เกม | พิมพ์ |
---|---|---|---|---|
Aniportrait | การสังเคราะห์เสียงที่ขับเคลื่อนด้วยเสียงของภาพเคลื่อนไหวภาพบุคคล | อาร์เอ็กซ์ | อวตาร | |
เงียบสงบ | แบบจำลองแฝงของฝ่ายตรงข้ามที่มีเงื่อนไขสำหรับอักขระเสมือนจริงที่สามารถติดต่อได้ | อาร์เอ็กซ์ | อวตาร | |
chatavatar | การสร้างแบบ 3 มิติแบบแอนิเมชั่นที่มีความก้าวหน้าภายใต้คำแนะนำข้อความ | อวตาร | ||
chatdollkit | Chatdollkit ช่วยให้คุณสร้างโมเดล 3 มิติของคุณให้เป็น Chatbot | ความสามัคคี | อวตาร | |
Dreamtalk | เมื่อการสร้างหัวพูดคุยที่แสดงออกมาเป็นไปตามโมเดลความน่าจะเป็นของการแพร่กระจาย | อาร์เอ็กซ์ | อวตาร | |
คู่ | Duix - SDK Digital Human Digital ที่ใช้ซิลิคอน? | อวตาร | ||
ก้อง | ECHOMIMIC: ภาพเคลื่อนไหวแนวตั้งที่ขับเคลื่อนด้วยเสียงที่เหมือนจริงผ่านเงื่อนไขที่เป็นสถานที่สำคัญที่แก้ไขได้ | arxiv | อวตาร | |
Emoportraits | อวตารหัวเดียวที่เพิ่มขึ้นหลายรูปแบบ | อวตาร | ||
E3 gen | การสร้างอวตารที่มีประสิทธิภาพแสดงออกและแก้ไขได้ | อาร์เอ็กซ์ | อวตาร | |
exavatar | Exavatar - Avatar Gaussian Avatar 3D ทั้งร่างกาย | arxiv | อวตาร | |
เครื่องประดับ | การแก้ไข Avatar Avatar ที่รับรู้ทั่วไปจากภาพเดียวจากภาพเดียว | อาร์เอ็กซ์ | อวตาร | |
Geneface ++ | ทั่วไปและมีเสถียรภาพ 3D Talking Face Generation | อวตาร | ||
สวัสดี | การสังเคราะห์ภาพที่ขับเคลื่อนด้วยเสียงแบบลำดับชั้นสำหรับภาพเคลื่อนไหวภาพบุคคล | arxiv | อวตาร | |
Hallo2 | Hallo2: ภาพเคลื่อนไหวภาพบุคคลที่ขับเคลื่อนด้วยเสียงที่มีความละเอียดสูงและมีความละเอียดสูง | arxiv | อวตาร | |
ผ้าคลุมศีรษะ | การประดิษฐ์อวตารหัว 3 มิติพร้อมข้อความ | arxiv | อวตาร | |
Intrinsicavatar | Intrinsicavatar: การเรนเดอร์ผกผันทางร่างกายของมนุษย์แบบไดนามิกจากวิดีโอตาข้างเดียวผ่านการติดตามรังสีที่ชัดเจน | arxiv | อวตาร | |
Linly-Talker | ระบบสนทนา Avatar Digital | อวตาร | ||
LivePortrait | LivePortrait: ภาพเคลื่อนไหวภาพบุคคลที่มีประสิทธิภาพพร้อมการเย็บและการควบคุมการกำหนดเป้าหมายใหม่ | arxiv | อวตาร | |
การเคลื่อนไหว | การเคลื่อนไหวของมนุษย์เป็นภาษาต่างประเทศซึ่งเป็นแบบจำลองการสร้างภาษาแบบรวมโดยใช้ LLMS | อาร์เอ็กซ์ | อวตาร | |
เมทิน | Musepose: กรอบการทำงานที่ขับเคลื่อนด้วยภาพรวมถึงวิดีโอสำหรับมนุษย์เสมือนจริง | อวตาร | ||
Musetalk | การสังเคราะห์ริมฝีปากคุณภาพสูงแบบเรียลไทม์กับพื้นที่แฝงในการทาสี | อวตาร | ||
มูฟ | การสร้างวิดีโอมนุษย์เสมือนจริงที่มีความยาวไม่สิ้นสุดและมีความเที่ยงตรงสูง | อวตาร | ||
portrait4d | การเรียนรู้การสังเคราะห์ Avatar หัว 4D-shot head โดยใช้ข้อมูลสังเคราะห์ | arxiv | อวตาร | |
Ready Player Me | รวมอวตารที่ปรับแต่งได้เข้ากับเกมหรือแอพของคุณในไม่กี่วัน | อวตาร | ||
rodinhd | Rodinhd: การสร้างอวตาร 3D ความเที่ยงตรงสูงพร้อมแบบจำลองการแพร่กระจาย | arxiv | อวตาร | |
Styleavatar3d | การใช้ประโยชน์จากรูปแบบการแพร่กระจายของข้อความภาพสำหรับการสร้างอวตาร 3D ความเที่ยงตรงสูง | arxiv | อวตาร | |
Text2Control3d | การสร้าง Avatar 3D ที่ควบคุมได้ในเขตข้อมูลความสว่างของระบบประสาทโดยใช้แบบจำลองการแพร่กระจายข้อความเรขาคณิตที่นำไปสู่ภาพเรขาคณิต | arxiv | อวตาร | |
topo4D | ทอพอโลยีช่วยรักษาเกาส์เซียนสำหรับการจับหัว 4D ที่มีความเที่ยงตรงสูง | arxiv | อวตาร | |
UnityaiWithChatgpt | ขึ้นอยู่กับความสามัคคีการแสดงผลการโต้ตอบด้วยเสียง chatgpt+Unitychan ได้รับการรับรู้ | ความสามัคคี | อวตาร | |
vid2avatar | การสร้างใหม่ของ Avatar จากวิดีโอในป่าผ่านการสลายตัวของฉากที่ดูแลตนเอง | arxiv | อวตาร | |
คนขายดี | การแพร่กระจายหลายรูปแบบสำหรับการสังเคราะห์อวตารที่เป็นตัวเป็นตน | อวตาร | ||
Wild2avatar | การแสดงผลมนุษย์ที่อยู่เบื้องหลังการบดเคี้ยว | arxiv | อวตาร |
^ กลับสู่เนื้อหา ^
แหล่งที่มา | คำอธิบาย | กระดาษ | เครื่องยนต์เกม | พิมพ์ |
---|---|---|---|---|
เคลื่อนไหวทุกคน | การสังเคราะห์ภาพต่อวิดีโอที่สอดคล้องและควบคุมได้สำหรับภาพเคลื่อนไหวของตัวละคร | arxiv | แอนิเมชั่น | |
อนิเมชั่น | อนิเมชั่นอิมเมจโดเมนเปิดที่มีความละเอียดพร้อมคำแนะนำการเคลื่อนไหว | arxiv | แอนิเมชั่น | |
อนิเมชั่น | ทำให้โมเดลการแพร่กระจายข้อความเป็นส่วนตัวของคุณเป็นแบบส่วนตัวโดยไม่ต้องปรับแต่งเฉพาะ | arxiv | แอนิเมชั่น | |
animatelcm | มาเร่งการสร้างวิดีโอภายใน 4 ขั้นตอนกันเถอะ! | arxiv | แอนิเมชั่น | |
Animate-X | Animate-X: ภาพเคลื่อนไหวภาพสากลที่มีการแสดงการเคลื่อนไหวที่เพิ่มขึ้น | arxiv | แอนิเมชั่น | |
animatezero | โมเดลการแพร่กระจายวิดีโอเป็นอนิเมเตอร์ภาพที่ไม่มีภาพ | arxiv | แอนิเมชั่น | |
AnimationGpt | เครื่องมือ AIGC สำหรับการสร้างสินทรัพย์การเคลื่อนไหวของเกม | แอนิเมชั่น | ||
ม้วน | Deforum ใช้ประโยชน์จากการแพร่กระจายที่มั่นคงเพื่อสร้างภาพ AI ที่พัฒนาขึ้น | แอนิเมชั่น | ||
ภาพวาด | DrawingsPinup: ภาพเคลื่อนไหว 3D จากภาพวาดตัวละครเดี่ยว | arxiv | แอนิเมชั่น | |
Dreamoving | กรอบการสร้างวิดีโอของมนุษย์ตามรูปแบบการแพร่กระจาย | arxiv | แอนิเมชั่น | |
การตกตะกอน | รุ่นต่อไปใบหน้า swapper และ enhancer | แอนิเมชั่น | ||
freeinit | เชื่อมช่องว่างการเริ่มต้นในโมเดลการแพร่กระจายวิดีโอ | arxiv | แอนิเมชั่น | |
Geneface | การสังเคราะห์ใบหน้าการพูดคุยแบบ 3 มิติที่ขับเคลื่อนด้วยเสียงแบบทั่วไปและมีความเที่ยงตรงสูง | arxiv | แอนิเมชั่น | |
id-animator | การสร้างวิดีโอของมนุษย์ที่ไม่ได้รับการรักษาเป็นศูนย์ | arxiv | แอนิเมชั่น | |
เวทมนตร์ | ภาพเคลื่อนไหวภาพมนุษย์ที่สอดคล้องกันชั่วคราวโดยใช้แบบจำลองการแพร่กระจาย | arxiv | แอนิเมชั่น | |
นูวา | Dragnuwa เป็นรูปแบบการสร้างวิดีโอแบบเปิดโดเมนแบบเปิดใช้การควบคุมข้อความภาพและวิถีเป็นอินพุตเพื่อให้ได้การสร้างวิดีโอที่ควบคุมได้ | arxiv | แอนิเมชั่น | |
Nuwa-infinity | Nuwa-Infinity เป็นแบบจำลองการกำเนิดหลายรูปแบบที่ออกแบบมาเพื่อสร้างภาพและวิดีโอคุณภาพสูงจากข้อความรูปภาพหรือวิดีโอที่กำหนด | แอนิเมชั่น | ||
nuwa-xl | การแพร่กระจายนวนิยายเกี่ยวกับสถาปัตยกรรมการแพร่กระจายสำหรับการสร้างวิดีโอที่ยาวมาก | แอนิเมชั่น | ||
อนิเมชั่น Omni | AI สร้างแอนิเมชั่นความจงรักภักดีสูง | แอนิเมชั่น | ||
เพีย | อนิเมชั่นรูปภาพส่วนบุคคลของคุณผ่านโมดูลปลั๊กแอนด์เพลย์ในรุ่นข้อความถึงภาพ | arxiv | แอนิเมชั่น | |
คนอนาถ | การเรียนรู้ค่าสัมประสิทธิ์การเคลื่อนไหว 3 มิติที่สมจริงสำหรับภาพเคลื่อนไหวภาพอนิเมชั่นการพูดคุยแบบอนิเมชั่นภาพเดียวที่ขับเคลื่อนด้วยเสียง | arxiv | แอนิเมชั่น | |
Sadtalker-Video-Lip-Sync | โครงการนี้ขึ้นอยู่กับ Sadtalkers WAV2LIP สำหรับการสังเคราะห์ลิปวิดีโอ | แอนิเมชั่น | ||
อนิเมชั่นที่มั่นคง | เครื่องมือข้อความเป็นแอนิเมชั่นที่ทรงพลังสำหรับนักพัฒนา | แอนิเมชั่น | ||
talecrafter | เครื่องมือสร้างภาพข้อมูลเรื่องราวแบบโต้ตอบที่รองรับหลายตัวละคร | arxiv | แอนิเมชั่น | |
tooncrafter | Tooncrafter: การแก้ไขการ์ตูนทั่วไป | arxiv | แอนิเมชั่น | |
wav2lip | วิดีโอซิงค์ริมฝีปากอย่างถูกต้องในป่า | arxiv | แอนิเมชั่น | |
สตูดิโอมหัศจรรย์ | เครื่องมือ AI ที่เคลื่อนไหวโดยอัตโนมัติไฟและรวบรวมอักขระ CG ลงในฉากไลฟ์แอ็กชั่น | แอนิเมชั่น |
^ กลับสู่เนื้อหา ^
แหล่งที่มา | คำอธิบาย | กระดาษ | เครื่องยนต์เกม | พิมพ์ |
---|---|---|---|---|
Cambrian-1 | Cambrian-1: การสำรวจ LLM แบบหลายรูปแบบที่เปิดกว้างและมีวิสัยทัศน์เป็นศูนย์กลาง | arxiv | Multimodal LLMS | |
Cogvlm2 | โมเดลหลายโมเดลโอเพนซอร์ซระดับ GPT4V ตาม LLAMA3-8B | ภาพ | ||
ผู้ทำนาย | มันจะดีกว่าที่จะติดตามด้วยกัน | arxiv | ภาพ | |
EVF-Sam | EVF-SAM: ฟิวชั่นภาษาวิสัยทัศน์ก่อนกำหนดสำหรับส่วนที่นำเสนอข้อความแบบจำลองอะไรก็ได้ | arxiv | ภาพ | |
หน้า | มันจะดีกว่าที่จะติดตามด้วยกัน | ภาพ | ||
internlm-xcomposer2 | InternLM-XCOMPOSER2 เป็นรุ่น Vision Language Language Language Model (VLLM) ที่ยอดเยี่ยมในการจัดองค์ประกอบภาพและความเข้าใจรูปแบบข้อความแบบอิสระ | arxiv | ภาพ | |
จิงโจ้ | จิงโจ้: โมเดลวิดีโอภาษาที่ทรงพลังซึ่งรองรับอินพุตวิดีโอบริบทยาว | ภาพ | ||
LGVI | ไปสู่วิดีโอที่ขับเคลื่อนด้วยภาษาผ่านแบบจำลองภาษาขนาดใหญ่หลายรูปแบบ | ภาพ | ||
llava ++ | ขยายความสามารถด้านภาพด้วย LLAMA-3 และ Phi-3 | ภาพ | ||
ลาวา | LLAVA-ONEVISION: การถ่ายโอนงานภาพที่ง่าย | arxiv | ภาพ | |
longva | การถ่ายโอนบริบทยาวจากภาษาสู่วิสัยทัศน์ | arxiv | ภาพ | |
maskvit | สวมหน้ากากก่อนการฝึกอบรมสำหรับการทำนายวิดีโอ | arxiv | ภาพ | |
MINICPM-LLAMA3-V 2.5 | MLLM ระดับ GPT-4V บนโทรศัพท์ของคุณ | ภาพ | ||
Moe-llava | ส่วนผสมของผู้เชี่ยวชาญสำหรับโมเดลภาษาวิสัยทัศน์ขนาดใหญ่ | arxiv | ภาพ | |
การเคลื่อนไหว | การทำความเข้าใจพฤติกรรมของมนุษย์จากการเคลื่อนไหวและวิดีโอของมนุษย์ | arxiv | ภาพ | |
pllava | ส่วนขยาย LLAVA ที่ปราศจากพารามิเตอร์จากภาพไปยังวิดีโอสำหรับการบรรยายภาพความหนาแน่นวิดีโอ | arxiv | ภาพ | |
qwen-vl | รูปแบบภาษาวิสัยทัศน์ที่หลากหลายสำหรับความเข้าใจการแปลการอ่านข้อความและอื่น ๆ | arxiv | ภาพ | |
sapiens | Sapiens: รากฐานสำหรับแบบจำลองการมองเห็นของมนุษย์ | arxiv | ภาพ | |
sharegpt4v | การปรับปรุงโมเดลหลายโมเดลขนาดใหญ่ด้วยคำบรรยายที่ดีกว่า | arxiv | ภาพ | |
เดี่ยว | โซโล: หม้อแปลงเดียวสำหรับการสร้างแบบจำลองภาษาวิสัยทัศน์ที่ปรับขนาดได้ | arxiv | ภาพ | |
วิดีโอ-CCAM | Video-CCAM: การพัฒนาความเข้าใจภาษาวิดีโอด้วยมาสก์ที่มีสาเหตุ | ภาพ | ||
วิดีโอ-llava | การเรียนรู้การเป็นตัวแทนภาพรวมโดยการจัดตำแหน่งก่อนการคาดการณ์ | arxiv | ภาพ | |
Videollama 2 | การสร้างแบบจำลองเชิงพื้นที่-อารมณ์และความเข้าใจด้านเสียงในวิดีโอ-LLM | arxiv | ภาพ | |
วิดีโอ MME | เกณฑ์มาตรฐานการประเมินที่ครอบคลุมครั้งแรกของ LLM แบบหลายรูปแบบในการวิเคราะห์วิดีโอ | arxiv | ภาพ | |
Vitron | LLM วิสัยทัศน์ระดับพิกเซลแบบครบวงจรสำหรับความเข้าใจการสร้างการแบ่งส่วนการแก้ไข | ภาพ | ||
วิลา | VILA: ในการฝึกอบรมล่วงหน้าสำหรับแบบจำลองภาษาภาพ | arxiv | ภาพ |
^ กลับสู่เนื้อหา ^
แหล่งที่มา | คำอธิบาย | กระดาษ | เครื่องยนต์เกม | พิมพ์ |
---|---|---|---|---|
360DVD | การสร้างวิดีโอพาโนรามาที่สามารถควบคุมได้ด้วยโมเดลการแพร่กระจายวิดีโอ 360 องศา | arxiv | วีดีโอ | |
มีชีวิต | การสร้างวิดีโอที่รอคอยการเล่าเรื่องเพื่อเล่าเรื่อง | arxiv | วีดีโอ | |
อะไรก็ได้ในทุกฉาก | การแทรกวัตถุวิดีโอ Photorealistic | วีดีโอ | ||
ศิลปะ• V | การสร้างข้อความสู่วิดีโอแบบเร่งด่วนอัตโนมัติพร้อมรุ่นการแพร่กระจาย | arxiv | วีดีโอ | |
การช่วยเหลือ | พบกับแพลตฟอร์มวิดีโอกำเนิดที่นำความคิดของคุณมาสู่ชีวิต | วีดีโอ | ||
Atomovideo | การสร้างภาพต่อวิดีโอที่มีความเที่ยงตรงสูง | arxiv | วีดีโอ | |
พื้นหลัง | การกำจัดพื้นหลังช่วยให้คุณลบพื้นหลังออกจากรูปภาพและวิดีโอโดยใช้ AI ด้วยอินเทอร์เฟซบรรทัดคำสั่งง่าย ๆ ที่ฟรีและโอเพ่นซอร์ส | วีดีโอ | ||
ผู้ตรวจสอบ Boximator | สร้างการเคลื่อนไหวที่สมบูรณ์และควบคุมได้สำหรับการสังเคราะห์วิดีโอ | arxiv | วีดีโอ | |
Codef | ฟิลด์การเสียรูปเนื้อหาสำหรับการประมวลผลวิดีโอที่สอดคล้องกันชั่วคราว | arxiv | วีดีโอ | |
โคก | สร้างวิดีโอจากคำอธิบายข้อความ | วีดีโอ | ||
โคกวีดิซ | Cogvideox เป็นรุ่นโอเพนซอร์ซของรุ่นการสร้างวิดีโอซึ่งคล้ายคลึงกับ清影 | วีดีโอ | ||
ความขุ่นมัว | COGVLM เป็นรูปแบบภาษาภาพโอเพนซอร์ซที่ทรงพลัง (VLM) | ภาพ | ||
Conr | Genarate Vivid Dancing Videos จากแผ่นอะนิเมะที่วาดด้วยมือ (ACS) | arxiv | วีดีโอ | |
decohere | สร้างสิ่งที่ไม่สามารถถ่ายทำได้ | วีดีโอ | ||
คำอธิบาย | คำอธิบายเป็นวิธีที่เรียบง่ายทรงพลังและสนุกสนานในการแก้ไข | วีดีโอ | ||
diffutoon | การแรเงา Toon ที่แก้ไขได้สูงผ่านแบบจำลองการแพร่กระจาย | arxiv | วีดีโอ | |
ปลาโลมา | แพลตฟอร์มการโต้ตอบวิดีโอทั่วไปตาม LLMS | วีดีโอ | ||
โดม | ขยายความคิดสร้างสรรค์ของคุณกับ Domoai | วีดีโอ | ||
Dreamcinema | Dreamcinema: การถ่ายโอนภาพยนตร์ด้วยกล้องฟรีและตัวละคร 3 มิติ | arxiv | วีดีโอ | |
ไดนามิก | ภาพเคลื่อนไหวภาพเปิดโดเมนพร้อมวิดีโอ Priors Diffusion | arxiv | วีดีโอ | |
ขอบ | เราแนะนำ Edge ซึ่งเป็นวิธีการที่ทรงพลังสำหรับการสร้างการเต้นที่สามารถแก้ไขได้ซึ่งสามารถสร้างการเต้นรำที่เป็นจริงและเป็นไปได้ทางร่างกายในขณะที่ยังคงซื่อสัตย์ต่อเพลงอินพุตโดยพลการ | arxiv | วีดีโอ | |
อีโม | Emote Portrait Alive - สร้างวิดีโอภาพบุคคลที่แสดงออกด้วยโมเดลการแพร่กระจายของ Audio2Video ภายใต้เงื่อนไขที่อ่อนแอ | arxiv | วีดีโอ | |
วิดีโออีมู | การสร้างการสร้างข้อความถึงวิดีโอด้วยการปรับสภาพภาพที่ชัดเจน | วีดีโอ | ||
Etna | Etna สามารถสร้างเนื้อหาวิดีโอที่สอดคล้องกันตามคำอธิบายข้อความสั้น ๆ | วีดีโอ | ||
นางฟ้า | การสังเคราะห์วิดีโอแบบคู่มือการเรียนการสอนแบบคู่ขนานอย่างรวดเร็ว | วีดีโอ | ||
ติดตามของคุณ | ติดตามของคุณ: วิดีโอความละเอียดสูงกว่าการสร้างเนื้อหาที่กว้างขวาง | arxiv | วีดีโอ | |
ติดตามท่าของคุณ | การสร้างข้อความถึงวิดีโอที่นำทางไปยังวิดีโอโดยใช้วิดีโอที่ไม่มีท่าทาง | arxiv | วีดีโอ | |
Fulljourney | ชุดเครื่องมือสร้าง AI ที่สมบูรณ์ของคุณที่ปลายนิ้วของคุณ | วีดีโอ | ||
Gen-2 | ระบบ AI แบบหลายโหมดที่สามารถสร้างวิดีโอใหม่ด้วยข้อความรูปภาพหรือคลิปวิดีโอ | วีดีโอ | ||
พลวัตกำเนิด | การเปลี่ยนแปลงของภาพกำเนิด | วีดีโอ | ||
มาร | สภาพแวดล้อมแบบอินเทอร์แอคทีฟกำเนิด | arxiv | วีดีโอ | |
Genmo | ทำวิดีโอด้วย AI อย่างน่าอัศจรรย์ | วีดีโอ | ||
คนขี้ขลาด | หม้อแปลงการแพร่กระจายสำหรับการสร้างภาพและวิดีโอ | วีดีโอ | ||
Higen | การแยกตัวออกตามลำดับชั้น-อารมณ์สำหรับการสร้างข้อความถึงวิดีโอ | วีดีโอ | ||
hotshot-xl | Hotshot-XL เป็นรุ่นข้อความ AI to-GIF ที่ผ่านการฝึกอบรมให้ทำงานควบคู่ไปกับการแพร่กระจายที่เสถียร XL | วีดีโอ | ||
hunyuanvideo | HUNYUANVIDEO: กรอบระบบสำหรับรุ่นการสร้างวิดีโอขนาดใหญ่ | arxiv | วีดีโอ | |
จินตนาการภาพ | ด้วยข้อความที่ได้รับข้อความ Imagen Video จะสร้างวิดีโอความละเอียดสูงโดยใช้โมเดลการสร้างวิดีโอพื้นฐานและลำดับของโมเดลความละเอียดสูงของวิดีโอเชิงพื้นที่และชั่วคราว | วีดีโอ | ||
คำแนะนำ | การสอนโมเดลการแพร่กระจายของวิดีโอพร้อมข้อเสนอแนะของมนุษย์ | arxiv | วีดีโอ | |
i2vgen-xl | การสังเคราะห์ภาพกับวิดีโอคุณภาพสูงผ่านแบบจำลองการแพร่กระจายแบบเรียงซ้อน | arxiv | วีดีโอ | |
ลาวา | การสร้างวิดีโอคุณภาพสูงพร้อมรูปแบบการแพร่กระจายแฝงแบบเรียงซ้อนกัน | arxiv | วีดีโอ | |
LTX Studio | LTX Studio เป็นแพลตฟอร์มการสร้างภาพยนตร์แบบองค์รวมที่ขับเคลื่อนด้วย AI สำหรับผู้สร้างนักการตลาดผู้สร้างภาพยนตร์และสตูดิโอ | วีดีโอ | ||
LTX-Video | LTX-Video เป็นรุ่นการสร้างวิดีโอที่ใช้ DIT ครั้งแรกที่สามารถสร้างวิดีโอคุณภาพสูงแบบเรียลไทม์ มันสามารถสร้างวิดีโอ 24 FPS ที่ความละเอียด 768x512 เร็วกว่าที่จะดู | วีดีโอ | ||
Lumiere | รูปแบบการแพร่กระจายเวลาในอวกาศสำหรับการสร้างวิดีโอ | arxiv | วีดีโอ | |
LVDM | โมเดลการแพร่กระจายวิดีโอแฝงสำหรับการสร้างวิดีโอที่มีความยาวสูง | arxiv | วีดีโอ | |
เวทมนตร์ | การสร้างวิดีโอที่มีประสิทธิภาพพร้อมรูปแบบการแพร่กระจายแฝง | arxiv | วีดีโอ | |
MagicVideo-V2 | การสร้างวิดีโอที่มีความสุขสูงหลายขั้นตอน | arxiv | วีดีโอ | |
ชั่วโมงแห่งเวทมนตร์ | วิดีโอ AI สำหรับผู้สร้างทำได้ง่าย | วีดีโอ | ||
magvit-v2 | Tokenizer เป็นกุญแจสำคัญในการสร้างภาพ | วีดีโอ | ||
Magvit | Masked Generative Video Transformer | วีดีโอ | ||
Make-a-video | Make-A-Video เป็นระบบ AI ที่ทันสมัยซึ่งสร้างวิดีโอจากข้อความ | arxiv | วีดีโอ | |
ทำพิกเซลเต้นรำ | การสร้างวิดีโอที่มีจานสูง | arxiv | วีดีโอ | |
สร้างวิดีโอของคุณ | การสร้างวิดีโอที่กำหนดเองโดยใช้คำแนะนำเชิงข้อความและโครงสร้าง | arxiv | วีดีโอ | |
microcinema | วิธีการหารและพิชิตสำหรับการสร้างข้อความถึงวิดีโอ | arxiv | วีดีโอ | |
Mimo | MIMO: การสังเคราะห์วิดีโอตัวละครที่ควบคุมได้ด้วยการสร้างแบบจำลองการย่อยสลายเชิงพื้นที่ | arxiv | วีดีโอ | |
มินิ-รามินิ | การขุดศักยภาพของแบบจำลองภาษาการมองเห็นแบบหลายระบบ | วิสัยทัศน์ | ||
mobilevidfactory | การสร้างวิดีโอโซเชียลมีเดียที่ใช้การแพร่กระจายอัตโนมัติสำหรับอุปกรณ์มือถือจากข้อความ | วีดีโอ | ||
โมจิ 1 | Mochi 1 เป็นโมเดลการสร้างวิดีโอที่ล้ำสมัยที่มีการเคลื่อนไหวที่มีความเที่ยงตรงสูงและการยึดมั่นที่รวดเร็วในการประเมินเบื้องต้น | วีดีโอ | ||
Mofa-video | ภาพเคลื่อนไหวของภาพที่ควบคุมได้ผ่านการปรับตัวของฟิลด์การเคลื่อนไหวแบบกำเนิดในรูปแบบการแพร่กระจายของภาพกับวิดีโอแช่แข็ง | arxiv | วีดีโอ | |
Moneyprinterturbo | ใช้โมเดลขนาดใหญ่เพื่อสร้างวิดีโอสั้น ๆ ด้วยคลิกเดียว | วีดีโอ | ||
Moonvalley | Moonvalley เป็นโมเดล AI To-Video Generative ใหม่ที่ก้าวล้ำ | วีดีโอ | ||
โมรา | เช่น Sora สำหรับการสร้างวิดีโอทั่วไป | arxiv | วีดีโอ | |
สตูดิโอ Morph | ด้วยเวทมนตร์ AI แบบข้อความถึงวิดีโอของเราแสดงให้เห็นถึงความคิดสร้างสรรค์ของคุณผ่านพรอมต์ของคุณ | วีดีโอ | ||
การเคลื่อนไหว | MotionClone: การโคลนนิ่งเคลื่อนไหวฟรีสำหรับการสร้างวิดีโอที่ควบคุมได้ | arxiv | วีดีโอ | |
การเคลื่อนไหว | ตัวควบคุมการเคลื่อนไหวแบบครบวงจรและยืดหยุ่นสำหรับการสร้างวิดีโอ | arxiv | วีดีโอ | |
ผู้กำกับการเคลื่อนไหว | การปรับแต่งการเคลื่อนไหวของแบบจำลองการแพร่กระจายข้อความไปยังวิดีโอ | arxiv | วีดีโอ | |
ภาพเคลื่อนไหว | แอปพลิเคชันของการแทนที่อักขระในวิดีโอด้วยอวตาร 3D | วีดีโอ | ||
mov2mov | ปลั๊กอิน MOV2MOV สำหรับ Automatic1111/STABE-DIFFUSION-WEBUI | วีดีโอ | ||
เกี่ยวกับการเคลื่อนไหว | การสร้างภาพยนตร์อัตโนมัติจากข้อความโดยใช้รุ่น Generative ขนาดใหญ่สำหรับภาษาและรูปภาพ | arxiv | วีดีโอ | |
เฟรมประสาท | ค้นพบซินธิไซเซอร์สำหรับโลกภาพ | วีดีโอ | ||
ไม่มีวัน | สร้างโลกของคุณ | วีดีโอ | ||
โอเพ่น | การสร้างวิดีโอการผลิตวิดีโอที่มีประสิทธิภาพสำหรับทุกคน | วีดีโอ | ||
โอเพ่น | แผนเปิดโซร่า | วีดีโอ | ||
ฟีนากิ | แบบจำลองสำหรับการสร้างวิดีโอจากข้อความพร้อมด้วยพรอมต์ที่สามารถเปลี่ยนแปลงได้ตลอดเวลาและวิดีโอที่สามารถใช้เวลานานหลายนาที | arxiv | วีดีโอ | |
Pika Labs | Pika Labs กำลังปฏิวัติประสบการณ์การทำวิดีโอด้วย AI | วีดีโอ | ||
การทำพิกเซล | Pixeling ช่วยให้ลูกค้าของเราสามารถสร้างเนื้อหาภาพที่มีความแม่นยำสูงเป็นพิเศษและควบคุมได้อย่างมากรวมถึงรูปภาพวิดีโอและรุ่น 3 มิติ | วีดีโอ | ||
PixVerse | สร้างวิดีโอที่น่าทึ่งด้วย AI | วีดีโอ | ||
การผสมเกสร | การสร้างได้ง่ายรวดเร็วและสนุก | วีดีโอ | ||
นำกลับมาใช้ใหม่และกระจาย | การทำซ้ำซ้ำสำหรับการสร้างข้อความถึงวิดีโอ | arxiv | วีดีโอ | |
รุ่ยยี่ | Ruyi เป็นรูปแบบการถ่ายภาพผ่านวิดีโอที่สามารถสร้างวิดีโอคุณภาพภาพยนตร์ได้ที่ความละเอียด 768 โดยมีอัตราเฟรม 24 เฟรมต่อวินาทีรวม 5 วินาทีและ 120 เฟรม | วีดีโอ | ||
shortgpt | กรอบการทดลอง AI สำหรับการสร้างเนื้อหาสั้น/วิดีโออัตโนมัติ | วีดีโอ | ||
การแสดง -1 | การแต่งงานกับพิกเซลและรูปแบบการแพร่กระจายแฝงสำหรับการสร้างข้อความสู่วิดีโอ | arxiv | วีดีโอ | |
วิดีโอ Snap | ปรับขนาดหม้อแปลง spatiotemporal สำหรับการสังเคราะห์ข้อความกับวิดีโอ | arxiv | วีดีโอ | |
โซระ | การสร้างวิดีโอจากข้อความ | วีดีโอ | ||
sorawebui | Sorawebui เป็นไคลเอนต์ Web โอเพนซอร์ซทำให้ผู้ใช้สามารถสร้างวิดีโอจากข้อความด้วยโมเดล SORA ของ OpenAI ได้อย่างง่ายดาย | วีดีโอ | ||
stablevideo | การแก้ไขวิดีโอการแพร่กระจายของข้อความที่ใช้ข้อความ | วีดีโอ | ||
การแพร่กระจายวิดีโอที่เสถียร | การแพร่กระจายวิดีโอที่เสถียร (SVD) ภาพสู่วิดีโอ | วีดีโอ | ||
StoryDiffusion | ความตั้งใจที่สอดคล้องกันสำหรับการสร้างภาพและวิดีโอระยะยาว | arxiv | วีดีโอ | |
สตรีมมิ่ง T2V | การสร้างวิดีโอที่สอดคล้องกันแบบไดนามิกและขยายได้จากข้อความ | arxiv | วีดีโอ | |
stylecrafter | Nhancing การสร้างข้อความถึงวิดีโอด้วยอะแดปเตอร์สไตล์ | arxiv | วีดีโอ | |
ทัต | การสร้างวิดีโอยาวพร้อม VQGAN ที่ไม่เชื่อเรื่องกันเวลาและหม้อแปลงที่ไวต่อเวลา | วีดีโอ | ||
Text2Video-Zero | แบบจำลองการแพร่กระจายแบบข้อความเป็นภาพเป็นเครื่องกำเนิดวิดีโอแบบไม่มีการยิง | arxiv | วีดีโอ | |
TF-T2V | สูตรสำหรับการปรับขนาดการสร้างข้อความถึงวิดีโอด้วยวิดีโอที่ไม่มีข้อความ | arxiv | วีดีโอ | |
โทร่า | Tora: หม้อแปลงการแพร่กระจายที่มุ่งเน้นวิถีสำหรับการสร้างวิดีโอ | arxiv | วีดีโอ | |
แทร็กใด ๆ | แทร็ก-ทุกอย่างเป็นเครื่องมือที่ยืดหยุ่นและโต้ตอบสำหรับการติดตามวัตถุวิดีโอและการแบ่งส่วนตามส่วนและ XMEM | arxiv | วีดีโอ | |
Tune-a-video | การปรับแต่งแบบจำลองการแพร่กระจายของภาพหนึ่งครั้งสำหรับการสร้างข้อความถึงวิดีโอ | arxiv | วีดีโอ | |
สิบสอง | AI หลายรูปแบบที่เข้าใจวิดีโอเช่นมนุษย์ | วีดีโอ | ||
univg | สู่การสร้างวิดีโอแบบครบวงจร | วีดีโอ | ||
VCHITECT-2.0 | VCHITECT-2.0: หม้อแปลงขนานสำหรับการปรับขนาดโมเดลการแพร่กระจายวิดีโอ | วีดีโอ | ||
VGEN | ระบบนิเวศการสร้างวิดีโอแบบองค์รวมสำหรับการสร้างการสร้างวิดีโอในรูปแบบการแพร่กระจาย | arxiv | วีดีโอ | |
Viewcrafter | ViewCrafter: สร้างโมเดลการแพร่กระจายวิดีโอสำหรับการสังเคราะห์มุมมองใหม่ที่มีความเที่ยงตรงสูง | arxiv | วีดีโอ | |
วิดีโอ chatgpt | Video-Chatgpt เป็นรูปแบบการสนทนาวิดีโอที่สามารถสร้างการสนทนาที่มีความหมายเกี่ยวกับวิดีโอ | arxiv | วีดีโอ | |
Videocomposer | การสังเคราะห์วิดีโอองค์ประกอบพร้อมการควบคุมการเคลื่อนไหว | arxiv | วีดีโอ | |
Videocrafter1 | แบบเปิดแบบเปิดสำหรับการสร้างวิดีโอคุณภาพสูง | arxiv | วีดีโอ | |
Videocrafter2 | การเอาชนะข้อ จำกัด ของข้อมูลสำหรับรุ่นการแพร่กระจายวิดีโอคุณภาพสูง | arxiv | วีดีโอ | |
Videodrafter | การสร้างวิดีโอหลายฉากที่สอดคล้องกับเนื้อหาด้วย LLM | arxiv | วีดีโอ | |
Videolevator | การยกระดับคุณภาพการสร้างวิดีโอด้วยโมเดลการแพร่กระจายข้อความที่หลากหลาย | arxiv | วีดีโอ | |
Videofactory | สลับความสนใจในการแพร่กระจาย spatiotemporal สำหรับการสร้างข้อความถึงวิดีโอ | วีดีโอ | ||
วิดีโอ | วิธีการแพร่กระจายแฝงแบบนำทางอ้างอิงสำหรับการสร้างข้อความถึงวิดีโอที่มีความละเอียดสูง | arxiv | วีดีโอ | |
videolcm | โมเดลความสอดคล้องของวิดีโอแฝง | arxiv | วีดีโอ | |
วิดีโอ LDMS | จัดตำแหน่งแฝงของคุณ: การสังเคราะห์วิดีโอความละเอียดสูงกับโมเดลการแพร่กระจายแฝง | arxiv | วีดีโอ | |
วิดีโอ-llava | การเรียนรู้การเป็นตัวแทนภาพรวมโดยการจัดตำแหน่งก่อนการคาดการณ์ | arxiv | วีดีโอ | |
Videomamba | รูปแบบพื้นที่ของรัฐสำหรับการทำความเข้าใจวิดีโอที่มีประสิทธิภาพ | arxiv | วีดีโอ | |
วิดีโอแห่งความคิด | วิดีโอแห่งความคิด: การให้เหตุผลวิดีโอทีละขั้นตอนตั้งแต่การรับรู้ถึงความรู้ความเข้าใจ | วีดีโอ | ||
Videopoet | รูปแบบภาษาขนาดใหญ่สำหรับการสร้างวิดีโอแบบไม่มีการยิง | arxiv | วีดีโอ | |
การเคลื่อนไหวของ Vispunk | สร้างวิดีโอที่สมจริงโดยใช้ข้อความเพียงแค่ | วีดีโอ | ||
Visualrwkv | VisualRWKV เป็นรุ่นที่เพิ่มภาพของรุ่น RWKV ซึ่งช่วยให้ RWKV สามารถจัดการงานภาพต่าง ๆ ได้ | ภาพ | ||
วี-เจปา | Video Joint Embedding สถาปัตยกรรมทำนาย | arxiv | วีดีโอ | |
วอลต์ | การสร้างวิดีโอแบบ Photorealistic พร้อมรุ่นการแพร่กระจาย | arxiv | วีดีโอ | |
Zeroscope | Zeroscope text-to-video | วีดีโอ |
^ กลับสู่เนื้อหา ^
แหล่งที่มา | คำอธิบาย | กระดาษ | เครื่องยนต์เกม | พิมพ์ |
---|---|---|---|---|
Academicodec | รูปแบบตัวแปลงสัญญาณเสียงโอเพ่นซอร์สสำหรับการวิจัยเชิงวิชาการ | เสียง | ||
สะเทินน้ำสะเทินบก | ชุดเครื่องมือเสียงเพลงและการสร้างคำพูดแบบโอเพ่นซอร์ส | arxiv | เสียง | |
อาร์ซิตี | การสร้างเสียงโดยใช้แบบจำลองการแพร่กระจายใน Pytorch | เสียง | ||
เสียง | การสร้างเสียงแบบครบวงจรด้วยการแจ้งภาษาธรรมชาติ | เสียง | ||
การบันทึกเสียง | การแก้ไขด้วยเสียงแบบไม่ได้รับการตรวจสอบโดยใช้ข้อความโดยใช้การผกผัน DDPM | arxiv | เสียง | |
ตัวแปลงสัญญาณเสียง | ตัวแปลงสัญญาณเสียงสเตอริโอสเตอริโอ 48kHz การบีบอัดต่ำสำหรับเสียงทั่วไปเพื่อเพิ่มประสิทธิภาพสำหรับความน่าเชื่อถือของเสียง? | เสียง | ||
Audiogpt | ทำความเข้าใจและสร้างคำพูดดนตรีเสียงและหัวพูด | arxiv | เสียง | |
AudiolCM | การสร้างข้อความถึงอดิเรกพร้อมโมเดลความสอดคล้องแฝง | arxiv | เสียง | |
Audioldm | การสร้างข้อความถึงอดิเรกพร้อมรูปแบบการแพร่กระจายแฝง | arxiv | เสียง | |
Audioldm 2 | การเรียนรู้การสร้างเสียงแบบองค์รวมด้วยการฝึกฝนตนเอง | arxiv | เสียง | |
การดื่มด่ำ | การใช้ประโยชน์จากพลังของการแพร่กระจายและแบบจำลองภาษาขนาดใหญ่สำหรับการสร้างข้อความถึง Audio | arxiv | เสียง | |
ctag | สร้างสรรค์การสร้างข้อความสู่ Audio ผ่านการเขียนโปรแกรม Synthesizer | เสียง | ||
foleycrafter | FOLEYCRAFTER: นำวิดีโอเงียบ ๆ มาใช้ชีวิตด้วยเสียงที่เหมือนจริงและซิงโครไนซ์ | arxiv | เสียง | |
แม่เหล็ก | การสร้างเสียงที่สวมหน้ากากโดยใช้หม้อแปลงที่ไม่ใช่ตัวขับเดี่ยว | เสียง | ||
การแต่งหน้า | การสร้างข้อความถึงอัสดิโอพร้อมแบบจำลองการแพร่กระจายที่เพิ่มขึ้น | arxiv | เสียง | |
Make-an-Audio 3 | การแปลงข้อความเป็นเสียงผ่านหม้อแปลงการแพร่กระจายขนาดใหญ่ที่ใช้การไหล | arxiv | เสียง | |
ทำให้เกิดเซลล์ประสาท | การสังเคราะห์เสียงโมดัลที่ใช้การเรียนรู้ด้วยการถ่ายโอนอะคูสติก | arxiv | เสียง | |
Optimizerai | ฟังดูสำหรับผู้สร้างผู้สร้างเกมศิลปินผู้สร้างวิดีโอ | เสียง | ||
Qwen2-Audio | QWEN2-AUDIO แชทและรูปแบบภาษาเสียงขนาดใหญ่ที่ถูกนำเสนอโดย Alibaba Cloud | arxiv | เสียง | |
See-2-sound | เสียงสภาพแวดล้อมเชิงพื้นที่เป็นศูนย์ต่อพื้นที่ | arxiv | เสียง | |
เสียง | การสร้างเสียงแบบขนานที่มีประสิทธิภาพ | arxiv | เสียง | |
เสียงที่มั่นคง | การแพร่กระจายเสียงแฝงที่ผ่านการปรับเวลาอย่างรวดเร็ว | เสียง | ||
เปิดเสียงที่เสถียร | เสียงที่เสถียรเปิด 1.0 สร้างความยาวตัวแปร (สูงสุด 47S) เสียงสเตอริโอที่ 44.1kHz จากข้อความแจ้ง | เสียง | ||
การสังเคราะห์ | SyncFusion: การสังเคราะห์วิดีโอแบบซิงโครไนซ์แบบซิงโครไนซ์แบบหลายรูปแบบ | arxiv | เสียง | |
แทงโก้ | การสร้างข้อความถึงอัสดิโอโดยใช้คำสั่งปรับ LLM และรูปแบบการแพร่กระจายแฝง | เสียง | ||
VTA-LDM | การสร้างวิดีโอกับ Audio พร้อมการจัดตำแหน่งที่ซ่อนอยู่ | arxiv | เสียง | |
wavjourney | การสร้างเสียงประกอบด้วยแบบจำลองภาษาขนาดใหญ่ | arxiv | เสียง |
^ กลับสู่เนื้อหา ^
แหล่งที่มา | คำอธิบาย | กระดาษ | เครื่องยนต์เกม | พิมพ์ |
---|---|---|---|---|
AIVA | ปัญญาประดิษฐ์ที่ประกอบไปด้วยเพลงซาวด์แทร็กอารมณ์ | ดนตรี | ||
เพลงแอมแปร์ | เทคโนโลยีการสร้างเพลงที่กำหนดเองขับเคลื่อนโดย Amper | ดนตรี | ||
เฟื่องฟู | สร้างเพลงกำเนิด แบ่งปันกับโลก | ดนตรี | ||
นักพูดคุย | ส่งเสริมความสามารถทางดนตรีที่แท้จริงใน LLM | ดนตรี | ||
chord2melody | AI การสร้างเพลงอัตโนมัติ | ดนตรี | ||
Diff-BGM | รูปแบบการแพร่กระจายสำหรับการสร้างเพลงพื้นหลังวิดีโอ | arxiv | ดนตรี | |
การไหล | Fluxmusic: การสร้างข้อความกับดนตรีด้วยหม้อแปลงการไหลที่แก้ไขแล้ว | arxiv | ดนตรี | |
Gptableton | ร่างสคริปต์สำหรับการประมวลผลการตอบสนอง GPT และส่งโน้ต MIDI ไปยังคลิป Ableton ด้วย Abletonosc และ Python-osc | ดนตรี | ||
heymusic.ai | เครื่องกำเนิดเพลง AI | ดนตรี | ||
ภาพเพลง | AI Image to Music Generator เป็นเครื่องมือที่ใช้ปัญญาประดิษฐ์เพื่อแปลงภาพเป็นเพลง | ดนตรี | ||
Jen-1 | การสร้างดนตรีสากลที่มีไกด์นำทางด้วยรูปแบบการแพร่กระจายรอบทิศทาง | ดนตรี | ||
ตู้เพลง | แบบจำลองการกำเนิดสำหรับดนตรี | arxiv | ดนตรี | |
สีม่วงแดง | Magenta เป็นโครงการวิจัยที่สำรวจบทบาทของการเรียนรู้ของเครื่องในกระบวนการสร้างงานศิลปะและดนตรี | ดนตรี | ||
ทำนองเพลง | การสร้างดนตรีประสาทที่มีประสิทธิภาพ | ดนตรี | ||
มูร์เบิร์ต | AI Music Generative | ดนตรี | ||
Musenet | เครือข่ายประสาทลึกที่สามารถสร้างการแต่งเพลง 4 นาทีด้วยเครื่องดนตรี 10 ตัวที่แตกต่างกันและสามารถรวมสไตล์จากประเทศไปยัง Mozart ไปยัง The Beatles | ดนตรี | ||
เพลง | การสร้างเพลงที่เรียบง่ายและควบคุมได้ | arxiv | ดนตรี | |
Musicldm | การเพิ่มความแปลกใหม่ในการสร้างข้อความเป็นเพลงโดยใช้กลยุทธ์การผสมแบบซิงโครนัส | arxiv | ดนตรี | |
ดนตรีLM | สร้างเพลงจากข้อความ | arxiv | ดนตรี | |
แอป RIFFUSION | Riffusion เป็นแอพสำหรับการสร้างดนตรีแบบเรียลไทม์ที่มีการแพร่กระจายที่มั่นคง | ดนตรี | ||
Sonauto | Sonauto เป็นบรรณาธิการเพลง AI ที่เปลี่ยนพรอมต์เนื้อเพลงหรือท่วงทำนองเป็นเพลงเต็มรูปแบบในทุกรูปแบบ | ดนตรี | ||
ซาวใหญ่ | เครื่องกำเนิดเพลง AI สำหรับผู้สร้าง | ดนตรี | ||
soundry ai | เครื่องมือ AI แบบกำเนิดรวมถึงแพ็คตัวอย่างข้อความถึงเสียงและไม่มีที่สิ้นสุด | ดนตรี |
^ กลับสู่เนื้อหา ^
แหล่งที่มา | คำอธิบาย | กระดาษ | เครื่องยนต์เกม | พิมพ์ |
---|---|---|---|---|
ความแตกต่าง | การร้องเพลงสังเคราะห์ด้วยเสียงผ่านกลไกการแพร่กระจายแบบตื้น | arxiv | เสียงร้องเพลง | |
การเรียกใช้-voice-conversion-webui | เฟรมเวิร์ก SVC ที่ใช้งานง่ายขึ้นอยู่กับ VITS | เสียงร้องเพลง | ||
SO-VITS-SVC | SoftVC เหมาะกับการแปลงเสียงร้องเพลง | เสียงร้องเพลง | ||
VI-SVS | ใช้ VITS และ OpenCpop เพื่อพัฒนาการสังเคราะห์เสียงร้องเพลง; แตกต่างจาก Visinger | เสียงร้องเพลง |
^ กลับสู่เนื้อหา ^
แหล่งที่มา | คำอธิบาย | กระดาษ | เครื่องยนต์เกม | พิมพ์ |
---|---|---|---|---|
เครื่องประดับ | เครื่องมือโคลนเสียงที่ดีที่สุดได้รับการปรับปรุงอย่างพิถีพิถันสำหรับพลังที่ไม่มีใครเทียบได้โมดูลาร์และประสบการณ์ที่ใช้งานง่าย | คำพูด | ||
Audyo | ส่งข้อความออกมา | คำพูด | ||
เห่า | รูปแบบเสียงกำเนิดที่นำเสนอข้อความ | คำพูด | ||
bert-vits2 | Vits2 Backbone กับ Bert หลายภาษา | คำพูด | ||
เครื่องถ่วง | Chattts เป็นรูปแบบการพูดที่เกิดขึ้นสำหรับการสนทนารายวัน | คำพูด | ||
การพูดคุยกัน | การเรียนรู้ฉันทลักษณ์จากบริบทของข้อความด้วยการฝึกอบรมภาษาที่ตรงกันข้าม | arxiv | คำพูด | |
cosyvoice | รูปแบบการสร้างเสียงขนาดใหญ่หลายภาษาให้การอนุมานการฝึกอบรมและการปรับใช้ความสามารถเต็มรูปแบบ | คำพูด | ||
dex-tts | ข้อความที่แสดงออกมาจากการแพร่กระจายด้วยการพูดด้วยการสร้างแบบจำลองสไตล์ตามความแปรปรวนของเวลา | arxiv | คำพูด | |
สิ่งที่มีอารมณ์เสีย | เครื่องยนต์ TTS แบบหลาย ๆ ด้านและควบคุมพร้อม | คำพูด | ||
ฟลิกิ | เปลี่ยนข้อความเป็นวิดีโอด้วยเสียง AI | คำพูด | ||
glm-4-voice | GLM-4-Voice เป็นรุ่นเสียงแบบ end-to-end ที่เปิดตัวโดย Zhipu AI GLM-4-Voice สามารถเข้าใจและสร้างคำพูดภาษาจีนและภาษาอังกฤษโดยตรงมีส่วนร่วมในการสนทนาด้วยเสียงแบบเรียลไทม์และการเปลี่ยนแปลงคุณลักษณะเช่นอารมณ์ความรู้สึกน้ำเสียงอัตราการพูดและภาษาถิ่นตามคำแนะนำของผู้ใช้ | คำพูด | ||
เรืองแสง | โฟลว์กำเนิดสำหรับข้อความเป็นคำพูดผ่านการค้นหาการจัดตำแหน่งแบบ monotonic | arxiv | คำพูด | |
gpt-sovits | การแปลงเสียงไม่กี่ครั้งที่ทรงพลังและ webui ข้อความเป็นคำพูด | คำพูด | ||
คนรัก | Lovo เป็นเครื่องกำเนิดเสียงและข้อความไปยังแพลตฟอร์มคำพูดสำหรับผู้สร้างหลายพันคน | คำพูด | ||
มาฮัตต์ | รูปแบบการสร้างคำพูดขนาดใหญ่โอเพนซอร์ซ | คำพูด | ||
matcha-tts | สถาปัตยกรรม TTS ที่รวดเร็วพร้อมการจับคู่การไหลแบบมีเงื่อนไข | arxiv | คำพูด | |
Melotts | ไลบรารีข้อความหลายภาษาที่มีคุณภาพสูงโดย myshell.ai รองรับภาษาอังกฤษ สเปน ฝรั่งเศส จีน ญี่ปุ่น และเกาหลี | คำพูด | ||
metavoice-1b | AI สำหรับข่าวกรองการพูดระดับมนุษย์ | คำพูด | ||
นราค็อต | สร้างเสียงพากย์ได้อย่างง่ายดายโดยใช้ข้อความที่เป็นจริงเพื่อพูด | คำพูด | ||
มินิโอ | Mini-Omni: โมเดลภาษาสามารถได้ยินพูดคุยขณะคิดเรื่องการสตรีม Mini-Omni เป็นรูปแบบภาษาขนาดใหญ่หลายรูปแบบโอเพนซอร์ซที่สามารถได้ยินพูดคุยขณะคิด นำเสนออินพุตคำพูดแบบครบวงจรแบบเรียลไทม์และการสตรีมความสามารถในการสนทนาการสนทนาเสียง | arxiv | คำพูด | |
การโคลนนิ่งหนึ่งนัด | หนึ่งยิงเสียงการโคลนนิ่งบน UNET-TTS | คำพูด | ||
OpenVoice | การโคลนนิ่งด้วยเสียงทันทีโดย MyShell | คำพูด | ||
ล้น | วางกระแสบนทรานสดิวเซอร์ประสาทเพื่อ TT ที่ดีขึ้น | คำพูด | ||
realtimetts | Realtimetts เป็นไลบรารีที่ทันสมัยเป็นข้อความที่ออกแบบมาสำหรับแอปพลิเคชันแบบเรียลไทม์ | คำพูด | ||
Sensevoice | Sensevoice เป็นแบบจำลองพื้นฐานการพูดที่มีความสามารถในการทำความเข้าใจคำพูดหลายครั้งรวมถึงการรู้จำเสียงพูดอัตโนมัติ (ASR), การระบุภาษาพูด (LID), การจดจำอารมณ์การพูด (SER) และการตรวจจับเหตุการณ์เสียง (AED) | คำพูด | ||
คำพูด | เพิ่มขีดความสามารถของแบบจำลองภาษาขนาดใหญ่ที่มีความสามารถในการสนทนาข้ามรูปแบบที่แท้จริง | arxiv | คำพูด | |
คำพูดถึงข้อความ GPT3-Unity | นี่คือ repo ที่ฉันใช้ Whisper และ CHATGPT API จาก OpenAI ใน Unity | ความสามัคคี | คำพูด | |
คำพูดที่มั่นคง | ความเสถียรของโมเดลข้อความเป็นคำพูดของ AI | คำพูด | ||
สเตบเล็ตต์ | รุ่น TTS รุ่นต่อไปโดยใช้การจับคู่การไหลและ DIT ซึ่งได้รับแรงบันดาลใจจากการแพร่กระจายที่มั่นคง 3 | คำพูด | ||
Styletts 2 | สู่การพูดแบบข้อความระดับมนุษย์ผ่านการแพร่กระจายสไตล์และการฝึกอบรมที่เป็นปฏิปักษ์กับแบบจำลองภาษาพูดขนาดใหญ่ | arxiv | คำพูด | |
Tortoise.cpp | Tortoise.cpp: การใช้งาน GGML ของ Tortoise-TTS | คำพูด | ||
Tortoise-TTS | ระบบ TTS หลาย voice ที่ได้รับการฝึกฝนโดยเน้นคุณภาพ | คำพูด | ||
TTS Generation WebUI | TTS Generation Webui (Bark, Musicgen, Tortoise, RVC, Vocos, Demucs) | คำพูด | ||
vall-e | โมเดลภาษาตัวแปลงสัญญาณประสาทเป็นข้อความที่ไม่มีการยิงไปยัง synthesizers คำพูด | arxiv | คำพูด | |
vall-e x | พูดภาษาต่างประเทศด้วยเสียงของคุณเอง: การสร้างแบบจำลองภาษา Cross-Lingual Neural Codec Language | arxiv | คำพูด | |
คำสั่ง | Vocode เป็นห้องสมุดโอเพนซอร์ซสำหรับการสร้างแอปพลิเคชัน LLM ที่ใช้เสียง | คำพูด | ||
กล่องเสียง | การสร้างคำพูดสากลหลายภาษาที่มีไกด์นำทางในระดับ | arxiv | คำพูด | |
การคราฟท์ | การแก้ไขคำพูดแบบไม่มีการยิงและข้อความเป็นคำพูดในป่า | คำพูด | ||
กระซิบ | Whisper เป็นรูปแบบการจดจำคำพูดทั่วไป | คำพูด | ||
เสียงกระซิบ | ระบบโอเพ่นซอร์สข้อความเป็นคำพูดที่สร้างขึ้นโดยการกระซิบแบบคว่ำ | คำพูด | ||
การพูดของ XE | กรอบการฝึกอบรมร่วมกันของการเปลี่ยนข้อความและการแปลงเสียง | คำพูด | ||
Xtts | XTTS เป็นไลบรารีสำหรับการสร้างข้อความเป็นคำพูดขั้นสูง | คำพูด | ||
Yourtts | ไปสู่ TTS หลายลำโพงที่ไม่มีการยิงและการแปลงเสียงแบบไม่มีการยิงสำหรับทุกคน | arxiv | คำพูด | |
ZMM-TTS | การสังเคราะห์คำพูดหลายภาษาและหลายภาษา-ช็อตแบบไม่ติดตั้งเงื่อนไขในการเป็นตัวแทนการพูดแบบไม่ต่อเนื่องที่ดูแลตนเอง | arxiv | คำพูด |
^ กลับสู่เนื้อหา ^
แหล่งที่มา | คำอธิบาย | เครื่องยนต์เกม | พิมพ์ |
---|---|---|---|
Ludo.ai | ผู้ช่วยสำหรับการวิจัยและออกแบบเกม | การวิเคราะห์ |
^ กลับสู่เนื้อหา ^