ดาวน์โหลด ai game devtools - ai game devtools ดาวน์โหลดซอร์สโค้ด

เครื่องมือพัฒนาเกม AI (AI-GDT) ?

AI-เกม

ที่นี่เราจะติดตามเครื่องมือพัฒนาเกม AI ล่าสุด รวมถึง LLM, เอเจนต์, โค้ด, นักเขียน, รูปภาพ, พื้นผิว, Shader, โมเดล 3 มิติ, แอนิเมชัน, วิดีโอ, เสียง, เพลง, เสียงร้องเพลง และการวิเคราะห์

สารบัญ

เครื่องมือ (AI LLM)
เกม (ตัวแทน)
รหัส
นักเขียน
ภาพ
พื้นผิว
เฉดเดอร์
โมเดล 3 มิติ
อวตาร
แอนิเมชั่น
ภาพ
วีดีโอ
เสียง
ดนตรี
เสียงร้องเพลง
คำพูด
การวิเคราะห์

รายการโครงการ

เครื่องมือ (AI LLM)

แหล่งที่มา	คำอธิบาย	กระดาษ	เครื่องยนต์เกม	พิมพ์
AgentGPT	- รวบรวม กำหนดค่า และปรับใช้ AI Agent อัตโนมัติในเบราว์เซอร์ของคุณ			เครื่องมือ
คำสั่ง AI	การรวม ChatGPT กับ Unity Editor		ความสามัคคี	เครื่องมือ
เอไอเอส	ระบบปฏิบัติการตัวแทน LLM			เครื่องมือ
นักวิทยาศาสตร์เอไอ	นักวิทยาศาสตร์ AI: สู่การค้นพบทางวิทยาศาสตร์แบบเปิดอัตโนมัติเต็มรูปแบบ	อาร์เอ็กซ์		เครื่องมือ
ผู้ช่วยคลี	เครื่องมือ CLI ที่สะดวกสบายในการใช้บริการ ChatGPT			เครื่องมือ
อัตโนมัติ-GPT	ความพยายามแบบโอเพ่นซอร์สแบบทดลองเพื่อทำให้ GPT-4 เป็นอิสระโดยสมบูรณ์			เครื่องมือ
เบบี้เอจี	สคริปต์ Python นี้เป็นตัวอย่างของระบบการจัดการงานที่ขับเคลื่อนด้วย AI			เครื่องมือ
- UI ของ BabyAGI	BabyAGI UI ได้รับการออกแบบมาเพื่อให้เรียกใช้และพัฒนากับ babyagi ในเว็บแอปได้ง่ายขึ้น เช่น ChatGPT			เครื่องมือ
ไป๋ชวน-7B	โมเดลภาษาฝึกหัด 7B ขนาดใหญ่ที่พัฒนาโดย Baichuan			เครื่องมือ
ไป๋ชวน-13B	โมเดลภาษาขนาดใหญ่ 13B ที่พัฒนาโดย Baichuan Intelligent Technology			เครื่องมือ
ใบชวน 2	ชุดโมเดลภาษาขนาดใหญ่ที่พัฒนาโดย Baichuan Intelligent Technology			เครื่องมือ
ปี่เฉิง	Bisheng เป็นแพลตฟอร์ม Devops LLM แบบเปิดสำหรับแอปพลิเคชัน AI รุ่นต่อไป			เครื่องมือ
ตัวละคร-LLM	ตัวแทนฝึกหัดสำหรับการเล่นตามบทบาท	อาร์เอ็กซ์		เครื่องมือ
แชทเดฟ	ตัวแทนการสื่อสารเพื่อการพัฒนาซอฟต์แวร์	อาร์เอ็กซ์		เครื่องมือ
ChatGPT-API-unity	ผูก API การแชท ChatGPT เข้ากับ C # ล้วนๆ บน Unity		ความสามัคคี	เครื่องมือ
ChatGPTForUnity	ChatGPT เพื่อความสามัคคี		ความสามัคคี	เครื่องมือ
แชทRWKV	ChatRWKV เหมือนกับ ChatGPT แต่ขับเคลื่อนโดยโมเดลภาษา RWKV (100% RNN) และโอเพ่นซอร์ส			เครื่องมือ
แชทหยวน	โมเดลภาษาขนาดใหญ่สำหรับบทสนทนาในภาษาจีนและอังกฤษ			เครื่องมือ
จีน-LLaMA-Alpaca-3	(LLM จีน Llama-3) พัฒนาจาก Meta Llama 3			เครื่องมือ
Chrome-GPT	ตัวแทน AutoGPT ที่ควบคุม Chrome บนเดสก์ท็อปของคุณ			เครื่องมือ
CogVLM	CogVLM ซึ่งเป็นโมเดลพื้นฐานภาษาภาพแบบโอเพ่นซอร์สที่ทรงพลัง	อาร์เอ็กซ์		เครื่องมือ
คอร์เน็ต	ห้องสมุดสำหรับการฝึกอบรมโครงข่ายประสาทเทียมเชิงลึก			เครื่องมือ
จักรวาล	Cosmos เป็นแพลตฟอร์มการพัฒนาแบบจำลองโลกที่ประกอบด้วยแบบจำลองพื้นฐานของโลก โทเค็นไนเซอร์ และขั้นตอนการประมวลผลวิดีโอเพื่อเร่งการพัฒนา Physical AI ที่ห้องปฏิบัติการ Robotics & AV			นิติศาสตร์มหาบัณฑิต
ดีบีอาร์เอ็กซ์	DBRX เป็นโมเดลภาษาขนาดใหญ่ที่ได้รับการฝึกฝนโดย Databricks			เครื่องมือ
ดีซีแอลเอ็ม	DataComp สำหรับโมเดลภาษา	อาร์เอ็กซ์		เครื่องมือ
DeepSeek-V3	DeepSeek-V3 เป็นโมเดลภาษา Mixture-of-Experts (MoE) ที่แข็งแกร่ง โดยมีพารามิเตอร์รวม 671B โดยเปิดใช้งาน 37B สำหรับแต่ละโทเค็น	อาร์เอ็กซ์		นิติศาสตร์มหาบัณฑิต
การสาธิตGPT	เครื่องสร้างแอป Gen-AI อัตโนมัติพร้อมพลังของ Llama 2			เครื่องมือ
ดีไซน์2โค้ด	วิศวกรรมส่วนหน้าอัตโนมัติ			เครื่องมือ
เทวีกา	Devika เป็นวิศวกรซอฟต์แวร์ Agentic AI			เครื่องมือ
เดวอน	โปรแกรมเมอร์คู่โอเพ่นซอร์ส			เครื่องมือ
ดอร่า	การสร้างเว็บไซต์ที่มีประสิทธิภาพ ทีละเว็บไซต์			เครื่องมือ
ไหลลื่น	ลากและวาง UI เพื่อสร้างโฟลว์ LLM ที่คุณกำหนดเองโดยใช้ LangchainJS			เครื่องมือ
ราศีเมถุน	Gemini สร้างขึ้นจากพื้นฐานสำหรับความหลากหลาย — การให้เหตุผลกับข้อความ รูปภาพ วิดีโอ เสียง และโค้ดได้อย่างราบรื่น			เครื่องมือ
เจมม่า	Gemma คือกลุ่มผลิตภัณฑ์โมเดลแบบเปิดน้ำหนักเบาล้ำสมัยที่สร้างขึ้นจากการวิจัยและเทคโนโลยีที่ใช้ในการสร้างโมเดล Google Gemini			เครื่องมือ
gemma.cpp	เครื่องมืออนุมาน C++ แบบสแตนด์อโลนน้ำหนักเบาสำหรับโมเดล Gemma ของ Google			เครื่องมือ
GLM-4	GLM-4-9B เป็นเวอร์ชันโอเพ่นซอร์สของโมเดลที่ผ่านการฝึกอบรมล่วงหน้ารุ่นล่าสุดในซีรีส์ GLM-4 ที่ Zhipu AI เปิดตัว			เครื่องมือ
GPT4All	แชทบอทที่ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลผู้ช่วยที่สะอาดจำนวนมหาศาล รวมถึงโค้ด เรื่องราว และบทสนทนา			เครื่องมือ
GPT-4o	GPT-4o (“o” สำหรับ “omni”) เป็นก้าวหนึ่งไปสู่การโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์ที่เป็นธรรมชาติมากขึ้น โดยยอมรับเป็นการป้อนข้อความ เสียง รูปภาพ และวิดีโอ และสร้างการผสมผสานระหว่างข้อความ เสียง และรูปภาพ เอาท์พุท			เครื่องมือ
GPTScript	พัฒนาแอป LLM ในภาษาธรรมชาติ			เครื่องมือ
กร็อก-1	น้ำหนักและสถาปัตยกรรมของ Grok-1 โมเดล Mixture-of-Experts ของเราที่มีพารามิเตอร์ 314 พันล้านพารามิเตอร์			เครื่องมือ
กอดChat	ทำให้ทุกคนสามารถใช้โมเดลการแชท AI ที่ดีที่สุดของชุมชนได้			เครื่องมือ
การบูรณาการความสามัคคีของ Face API ของ Hugging Face	แพ็คเกจ Unity นี้มอบการผสานรวมที่ใช้งานง่ายสำหรับ Hugging Face Inference API ช่วยให้นักพัฒนาสามารถเข้าถึงและใช้โมเดล Hugging Face AI ภายในโปรเจ็กต์ Unity ของตนได้		ความสามัคคี	เครื่องมือ
ImageBind	ImageBind One การฝังพื้นที่เพื่อผูกมันทั้งหมด	อาร์เอ็กซ์		เครื่องมือ
ดัชนี-1.9B	SOTA LLM หลายภาษาน้ำหนักเบา			เครื่องมือ
InteractiveML-Unity	InteractML ซึ่งเป็นเฟรมเวิร์กการเขียนสคริปต์ภาพการเรียนรู้ของเครื่องเชิงโต้ตอบสำหรับ Unity3D		ความสามัคคี	เครื่องมือ
InteractML-Unreal Engine	นำการเรียนรู้ของเครื่องมาสู่ Unreal Engine		เครื่องยนต์ที่ไม่จริง	เครื่องมือ
ฝึกงานLM	InternLM ได้ใช้โมเดลพื้นฐานแบบโอเพ่นซอร์สจำนวน 7 พันล้านแบบ ซึ่งเป็นโมเดลการแชทที่ปรับให้เหมาะกับสถานการณ์จริงและระบบการฝึกอบรม	อาร์เอ็กซ์		เครื่องมือ
ฝึกงานLM-XComposer	InternLM-XComposer2 เป็นโมเดลขนาดใหญ่ภาษาวิสัยทัศน์ (VLLM) ที่ก้าวล้ำซึ่งมีความเป็นเลิศในการจัดองค์ประกอบข้อความและรูปภาพในรูปแบบอิสระและความเข้าใจ	อาร์เอ็กซ์		เครื่องมือ
ม.ค	นำ AI มาสู่เดสก์ท็อปของคุณ			เครื่องมือ
ลามินี	Lamini ช่วยให้ทีมวิศวกรมีประสิทธิภาพเหนือกว่า LLM ทั่วไปผ่าน RLHF และปรับแต่งข้อมูลของตนเองอย่างละเอียด			เครื่องมือ
ลามินิ-LM	LaMini-LM คือคอลเลกชันของโมเดลภาษาขนาดเล็กที่มีประสิทธิภาพซึ่งกลั่นจาก ChatGPT และฝึกฝนบนชุดข้อมูลขนาดใหญ่ที่มีคำสั่ง 2.58M			เครื่องมือ
แลงเชน	LangChain เป็นเฟรมเวิร์กสำหรับการพัฒนาแอปพลิเคชันที่ขับเคลื่อนโดยโมเดลภาษา			เครื่องมือ
แลงโฟลว์	⛓️ LangFlow เป็น UI สำหรับ LangChain ที่ออกแบบมาพร้อมโฟลว์ปฏิกิริยาเพื่อให้วิธีการทดสอบและสร้างต้นแบบโฟลว์ที่ง่ายดาย			เครื่องมือ
ลาวาเก้	ทำให้เป็นอัตโนมัติด้วยเฟรมเวิร์ก Large Action Model			เครื่องมือ
ลีเมอร์	เปิดโมเดลพื้นฐานสำหรับตัวแทนภาษา			เครื่องมือ
เลปตัน เอไอ	กรอบงาน Pythonic เพื่อทำให้การสร้างบริการ AI ง่ายขึ้น			เครื่องมือ
ลิต-ลามา	การใช้งานโมเดลภาษา LLaMA ที่ใช้ nanoGPT รองรับ Flash Attention, Int8 และ GPTQ 4 บิต, การปรับแต่ง LoRA และ LLaMA-Adapter, การฝึกอบรมล่วงหน้า			เครื่องมือ
llama2-webui	เรียกใช้ Llama 2 ในเครื่องด้วย gradio UI บน GPU หรือ CPU ได้จากทุกที่ (Linux/Windows/Mac)			เครื่องมือ
ลามะ 3	เว็บไซต์ Meta Llama 3 GitHub อย่างเป็นทางการ			เครื่องมือ
ลามะ 3.1	Llama คือโมเดลภาษาขนาดใหญ่แบบเปิด (LLM) ที่สามารถเข้าถึงได้และออกแบบมาสำหรับนักพัฒนา นักวิจัย และธุรกิจต่างๆ เพื่อสร้าง ทดลอง และปรับขนาดแนวคิด AI เชิงสร้างสรรค์อย่างมีความรับผิดชอบ			เครื่องมือ
แอลลาเอสเอ็ม	รูปแบบภาษาและคำพูดขนาดใหญ่			เครื่องมือ
โปรแกรมตอบ LLM	สร้างเอนจิ้นคำตอบที่ได้รับแรงบันดาลใจจากความงุนงงโดยใช้ Next.js, Groq, Mixtral, Langchain, OpenAI, Brave & Serper			เครื่องมือ
llm.c	การฝึกอบรม LLM ด้วย C/CUDA แบบ Raw ที่เรียบง่าย			เครื่องมือ
LLMUnity	สร้างตัวละครใน Unity ด้วย LLM!		ความสามัคคี	เครื่องมือ
LLocalSearch	LLocalSearch เป็นเครื่องมือค้นหาที่ทำงานในพื้นที่โดยสมบูรณ์โดยใช้ LLM Agents			เครื่องมือ
LogicGamesSolver	เครื่องมือ Python สำหรับแก้เกมลอจิกด้วย AI, Deep Learning และ Computer Vision			เครื่องมือ
ลองไรท์เตอร์	LongWriter: ปลดปล่อยการสร้างคำมากกว่า 10,000 คำจาก LLM ที่มีบริบทแบบยาว	อาร์เอ็กซ์		เครื่องมือ
โมเดลโลกขนาดใหญ่ (LWM)	Large World Model (LWM) เป็นโมเดลการถดถอยอัตโนมัติหลายรูปแบบในบริบทขนาดใหญ่สำหรับวัตถุประสงค์ทั่วไป	อาร์เอ็กซ์		เครื่องมือ
ลูมิน่า-T2X	Lumina-T2X เป็นเฟรมเวิร์กแบบรวมสำหรับการสร้างข้อความเป็น Modality ใดๆ	อาร์เอ็กซ์		เครื่องมือ
MetaGPT	กรอบการทำงานหลายตัวแทน			เครื่องมือ
MiniCPM-2B	LLM ด้านท้ายมีประสิทธิภาพเหนือกว่า Llama2-13B			เครื่องมือ
มินิ GPT-4	ปรับปรุงความเข้าใจภาษาวิสัยทัศน์ด้วยโมเดลภาษาขนาดใหญ่ขั้นสูง	อาร์เอ็กซ์		เครื่องมือ
มินิ GPT-5	การสร้างวิสัยทัศน์และภาษาแบบแทรกผ่าน Generative Vokens	อาร์เอ็กซ์		เครื่องมือ
มิกซ์ทรัล 8x7B	ส่วนผสมของผู้เชี่ยวชาญคุณภาพสูงกระจัดกระจาย	อาร์เอ็กซ์		เครื่องมือ
มิสทรัล 7B	รุ่น 7B ที่ดีที่สุดในปัจจุบัน Apache 2.0			เครื่องมือ
มิสทรัล ใหญ่	Mistral Large คือโมเดลการสร้างข้อความที่ล้ำสมัยรูปแบบใหม่ มันเข้าถึงความสามารถในการให้เหตุผลระดับสูง			เครื่องมือ
MLC แอลแอลเอ็ม	ช่วยให้ทุกคนสามารถพัฒนา เพิ่มประสิทธิภาพ และปรับใช้โมเดล AI บนอุปกรณ์ของทุกคนได้			เครื่องมือ
โมบีลามะ	สู่ GPT ที่แม่นยำและน้ำหนักเบาอย่างโปร่งใส	อาร์เอ็กซ์		เครื่องมือ
โมอี-ลาวา	การผสมผสานของผู้เชี่ยวชาญสำหรับโมเดลที่มีภาษาวิสัยทัศน์ขนาดใหญ่	อาร์เอ็กซ์		เครื่องมือ
โมชิ	Moshi คือ AI เชิงสนทนาแบบทดลอง			เครื่องมือ
โมชิ	Moshi: โมเดลพื้นฐานคำพูดและข้อความสำหรับบทสนทนาแบบเรียลไทม์			เครื่องมือ
มอส	โมเดลภาษาสนทนาที่เสริมด้วยเครื่องมือโอเพ่นซอร์สจากมหาวิทยาลัย Fudan			เครื่องมือ
mPLUG-นกฮูก?	การทำให้เป็นโมดูลช่วยเพิ่มพลังให้กับโมเดลภาษาขนาดใหญ่ที่มีหลากหลายรูปแบบ	อาร์เอ็กซ์		เครื่องมือ
นีโมตรอน-4	โมเดลภาษาหลายภาษาขนาดใหญ่ 15 พันล้านพารามิเตอร์ที่ฝึกฝนบนโทเค็นข้อความ 8 ล้านล้าน	อาร์เอ็กซ์		เครื่องมือ
ถัดไป-GPT	โมเดลภาษาขนาดใหญ่หลายรูปแบบแบบใดก็ได้ต่อทุกรูปแบบ			เครื่องมือ
โอลโม	เปิดโมเดลภาษา	อาร์เอ็กซ์		เครื่องมือ
OmniLMM	โมเดลหลายรูปแบบขนาดใหญ่เพื่อประสิทธิภาพที่แข็งแกร่งและการปรับใช้ที่มีประสิทธิภาพ			เครื่องมือ
วันแอลเอ็ม	กรอบงานเดียวเพื่อจัดรูปแบบทั้งหมดให้สอดคล้องกับภาษา	อาร์เอ็กซ์		เครื่องมือ
เปิดผู้ช่วย	OpenAssistant เป็นผู้ช่วยทางแชทที่เข้าใจงานต่างๆ สามารถโต้ตอบกับระบบของบุคคลที่สาม และดึงข้อมูลแบบไดนามิกเพื่อดำเนินการดังกล่าว			เครื่องมือ
OpenDevin	วิศวกรซอฟต์แวร์ AI อัตโนมัติ			เครื่องมือ
กลุ่มดาวนายพราน-14B	Orion-14B เป็นตระกูลของรุ่นประกอบด้วย 14B Foundation LLM และซีรีส์ของรุ่น	อาร์เอ็กซ์		เครื่องมือ
แพนด้า	โมเดลภาษาโอเพ่นซอร์สขนาดใหญ่ของจีนในต่างประเทศ อิงตาม Llama-7B, -13B, -33B, -65B สำหรับการฝึกอบรมล่วงหน้าอย่างต่อเนื่องในสาขาภาษาจีน			เครื่องมือ
เพอร์เพล็กซ์ซิกา	เครื่องมือค้นหาที่ขับเคลื่อนด้วย AI			เครื่องมือ
พาย	แชทบอท AI ออกแบบมาเพื่อความช่วยเหลือส่วนบุคคลและการสนับสนุนทางอารมณ์			เครื่องมือ
คิวเวน1.5	Qwen1.5 เป็นเวอร์ชันปรับปรุงของ Qwen			เครื่องมือ
คิวเวน2	Qwen2 เป็นซีรีส์โมเดลภาษาขนาดใหญ่ที่พัฒนาโดยทีม Qwen แห่ง Alibaba Cloud			เครื่องมือ
คิวเวน-7B	การซื้อคืนอย่างเป็นทางการของการแชท Qwen-7B (通义千问-7B) และโมเดลภาษาขนาดใหญ่ที่ได้รับการฝึกอบรมล่วงหน้า เสนอโดย Alibaba Cloud			เครื่องมือ
RepoAgent	RepoAgent เป็นโปรเจ็กต์โอเพ่นซอร์สที่ขับเคลื่อนโดย Large Language Models (LLM) ซึ่งมีจุดมุ่งหมายเพื่อมอบวิธีที่ชาญฉลาดในการจัดทำเอกสารโปรเจ็กต์	อาร์เอ็กซ์		เครื่องมือ
เครื่องยนต์ Sanity AI	Sanity AI Engine สำหรับเครื่องมือพัฒนาเกม Unity		ความสามัคคี	เครื่องมือ
ค้นหาGPT	- การเชื่อมต่อ ChatGPT กับอินเทอร์เน็ต			เครื่องมือ
แชร์GPT4V	การปรับปรุงโมเดล Multi-Modal ขนาดใหญ่พร้อมคำบรรยายที่ดีกว่า			เครื่องมือ
สกายเวิร์ค	รุ่นซีรีส์ Skywork ได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับข้อมูลโค้ดและหลายภาษาคุณภาพสูงขนาด 3.2TB (ส่วนใหญ่เป็นภาษาจีนและอังกฤษ)			เครื่องมือ
LM เสถียร	โมเดลภาษา AI ความเสถียร	อาร์เอ็กซ์		เครื่องมือ
อัลปาก้าสแตนฟอร์ด	โมเดล LLaMA ที่ปฏิบัติตามคำสั่ง			เครื่องมือ
UI เว็บการสร้างข้อความ	UI เว็บ gradio สำหรับการรันโมเดลภาษาขนาดใหญ่ เช่น LLaMA, llama.cpp, GPT-J, OPT และ GALACTICA			เครื่องมือ
TinyChatEngine	ไลบรารีการอนุมาน LLM บนอุปกรณ์			เครื่องมือ
ToolBench	แพลตฟอร์มแบบเปิดสำหรับการฝึกอบรม การให้บริการ และการประเมินโมเดลภาษาขนาดใหญ่สำหรับการเรียนรู้เครื่องมือ			เครื่องมือ
Unity ChatGPT	การทดลอง Unity ChatGPT		ความสามัคคี	เครื่องมือ
การรวมความสามัคคี OpenAI-API	รวมโมเดลภาษา openai GPT-3 และ ChatGPT API เข้ากับโปรเจ็กต์ Unity		ความสามัคคี	เครื่องมือ
Unreal Engine 5 ลามะ LoRA	โครงการพิสูจน์แนวคิดที่นำเสนอศักยภาพในการใช้ LLM ขนาดเล็กที่สามารถฝึกอบรมได้ในท้องถิ่น เพื่อสร้างเครื่องมือเอกสารรุ่นต่อไป		เครื่องยนต์ที่ไม่จริง	เครื่องมือ
UnrealGPT	ชุดวิดเจ็ตยูทิลิตี้ Unreal Engine 5 Editor ที่ขับเคลื่อนโดย GPT3/4		เครื่องยนต์ที่ไม่จริง	เครื่องมือ
วิดีโอ-LLaVA	การเรียนรู้การเป็นตัวแทนภาพโดยการจัดตำแหน่งก่อนการฉายภาพ	อาร์เอ็กซ์		เครื่องมือ
WebGPT	เรียกใช้โมเดล GPT บนเบราว์เซอร์ด้วย WebGPU			เครื่องมือ
Web3-GPT	ปรับใช้สัญญาอัจฉริยะกับ AI			เครื่องมือ
WordGPT	- นำพลังของ ChatGPT มาสู่ Microsoft Word			เครื่องมือ
XAgent	เอเจนต์ LLM อัตโนมัติสำหรับการแก้ปัญหางานที่ซับซ้อน			เครื่องมือ
ยี	ชุดโมเดลภาษาขนาดใหญ่ที่ได้รับการฝึกอบรมตั้งแต่เริ่มต้นโดยนักพัฒนา			เครื่องมือ
01 โครงการ	คอมพิวเตอร์จำลองภาษาโอเพ่นซอร์ส			เครื่องมือ

^ กลับสู่เนื้อหา ^

เกม (ตัวแทน)

แหล่งที่มา	คำอธิบาย	กระดาษ	พิมพ์
ตัวแทนBench	เกณฑ์มาตรฐานที่ครอบคลุมเพื่อประเมิน LLM ในฐานะตัวแทน	อาร์เอ็กซ์	ตัวแทน
แชทกลุ่มตัวแทน	Simulacra แชทกลุ่มแบบโต้ตอบเพื่อกระตุ้นพฤติกรรมฉุกเฉินโดยรวมที่ดีขึ้น	อาร์เอ็กซ์	ตัวแทน
ตัวแทนเค	AGI อัตโนมัติที่พัฒนาตนเองและเป็นโมดูล		ตัวแทน
เอเจนท์สโคป	เริ่มสร้างแอปพลิเคชันหลายตัวแทนที่เสริมศักยภาพ LLM ในวิธีที่ง่ายกว่า	อาร์เอ็กซ์	ตัวแทน
เอเจนท์ซิมส์	แซนด์บ็อกซ์โอเพ่นซอร์สสำหรับการประเมินโมเดลภาษาขนาดใหญ่		ตัวแทน
เอไอทาวน์	AI Town คือเมืองเสมือนจริงที่ตัวละคร AI อาศัยอยู่ พูดคุย และเข้าสังคม		ตัวแทน
anime.gf	ทางเลือกท้องถิ่นและโอเพ่นซอร์สสำหรับ CharacterAI		เกม
โหราศาสตร์	สร้างเกมด้วย AI		เกม
ตัวแทนอะตอม	กรอบงาน Atomic Agents ได้รับการออกแบบให้เป็นโมดูลาร์ ขยายได้ และใช้งานง่าย		ตัวแทน
ตัวแทนอัตโนมัติ	กรอบการทำงานสำหรับการสร้างตัวแทนอัตโนมัติ		ตัวแทน
ออโต้เจน	เปิดใช้งานแอปพลิเคชันโมเดลภาษาขนาดใหญ่รุ่นถัดไป	อาร์เอ็กซ์	ตัวแทน
พฤติกรรม	Behaviac เป็นกรอบการพัฒนาเกม AI		กรอบ
ไบโอม	Biomes คือ MMORPG แบบแซนด์บ็อกซ์แบบโอเพ่นซอร์สที่สร้างขึ้นสำหรับเว็บโดยใช้เทคโนโลยีเว็บ เช่น Next.js, Typescript, React และ WebAssembly		เกม
บัฟเฟอร์ของความคิด	การใช้เหตุผลเสริมความคิดด้วยแบบจำลองภาษาขนาดใหญ่	อาร์เอ็กซ์	ตัวแทน
Byzer-ตัวแทน	กรอบงานตัวแทนที่ง่าย รวดเร็ว และกระจายสำหรับทุกคน		ตัวแทน
เมืองแมว	การจำลองที่ขับเคลื่อนด้วย AC (h) atGPT กับแมว		ตัวแทน
เมืองแมว	การจำลองที่ขับเคลื่อนด้วย AC (h) atGPT กับแมว		ตัวแทน
อักขระGLM	การปรับแต่งอักขระ AI สนทนาภาษาจีนด้วยโมเดลภาษาขนาดใหญ่	อาร์เอ็กซ์	ตัวแทน
แชทเดฟ	ตัวแทนการสื่อสารเพื่อการพัฒนาซอฟต์แวร์	อาร์เอ็กซ์	ตัวแทน
CogAgent	CogAgent เป็นโมเดลภาษาภาพแบบโอเพ่นซอร์สที่ได้รับการปรับปรุงโดยใช้ CogVLM	อาร์เอ็กซ์	ตัวแทน
เปล	สู่การควบคุมคอมพิวเตอร์ทั่วไป		ตัวแทน
ลูกเรือAI	กรอบการทำงานสำหรับการจัดการตัวแทน AI ที่ทำงานตามบทบาทและเป็นอิสระ		ตัวแทน
ดิฟาย	Dify เป็นแพลตฟอร์มการสร้างแอป LLM แบบโอเพ่นซอร์ส		ตัวแทน
โครงการชีวิตดิจิทัล	ตัวละคร 3 มิติที่เป็นอิสระพร้อมความฉลาดทางสังคม	อาร์เอ็กซ์	ตัวแทน
ทุกอย่าง-ai	ผู้ช่วยแชทบอทท้องถิ่นที่ขับเคลื่อนด้วย AI และเชี่ยวชาญอย่างเต็มที่ของคุณ?.		ตัวแทน
ผ้า	Fabric เป็นเฟรมเวิร์กโอเพ่นซอร์สสำหรับเพิ่มมนุษย์โดยใช้ AI		ตัวแทน
FastGPT	FastGPT เป็นแพลตฟอร์มฐานความรู้ที่สร้างขึ้นบน LLM		ตัวแทน
รวดเร็วRAG	กรอบงานการเสริมและการสร้างการดึงข้อมูลที่มีประสิทธิภาพ		ตัวแทน
เกมAISDK	เฟรมเวิร์กอัตโนมัติ AI ของเกมที่ใช้รูปภาพ		กรอบ
เกมเอ็นเจน	โมเดลการแพร่กระจายเป็นเอ็นจิ้นเกมแบบเรียลไทม์	อาร์เอ็กซ์	เกม
เกม Gen-O	GameGen-O: การสร้างวิดีโอเกมแบบเปิดโลก		เกม
GenAgent	GenAgent: สร้างระบบ AI ที่ทำงานร่วมกันด้วยการสร้างเวิร์กโฟลว์อัตโนมัติ - กรณีศึกษาบน ComfyUI	อาร์เอ็กซ์	ตัวแทน
เจเนอเรชั่นเอเจนต์	Simulacra แบบโต้ตอบของพฤติกรรมมนุษย์	อาร์เอ็กซ์	ตัวแทน
ปฐมกาล	ปฐมกาล: เครื่องยนต์กำเนิดฟิสิกส์สากลสำหรับหุ่นยนต์และอื่นๆ		เกม
มาร	สภาพแวดล้อมแบบโต้ตอบเชิงสร้างสรรค์		เกม
กิ๊กซ์	รันไทม์ NPC ที่ขับเคลื่อนด้วย LLM		เกม
ฮิปโปแร็ก	หน่วยความจำระยะยาวที่ได้รับแรงบันดาลใจจากระบบประสาทสำหรับโมเดลภาษาขนาดใหญ่	อาร์เอ็กซ์	ตัวแทน
NPC ที่ขับเคลื่อนด้วย LLM แบบโต้ตอบ	NPC ที่ขับเคลื่อนด้วย LLM แบบโต้ตอบเป็นโปรเจ็กต์โอเพ่นซอร์สที่แปลงการโต้ตอบของคุณกับตัวละครที่ไม่ใช่ผู้เล่น (NPC) ในเกมใด ๆ อย่างสมบูรณ์!		เกม
ไอโอเอ	เฟรมเวิร์กโอเพ่นซอร์สสำหรับตัวแทน AI ที่ทำงานร่วมกัน ช่วยให้ตัวแทนที่หลากหลายและกระจายตัวสามารถรวมทีมและจัดการงานที่ซับซ้อนผ่านการเชื่อมต่อที่เหมือนกับอินเทอร์เน็ต		ตัวแทน
แควเอเจนท์	ระบบตัวแทนการค้นหาข้อมูลทั่วไปพร้อม Large Language Models (LLM)	อาร์เอ็กซ์	ตัวแทน
แลงเชน	รับแอปพลิเคชัน LLM ของคุณตั้งแต่ต้นแบบไปจนถึงการใช้งานจริง		ตัวแทน
แลงโฟลว์	Langflow เป็น UI สำหรับ LangChain ที่ออกแบบมาพร้อมกับโฟลว์ปฏิกิริยาเพื่อให้วิธีการทดสอบและสร้างโฟลว์ต้นแบบได้อย่างง่ายดาย		ตัวแทน
แลงกราฟ สตูดิโอ	LangGraph Studio นำเสนอวิธีใหม่ในการพัฒนาแอปพลิเคชัน LLM โดยการจัดหา IDE ตัวแทนพิเศษที่ช่วยให้สามารถสร้างภาพ การโต้ตอบ และการแก้ไขข้อบกพร่องของแอปพลิเคชันตัวแทนที่ซับซ้อน		ตัวแทน
ลาร์ป	Language-Agent Role Play สำหรับเกมโอเพ่นเวิลด์	อาร์เอ็กซ์	ตัวแทน
ระบบตัวแทนลามะ	ส่วนประกอบตัวแทนของ Llama Stack API		ตัวแทน
ลามะIndex	LlamaIndex เป็นเฟรมเวิร์กข้อมูลสำหรับแอปพลิเคชัน LLM ของคุณ		ตัวแทน
มายด์ค้นหา	- Multi-agent Framework ที่ใช้ LLM ของ Web Search Engine (เช่น Perplexity.ai Pro และ SearchGPT)		ตัวแทน
ส่วนผสมของตัวแทน (MoA)	การผสมผสานของตัวแทนช่วยเพิ่มความสามารถของโมเดลภาษาขนาดใหญ่	อาร์เอ็กซ์	ตัวแทน
MMRole	MMRole: กรอบการทำงานที่ครอบคลุมสำหรับการพัฒนาและประเมินตัวแทนการเล่นตามบทบาทหลายรูปแบบ	อาร์เอ็กซ์	ตัวแทน
Moonlander.ai	เริ่มสร้างเกม 3 มิติโดยไม่ต้องเขียนโค้ดใดๆ โดยใช้ generative AI		กรอบ
การแพร่กระจายของ MuG	MuG Diffusion คือ AI ที่สร้างแผนภูมิสำหรับเกมเข้าจังหวะโดยใช้ Stable Diffusion (หนึ่งในโมเดล AIGC ที่ทรงพลังที่สุด) พร้อมการปรับเปลี่ยนครั้งใหญ่เพื่อรวมคลื่นเสียง		เกม
โอเอซิส	Oasis คือโมเดลโลกเชิงโต้ตอบที่พัฒนาโดย Decart และ Etched ขึ้นอยู่กับหม้อแปลงกระจาย Oasis รับอินพุตจากแป้นพิมพ์ของผู้ใช้และสร้างการเล่นเกมในลักษณะที่ถดถอยอัตโนมัติ		เกม
โอมเอเจนท์	กรอบงานตัวแทนหลายรูปแบบสำหรับการแก้ปัญหางานที่ซับซ้อน		ตัวแทน
OpenAgents	แพลตฟอร์มแบบเปิดสำหรับตัวแทนภาษาในป่า		ตัวแทน
บทประพันธ์	แอป AI ที่เปลี่ยนข้อความให้เป็นวิดีโอเกม		เกม
ไปป์แคท	กรอบงานโอเพ่นซอร์สสำหรับ AI การสนทนาด้วยเสียงและหลายรูปแบบ		ตัวแทน
Qwen-ตัวแทน	Qwen-Agent เป็นเฟรมเวิร์กสำหรับการพัฒนาแอปพลิเคชัน LLM ตามคำสั่งต่อไปนี้ การใช้เครื่องมือ การวางแผน และความสามารถด้านหน่วยความจำของ Qwen		ตัวแทน
รากัส	Ragas เป็นเฟรมเวิร์กที่ช่วยคุณประเมินไปป์ไลน์การดึงข้อมูล Augmented Generation (RAG) ของคุณ		ตัวแทน
RPBench-อัตโนมัติ	ไปป์ไลน์อัตโนมัติสำหรับการประเมิน LLM สำหรับการสวมบทบาท		เกม
ซิมา	เอเจนต์ AI ทั่วไปสำหรับสภาพแวดล้อมเสมือนจริง 3 มิติ		ตัวแทน
StoryGames.ai	AI สำหรับนักฝันสร้างเกม		เกม
ตัวแทน SWE	อินเทอร์เฟซคอมพิวเตอร์ของตัวแทนเปิดใช้งานโมเดลภาษาวิศวกรรมซอฟต์แวร์	อาร์เอ็กซ์	ตัวแทน
TaskGen	การสร้างเฟรมเวิร์กเอเจนต์ตามงานบนเอาต์พุต StrictJSON โดยเอเจนต์ LLM		ตัวแทน
ตัวแทนสิบ	TEN Agent คือเอเจนต์หลายรูปแบบแบบเรียลไทม์ตัวแรกของโลกที่ผสานรวมกับ OpenAI Realtime API, RTC และฟีเจอร์การตรวจสอบสภาพอากาศ การค้นหาเว็บ การมองเห็น และความสามารถของ RAG		ตัวแทน
ตัวแทนการแปล	การแปลแบบตัวแทนโดยใช้เวิร์กโฟลว์การสะท้อนกลับ		ตัวแทน
ทวิตเตอร์	Twitter Personality เป็นเว็บแอปพลิเคชันที่วิเคราะห์ Twitter ของคุณเพื่อสร้างโปรไฟล์บุคลิกภาพส่วนบุคคลโดยใช้ Wordware AI Agent		ตัวแทน
ไม่มีขอบเขต	Unbounded: เกมจำลองชีวิตของตัวละครที่ไม่มีที่สิ้นสุด	อาร์เอ็กซ์	เกม
วีดีโอ2เกม	สภาพแวดล้อมแบบเรียลไทม์ โต้ตอบ สมจริง และเข้ากันได้กับเบราว์เซอร์จากวิดีโอเดียว	อาร์เอ็กซ์	เกม
V-IRL	การต่อสายดินปัญญาเสมือนในชีวิตจริง	อาร์เอ็กซ์	ตัวแทน
ตัวแทนการออกแบบเว็บ	ตัวแทนที่ใช้สำหรับการออกแบบเว็บไซต์		ตัวแทน
เอ็กซ์เอเจนท์	เอเจนต์ LLM อัตโนมัติสำหรับการแก้ปัญหางานที่ซับซ้อน		ตัวแทน

^ กลับสู่เนื้อหา ^

รหัส

แหล่งที่มา	คำอธิบาย	กระดาษ	เครื่องยนต์เกม	พิมพ์
เครื่องมือแปลรหัส AI	ใช้ AI เพื่อแปลโค้ดจากภาษาหนึ่งเป็นอีกภาษาหนึ่ง			รหัส
aiXcoder-7B	รหัส aiXcoder-7B รุ่นภาษาขนาดใหญ่			รหัส
บวม	bloop เป็นเครื่องมือค้นหาโค้ดที่รวดเร็วซึ่งเขียนด้วยภาษา Rust			รหัส
บท	ล่ามรหัส ChatGPT ในสมุดบันทึก Jupyter			รหัส
CodeGeeX	โมเดลการสร้างโค้ดหลายภาษาแบบเปิด	อาร์เอ็กซ์		รหัส
CodeGeeX2	โมเดลการสร้างโค้ดหลายภาษาที่ทรงพลังยิ่งขึ้น			รหัส
CodeGeeX4	CodeGeeX4: เปิดโมเดลการสร้างโค้ดหลายภาษา			รหัส
รหัสGen	CodeGen เป็นโมเดลโอเพ่นซอร์สสำหรับการสังเคราะห์โปรแกรม ฝึกฝนบน TPU-v4 แข่งขันกับ OpenAI Codex	อาร์เอ็กซ์		รหัส
รหัส Gen2	โมเดล CodeGen2 สำหรับการสังเคราะห์โปรแกรม	อาร์เอ็กซ์		รหัส
รหัสลามะ	Code Llama เป็นโมเดลภาษาขนาดใหญ่สำหรับโค้ดที่ใช้ Llama 2			รหัส
รหัสTF	Transformer Library แบบครบวงจรสำหรับ Code LLM ที่ล้ำสมัย			รหัส
รหัสT5	Open Code LLM สำหรับการทำความเข้าใจและสร้างโค้ด			รหัส
เคอร์เซอร์	เขียน แก้ไข และพูดคุยเกี่ยวกับโค้ดของคุณด้วย GPT-4 ในตัวแก้ไขรูปแบบใหม่			รหัส
โค้ดเดอร์ DeepSeek	DeepSeek Coder: ปล่อยให้โค้ดเขียนเอง	อาร์เอ็กซ์		รหัส
OpenAI Codex	OpenAI Codex เป็นลูกหลานของ GPT-3			รหัส
แพนด้าเอไอ	Pandas AI เป็นไลบรารี Python ที่รวมความสามารถด้านปัญญาประดิษฐ์เชิงสร้างสรรค์เข้ากับ Pandas ทำให้ดาต้าเฟรมเป็นการสนทนา			รหัส
RobloxScripterAI	RobloxScripterAI เป็นเครื่องมือสร้างโค้ดที่ขับเคลื่อนด้วย AI สำหรับ Roblox		โรบ็อกซ์	รหัส
Scikit-LLM	ผสานรวมโมเดลภาษาที่มีประสิทธิภาพ เช่น ChatGPT เข้ากับ scikit-learn ได้อย่างราบรื่น สำหรับงานวิเคราะห์ข้อความที่ได้รับการปรับปรุง			รหัส
โซทาน่า	ผู้ช่วยพัฒนาซอฟต์แวร์โอเพ่นซอร์ส	อาร์เอ็กซ์		รหัส
รหัสเสถียร 3B	การเข้ารหัสบน Edge			รหัส
สตาร์โคเดอร์	- StarCoder คือโมเดลภาษา (LM) ที่ได้รับการฝึกอบรมเกี่ยวกับซอร์สโค้ดและข้อความภาษาธรรมชาติ	อาร์เอ็กซ์		รหัส
สตาร์โคเดอร์ 2	StarCoder2 เป็นตระกูลโมเดลการสร้างโค้ด (3B, 7B และ 15B) ซึ่งได้รับการฝึกฝนเกี่ยวกับภาษาการเขียนโปรแกรมมากกว่า 600 ภาษาจาก The Stack v2 และข้อความภาษาธรรมชาติบางส่วน เช่น ปัญหา Wikipedia, Arxiv และ GitHub	อาร์เอ็กซ์		รหัส
UnityGen AI	UnityGen AI เป็นปลั๊กอินสร้างโค้ดที่ขับเคลื่อนด้วย AI สำหรับ Unity		ความสามัคคี	รหัส
เป็นโมฆะ	Void เป็นทางเลือกเคอร์เซอร์โอเพ่นซอร์ส เขียนโค้ดด้วยเครื่องมือ AI ที่ดีที่สุด ควบคุมข้อมูลของคุณได้อย่างเต็มที่ และเข้าถึงฟีเจอร์ AI อันทรงพลัง			รหัส

^ กลับสู่เนื้อหา ^

นักเขียน

แหล่งที่มา	คำอธิบาย	พิมพ์
AI-นักเขียน	AI เขียนนิยาย สร้างบทความบนเว็บแฟนตาซีและโรแมนติก ฯลฯ โมเดลกำเนิดล่วงหน้าของจีนที่ผ่านการฝึกอบรม	นักเขียน
Notebook.ai	Notebook.ai คือชุดเครื่องมือสำหรับนักเขียน นักออกแบบเกม และผู้สวมบทบาทเพื่อสร้างจักรวาลอันงดงามและทุกสิ่งภายในจักรวาล	นักเขียน
นิยาย	โปรแกรมแก้ไข WYSIWYG สไตล์แนวความคิดพร้อมการเติมข้อความอัตโนมัติที่ขับเคลื่อนด้วย AI	นักเขียน
โนเวลเอไอ	ขับเคลื่อนโดย AI สร้างเรื่องราวที่ไม่เหมือนใคร เรื่องราวที่น่าตื่นเต้น ความรักที่เย้ายวนใจ หรือแค่ล้อเล่นเฉยๆ	นักเขียน

^ กลับสู่เนื้อหา ^

ภาพ

แหล่งที่มา	คำอธิบาย	กระดาษ	เครื่องยนต์เกม	พิมพ์
ประตูใดก็ได้	การปรับแต่งภาพระดับวัตถุแบบ Zero-shot	อาร์เอ็กซ์		ภาพ
ข้อความใดก็ได้	การสร้างและแก้ไขข้อความภาพหลายภาษา	อาร์เอ็กซ์		ภาพ
ออโต้สตูดิโอ	การสร้างวัตถุที่สอดคล้องกันในการสร้างภาพแบบโต้ตอบหลายรอบ	อาร์เอ็กซ์		ภาพ
Blender-ControlNet	ใช้ ControlNet ใน Blender		เครื่องปั่น	ภาพ
บริวีแอล	แบบจำลองการเชื่อมโยงวิสัยทัศน์และภาษา	อาร์เอ็กซ์		ภาพ
แคทวีตัน	CatVTON: การต่อข้อมูลคือสิ่งที่คุณต้องการสำหรับการลองใช้งานเสมือนจริงด้วยโมเดลการแพร่กระจาย	อาร์เอ็กซ์		ภาพ
คลิปพาสโซ	วิธีการแปลงรูปภาพของวัตถุให้เป็นภาพร่าง ซึ่งช่วยให้มีระดับนามธรรมที่แตกต่างกันได้	อาร์เอ็กซ์		ภาพ
คลิปดรอป	สร้างภาพที่น่าทึ่งในไม่กี่วินาที			ภาพ
UI ที่สะดวกสบาย	GUI การแพร่กระจายที่เสถียรและทรงพลังแบบโมดูลาร์พร้อมอินเทอร์เฟซกราฟ/โหนด			ภาพ
คอนเซปต์แล็บ	การสร้างความคิดสร้างสรรค์โดยใช้ข้อจำกัดก่อนหน้าการแพร่กระจาย	อาร์เอ็กซ์		ภาพ
คอนโทรลเน็ต	ControlNet เป็นโครงสร้างโครงข่ายประสาทเทียมเพื่อควบคุมโมเดลการแพร่กระจายโดยการเพิ่มเงื่อนไขพิเศษ	อาร์เอ็กซ์		ภาพ
ซีเอสจีโอ	CSGO: องค์ประกอบสไตล์เนื้อหาในการสร้างข้อความเป็นรูปภาพ	อาร์เอ็กซ์		ภาพ
ดัล·อี 2	DALL·E 2 เป็นระบบ AI ที่สามารถสร้างภาพและงานศิลปะที่สมจริงจากคำอธิบายในภาษาธรรมชาติ			ภาพ
แดชตูน สตูดิโอ	Dashtoon Studio เป็นแพลตฟอร์มสร้างการ์ตูนที่ขับเคลื่อนด้วย AI			การ์ตูน
DeepAI	DeepAI นำเสนอชุดเครื่องมือที่ใช้ AI เพื่อเพิ่มความคิดสร้างสรรค์ของคุณ			ภาพ
ดีพฟลอยด์ ไอเอฟ	IF โดย DeepFloyd Lab ที่ StabilityAI			ภาพ
ความลึกอะไรก็ได้ V2	ความลึกอะไรก็ได้ V2	อาร์เอ็กซ์		ภาพ
ไลบรารีแผนที่ความลึกและปัญหาที่ตอบยาก	ไลบรารีแผนที่ความลึกสำหรับใช้กับส่วนขยาย Control Net สำหรับ Automatic1111/stable-diffusion-webui			ภาพ
กระจายให้เลือก	การเพิ่มสีสันให้กับการวาดภาพแบบมีเงื่อนไขในโมเดลการแพร่กระจายแฝงเพื่อการลองทั้งหมดเสมือนจริง	อาร์เอ็กซ์		ภาพ
การแพร่กระจายของดิสโก้	การรวมสมุดบันทึก แบบจำลอง และเทคนิคแบบแฟรงเกนสไตเนียนสำหรับการสร้างงานศิลปะและแอนิเมชัน AI			ภาพ
ลากแกน	การจัดการตามจุดแบบโต้ตอบบน Manifold รูปภาพทั่วไป	อาร์เอ็กซ์		ภาพ
วาดสิ่งต่าง ๆ	การสร้างภาพที่ได้รับความช่วยเหลือจาก AI ในกระเป๋าของคุณ			ภาพ
DWPose	การประมาณท่าทางทั้งร่างกายอย่างมีประสิทธิภาพด้วยการกลั่นแบบสองขั้นตอน	อาร์เอ็กซ์		ภาพ
อีซี่โฟโต้	เครื่องสร้างภาพ AI อัจฉริยะของคุณ			ภาพ
ฟลักซ์	ที่เก็บนี้มีโค้ดการอนุมานขั้นต่ำเพื่อเรียกใช้ข้อความเป็นรูปภาพและรูปภาพเป็นรูปภาพด้วยตัวแปลงการไหลแบบแฝง Flux ของเรา			ภาพ
ติดตาม-คลิก-ของคุณ	ภาพเคลื่อนไหวรูปภาพภูมิภาคแบบโอเพ่นโดเมนผ่านคำสั่งสั้น ๆ	อาร์เอ็กซ์		ภาพ
ฟูคัส	มุ่งเน้นไปที่การกระตุ้นและสร้าง			ภาพ
GIFฟิวชั่น	สร้าง GIF และวิดีโอโดยใช้ Stable Diffusion			ภาพ
สายดิน-เซ็กเมนต์-อะไรก็ได้	ตรวจจับ แบ่งส่วน และสร้างทุกสิ่งโดยอัตโนมัติด้วยอินพุตรูปภาพ ข้อความ และเสียง	อาร์เอ็กซ์		ภาพ
HivisionIDรูปภาพ	HivisionIDPhotos: เครื่องมือถ่ายภาพ AI ID ที่มีน้ำหนักเบาและมีประสิทธิภาพ			ภาพ
หัว	Hua เป็นโปรแกรมแก้ไขรูปภาพ AI พร้อม Stable Diffusion (และอื่นๆ)			ภาพ
ฮุนหยวน-DiT	หม้อแปลงกระจายแสงหลายความละเอียดอันทรงพลังพร้อมความเข้าใจภาษาจีนแบบละเอียด	อาร์เอ็กซ์		ภาพ
ไอซี-ไลท์	IC-Light เป็นโปรเจ็กต์เพื่อจัดการความสว่างของภาพ			ภาพ
อุดมคติ	ช่วยให้ผู้คนมีความคิดสร้างสรรค์มากขึ้น			ภาพ
อิมเมจ	Imagen เป็นระบบ AI ที่สร้างภาพที่เหมือนจริงจากข้อความที่ป้อน			ภาพ
img2img-เทอร์โบ	ภาพต่อภาพในขั้นตอนเดียวด้วย SD-Turbo			ภาพ
Img2พร้อมท์	รับการแจ้งเตือนจากรูปภาพที่สร้างการแพร่กระจายที่เสถียร			ภาพ
อินฟินิตี้	อนันต์: ปรับขนาดการสร้างแบบจำลอง Bitwise AutoRegressive สำหรับการสังเคราะห์ภาพที่มีความละเอียดสูง	อาร์เอ็กซ์		ภาพ
รหัสทันที	การสร้างการรักษาเอกลักษณ์แบบ Zero-shot ในไม่กี่วินาที	อาร์เอ็กซ์		ภาพ
ฝึกงานLM-XComposer2	InternLM-XComposer2 เป็นโมเดลขนาดใหญ่ภาษาวิสัยทัศน์ (VLLM) ที่ก้าวล้ำซึ่งมีความเป็นเลิศในการจัดองค์ประกอบข้อความและรูปภาพในรูปแบบอิสระและความเข้าใจ	อาร์เอ็กซ์		ภาพ
โคอาล่า	การเอาใจใส่ตนเองเป็นสิ่งสำคัญในการกลั่นความรู้ของแบบจำลองการแพร่กระจายแฝงเพื่อการสังเคราะห์ภาพที่มีประสิทธิภาพหน่วยความจำและรวดเร็ว			ภาพ
สี	Kolors: การฝึกอบรมที่มีประสิทธิภาพของแบบจำลองการแพร่กระจายสำหรับการสังเคราะห์ข้อความเป็นภาพเสมือนจริง			ภาพ
ครี	สร้างรูปภาพและวิดีโอด้วยเครื่องมือออกแบบที่ขับเคลื่อนด้วย AI อันน่ารื่นรมย์			ภาพ
สะพานลาวี	การเชื่อมโยงโมเดลภาษาที่แตกต่างกันและโมเดลการมองเห็นเชิงสร้างสรรค์สำหรับการสร้างข้อความเป็นรูปภาพ	อาร์เอ็กซ์		ภาพ
การแพร่กระจายของเลเยอร์	การแพร่กระจายเลเยอร์รูปภาพโปร่งใสโดยใช้ความโปร่งใสแฝง	อาร์เอ็กซ์		ภาพ
เล็กซิกา	การแพร่กระจายที่เสถียรพร้อมท์เครื่องมือค้นหา			ภาพ
ลามะเจน	Autoregressive Model Beats Diffusion: Llama สำหรับการสร้างภาพที่ปรับขนาดได้	อาร์เอ็กซ์		ภาพ
Lumina-mGPT	Lumina-mGPT: ส่องสว่างการสร้างข้อความเป็นรูปภาพเสมือนจริงที่ยืดหยุ่นด้วย Multimodal Generative Pretraining	อาร์เอ็กซ์		ภาพ
MetaShoot	MetaShoot เป็นแฝดดิจิทัลของสตูดิโอถ่ายภาพที่พัฒนาเป็นปลั๊กอินสำหรับ Unreal Engine ซึ่งช่วยให้ผู้สร้างสามารถสร้างการเรนเดอร์ที่สมจริงอย่างมากด้วยวิธีที่ง่ายและรวดเร็วที่สุด		เครื่องยนต์ที่ไม่จริง	ภาพ
กลางการเดินทาง	Midjourney เป็นห้องปฏิบัติการวิจัยอิสระที่สำรวจสื่อความคิดใหม่ๆ และขยายพลังจินตนาการของเผ่าพันธุ์มนุษย์			ภาพ
มิกซี	MIGC: ตัวควบคุมการสร้างอินสแตนซ์หลายอินสแตนซ์สำหรับการสังเคราะห์ข้อความเป็นรูปภาพ	อาร์เอ็กซ์		ภาพ
แปรงเลียนแบบ	การแก้ไขภาพ Zero-shot ด้วยการเลียนแบบการอ้างอิง	อาร์เอ็กซ์		ภาพ
OmniGen	OmniGen: การสร้างภาพแบบครบวงจร	อาร์เอ็กซ์		ภาพ
โอโมสต์	Omost เป็นโครงการที่จะแปลงความสามารถในการเขียนโค้ดของ LLM ให้เป็นความสามารถในการสร้างภาพ (หรือที่แม่นยำกว่านั้นคือความสามารถในการจัดวางภาพ)			ภาพ
เครื่องมือแก้ไข Openpose	Openpose Editor สำหรับเสถียรการแพร่กระจาย webui ของ AUTOMATIC1111			ภาพ
แต่งกายใครก็ได้	การลองสวมเสมือนจริงคุณภาพสูงเป็นพิเศษสำหรับเสื้อผ้าและบุคคลใดๆ			ภาพ
สีเลิกทำ	PaintsUndo: รูปแบบพื้นฐานของพฤติกรรมการวาดภาพในภาพวาดดิจิทัล			ภาพ
โฟโต้เมคเกอร์	การปรับแต่งภาพถ่ายมนุษย์ที่สมจริงผ่านการฝัง ID แบบซ้อน	อาร์เอ็กซ์		ภาพ
ห้องถ่ายรูป	เครื่องกำเนิดพื้นหลัง AI			ภาพ
พลาสก์	การสร้างภาพ AI ในระบบคลาวด์			ภาพ
พรอมต์.อาร์ท	ศูนย์กลางเครื่องกำเนิดไฟฟ้า			ภาพ
พูลลิด	การปรับแต่ง Pure และ Lightning ID ผ่าน Contrastive Alignment	อาร์เอ็กซ์		ภาพ
Rich-Text-to-รูปภาพ	การสร้างข้อความเป็นรูปภาพที่แสดงออกด้วย Rich Text	อาร์เอ็กซ์		ภาพ
RPG-DiffusionMaster	การเรียนรู้การแพร่กระจายข้อความเป็นรูปภาพ: การสรุป การวางแผน และการสร้างด้วย Multimodal LLM (PRG)			ภาพ
เมล็ดพันธุ์-เรื่องราว	SEED-Story: การสร้างเรื่องราวยาวต่อเนื่องหลายรูปแบบพร้อมโมเดลภาษาขนาดใหญ่	อาร์เอ็กซ์		ภาพ
แบ่งส่วนอะไรก็ได้	Segment Anything Model (SAM): โมเดล AI ใหม่จาก Meta AI ที่สามารถ "ตัด" วัตถุใด ๆ ในภาพใดก็ได้ ด้วยการคลิกเพียงครั้งเดียว	อาร์เอ็กซ์		ภาพ
แบ่งส่วนโมเดลอะไรก็ได้ 2 (SAM 2)	SAM 2: แบ่งส่วนอะไรก็ได้ในรูปภาพและวิดีโอ	อาร์เอ็กซ์		ภาพ
sd-webui-controlnet.dll	ส่วนขยาย WebUI สำหรับ ControlNet			ภาพ
SDXL-สายฟ้า	การกลั่นแบบแพร่กระจายฝ่ายตรงข้ามแบบก้าวหน้า	อาร์เอ็กซ์		ภาพ
SDXS	โมเดลการแพร่กระจายแฝงในขั้นตอนเดียวแบบเรียลไทม์พร้อมเงื่อนไขของภาพ			ภาพ
มั่นคง.ศิลปะ	ปลั๊กอิน Photoshop สำหรับ Stable Diffusion พร้อมด้วย Automatic1111 เป็นแบ็กเอนด์ (ในเครื่องหรือกับ Google Colab)			ภาพ
น้ำตกที่มีเสถียรภาพ	Stable Cascade ประกอบด้วยสามรุ่น: สเตจ A, สเตจ B และสเตจ C ซึ่งเป็นตัวแทนของคาสเคดสำหรับการสร้างภาพ จึงเป็นที่มาของชื่อ "สเตเบิล คาสเคด"			ภาพ
การแพร่กระจายที่เสถียร	โมเดลการแพร่กระจายข้อความเป็นรูปภาพแฝง			ภาพ
เสถียร-diffusion.cpp	การแพร่กระจายที่เสถียรใน C/C++ บริสุทธิ์			ภาพ
UI เว็บการแพร่กระจายที่เสถียร	อินเทอร์เฟซเบราว์เซอร์ที่ใช้ไลบรารี Gradio สำหรับ Stable Diffusion			ภาพ
UI เว็บการแพร่กระจายที่เสถียร	UI บนเว็บเพื่อการแพร่กระจายที่เสถียร			ภาพ
WebUI ภาษาจีนที่เสถียร	stable-diffusion-webui เวอร์ชันภาษาจีน			ภาพ
การแพร่กระจายที่เสถียร XL	สร้างภาพจากข้อความ	อาร์เอ็กซ์		ภาพ
การแพร่กระจาย XL Turbo ที่เสถียร	การสร้างข้อความเป็นรูปภาพแบบเรียลไทม์			ภาพ
การแพร่กระจายที่เสถียร 3.5	Stable Diffusion 3.5 แบบเปิดมีหลายรุ่น รวมถึง Stable Diffusion 3.5 Large และ Stable Diffusion 3.5 Large Turbo			ภาพ
Doodle ที่มั่นคง	Stable Doodle เป็นเครื่องมือแปลงร่างเป็นภาพที่แปลงภาพวาดธรรมดาให้เป็นภาพไดนามิก			ภาพ
สเตเบิลสตูดิโอ	StableStudio โดย Stability AI			ภาพ
สตอรี่เมคเกอร์	StoryMaker: มุ่งสู่ตัวละครที่สอดคล้องกันแบบองค์รวมในการสร้างข้อความเป็นรูปภาพ	อาร์เอ็กซ์		ภาพ
StreamDiffusion	โซลูชันระดับไปป์ไลน์สำหรับการสร้างการโต้ตอบแบบเรียลไทม์			ภาพ
สไตล์ดรอป	การสร้างข้อความเป็นรูปภาพในทุกสไตล์	อาร์เอ็กซ์		ภาพ
SyncDreamer	การสร้างภาพที่สอดคล้องหลายมุมมองจากภาพมุมมองเดียว	อาร์เอ็กซ์		ภาพ
อัลตร้าแก้ไข	UltraEdit: การแก้ไขภาพที่ละเอียดตามคำสั่งตามขนาด	อาร์เอ็กซ์		ภาพ
อัลตร้าพิกเซล	UltraPixel: ยกระดับการสังเคราะห์ภาพความละเอียดสูงพิเศษสู่จุดสูงสุดใหม่	อาร์เอ็กซ์		ภาพ
Unity ML การแพร่กระจายที่เสถียร	Core ML การแพร่กระจายที่เสถียรบนความสามัคคี		ความสามัคคี	ภาพ
วิสพังค์ วิชั่นส์	แพลตฟอร์มการสร้างข้อความเป็นรูปภาพ			ภาพ

^ กลับสู่เนื้อหา ^

พื้นผิว

แหล่งที่มา	คำอธิบาย	กระดาษ	เครื่องยนต์เกม	พิมพ์
ซีอาร์เอ็ม	ภาพเดียวเป็น 3D Textured Mesh พร้อมโมเดลการสร้างใหม่แบบ Convolutional	อาร์เอ็กซ์		พื้นผิว
ดรีมแมท	การสร้างวัสดุ PBR คุณภาพสูงพร้อมแบบจำลองการแพร่กระจายแบบเรขาคณิตและการรับรู้แสง	อาร์เอ็กซ์		พื้นผิว
ดรีมสเปซ	ฝันถึงพื้นที่ห้องของคุณด้วยการขยายพันธุ์พื้นผิวแบบพาโนรามาที่ขับเคลื่อนด้วยข้อความ			พื้นผิว
พื้นผิวในฝัน	การแพร่กระจายที่เสถียรในตัวไปยัง Blender สร้างพื้นผิว คอนเซ็ปอาร์ต เนื้อหาพื้นหลัง และอื่นๆ อีกมากมายด้วยข้อความแจ้งง่ายๆ		เครื่องปั่น	พื้นผิว
สั่งสอนมนุษย์	การแก้ไขพื้นผิวมนุษย์แบบเคลื่อนไหว 3 มิติพร้อมคำแนะนำ	อาร์เอ็กซ์		พื้นผิว
อินเทเอ็กซ์	การสังเคราะห์ข้อความเป็นพื้นผิวเชิงโต้ตอบผ่าน Inpainting ที่รับรู้ความลึกแบบครบวงจร	อาร์เอ็กซ์		พื้นผิว
LLaMA-ตาข่าย	LLaMA-Mesh: การรวมการสร้าง 3D Mesh เข้ากับโมเดลภาษา	อาร์เอ็กซ์		ตาข่าย
วัสดุSeg3D	MaterialSeg3D: การแบ่งส่วนวัสดุที่มีความหนาแน่นจาก 2D Priors สำหรับสินทรัพย์ 3D	อาร์เอ็กซ์		พื้นผิว
ตาข่ายอะไรก็ได้	MaterialSeg3D: การแบ่งส่วนวัสดุที่มีความหนาแน่นจาก 2D Priors สำหรับสินทรัพย์ 3D	อาร์เอ็กซ์		ตาข่าย
Neuralangelo	การสร้างพื้นผิวประสาทความเที่ยงตรงสูงใหม่	อาร์เอ็กซ์		พื้นผิว
ทาสีมัน	การสังเคราะห์ข้อความเป็นพื้นผิวผ่านการเพิ่มประสิทธิภาพแผนที่พื้นผิวเชิงลึกและการเรนเดอร์ตามทางกายภาพ			พื้นผิว
โพลีแคม	สร้างพื้นผิว 3 มิติของคุณเองเพียงแค่พิมพ์			พื้นผิว
เท็กซ์ฟิวชั่น	การสังเคราะห์พื้นผิว 3 มิติด้วยโมเดลการแพร่กระจายรูปภาพที่มีข้อความนำทาง	อาร์เอ็กซ์		พื้นผิว
Text2Tex	การสังเคราะห์พื้นผิวที่ขับเคลื่อนด้วยข้อความผ่านแบบจำลองการแพร่กระจาย	อาร์เอ็กซ์		พื้นผิว
แล็บพื้นผิว	พื้นผิวที่สร้างโดย AI คุณสามารถสร้างของคุณเองได้ด้วยข้อความแจ้ง			พื้นผิว
กับโพลี่	สร้างพื้นผิวด้วยโพลี สร้างวัสดุ 3 มิติด้วย AI ในโปรแกรมแก้ไขออนไลน์ฟรี หรือค้นหาห้องสมุดชุมชนที่กำลังเติบโตของเรา			พื้นผิว
เอ็กซ์-เมช	X-Mesh: สู่สไตล์ 3 มิติที่ขับเคลื่อนด้วยข้อความอย่างรวดเร็วและแม่นยำผ่านการแนะแนวข้อความแบบไดนามิก	อาร์เอ็กซ์		พื้นผิว

^ กลับสู่เนื้อหา ^

เฉดเดอร์

แหล่งที่มา	คำอธิบาย	กระดาษ	เครื่องยนต์เกม	พิมพ์
AI เชดเดอร์	เครื่องกำเนิดเชเดอร์ที่ขับเคลื่อนโดย ChatGPT สำหรับ Unity		ความสามัคคี	เฉดเดอร์

^ กลับสู่เนื้อหา ^

โมเดล 3 มิติ

แหล่งที่มา	คำอธิบาย	กระดาษ	เครื่องยนต์เกม	พิมพ์
เคลื่อนไหว3D	Animate3D: สร้างภาพเคลื่อนไหวให้กับโมเดล 3 มิติด้วยการกระจายวิดีโอหลายมุมมอง	อาร์เอ็กซ์		3 มิติ
อะไรก็ได้-3D	ส่วน-อะไรก็ได้ + 3D มายกทุกสิ่งให้เป็น 3D กันดีกว่า	อาร์เอ็กซ์		แบบอย่าง
Any2Point	Any2Point: เพิ่มศักยภาพให้กับโมเดลขนาดใหญ่ทุกรูปแบบเพื่อความเข้าใจ 3D ที่มีประสิทธิภาพ	อาร์เอ็กซ์		3 มิติ
BlenderGPT	ใช้คำสั่งเป็นภาษาอังกฤษเพื่อควบคุม Blender ด้วย GPT-4 ของ OpenAI		เครื่องปั่น	แบบอย่าง
เครื่องปั่น-GPT	ผู้ช่วย Blender แบบครบวงจรที่ขับเคลื่อนโดย GPT3/4 + Whisper		เครื่องปั่น	แบบอย่าง
ห้องปฏิบัติการปิดล้อม	การเล่นแร่แปรธาตุแบบดิจิทัลเกิดขึ้นจริงด้วย Skybox Lab ซึ่งเป็นโซลูชันที่ขับเคลื่อนด้วย AI ขั้นสุดยอดสำหรับการสร้างประสบการณ์ skybox 360° ที่น่าทึ่งจากข้อความแจ้ง			แบบอย่าง
CF-3DGS	การสาดแบบเกาส์เซียน 3 มิติที่ปราศจาก COLMAP	อาร์เอ็กซ์		3 มิติ
ตัวละครพล	CharacterGen: การสร้างตัวละคร 3 มิติที่มีประสิทธิภาพจากภาพเดี่ยวพร้อม Canonicalization แบบหลายมุมมอง	อาร์เอ็กซ์		3 มิติ
chatGPT-มายา	เครื่องมือ Maya อย่างง่ายที่ใช้ AI แบบเปิดเพื่อทำงานพื้นฐานตามคำแนะนำเชิงอธิบาย		มายา	แบบอย่าง
ซิตี้ดรีมเมอร์	แบบจำลองการกำเนิดเชิงองค์ประกอบของเมือง 3 มิติที่ไร้ขอบเขต	อาร์เอ็กซ์		3 มิติ
ซีเอสเอ็ม	สร้างโลก 3 มิติจากรูปภาพและวิดีโอ			3 มิติ
แดช	นักบินของคุณสำหรับการสร้างโลกใน Unreal Engine		เครื่องยนต์ที่ไม่จริง	3 มิติ
ดรีมแคตตาลิสต์	DreamCatalyst: การแก้ไข 3D ที่รวดเร็วและมีคุณภาพสูงผ่านการควบคุมการแก้ไขและการรักษาเอกลักษณ์	อาร์เอ็กซ์		3 มิติ
ดรีมเกาส์เซียน4D	การสร้างการสาดแบบเกาส์เซียน 4D	อาร์เอ็กซ์		4D
ฝุ่น3R	การมองเห็น 3 มิติเชิงเรขาคณิตทำได้ง่าย	อาร์เอ็กซ์		3 มิติ
แก้ไข 3D	Edify 3D: การสร้างสินทรัพย์ 3D คุณภาพสูงที่ปรับขนาดได้	อาร์เอ็กซ์		3 มิติ
GALA3D	GALA3D: สู่การสร้างฉากที่ซับซ้อนจากข้อความเป็น 3D ผ่านการ Splatting แบบเกาส์เซียนที่มีเค้าโครงนำทาง	อาร์เอ็กซ์		3 มิติ
GaussCtrl	GaussCtrl: การแก้ไขการสลับแบบเกาส์เซียน 3 มิติที่ขับเคลื่อนด้วยข้อความที่สอดคล้องกันหลายมุมมอง	อาร์เอ็กซ์		3 มิติ
เกาส์เซียนคิวบ์	การแสดง Radiance ที่มีโครงสร้างและชัดเจนสำหรับการสร้างแบบจำลอง 3 มิติ	อาร์เอ็กซ์		3 มิติ
GaussianDreamer	การสร้างอย่างรวดเร็วจากข้อความเป็น 3D Gaussian Splatting ด้วย Point Cloud Priors	อาร์เอ็กซ์		3 มิติ
จีนี่แล็บส์	เสริมศักยภาพเกมของคุณด้วย AI-UGC			3 มิติ
ไฮฟา	การแปลงข้อความเป็น 3D ความเที่ยงตรงสูงพร้อมคำแนะนำการแพร่กระจายขั้นสูง			แบบอย่าง
โฮโลดรีมเมอร์	HoloDreamer: การสร้างโลกแบบพาโนรามา 3 มิติแบบองค์รวมจากคำอธิบายข้อความ	อาร์เอ็กซ์		3 มิติ
ฮุนหยวน3D-1.0	Hunyuan3D-1.0: กรอบงานแบบครบวงจรสำหรับการสร้างข้อความเป็น 3D และรูปภาพเป็น 3D	อาร์เอ็กซ์		3 มิติ
อินฟินิเกน	โลกเสมือนจริงที่ไม่มีที่สิ้นสุดโดยใช้ขั้นตอนการสร้าง	อาร์เอ็กซ์		3 มิติ
คำสั่ง-NeRF2NeRF	การแก้ไขฉาก 3 มิติพร้อมคำแนะนำ	อาร์เอ็กซ์		แบบอย่าง
Interactive3D	สร้างสิ่งที่คุณต้องการโดย Interactive 3D Generation	อาร์เอ็กซ์		3 มิติ
ไอโซโทรปิก 3 มิติ	การสร้างภาพเป็น 3D จากการฝัง CLIP เดียว			3 มิติ
LATTE3D	การสังเคราะห์ข้อความเป็นการปรับปรุง 3D ที่ตัดจำหน่ายขนาดใหญ่	อาร์เอ็กซ์		3 มิติ
สิงโต	แบบจำลองการแพร่กระจายจุดแฝงสำหรับการสร้างรูปร่าง 3 มิติ	อาร์เอ็กซ์		แบบอย่าง
ลูม่า ไอ	จับภาพในแบบ 3 มิติที่เหมือนจริง ความสมจริงของภาพถ่าย การสะท้อน และรายละเอียดที่ไม่มีใครเทียบได้ อนาคตของ VFX มาถึงแล้วสำหรับทุกคน!			แบบอย่าง
ลูมีนเอไอ	ความคิดสร้างสรรค์ที่ขับเคลื่อนด้วย AI			3 มิติ
Make-It-3D	การสร้าง 3D ที่มีความเที่ยงตรงสูงจากภาพเดียวพร้อม Diffusion Prior	อาร์เอ็กซ์		แบบอย่าง
เมชชี่	สร้างเนื้อหาเกม 3 มิติที่น่าทึ่งด้วย AI			3 มิติ
การเคลื่อนไหว	Magical 3D AI แอนิเมชั่นผู้สร้าง			3 มิติ
เอ็มวีดรีม	การแพร่กระจายหลายมุมมองสำหรับการสร้าง 3 มิติ	อาร์เอ็กซ์		3 มิติ
NVIDIA NeRF ทันที	กราฟิกประสาททันทีแบบดั้งเดิม: NeRF ที่รวดเร็วปานสายฟ้าและอีกมากมาย			แบบอย่าง
วัน-2-3-45	ภาพเดี่ยวใดๆ ให้เป็น 3D Mesh ใน 45 วินาที โดยไม่มีการปรับให้เหมาะสมต่อรูปร่าง	อาร์เอ็กซ์		แบบอย่าง
เพ้นท์3D	วาดภาพ 3 มิติทุกอย่างด้วยโมเดลการกระจายพื้นผิวที่ไม่ใช้แสง	อาร์เอ็กซ์		3 มิติ
PAniC-3D	การสร้างภาพ 3 มิติมุมมองเดียวที่เก๋ไก๋จากภาพตัวละครอนิเมะ	อาร์เอ็กซ์		แบบอย่าง
จุด·E	การแพร่กระจายของพอยต์คลาวด์สำหรับการสังเคราะห์โมเดล 3 มิติ			แบบอย่าง
ProlificDreamer	การสร้างข้อความเป็น 3D ที่มีความเที่ยงตรงสูงและหลากหลายพร้อมการกลั่นคะแนนแบบแปรผัน	อาร์เอ็กซ์		แบบอย่าง
SF3D	SF3D: การสร้างตาข่าย 3D ที่รวดเร็วและเสถียรพร้อมการแกะด้วยรังสี UV และการแยกส่วนการส่องสว่าง	อาร์เอ็กซ์		3 มิติ
รูปร่าง	สร้างวัตถุ 3 มิติที่มีเงื่อนไขบนข้อความหรือรูปภาพ	อาร์เอ็กซ์		แบบอย่าง
สลอยด์	การสร้างแบบจำลอง 3 มิติง่ายกว่าที่เคย			แบบอย่าง
สไปลน์ AI	พลังของ AI กำลังมาถึงมิติที่ 3 สร้างวัตถุ ภาพเคลื่อนไหว และพื้นผิวโดยใช้ข้อความแจ้ง			แบบอย่าง
ดรีมฟิวชั่นที่เสถียร	การใช้งาน pytorch ของโมเดลข้อความเป็น 3D Dreamfusion ซึ่งขับเคลื่อนโดยโมเดล Stable Diffusion ของข้อความเป็น 2D			แบบอย่าง
SV3D	การสังเคราะห์หลายมุมมองแบบใหม่และการสร้าง 3 มิติจากภาพเดียวโดยใช้การแพร่กระจายวิดีโอแฝง	อาร์เอ็กซ์		3 มิติ
ทาฟี	ข้อความ AI ไปยังเอ็นจิ้นตัวละคร 3 มิติ			แบบอย่าง
3D-GPT	การสร้างแบบจำลอง 3 มิติตามขั้นตอนด้วยแบบจำลองภาษาขนาดใหญ่	อาร์เอ็กซ์		3 มิติ
3D-LLM	การอัดฉีดโลก 3 มิติลงในโมเดลภาษาขนาดใหญ่	อาร์เอ็กซ์		3 มิติ
3Dpresso	แยกโมเดล 3 มิติของวัตถุที่ถ่ายไว้ในวิดีโอ			แบบอย่าง
3ดีโทเปีย	การสร้างข้อความเป็น 3D ภายใน 5 นาที	อาร์เอ็กซ์		3 มิติ
3DTopia-XL	3DTopia-XL: ปรับขนาดการสร้างเนื้อหา 3 มิติคุณภาพสูงผ่านการแพร่กระจายแบบดั้งเดิม	อาร์เอ็กซ์		3 มิติ
สามสตูดิโอ	เฟรมเวิร์กแบบรวมสำหรับการสร้างเนื้อหา 3 มิติ			แบบอย่าง
ทริโปเอสอาร์	โมเดลโอเพนซอร์ซที่ทันสมัยสำหรับการสร้าง 3D Feed Forward Feed Forward จากภาพเดียว	อาร์เอ็กซ์		แบบอย่าง
ไม่ซ้ำกัน 3d	การสร้างตาข่าย 3 มิติคุณภาพสูงและมีประสิทธิภาพจากภาพเดียว	อาร์เอ็กซ์		3 มิติ
Unitygaussiansplatting	Toy Gaussian Splatting การสร้างภาพข้อมูลเป็นเอกภาพ		ความสามัคคี	3 มิติ
Vivid-1 ถึง 3	การสังเคราะห์มุมมองใหม่ด้วยโมเดลการแพร่กระจายวิดีโอ	อาร์เอ็กซ์		3 มิติ
voxcraft	สร้างโมเดล 3 มิติพร้อมใช้งานด้วย AI			3 มิติ
Wonder3d	ภาพเดียวถึง 3D โดยใช้การแพร่กระจายของโดเมน	อาร์เอ็กซ์		3 มิติ
zero-1-to-3	zero-shot ภาพหนึ่งไปยังวัตถุ 3D	อาร์เอ็กซ์		แบบอย่าง

^ กลับสู่เนื้อหา ^

อวตาร

แหล่งที่มา	คำอธิบาย	กระดาษ	เครื่องยนต์เกม	พิมพ์
Aniportrait	การสังเคราะห์เสียงที่ขับเคลื่อนด้วยเสียงของภาพเคลื่อนไหวภาพบุคคล	อาร์เอ็กซ์		อวตาร
เงียบสงบ	แบบจำลองแฝงของฝ่ายตรงข้ามที่มีเงื่อนไขสำหรับอักขระเสมือนจริงที่สามารถติดต่อได้	อาร์เอ็กซ์		อวตาร
chatavatar	การสร้างแบบ 3 มิติแบบแอนิเมชั่นที่มีความก้าวหน้าภายใต้คำแนะนำข้อความ			อวตาร
chatdollkit	Chatdollkit ช่วยให้คุณสร้างโมเดล 3 มิติของคุณให้เป็น Chatbot		ความสามัคคี	อวตาร
Dreamtalk	เมื่อการสร้างหัวพูดคุยที่แสดงออกมาเป็นไปตามโมเดลความน่าจะเป็นของการแพร่กระจาย	อาร์เอ็กซ์		อวตาร
คู่	Duix - SDK Digital Human Digital ที่ใช้ซิลิคอน?			อวตาร
ก้อง	ECHOMIMIC: ภาพเคลื่อนไหวแนวตั้งที่ขับเคลื่อนด้วยเสียงที่เหมือนจริงผ่านเงื่อนไขที่เป็นสถานที่สำคัญที่แก้ไขได้	arxiv		อวตาร
Emoportraits	อวตารหัวเดียวที่เพิ่มขึ้นหลายรูปแบบ			อวตาร
E3 gen	การสร้างอวตารที่มีประสิทธิภาพแสดงออกและแก้ไขได้	อาร์เอ็กซ์		อวตาร
exavatar	Exavatar - Avatar Gaussian Avatar 3D ทั้งร่างกาย	arxiv		อวตาร
เครื่องประดับ	การแก้ไข Avatar Avatar ที่รับรู้ทั่วไปจากภาพเดียวจากภาพเดียว	อาร์เอ็กซ์		อวตาร
Geneface ++	ทั่วไปและมีเสถียรภาพ 3D Talking Face Generation			อวตาร
สวัสดี	การสังเคราะห์ภาพที่ขับเคลื่อนด้วยเสียงแบบลำดับชั้นสำหรับภาพเคลื่อนไหวภาพบุคคล	arxiv		อวตาร
Hallo2	Hallo2: ภาพเคลื่อนไหวภาพบุคคลที่ขับเคลื่อนด้วยเสียงที่มีความละเอียดสูงและมีความละเอียดสูง	arxiv		อวตาร
ผ้าคลุมศีรษะ	การประดิษฐ์อวตารหัว 3 มิติพร้อมข้อความ	arxiv		อวตาร
Intrinsicavatar	Intrinsicavatar: การเรนเดอร์ผกผันทางร่างกายของมนุษย์แบบไดนามิกจากวิดีโอตาข้างเดียวผ่านการติดตามรังสีที่ชัดเจน	arxiv		อวตาร
Linly-Talker	ระบบสนทนา Avatar Digital			อวตาร
LivePortrait	LivePortrait: ภาพเคลื่อนไหวภาพบุคคลที่มีประสิทธิภาพพร้อมการเย็บและการควบคุมการกำหนดเป้าหมายใหม่	arxiv		อวตาร
การเคลื่อนไหว	การเคลื่อนไหวของมนุษย์เป็นภาษาต่างประเทศซึ่งเป็นแบบจำลองการสร้างภาษาแบบรวมโดยใช้ LLMS	อาร์เอ็กซ์		อวตาร
เมทิน	Musepose: กรอบการทำงานที่ขับเคลื่อนด้วยภาพรวมถึงวิดีโอสำหรับมนุษย์เสมือนจริง			อวตาร
Musetalk	การสังเคราะห์ริมฝีปากคุณภาพสูงแบบเรียลไทม์กับพื้นที่แฝงในการทาสี			อวตาร
มูฟ	การสร้างวิดีโอมนุษย์เสมือนจริงที่มีความยาวไม่สิ้นสุดและมีความเที่ยงตรงสูง			อวตาร
portrait4d	การเรียนรู้การสังเคราะห์ Avatar หัว 4D-shot head โดยใช้ข้อมูลสังเคราะห์	arxiv		อวตาร
Ready Player Me	รวมอวตารที่ปรับแต่งได้เข้ากับเกมหรือแอพของคุณในไม่กี่วัน			อวตาร
rodinhd	Rodinhd: การสร้างอวตาร 3D ความเที่ยงตรงสูงพร้อมแบบจำลองการแพร่กระจาย	arxiv		อวตาร
Styleavatar3d	การใช้ประโยชน์จากรูปแบบการแพร่กระจายของข้อความภาพสำหรับการสร้างอวตาร 3D ความเที่ยงตรงสูง	arxiv		อวตาร
Text2Control3d	การสร้าง Avatar 3D ที่ควบคุมได้ในเขตข้อมูลความสว่างของระบบประสาทโดยใช้แบบจำลองการแพร่กระจายข้อความเรขาคณิตที่นำไปสู่ภาพเรขาคณิต	arxiv		อวตาร
topo4D	ทอพอโลยีช่วยรักษาเกาส์เซียนสำหรับการจับหัว 4D ที่มีความเที่ยงตรงสูง	arxiv		อวตาร
UnityaiWithChatgpt	ขึ้นอยู่กับความสามัคคีการแสดงผลการโต้ตอบด้วยเสียง chatgpt+Unitychan ได้รับการรับรู้		ความสามัคคี	อวตาร
vid2avatar	การสร้างใหม่ของ Avatar จากวิดีโอในป่าผ่านการสลายตัวของฉากที่ดูแลตนเอง	arxiv		อวตาร
คนขายดี	การแพร่กระจายหลายรูปแบบสำหรับการสังเคราะห์อวตารที่เป็นตัวเป็นตน			อวตาร
Wild2avatar	การแสดงผลมนุษย์ที่อยู่เบื้องหลังการบดเคี้ยว	arxiv		อวตาร

^ กลับสู่เนื้อหา ^

แอนิเมชั่น

แหล่งที่มา	คำอธิบาย	กระดาษ	พิมพ์
เคลื่อนไหวทุกคน	การสังเคราะห์ภาพต่อวิดีโอที่สอดคล้องและควบคุมได้สำหรับภาพเคลื่อนไหวของตัวละคร	arxiv	แอนิเมชั่น
อนิเมชั่น	อนิเมชั่นอิมเมจโดเมนเปิดที่มีความละเอียดพร้อมคำแนะนำการเคลื่อนไหว	arxiv	แอนิเมชั่น
อนิเมชั่น	ทำให้โมเดลการแพร่กระจายข้อความเป็นส่วนตัวของคุณเป็นแบบส่วนตัวโดยไม่ต้องปรับแต่งเฉพาะ	arxiv	แอนิเมชั่น
animatelcm	มาเร่งการสร้างวิดีโอภายใน 4 ขั้นตอนกันเถอะ!	arxiv	แอนิเมชั่น
Animate-X	Animate-X: ภาพเคลื่อนไหวภาพสากลที่มีการแสดงการเคลื่อนไหวที่เพิ่มขึ้น	arxiv	แอนิเมชั่น
animatezero	โมเดลการแพร่กระจายวิดีโอเป็นอนิเมเตอร์ภาพที่ไม่มีภาพ	arxiv	แอนิเมชั่น
AnimationGpt	เครื่องมือ AIGC สำหรับการสร้างสินทรัพย์การเคลื่อนไหวของเกม		แอนิเมชั่น
ม้วน	Deforum ใช้ประโยชน์จากการแพร่กระจายที่มั่นคงเพื่อสร้างภาพ AI ที่พัฒนาขึ้น		แอนิเมชั่น
ภาพวาด	DrawingsPinup: ภาพเคลื่อนไหว 3D จากภาพวาดตัวละครเดี่ยว	arxiv	แอนิเมชั่น
Dreamoving	กรอบการสร้างวิดีโอของมนุษย์ตามรูปแบบการแพร่กระจาย	arxiv	แอนิเมชั่น
การตกตะกอน	รุ่นต่อไปใบหน้า swapper และ enhancer		แอนิเมชั่น
freeinit	เชื่อมช่องว่างการเริ่มต้นในโมเดลการแพร่กระจายวิดีโอ	arxiv	แอนิเมชั่น
Geneface	การสังเคราะห์ใบหน้าการพูดคุยแบบ 3 มิติที่ขับเคลื่อนด้วยเสียงแบบทั่วไปและมีความเที่ยงตรงสูง	arxiv	แอนิเมชั่น
id-animator	การสร้างวิดีโอของมนุษย์ที่ไม่ได้รับการรักษาเป็นศูนย์	arxiv	แอนิเมชั่น
เวทมนตร์	ภาพเคลื่อนไหวภาพมนุษย์ที่สอดคล้องกันชั่วคราวโดยใช้แบบจำลองการแพร่กระจาย	arxiv	แอนิเมชั่น
นูวา	Dragnuwa เป็นรูปแบบการสร้างวิดีโอแบบเปิดโดเมนแบบเปิดใช้การควบคุมข้อความภาพและวิถีเป็นอินพุตเพื่อให้ได้การสร้างวิดีโอที่ควบคุมได้	arxiv	แอนิเมชั่น
Nuwa-infinity	Nuwa-Infinity เป็นแบบจำลองการกำเนิดหลายรูปแบบที่ออกแบบมาเพื่อสร้างภาพและวิดีโอคุณภาพสูงจากข้อความรูปภาพหรือวิดีโอที่กำหนด		แอนิเมชั่น
nuwa-xl	การแพร่กระจายนวนิยายเกี่ยวกับสถาปัตยกรรมการแพร่กระจายสำหรับการสร้างวิดีโอที่ยาวมาก		แอนิเมชั่น
อนิเมชั่น Omni	AI สร้างแอนิเมชั่นความจงรักภักดีสูง		แอนิเมชั่น
เพีย	อนิเมชั่นรูปภาพส่วนบุคคลของคุณผ่านโมดูลปลั๊กแอนด์เพลย์ในรุ่นข้อความถึงภาพ	arxiv	แอนิเมชั่น
คนอนาถ	การเรียนรู้ค่าสัมประสิทธิ์การเคลื่อนไหว 3 มิติที่สมจริงสำหรับภาพเคลื่อนไหวภาพอนิเมชั่นการพูดคุยแบบอนิเมชั่นภาพเดียวที่ขับเคลื่อนด้วยเสียง	arxiv	แอนิเมชั่น
Sadtalker-Video-Lip-Sync	โครงการนี้ขึ้นอยู่กับ Sadtalkers WAV2LIP สำหรับการสังเคราะห์ลิปวิดีโอ		แอนิเมชั่น
อนิเมชั่นที่มั่นคง	เครื่องมือข้อความเป็นแอนิเมชั่นที่ทรงพลังสำหรับนักพัฒนา		แอนิเมชั่น
talecrafter	เครื่องมือสร้างภาพข้อมูลเรื่องราวแบบโต้ตอบที่รองรับหลายตัวละคร	arxiv	แอนิเมชั่น
tooncrafter	Tooncrafter: การแก้ไขการ์ตูนทั่วไป	arxiv	แอนิเมชั่น
wav2lip	วิดีโอซิงค์ริมฝีปากอย่างถูกต้องในป่า	arxiv	แอนิเมชั่น
สตูดิโอมหัศจรรย์	เครื่องมือ AI ที่เคลื่อนไหวโดยอัตโนมัติไฟและรวบรวมอักขระ CG ลงในฉากไลฟ์แอ็กชั่น		แอนิเมชั่น

^ กลับสู่เนื้อหา ^

ภาพ

แหล่งที่มา	คำอธิบาย	กระดาษ	พิมพ์
Cambrian-1	Cambrian-1: การสำรวจ LLM แบบหลายรูปแบบที่เปิดกว้างและมีวิสัยทัศน์เป็นศูนย์กลาง	arxiv	Multimodal LLMS
Cogvlm2	โมเดลหลายโมเดลโอเพนซอร์ซระดับ GPT4V ตาม LLAMA3-8B		ภาพ
ผู้ทำนาย	มันจะดีกว่าที่จะติดตามด้วยกัน	arxiv	ภาพ
EVF-Sam	EVF-SAM: ฟิวชั่นภาษาวิสัยทัศน์ก่อนกำหนดสำหรับส่วนที่นำเสนอข้อความแบบจำลองอะไรก็ได้	arxiv	ภาพ
หน้า	มันจะดีกว่าที่จะติดตามด้วยกัน		ภาพ
internlm-xcomposer2	InternLM-XCOMPOSER2 เป็นรุ่น Vision Language Language Language Model (VLLM) ที่ยอดเยี่ยมในการจัดองค์ประกอบภาพและความเข้าใจรูปแบบข้อความแบบอิสระ	arxiv	ภาพ
จิงโจ้	จิงโจ้: โมเดลวิดีโอภาษาที่ทรงพลังซึ่งรองรับอินพุตวิดีโอบริบทยาว		ภาพ
LGVI	ไปสู่วิดีโอที่ขับเคลื่อนด้วยภาษาผ่านแบบจำลองภาษาขนาดใหญ่หลายรูปแบบ		ภาพ
llava ++	ขยายความสามารถด้านภาพด้วย LLAMA-3 และ Phi-3		ภาพ
ลาวา	LLAVA-ONEVISION: การถ่ายโอนงานภาพที่ง่าย	arxiv	ภาพ
longva	การถ่ายโอนบริบทยาวจากภาษาสู่วิสัยทัศน์	arxiv	ภาพ
maskvit	สวมหน้ากากก่อนการฝึกอบรมสำหรับการทำนายวิดีโอ	arxiv	ภาพ
MINICPM-LLAMA3-V 2.5	MLLM ระดับ GPT-4V บนโทรศัพท์ของคุณ		ภาพ
Moe-llava	ส่วนผสมของผู้เชี่ยวชาญสำหรับโมเดลภาษาวิสัยทัศน์ขนาดใหญ่	arxiv	ภาพ
การเคลื่อนไหว	การทำความเข้าใจพฤติกรรมของมนุษย์จากการเคลื่อนไหวและวิดีโอของมนุษย์	arxiv	ภาพ
pllava	ส่วนขยาย LLAVA ที่ปราศจากพารามิเตอร์จากภาพไปยังวิดีโอสำหรับการบรรยายภาพความหนาแน่นวิดีโอ	arxiv	ภาพ
qwen-vl	รูปแบบภาษาวิสัยทัศน์ที่หลากหลายสำหรับความเข้าใจการแปลการอ่านข้อความและอื่น ๆ	arxiv	ภาพ
sapiens	Sapiens: รากฐานสำหรับแบบจำลองการมองเห็นของมนุษย์	arxiv	ภาพ
sharegpt4v	การปรับปรุงโมเดลหลายโมเดลขนาดใหญ่ด้วยคำบรรยายที่ดีกว่า	arxiv	ภาพ
เดี่ยว	โซโล: หม้อแปลงเดียวสำหรับการสร้างแบบจำลองภาษาวิสัยทัศน์ที่ปรับขนาดได้	arxiv	ภาพ
วิดีโอ-CCAM	Video-CCAM: การพัฒนาความเข้าใจภาษาวิดีโอด้วยมาสก์ที่มีสาเหตุ		ภาพ
วิดีโอ-llava	การเรียนรู้การเป็นตัวแทนภาพรวมโดยการจัดตำแหน่งก่อนการคาดการณ์	arxiv	ภาพ
Videollama 2	การสร้างแบบจำลองเชิงพื้นที่-อารมณ์และความเข้าใจด้านเสียงในวิดีโอ-LLM	arxiv	ภาพ
วิดีโอ MME	เกณฑ์มาตรฐานการประเมินที่ครอบคลุมครั้งแรกของ LLM แบบหลายรูปแบบในการวิเคราะห์วิดีโอ	arxiv	ภาพ
Vitron	LLM วิสัยทัศน์ระดับพิกเซลแบบครบวงจรสำหรับความเข้าใจการสร้างการแบ่งส่วนการแก้ไข		ภาพ
วิลา	VILA: ในการฝึกอบรมล่วงหน้าสำหรับแบบจำลองภาษาภาพ	arxiv	ภาพ

^ กลับสู่เนื้อหา ^

วีดีโอ

แหล่งที่มา	คำอธิบาย	กระดาษ	พิมพ์
360DVD	การสร้างวิดีโอพาโนรามาที่สามารถควบคุมได้ด้วยโมเดลการแพร่กระจายวิดีโอ 360 องศา	arxiv	วีดีโอ
มีชีวิต	การสร้างวิดีโอที่รอคอยการเล่าเรื่องเพื่อเล่าเรื่อง	arxiv	วีดีโอ
อะไรก็ได้ในทุกฉาก	การแทรกวัตถุวิดีโอ Photorealistic		วีดีโอ
ศิลปะ• V	การสร้างข้อความสู่วิดีโอแบบเร่งด่วนอัตโนมัติพร้อมรุ่นการแพร่กระจาย	arxiv	วีดีโอ
การช่วยเหลือ	พบกับแพลตฟอร์มวิดีโอกำเนิดที่นำความคิดของคุณมาสู่ชีวิต		วีดีโอ
Atomovideo	การสร้างภาพต่อวิดีโอที่มีความเที่ยงตรงสูง	arxiv	วีดีโอ
พื้นหลัง	การกำจัดพื้นหลังช่วยให้คุณลบพื้นหลังออกจากรูปภาพและวิดีโอโดยใช้ AI ด้วยอินเทอร์เฟซบรรทัดคำสั่งง่าย ๆ ที่ฟรีและโอเพ่นซอร์ส		วีดีโอ
ผู้ตรวจสอบ Boximator	สร้างการเคลื่อนไหวที่สมบูรณ์และควบคุมได้สำหรับการสังเคราะห์วิดีโอ	arxiv	วีดีโอ
Codef	ฟิลด์การเสียรูปเนื้อหาสำหรับการประมวลผลวิดีโอที่สอดคล้องกันชั่วคราว	arxiv	วีดีโอ
โคก	สร้างวิดีโอจากคำอธิบายข้อความ		วีดีโอ
โคกวีดิซ	Cogvideox เป็นรุ่นโอเพนซอร์ซของรุ่นการสร้างวิดีโอซึ่งคล้ายคลึงกับ清影		วีดีโอ
ความขุ่นมัว	COGVLM เป็นรูปแบบภาษาภาพโอเพนซอร์ซที่ทรงพลัง (VLM)		ภาพ
Conr	Genarate Vivid Dancing Videos จากแผ่นอะนิเมะที่วาดด้วยมือ (ACS)	arxiv	วีดีโอ
decohere	สร้างสิ่งที่ไม่สามารถถ่ายทำได้		วีดีโอ
คำอธิบาย	คำอธิบายเป็นวิธีที่เรียบง่ายทรงพลังและสนุกสนานในการแก้ไข		วีดีโอ
diffutoon	การแรเงา Toon ที่แก้ไขได้สูงผ่านแบบจำลองการแพร่กระจาย	arxiv	วีดีโอ
ปลาโลมา	แพลตฟอร์มการโต้ตอบวิดีโอทั่วไปตาม LLMS		วีดีโอ
โดม	ขยายความคิดสร้างสรรค์ของคุณกับ Domoai		วีดีโอ
Dreamcinema	Dreamcinema: การถ่ายโอนภาพยนตร์ด้วยกล้องฟรีและตัวละคร 3 มิติ	arxiv	วีดีโอ
ไดนามิก	ภาพเคลื่อนไหวภาพเปิดโดเมนพร้อมวิดีโอ Priors Diffusion	arxiv	วีดีโอ
ขอบ	เราแนะนำ Edge ซึ่งเป็นวิธีการที่ทรงพลังสำหรับการสร้างการเต้นที่สามารถแก้ไขได้ซึ่งสามารถสร้างการเต้นรำที่เป็นจริงและเป็นไปได้ทางร่างกายในขณะที่ยังคงซื่อสัตย์ต่อเพลงอินพุตโดยพลการ	arxiv	วีดีโอ
อีโม	Emote Portrait Alive - สร้างวิดีโอภาพบุคคลที่แสดงออกด้วยโมเดลการแพร่กระจายของ Audio2Video ภายใต้เงื่อนไขที่อ่อนแอ	arxiv	วีดีโอ
วิดีโออีมู	การสร้างการสร้างข้อความถึงวิดีโอด้วยการปรับสภาพภาพที่ชัดเจน		วีดีโอ
Etna	Etna สามารถสร้างเนื้อหาวิดีโอที่สอดคล้องกันตามคำอธิบายข้อความสั้น ๆ		วีดีโอ
นางฟ้า	การสังเคราะห์วิดีโอแบบคู่มือการเรียนการสอนแบบคู่ขนานอย่างรวดเร็ว		วีดีโอ
ติดตามของคุณ	ติดตามของคุณ: วิดีโอความละเอียดสูงกว่าการสร้างเนื้อหาที่กว้างขวาง	arxiv	วีดีโอ
ติดตามท่าของคุณ	การสร้างข้อความถึงวิดีโอที่นำทางไปยังวิดีโอโดยใช้วิดีโอที่ไม่มีท่าทาง	arxiv	วีดีโอ
Fulljourney	ชุดเครื่องมือสร้าง AI ที่สมบูรณ์ของคุณที่ปลายนิ้วของคุณ		วีดีโอ
Gen-2	ระบบ AI แบบหลายโหมดที่สามารถสร้างวิดีโอใหม่ด้วยข้อความรูปภาพหรือคลิปวิดีโอ		วีดีโอ
พลวัตกำเนิด	การเปลี่ยนแปลงของภาพกำเนิด		วีดีโอ
มาร	สภาพแวดล้อมแบบอินเทอร์แอคทีฟกำเนิด	arxiv	วีดีโอ
Genmo	ทำวิดีโอด้วย AI อย่างน่าอัศจรรย์		วีดีโอ
คนขี้ขลาด	หม้อแปลงการแพร่กระจายสำหรับการสร้างภาพและวิดีโอ		วีดีโอ
Higen	การแยกตัวออกตามลำดับชั้น-อารมณ์สำหรับการสร้างข้อความถึงวิดีโอ		วีดีโอ
hotshot-xl	Hotshot-XL เป็นรุ่นข้อความ AI to-GIF ที่ผ่านการฝึกอบรมให้ทำงานควบคู่ไปกับการแพร่กระจายที่เสถียร XL		วีดีโอ
hunyuanvideo	HUNYUANVIDEO: กรอบระบบสำหรับรุ่นการสร้างวิดีโอขนาดใหญ่	arxiv	วีดีโอ
จินตนาการภาพ	ด้วยข้อความที่ได้รับข้อความ Imagen Video จะสร้างวิดีโอความละเอียดสูงโดยใช้โมเดลการสร้างวิดีโอพื้นฐานและลำดับของโมเดลความละเอียดสูงของวิดีโอเชิงพื้นที่และชั่วคราว		วีดีโอ
คำแนะนำ	การสอนโมเดลการแพร่กระจายของวิดีโอพร้อมข้อเสนอแนะของมนุษย์	arxiv	วีดีโอ
i2vgen-xl	การสังเคราะห์ภาพกับวิดีโอคุณภาพสูงผ่านแบบจำลองการแพร่กระจายแบบเรียงซ้อน	arxiv	วีดีโอ
ลาวา	การสร้างวิดีโอคุณภาพสูงพร้อมรูปแบบการแพร่กระจายแฝงแบบเรียงซ้อนกัน	arxiv	วีดีโอ
LTX Studio	LTX Studio เป็นแพลตฟอร์มการสร้างภาพยนตร์แบบองค์รวมที่ขับเคลื่อนด้วย AI สำหรับผู้สร้างนักการตลาดผู้สร้างภาพยนตร์และสตูดิโอ		วีดีโอ
LTX-Video	LTX-Video เป็นรุ่นการสร้างวิดีโอที่ใช้ DIT ครั้งแรกที่สามารถสร้างวิดีโอคุณภาพสูงแบบเรียลไทม์ มันสามารถสร้างวิดีโอ 24 FPS ที่ความละเอียด 768x512 เร็วกว่าที่จะดู		วีดีโอ
Lumiere	รูปแบบการแพร่กระจายเวลาในอวกาศสำหรับการสร้างวิดีโอ	arxiv	วีดีโอ
LVDM	โมเดลการแพร่กระจายวิดีโอแฝงสำหรับการสร้างวิดีโอที่มีความยาวสูง	arxiv	วีดีโอ
เวทมนตร์	การสร้างวิดีโอที่มีประสิทธิภาพพร้อมรูปแบบการแพร่กระจายแฝง	arxiv	วีดีโอ
MagicVideo-V2	การสร้างวิดีโอที่มีความสุขสูงหลายขั้นตอน	arxiv	วีดีโอ
ชั่วโมงแห่งเวทมนตร์	วิดีโอ AI สำหรับผู้สร้างทำได้ง่าย		วีดีโอ
magvit-v2	Tokenizer เป็นกุญแจสำคัญในการสร้างภาพ		วีดีโอ
Magvit	Masked Generative Video Transformer		วีดีโอ
Make-a-video	Make-A-Video เป็นระบบ AI ที่ทันสมัยซึ่งสร้างวิดีโอจากข้อความ	arxiv	วีดีโอ
ทำพิกเซลเต้นรำ	การสร้างวิดีโอที่มีจานสูง	arxiv	วีดีโอ
สร้างวิดีโอของคุณ	การสร้างวิดีโอที่กำหนดเองโดยใช้คำแนะนำเชิงข้อความและโครงสร้าง	arxiv	วีดีโอ
microcinema	วิธีการหารและพิชิตสำหรับการสร้างข้อความถึงวิดีโอ	arxiv	วีดีโอ
Mimo	MIMO: การสังเคราะห์วิดีโอตัวละครที่ควบคุมได้ด้วยการสร้างแบบจำลองการย่อยสลายเชิงพื้นที่	arxiv	วีดีโอ
มินิ-รามินิ	การขุดศักยภาพของแบบจำลองภาษาการมองเห็นแบบหลายระบบ		วิสัยทัศน์
mobilevidfactory	การสร้างวิดีโอโซเชียลมีเดียที่ใช้การแพร่กระจายอัตโนมัติสำหรับอุปกรณ์มือถือจากข้อความ		วีดีโอ
โมจิ 1	Mochi 1 เป็นโมเดลการสร้างวิดีโอที่ล้ำสมัยที่มีการเคลื่อนไหวที่มีความเที่ยงตรงสูงและการยึดมั่นที่รวดเร็วในการประเมินเบื้องต้น		วีดีโอ
Mofa-video	ภาพเคลื่อนไหวของภาพที่ควบคุมได้ผ่านการปรับตัวของฟิลด์การเคลื่อนไหวแบบกำเนิดในรูปแบบการแพร่กระจายของภาพกับวิดีโอแช่แข็ง	arxiv	วีดีโอ
Moneyprinterturbo	ใช้โมเดลขนาดใหญ่เพื่อสร้างวิดีโอสั้น ๆ ด้วยคลิกเดียว		วีดีโอ
Moonvalley	Moonvalley เป็นโมเดล AI To-Video Generative ใหม่ที่ก้าวล้ำ		วีดีโอ
โมรา	เช่น Sora สำหรับการสร้างวิดีโอทั่วไป	arxiv	วีดีโอ
สตูดิโอ Morph	ด้วยเวทมนตร์ AI แบบข้อความถึงวิดีโอของเราแสดงให้เห็นถึงความคิดสร้างสรรค์ของคุณผ่านพรอมต์ของคุณ		วีดีโอ
การเคลื่อนไหว	MotionClone: การโคลนนิ่งเคลื่อนไหวฟรีสำหรับการสร้างวิดีโอที่ควบคุมได้	arxiv	วีดีโอ
การเคลื่อนไหว	ตัวควบคุมการเคลื่อนไหวแบบครบวงจรและยืดหยุ่นสำหรับการสร้างวิดีโอ	arxiv	วีดีโอ
ผู้กำกับการเคลื่อนไหว	การปรับแต่งการเคลื่อนไหวของแบบจำลองการแพร่กระจายข้อความไปยังวิดีโอ	arxiv	วีดีโอ
ภาพเคลื่อนไหว	แอปพลิเคชันของการแทนที่อักขระในวิดีโอด้วยอวตาร 3D		วีดีโอ
mov2mov	ปลั๊กอิน MOV2MOV สำหรับ Automatic1111/STABE-DIFFUSION-WEBUI		วีดีโอ
เกี่ยวกับการเคลื่อนไหว	การสร้างภาพยนตร์อัตโนมัติจากข้อความโดยใช้รุ่น Generative ขนาดใหญ่สำหรับภาษาและรูปภาพ	arxiv	วีดีโอ
เฟรมประสาท	ค้นพบซินธิไซเซอร์สำหรับโลกภาพ		วีดีโอ
ไม่มีวัน	สร้างโลกของคุณ		วีดีโอ
โอเพ่น	การสร้างวิดีโอการผลิตวิดีโอที่มีประสิทธิภาพสำหรับทุกคน		วีดีโอ
โอเพ่น	แผนเปิดโซร่า		วีดีโอ
ฟีนากิ	แบบจำลองสำหรับการสร้างวิดีโอจากข้อความพร้อมด้วยพรอมต์ที่สามารถเปลี่ยนแปลงได้ตลอดเวลาและวิดีโอที่สามารถใช้เวลานานหลายนาที	arxiv	วีดีโอ
Pika Labs	Pika Labs กำลังปฏิวัติประสบการณ์การทำวิดีโอด้วย AI		วีดีโอ
การทำพิกเซล	Pixeling ช่วยให้ลูกค้าของเราสามารถสร้างเนื้อหาภาพที่มีความแม่นยำสูงเป็นพิเศษและควบคุมได้อย่างมากรวมถึงรูปภาพวิดีโอและรุ่น 3 มิติ		วีดีโอ
PixVerse	สร้างวิดีโอที่น่าทึ่งด้วย AI		วีดีโอ
การผสมเกสร	การสร้างได้ง่ายรวดเร็วและสนุก		วีดีโอ
นำกลับมาใช้ใหม่และกระจาย	การทำซ้ำซ้ำสำหรับการสร้างข้อความถึงวิดีโอ	arxiv	วีดีโอ
รุ่ยยี่	Ruyi เป็นรูปแบบการถ่ายภาพผ่านวิดีโอที่สามารถสร้างวิดีโอคุณภาพภาพยนตร์ได้ที่ความละเอียด 768 โดยมีอัตราเฟรม 24 เฟรมต่อวินาทีรวม 5 วินาทีและ 120 เฟรม		วีดีโอ
shortgpt	กรอบการทดลอง AI สำหรับการสร้างเนื้อหาสั้น/วิดีโออัตโนมัติ		วีดีโอ
การแสดง -1	การแต่งงานกับพิกเซลและรูปแบบการแพร่กระจายแฝงสำหรับการสร้างข้อความสู่วิดีโอ	arxiv	วีดีโอ
วิดีโอ Snap	ปรับขนาดหม้อแปลง spatiotemporal สำหรับการสังเคราะห์ข้อความกับวิดีโอ	arxiv	วีดีโอ
โซระ	การสร้างวิดีโอจากข้อความ		วีดีโอ
sorawebui	Sorawebui เป็นไคลเอนต์ Web โอเพนซอร์ซทำให้ผู้ใช้สามารถสร้างวิดีโอจากข้อความด้วยโมเดล SORA ของ OpenAI ได้อย่างง่ายดาย		วีดีโอ
stablevideo	การแก้ไขวิดีโอการแพร่กระจายของข้อความที่ใช้ข้อความ		วีดีโอ
การแพร่กระจายวิดีโอที่เสถียร	การแพร่กระจายวิดีโอที่เสถียร (SVD) ภาพสู่วิดีโอ		วีดีโอ
StoryDiffusion	ความตั้งใจที่สอดคล้องกันสำหรับการสร้างภาพและวิดีโอระยะยาว	arxiv	วีดีโอ
สตรีมมิ่ง T2V	การสร้างวิดีโอที่สอดคล้องกันแบบไดนามิกและขยายได้จากข้อความ	arxiv	วีดีโอ
stylecrafter	Nhancing การสร้างข้อความถึงวิดีโอด้วยอะแดปเตอร์สไตล์	arxiv	วีดีโอ
ทัต	การสร้างวิดีโอยาวพร้อม VQGAN ที่ไม่เชื่อเรื่องกันเวลาและหม้อแปลงที่ไวต่อเวลา		วีดีโอ
Text2Video-Zero	แบบจำลองการแพร่กระจายแบบข้อความเป็นภาพเป็นเครื่องกำเนิดวิดีโอแบบไม่มีการยิง	arxiv	วีดีโอ
TF-T2V	สูตรสำหรับการปรับขนาดการสร้างข้อความถึงวิดีโอด้วยวิดีโอที่ไม่มีข้อความ	arxiv	วีดีโอ
โทร่า	Tora: หม้อแปลงการแพร่กระจายที่มุ่งเน้นวิถีสำหรับการสร้างวิดีโอ	arxiv	วีดีโอ
แทร็กใด ๆ	แทร็ก-ทุกอย่างเป็นเครื่องมือที่ยืดหยุ่นและโต้ตอบสำหรับการติดตามวัตถุวิดีโอและการแบ่งส่วนตามส่วนและ XMEM	arxiv	วีดีโอ
Tune-a-video	การปรับแต่งแบบจำลองการแพร่กระจายของภาพหนึ่งครั้งสำหรับการสร้างข้อความถึงวิดีโอ	arxiv	วีดีโอ
สิบสอง	AI หลายรูปแบบที่เข้าใจวิดีโอเช่นมนุษย์		วีดีโอ
univg	สู่การสร้างวิดีโอแบบครบวงจร		วีดีโอ
VCHITECT-2.0	VCHITECT-2.0: หม้อแปลงขนานสำหรับการปรับขนาดโมเดลการแพร่กระจายวิดีโอ		วีดีโอ
VGEN	ระบบนิเวศการสร้างวิดีโอแบบองค์รวมสำหรับการสร้างการสร้างวิดีโอในรูปแบบการแพร่กระจาย	arxiv	วีดีโอ
Viewcrafter	ViewCrafter: สร้างโมเดลการแพร่กระจายวิดีโอสำหรับการสังเคราะห์มุมมองใหม่ที่มีความเที่ยงตรงสูง	arxiv	วีดีโอ
วิดีโอ chatgpt	Video-Chatgpt เป็นรูปแบบการสนทนาวิดีโอที่สามารถสร้างการสนทนาที่มีความหมายเกี่ยวกับวิดีโอ	arxiv	วีดีโอ
Videocomposer	การสังเคราะห์วิดีโอองค์ประกอบพร้อมการควบคุมการเคลื่อนไหว	arxiv	วีดีโอ
Videocrafter1	แบบเปิดแบบเปิดสำหรับการสร้างวิดีโอคุณภาพสูง	arxiv	วีดีโอ
Videocrafter2	การเอาชนะข้อ จำกัด ของข้อมูลสำหรับรุ่นการแพร่กระจายวิดีโอคุณภาพสูง	arxiv	วีดีโอ
Videodrafter	การสร้างวิดีโอหลายฉากที่สอดคล้องกับเนื้อหาด้วย LLM	arxiv	วีดีโอ
Videolevator	การยกระดับคุณภาพการสร้างวิดีโอด้วยโมเดลการแพร่กระจายข้อความที่หลากหลาย	arxiv	วีดีโอ
Videofactory	สลับความสนใจในการแพร่กระจาย spatiotemporal สำหรับการสร้างข้อความถึงวิดีโอ		วีดีโอ
วิดีโอ	วิธีการแพร่กระจายแฝงแบบนำทางอ้างอิงสำหรับการสร้างข้อความถึงวิดีโอที่มีความละเอียดสูง	arxiv	วีดีโอ
videolcm	โมเดลความสอดคล้องของวิดีโอแฝง	arxiv	วีดีโอ
วิดีโอ LDMS	จัดตำแหน่งแฝงของคุณ: การสังเคราะห์วิดีโอความละเอียดสูงกับโมเดลการแพร่กระจายแฝง	arxiv	วีดีโอ
วิดีโอ-llava	การเรียนรู้การเป็นตัวแทนภาพรวมโดยการจัดตำแหน่งก่อนการคาดการณ์	arxiv	วีดีโอ
Videomamba	รูปแบบพื้นที่ของรัฐสำหรับการทำความเข้าใจวิดีโอที่มีประสิทธิภาพ	arxiv	วีดีโอ
วิดีโอแห่งความคิด	วิดีโอแห่งความคิด: การให้เหตุผลวิดีโอทีละขั้นตอนตั้งแต่การรับรู้ถึงความรู้ความเข้าใจ		วีดีโอ
Videopoet	รูปแบบภาษาขนาดใหญ่สำหรับการสร้างวิดีโอแบบไม่มีการยิง	arxiv	วีดีโอ
การเคลื่อนไหวของ Vispunk	สร้างวิดีโอที่สมจริงโดยใช้ข้อความเพียงแค่		วีดีโอ
Visualrwkv	VisualRWKV เป็นรุ่นที่เพิ่มภาพของรุ่น RWKV ซึ่งช่วยให้ RWKV สามารถจัดการงานภาพต่าง ๆ ได้		ภาพ
วี-เจปา	Video Joint Embedding สถาปัตยกรรมทำนาย	arxiv	วีดีโอ
วอลต์	การสร้างวิดีโอแบบ Photorealistic พร้อมรุ่นการแพร่กระจาย	arxiv	วีดีโอ
Zeroscope	Zeroscope text-to-video		วีดีโอ

^ กลับสู่เนื้อหา ^

เสียง

แหล่งที่มา	คำอธิบาย	กระดาษ	พิมพ์
Academicodec	รูปแบบตัวแปลงสัญญาณเสียงโอเพ่นซอร์สสำหรับการวิจัยเชิงวิชาการ		เสียง
สะเทินน้ำสะเทินบก	ชุดเครื่องมือเสียงเพลงและการสร้างคำพูดแบบโอเพ่นซอร์ส	arxiv	เสียง
อาร์ซิตี	การสร้างเสียงโดยใช้แบบจำลองการแพร่กระจายใน Pytorch		เสียง
เสียง	การสร้างเสียงแบบครบวงจรด้วยการแจ้งภาษาธรรมชาติ		เสียง
การบันทึกเสียง	การแก้ไขด้วยเสียงแบบไม่ได้รับการตรวจสอบโดยใช้ข้อความโดยใช้การผกผัน DDPM	arxiv	เสียง
ตัวแปลงสัญญาณเสียง	ตัวแปลงสัญญาณเสียงสเตอริโอสเตอริโอ 48kHz การบีบอัดต่ำสำหรับเสียงทั่วไปเพื่อเพิ่มประสิทธิภาพสำหรับความน่าเชื่อถือของเสียง?		เสียง
Audiogpt	ทำความเข้าใจและสร้างคำพูดดนตรีเสียงและหัวพูด	arxiv	เสียง
AudiolCM	การสร้างข้อความถึงอดิเรกพร้อมโมเดลความสอดคล้องแฝง	arxiv	เสียง
Audioldm	การสร้างข้อความถึงอดิเรกพร้อมรูปแบบการแพร่กระจายแฝง	arxiv	เสียง
Audioldm 2	การเรียนรู้การสร้างเสียงแบบองค์รวมด้วยการฝึกฝนตนเอง	arxiv	เสียง
การดื่มด่ำ	การใช้ประโยชน์จากพลังของการแพร่กระจายและแบบจำลองภาษาขนาดใหญ่สำหรับการสร้างข้อความถึง Audio	arxiv	เสียง
ctag	สร้างสรรค์การสร้างข้อความสู่ Audio ผ่านการเขียนโปรแกรม Synthesizer		เสียง
foleycrafter	FOLEYCRAFTER: นำวิดีโอเงียบ ๆ มาใช้ชีวิตด้วยเสียงที่เหมือนจริงและซิงโครไนซ์	arxiv	เสียง
แม่เหล็ก	การสร้างเสียงที่สวมหน้ากากโดยใช้หม้อแปลงที่ไม่ใช่ตัวขับเดี่ยว		เสียง
การแต่งหน้า	การสร้างข้อความถึงอัสดิโอพร้อมแบบจำลองการแพร่กระจายที่เพิ่มขึ้น	arxiv	เสียง
Make-an-Audio 3	การแปลงข้อความเป็นเสียงผ่านหม้อแปลงการแพร่กระจายขนาดใหญ่ที่ใช้การไหล	arxiv	เสียง
ทำให้เกิดเซลล์ประสาท	การสังเคราะห์เสียงโมดัลที่ใช้การเรียนรู้ด้วยการถ่ายโอนอะคูสติก	arxiv	เสียง
Optimizerai	ฟังดูสำหรับผู้สร้างผู้สร้างเกมศิลปินผู้สร้างวิดีโอ		เสียง
Qwen2-Audio	QWEN2-AUDIO แชทและรูปแบบภาษาเสียงขนาดใหญ่ที่ถูกนำเสนอโดย Alibaba Cloud	arxiv	เสียง
See-2-sound	เสียงสภาพแวดล้อมเชิงพื้นที่เป็นศูนย์ต่อพื้นที่	arxiv	เสียง
เสียง	การสร้างเสียงแบบขนานที่มีประสิทธิภาพ	arxiv	เสียง
เสียงที่มั่นคง	การแพร่กระจายเสียงแฝงที่ผ่านการปรับเวลาอย่างรวดเร็ว		เสียง
เปิดเสียงที่เสถียร	เสียงที่เสถียรเปิด 1.0 สร้างความยาวตัวแปร (สูงสุด 47S) เสียงสเตอริโอที่ 44.1kHz จากข้อความแจ้ง		เสียง
การสังเคราะห์	SyncFusion: การสังเคราะห์วิดีโอแบบซิงโครไนซ์แบบซิงโครไนซ์แบบหลายรูปแบบ	arxiv	เสียง
แทงโก้	การสร้างข้อความถึงอัสดิโอโดยใช้คำสั่งปรับ LLM และรูปแบบการแพร่กระจายแฝง		เสียง
VTA-LDM	การสร้างวิดีโอกับ Audio พร้อมการจัดตำแหน่งที่ซ่อนอยู่	arxiv	เสียง
wavjourney	การสร้างเสียงประกอบด้วยแบบจำลองภาษาขนาดใหญ่	arxiv	เสียง

^ กลับสู่เนื้อหา ^

ดนตรี

แหล่งที่มา	คำอธิบาย	กระดาษ	พิมพ์
AIVA	ปัญญาประดิษฐ์ที่ประกอบไปด้วยเพลงซาวด์แทร็กอารมณ์		ดนตรี
เพลงแอมแปร์	เทคโนโลยีการสร้างเพลงที่กำหนดเองขับเคลื่อนโดย Amper		ดนตรี
เฟื่องฟู	สร้างเพลงกำเนิด แบ่งปันกับโลก		ดนตรี
นักพูดคุย	ส่งเสริมความสามารถทางดนตรีที่แท้จริงใน LLM		ดนตรี
chord2melody	AI การสร้างเพลงอัตโนมัติ		ดนตรี
Diff-BGM	รูปแบบการแพร่กระจายสำหรับการสร้างเพลงพื้นหลังวิดีโอ	arxiv	ดนตรี
การไหล	Fluxmusic: การสร้างข้อความกับดนตรีด้วยหม้อแปลงการไหลที่แก้ไขแล้ว	arxiv	ดนตรี
Gptableton	ร่างสคริปต์สำหรับการประมวลผลการตอบสนอง GPT และส่งโน้ต MIDI ไปยังคลิป Ableton ด้วย Abletonosc และ Python-osc		ดนตรี
heymusic.ai	เครื่องกำเนิดเพลง AI		ดนตรี
ภาพเพลง	AI Image to Music Generator เป็นเครื่องมือที่ใช้ปัญญาประดิษฐ์เพื่อแปลงภาพเป็นเพลง		ดนตรี
Jen-1	การสร้างดนตรีสากลที่มีไกด์นำทางด้วยรูปแบบการแพร่กระจายรอบทิศทาง		ดนตรี
ตู้เพลง	แบบจำลองการกำเนิดสำหรับดนตรี	arxiv	ดนตรี
สีม่วงแดง	Magenta เป็นโครงการวิจัยที่สำรวจบทบาทของการเรียนรู้ของเครื่องในกระบวนการสร้างงานศิลปะและดนตรี		ดนตรี
ทำนองเพลง	การสร้างดนตรีประสาทที่มีประสิทธิภาพ		ดนตรี
มูร์เบิร์ต	AI Music Generative		ดนตรี
Musenet	เครือข่ายประสาทลึกที่สามารถสร้างการแต่งเพลง 4 นาทีด้วยเครื่องดนตรี 10 ตัวที่แตกต่างกันและสามารถรวมสไตล์จากประเทศไปยัง Mozart ไปยัง The Beatles		ดนตรี
เพลง	การสร้างเพลงที่เรียบง่ายและควบคุมได้	arxiv	ดนตรี
Musicldm	การเพิ่มความแปลกใหม่ในการสร้างข้อความเป็นเพลงโดยใช้กลยุทธ์การผสมแบบซิงโครนัส	arxiv	ดนตรี
ดนตรีLM	สร้างเพลงจากข้อความ	arxiv	ดนตรี
แอป RIFFUSION	Riffusion เป็นแอพสำหรับการสร้างดนตรีแบบเรียลไทม์ที่มีการแพร่กระจายที่มั่นคง		ดนตรี
Sonauto	Sonauto เป็นบรรณาธิการเพลง AI ที่เปลี่ยนพรอมต์เนื้อเพลงหรือท่วงทำนองเป็นเพลงเต็มรูปแบบในทุกรูปแบบ		ดนตรี
ซาวใหญ่	เครื่องกำเนิดเพลง AI สำหรับผู้สร้าง		ดนตรี
soundry ai	เครื่องมือ AI แบบกำเนิดรวมถึงแพ็คตัวอย่างข้อความถึงเสียงและไม่มีที่สิ้นสุด		ดนตรี

^ กลับสู่เนื้อหา ^

เสียงร้องเพลง

แหล่งที่มา	คำอธิบาย	กระดาษ	พิมพ์
ความแตกต่าง	การร้องเพลงสังเคราะห์ด้วยเสียงผ่านกลไกการแพร่กระจายแบบตื้น	arxiv	เสียงร้องเพลง
การเรียกใช้-voice-conversion-webui	เฟรมเวิร์ก SVC ที่ใช้งานง่ายขึ้นอยู่กับ VITS		เสียงร้องเพลง
SO-VITS-SVC	SoftVC เหมาะกับการแปลงเสียงร้องเพลง		เสียงร้องเพลง
VI-SVS	ใช้ VITS และ OpenCpop เพื่อพัฒนาการสังเคราะห์เสียงร้องเพลง; แตกต่างจาก Visinger		เสียงร้องเพลง

^ กลับสู่เนื้อหา ^

คำพูด

แหล่งที่มา	คำอธิบาย	กระดาษ	เครื่องยนต์เกม	พิมพ์
เครื่องประดับ	เครื่องมือโคลนเสียงที่ดีที่สุดได้รับการปรับปรุงอย่างพิถีพิถันสำหรับพลังที่ไม่มีใครเทียบได้โมดูลาร์และประสบการณ์ที่ใช้งานง่าย			คำพูด
Audyo	ส่งข้อความออกมา			คำพูด
เห่า	รูปแบบเสียงกำเนิดที่นำเสนอข้อความ			คำพูด
bert-vits2	Vits2 Backbone กับ Bert หลายภาษา			คำพูด
เครื่องถ่วง	Chattts เป็นรูปแบบการพูดที่เกิดขึ้นสำหรับการสนทนารายวัน			คำพูด
การพูดคุยกัน	การเรียนรู้ฉันทลักษณ์จากบริบทของข้อความด้วยการฝึกอบรมภาษาที่ตรงกันข้าม	arxiv		คำพูด
cosyvoice	รูปแบบการสร้างเสียงขนาดใหญ่หลายภาษาให้การอนุมานการฝึกอบรมและการปรับใช้ความสามารถเต็มรูปแบบ			คำพูด
dex-tts	ข้อความที่แสดงออกมาจากการแพร่กระจายด้วยการพูดด้วยการสร้างแบบจำลองสไตล์ตามความแปรปรวนของเวลา	arxiv		คำพูด
สิ่งที่มีอารมณ์เสีย	เครื่องยนต์ TTS แบบหลาย ๆ ด้านและควบคุมพร้อม			คำพูด
ฟลิกิ	เปลี่ยนข้อความเป็นวิดีโอด้วยเสียง AI			คำพูด
glm-4-voice	GLM-4-Voice เป็นรุ่นเสียงแบบ end-to-end ที่เปิดตัวโดย Zhipu AI GLM-4-Voice สามารถเข้าใจและสร้างคำพูดภาษาจีนและภาษาอังกฤษโดยตรงมีส่วนร่วมในการสนทนาด้วยเสียงแบบเรียลไทม์และการเปลี่ยนแปลงคุณลักษณะเช่นอารมณ์ความรู้สึกน้ำเสียงอัตราการพูดและภาษาถิ่นตามคำแนะนำของผู้ใช้			คำพูด
เรืองแสง	โฟลว์กำเนิดสำหรับข้อความเป็นคำพูดผ่านการค้นหาการจัดตำแหน่งแบบ monotonic	arxiv		คำพูด
gpt-sovits	การแปลงเสียงไม่กี่ครั้งที่ทรงพลังและ webui ข้อความเป็นคำพูด			คำพูด
คนรัก	Lovo เป็นเครื่องกำเนิดเสียงและข้อความไปยังแพลตฟอร์มคำพูดสำหรับผู้สร้างหลายพันคน			คำพูด
มาฮัตต์	รูปแบบการสร้างคำพูดขนาดใหญ่โอเพนซอร์ซ			คำพูด
matcha-tts	สถาปัตยกรรม TTS ที่รวดเร็วพร้อมการจับคู่การไหลแบบมีเงื่อนไข	arxiv		คำพูด
Melotts	ไลบรารีข้อความหลายภาษาที่มีคุณภาพสูงโดย myshell.ai รองรับภาษาอังกฤษ สเปน ฝรั่งเศส จีน ญี่ปุ่น และเกาหลี			คำพูด
metavoice-1b	AI สำหรับข่าวกรองการพูดระดับมนุษย์			คำพูด
นราค็อต	สร้างเสียงพากย์ได้อย่างง่ายดายโดยใช้ข้อความที่เป็นจริงเพื่อพูด			คำพูด
มินิโอ	Mini-Omni: โมเดลภาษาสามารถได้ยินพูดคุยขณะคิดเรื่องการสตรีม Mini-Omni เป็นรูปแบบภาษาขนาดใหญ่หลายรูปแบบโอเพนซอร์ซที่สามารถได้ยินพูดคุยขณะคิด นำเสนออินพุตคำพูดแบบครบวงจรแบบเรียลไทม์และการสตรีมความสามารถในการสนทนาการสนทนาเสียง	arxiv		คำพูด
การโคลนนิ่งหนึ่งนัด	หนึ่งยิงเสียงการโคลนนิ่งบน UNET-TTS			คำพูด
OpenVoice	การโคลนนิ่งด้วยเสียงทันทีโดย MyShell			คำพูด
ล้น	วางกระแสบนทรานสดิวเซอร์ประสาทเพื่อ TT ที่ดีขึ้น			คำพูด
realtimetts	Realtimetts เป็นไลบรารีที่ทันสมัยเป็นข้อความที่ออกแบบมาสำหรับแอปพลิเคชันแบบเรียลไทม์			คำพูด
Sensevoice	Sensevoice เป็นแบบจำลองพื้นฐานการพูดที่มีความสามารถในการทำความเข้าใจคำพูดหลายครั้งรวมถึงการรู้จำเสียงพูดอัตโนมัติ (ASR), การระบุภาษาพูด (LID), การจดจำอารมณ์การพูด (SER) และการตรวจจับเหตุการณ์เสียง (AED)			คำพูด
คำพูด	เพิ่มขีดความสามารถของแบบจำลองภาษาขนาดใหญ่ที่มีความสามารถในการสนทนาข้ามรูปแบบที่แท้จริง	arxiv		คำพูด
คำพูดถึงข้อความ GPT3-Unity	นี่คือ repo ที่ฉันใช้ Whisper และ CHATGPT API จาก OpenAI ใน Unity		ความสามัคคี	คำพูด
คำพูดที่มั่นคง	ความเสถียรของโมเดลข้อความเป็นคำพูดของ AI			คำพูด
สเตบเล็ตต์	รุ่น TTS รุ่นต่อไปโดยใช้การจับคู่การไหลและ DIT ซึ่งได้รับแรงบันดาลใจจากการแพร่กระจายที่มั่นคง 3			คำพูด
Styletts 2	สู่การพูดแบบข้อความระดับมนุษย์ผ่านการแพร่กระจายสไตล์และการฝึกอบรมที่เป็นปฏิปักษ์กับแบบจำลองภาษาพูดขนาดใหญ่	arxiv		คำพูด
Tortoise.cpp	Tortoise.cpp: การใช้งาน GGML ของ Tortoise-TTS			คำพูด
Tortoise-TTS	ระบบ TTS หลาย voice ที่ได้รับการฝึกฝนโดยเน้นคุณภาพ			คำพูด
TTS Generation WebUI	TTS Generation Webui (Bark, Musicgen, Tortoise, RVC, Vocos, Demucs)			คำพูด
vall-e	โมเดลภาษาตัวแปลงสัญญาณประสาทเป็นข้อความที่ไม่มีการยิงไปยัง synthesizers คำพูด	arxiv		คำพูด
vall-e x	พูดภาษาต่างประเทศด้วยเสียงของคุณเอง: การสร้างแบบจำลองภาษา Cross-Lingual Neural Codec Language	arxiv		คำพูด
คำสั่ง	Vocode เป็นห้องสมุดโอเพนซอร์ซสำหรับการสร้างแอปพลิเคชัน LLM ที่ใช้เสียง			คำพูด
กล่องเสียง	การสร้างคำพูดสากลหลายภาษาที่มีไกด์นำทางในระดับ	arxiv		คำพูด
การคราฟท์	การแก้ไขคำพูดแบบไม่มีการยิงและข้อความเป็นคำพูดในป่า			คำพูด
กระซิบ	Whisper เป็นรูปแบบการจดจำคำพูดทั่วไป			คำพูด
เสียงกระซิบ	ระบบโอเพ่นซอร์สข้อความเป็นคำพูดที่สร้างขึ้นโดยการกระซิบแบบคว่ำ			คำพูด
การพูดของ XE	กรอบการฝึกอบรมร่วมกันของการเปลี่ยนข้อความและการแปลงเสียง			คำพูด
Xtts	XTTS เป็นไลบรารีสำหรับการสร้างข้อความเป็นคำพูดขั้นสูง			คำพูด
Yourtts	ไปสู่ TTS หลายลำโพงที่ไม่มีการยิงและการแปลงเสียงแบบไม่มีการยิงสำหรับทุกคน	arxiv		คำพูด
ZMM-TTS	การสังเคราะห์คำพูดหลายภาษาและหลายภาษา-ช็อตแบบไม่ติดตั้งเงื่อนไขในการเป็นตัวแทนการพูดแบบไม่ต่อเนื่องที่ดูแลตนเอง	arxiv		คำพูด