ดาวน์โหลด HunyuanDiT - ดาวน์โหลดซอร์สโค้ด HunyuanDiT

HunyuanDiT

ซอร์สโค้ดอื่น ๆ

ดาวน์โหลด

Hunyuan-DiT : หม้อแปลงกระจายแสงหลายความละเอียดอันทรงพลังพร้อมความเข้าใจภาษาจีนแบบละเอียด

การซื้อคืนนี้ประกอบด้วยคำจำกัดความของโมเดล PyTorch น้ำหนักที่ได้รับการฝึกอบรมล่วงหน้า และโค้ดการอนุมาน/การสุ่มตัวอย่างสำหรับรายงานของเราที่สำรวจ Hunyuan-DiT คุณสามารถดูการแสดงภาพเพิ่มเติมได้ในหน้าโครงการของเรา

Hunyuan-DiT: หม้อแปลงกระจายแสงหลายความละเอียดอันทรงพลังพร้อมความเข้าใจภาษาจีนแบบละเอียด

DialogGen: ระบบบทสนทนาเชิงโต้ตอบหลายรูปแบบสำหรับการสร้างข้อความเป็นรูปภาพแบบหลายเลี้ยว

ข่าว!!

15 ก.ค. 2024: HunYuanDiT และ Shakker.Ai ร่วมกันเปิดตัวกิจกรรมการปรับแต่งอย่างละเอียดโดยใช้โมเดล HunYuanDiT 1.2 ด้วยการเผยแพร่ Lora หรือโมเดลที่ได้รับการปรับแต่งตาม HunYuanDiT คุณจะได้รับโบนัสสูงสุดถึง 230 ดอลลาร์จาก Shakker.Ai ดู Shakker.Ai สำหรับรายละเอียดเพิ่มเติม
15 ก.ค. 2567: ? อัปเดต ComfyUI เพื่อรองรับเวิร์กโฟลว์ที่เป็นมาตรฐานและความเข้ากันได้กับตุ้มน้ำหนักจากโมดูล t2i และการฝึกอบรม Lora สำหรับเวอร์ชัน 1.1/1.2 รวมถึงที่ได้รับการฝึกอบรมโดย Kohya หรือสคริปต์อย่างเป็นทางการ ดู ComfyUI สำหรับรายละเอียด
15 ก.ค. 2024: ⚡ เรานำเสนอสภาพแวดล้อม Docker สำหรับ CUDA 11/12 ช่วยให้คุณข้ามการติดตั้งที่ซับซ้อนและเล่นได้ด้วยคลิกเดียว! ดูนักเทียบท่าสำหรับรายละเอียด
08 ก.ค. 2567: ? เวอร์ชัน HYDiT-v1.2 เปิดตัวแล้ว โปรดตรวจสอบ HunyuanDiT-v1.2 และการกลั่น-v1.2 สำหรับรายละเอียดเพิ่มเติม
03 ก.ค. 2567: ? เวอร์ชัน Kohya-hydit พร้อมใช้งานแล้วสำหรับรุ่น v1.1 และ v1.2 พร้อม GUI สำหรับการอนุมาน เวอร์ชันทางการของ Kohya อยู่ระหว่างการตรวจสอบ ดูรายละเอียดที่โคห์ยา
27 มิ.ย. 2567: ? Hunyuan-Captioner ได้รับการเผยแพร่ โดยให้คำบรรยายที่ละเอียดสำหรับข้อมูลการฝึกอบรม ดู mllm สำหรับรายละเอียด
27 มิ.ย. 2567: ? รองรับ LoRa และ ControlNet ในดิฟฟิวเซอร์ ดูตัวกระจายสัญญาณสำหรับรายละเอียด
27 มิ.ย. 2567: ? สคริปต์การอนุมาน GPU VRAM ขนาด 6GB ได้รับการเผยแพร่ ดูไลท์สำหรับรายละเอียด
19 มิ.ย. 2567: ? ControlNet เปิดตัวแล้ว รองรับการควบคุมท่าทางและความลึก ดูรหัสการฝึกอบรม/การอนุมานสำหรับรายละเอียด
13 มิถุนายน 2024: ⚡ เวอร์ชัน HYDiT-v1.1 เปิดตัวแล้ว ซึ่งช่วยลดปัญหาภาพอิ่มตัวมากเกินไป และลดปัญหาลายน้ำ โปรดตรวจสอบ HunyuanDiT-v1.1 และการกลั่น-v1.1 สำหรับรายละเอียดเพิ่มเติม
13 มิ.ย. 2567: ? รหัสการฝึกอบรมได้รับการเผยแพร่ โดยนำเสนอการฝึกอบรมแบบเต็มพารามิเตอร์และการฝึกอบรม LoRA
06 มิ.ย. 2567: ? Hunyuan-DiT พร้อมใช้งานแล้วใน ComfyUI โปรดตรวจสอบ ComfyUI สำหรับรายละเอียดเพิ่มเติม
6 มิถุนายน 2024: เราเปิดตัวเวอร์ชันการกลั่นสำหรับการเร่งความเร็ว Hunyuan-DiT ซึ่งสามารถเร่งความเร็วได้ 50% บน NVIDIA GPU โปรดตรวจสอบการกลั่นเพื่อดูรายละเอียดเพิ่มเติม
5 มิ.ย. 2567: ? Hunyuan-DiT วางจำหน่ายแล้วใน ? เครื่องกระจายกลิ่น! โปรดตรวจสอบตัวอย่างด้านล่าง
04 มิ.ย. 2024: รองรับลิงก์ Tencent Cloud เพื่อดาวน์โหลดโมเดลที่ได้รับการฝึกล่วงหน้า! กรุณาตรวจสอบลิงค์ด้านล่าง
22 พฤษภาคม 2024: เราเปิดตัวเวอร์ชัน TensorRT สำหรับการเร่งความเร็ว Hunyuan-DiT ซึ่งได้รับการเร่งความเร็ว 47% บน NVIDIA GPU โปรดตรวจสอบ TensorRT-libs เพื่อดูคำแนะนำ
22 พฤษภาคม 2024: เรารองรับการสาธิตการสร้างข้อความ2รูปภาพแบบหลายเลี้ยวแล้ว โปรดตรวจสอบสคริปต์ด้านล่าง

ลองในเว็บดูครับ

ยินดีต้อนรับสู่ Tencent Hunyuan Bot บนเว็บของเรา ซึ่งคุณสามารถสำรวจผลิตภัณฑ์ที่เป็นนวัตกรรมของเราได้! เพียงป้อนข้อความแจ้งที่แนะนำด้านล่างหรือ ข้อความแจ้งเชิงจินตนาการอื่นๆ ที่มีคำสำคัญที่เกี่ยวข้องกับการวาดภาพ เพื่อเปิดใช้งานคุณลักษณะการสร้างข้อความเป็นรูปภาพ Hunyuan ปลดปล่อยความคิดสร้างสรรค์ของคุณและสร้างภาพตามที่คุณต้องการ ทั้งหมดนี้ฟรี!

คุณสามารถใช้ข้อความแจ้งง่ายๆ คล้ายกับข้อความภาษาธรรมชาติได้

画一只穿着西装的猪
วาดหมูในชุดสูท
生成一幅画,赛博朋克风,跑车
สร้างภาพวาดสไตล์ไซเบอร์พังค์รถสปอร์ต

หรือการโต้ตอบทางภาษาหลายรอบเพื่อสร้างภาพ

画一个木制的鸟
วาดนกไม้
变成玻璃的
กลายเป็นแก้ว

แผนโอเพ่นซอร์ส

สารบัญ

Hunyuan-DiT : หม้อแปลงกระจายแสงหลายความละเอียดอันทรงพลังพร้อมความเข้าใจภาษาจีนแบบละเอียด

ตัวอย่าง
คำแนะนำ
การอนุมาน
กราดิโอ
คอนโทรลเน็ต
การอนุมาน GPU VRAM ขนาด 6GB
การใช้กราดิโอ
โดยใช้ ? เครื่องกระจายกลิ่น
การใช้บรรทัดคำสั่ง
การกำหนดค่าเพิ่มเติม
การใช้ ComfyUI
การใช้โคห์ย่า
การใช้เวอร์ชันก่อนหน้า
การเตรียมข้อมูล
การฝึกอบรมแบบเต็มพารามิเตอร์
โลรา
คู่มือการติดตั้งสำหรับ Linux
สถาปัตยกรรม DiT สองภาษาจีน-อังกฤษ
การสร้าง Text2Image แบบหลายเลี้ยว
ข่าว!!
ลองในเว็บดูครับ
แผนโอเพ่นซอร์ส
สารบัญ
เชิงนามธรรม
คุณสมบัติที่สำคัญของ Hunyuan-DiT
การเปรียบเทียบ
การแสดงภาพ
ความต้องการ
การพึ่งพาและการติดตั้ง
ดาวน์โหลดแบบจำลองที่ได้รับการฝึกอบรม - 1. การใช้ HF-Mirror - 2. ดาวน์โหลดต่อ
การฝึกอบรม
การอนุมาน
อะแดปเตอร์
ฮุนหยวน-คำบรรยายภาพ
การเร่งความเร็ว (สำหรับ Linux)
บิบเท็กซ์
เริ่มประวัติศาสตร์

เชิงนามธรรม

เรานำเสนอ Hunyuan-DiT ซึ่งเป็นหม้อแปลงกระจายข้อความเป็นรูปภาพที่มีความเข้าใจทั้งภาษาอังกฤษและภาษาจีนอย่างละเอียด ในการสร้าง Hunyuan-DiT เราได้ออกแบบโครงสร้างหม้อแปลง ตัวเข้ารหัสข้อความ และการเข้ารหัสตำแหน่งอย่างระมัดระวัง นอกจากนี้เรายังสร้างไปป์ไลน์ข้อมูลทั้งหมดตั้งแต่เริ่มต้นเพื่ออัปเดตและประเมินข้อมูลเพื่อการปรับโมเดลซ้ำให้เหมาะสม เพื่อความเข้าใจภาษาที่ละเอียด เราฝึกอบรม Multimodal Large Language Model เพื่อปรับแต่งคำอธิบายภาพ สุดท้ายนี้ Hunyuan-DiT สามารถทำการสนทนาแบบหลายรอบกับผู้ใช้ได้หลายรอบ สร้างและปรับแต่งรูปภาพตามบริบท ด้วยโปรโตคอลการประเมินมนุษย์แบบองค์รวมที่ได้รับการออกแบบอย่างพิถีพิถัน พร้อมด้วยผู้ประเมินมนุษย์มืออาชีพมากกว่า 50 คน Hunyuan-DiT ได้สร้างความก้าวหน้าครั้งใหม่ในการสร้างภาษาจีนเป็นรูปภาพ เมื่อเทียบกับโมเดลโอเพ่นซอร์สอื่นๆ

คุณสมบัติที่สำคัญของ Hunyuan-DiT

สถาปัตยกรรม DiT สองภาษาจีน-อังกฤษ

Hunyuan-DiT เป็นแบบจำลองการแพร่กระจายในพื้นที่แฝง ดังแสดงในรูปด้านล่าง ตามแบบจำลองการแพร่กระจายแฝง เราใช้ Variational Autoencoder (VAE) ที่ผ่านการฝึกอบรมมาแล้วเพื่อบีบอัดภาพลงในพื้นที่แฝงในมิติต่ำ และฝึกฝนแบบจำลองการแพร่กระจายเพื่อเรียนรู้การกระจายข้อมูลด้วยแบบจำลองการแพร่กระจาย แบบจำลองการแพร่กระจายของเราถูกกำหนดพารามิเตอร์ด้วยหม้อแปลงไฟฟ้า ในการเข้ารหัสข้อความแจ้ง เราใช้การผสมผสานระหว่าง CLIP สองภาษาที่ได้รับการฝึกอบรมล่วงหน้า (อังกฤษและจีน) และตัวเข้ารหัส T5 หลายภาษา

การสร้าง Text2Image แบบหลายเลี้ยว

การทำความเข้าใจคำสั่งภาษาธรรมชาติและการโต้ตอบแบบหลายเลี้ยวกับผู้ใช้เป็นสิ่งสำคัญสำหรับระบบข้อความเป็นรูปภาพ สามารถช่วยสร้างกระบวนการสร้างแบบไดนามิกและวนซ้ำซึ่งนำความคิดของผู้ใช้มาสู่ความเป็นจริงทีละขั้นตอน ในส่วนนี้ เราจะให้รายละเอียดว่าเราเสริมศักยภาพ Hunyuan-DiT ด้วยความสามารถในการสนทนาแบบหลายรอบและสร้างภาพลักษณ์ได้อย่างไร เราฝึก MLLM ให้เข้าใจบทสนทนาของผู้ใช้แบบหลายรอบ และแสดงข้อความแจ้งใหม่สำหรับการสร้างรูปภาพ

การเปรียบเทียบ

เพื่อเปรียบเทียบความสามารถในการสร้างของ HunyuanDiT และรุ่นอื่นๆ อย่างครอบคลุม เราได้สร้างชุดทดสอบ 4 มิติ ซึ่งรวมถึงความสอดคล้องของข้อความ-รูปภาพ การยกเว้นสิ่งประดิษฐ์ AI ความชัดเจนของวัตถุ และความสวยงาม ผู้ประเมินมืออาชีพมากกว่า 50 คนทำการประเมิน

แบบอย่าง	โอเพ่นซอร์ส	ความสอดคล้องของข้อความและรูปภาพ (%)	ไม่รวมสิ่งประดิษฐ์ AI (%)	ความชัดเจนของเรื่อง (%)	สุนทรียศาสตร์ (%)	โดยรวม (%)
แบบอย่าง	โอเพ่นซอร์ส	SDXL		64.3	สุนทรียศาสตร์ (%)	โดยรวม (%)	60.6	91.1	76.3	42.7
PixArt-α		68.3	60.9	93.2	77.5	45.5
สนามเด็กเล่น 2.5		71.9	70.8	94.9	83.3	54.3
SD3		77.1	69.3	94.6	82.5	56.7
มิดเจอร์นีย์ v6		73.5	80.2	93.5	87.2	63.3
ดัล-อี 3		83.9	80.3	96.5	89.4	71.0
ฮุนหยวน-DiT		74.2	74.3	95.4	86.6	59.0

การแสดงภาพ

องค์ประกอบจีน

การป้อนข้อความแบบยาว

การสร้าง Text2Image แบบหลายเลี้ยว

Hunyuan_MultiTurn_T2I_Demo.mp4

ความต้องการ

repo นี้ประกอบด้วย DialogGen (โมเดลการปรับปรุงทันที) และ Hunyuan-DiT (โมเดลข้อความเป็นรูปภาพ)

ตารางต่อไปนี้แสดงข้อกำหนดสำหรับการรันโมเดล (ขนาดแบตช์ = 1):

แบบอย่าง	--load-4bit (DialogGen)	หน่วยความจำสูงสุดของ GPU	จีพียู
DialogGen + Hunyuan-DiT		32ก	A100
DialogGen + Hunyuan-DiT		22ก	A100
ฮุนหยวน-DiT	-	11G	A100
ฮุนหยวน-DiT	-	14G	RTX3090/RTX4090

จำเป็นต้องมี NVIDIA GPU พร้อมรองรับ CUDA

เราได้ทดสอบ GPU V100 และ A100 แล้ว
ขั้นต่ำ : หน่วยความจำ GPU ขั้นต่ำที่ต้องการคือ 11GB
แนะนำ : เราขอแนะนำให้ใช้ GPU ที่มีหน่วยความจำ 32GB เพื่อคุณภาพการสร้างที่ดีขึ้น

ระบบปฏิบัติการที่ทดสอบ: Linux

การพึ่งพาและการติดตั้ง

เริ่มต้นด้วยการโคลนที่เก็บ:

 โคลนคอมไพล์ https://github.com/tencent/HunyuanDiTcd HunyuanDiT

คู่มือการติดตั้งสำหรับ Linux

เรามีไฟล์ environment.yml สำหรับการตั้งค่าสภาพแวดล้อม Conda คำแนะนำในการติดตั้งของ Conda มีอยู่ที่นี่

เราขอแนะนำ CUDA เวอร์ชัน 11.7 และ 12.0+

 # 1. เตรียม condaสภาพแวดล้อมconda env create -f environment.yml# 2. เปิดใช้งานสภาพแวดล้อมconda เปิดใช้งาน HunyuanDiT# 3. ติดตั้ง pip dependenciespython -m pip install -r needs.txt# 4. ติดตั้ง flash Attention v2 สำหรับการเร่งความเร็ว (ต้องใช้ CUDA 11.6 หรือ ด้านบน) python -m pip ติดตั้ง git+https://github.com/Dao-AILab/[email protected]

นอกจากนี้คุณยังสามารถใช้นักเทียบท่าเพื่อตั้งค่าสภาพแวดล้อมได้อีกด้วย

 # 1. ใช้ลิงก์ต่อไปนี้เพื่อดาวน์โหลดไฟล์ tar อิมเมจนักเทียบท่า# สำหรับ CUDA 12wget https://dit.hunyuan.tencent.com/download/HunyuanDiT/hunyuan_dit_cu12.tar# สำหรับ CUDA 11wget https://dit.hunyuan tencent.com/download/HunyuanDiT/hunyuan_dit_cu11.tar# 2. นำเข้าไฟล์ tar นักเทียบท่าและแสดง ข้อมูลเมตาของรูปภาพ # สำหรับการโหลด CUDA 12docker -i hunyuan_dit_cu12.tar# สำหรับการโหลด CUDA 11docker -i hunyuan_dit_cu11.tar

  อิมเมจนักเทียบท่า ls# 3 รันคอนเทนเนอร์ตาม imagedocker run -dit --gpus all --init --net=host --uts=host --ipc=host --name hunyuandit --security-opt=seccomp= ไม่ จำกัด --ulimit=stack=67108864 --ulimit=memlock=-1 --privileged docker_image_tag

- ดาวน์โหลดโมเดลที่ฝึกไว้ล่วงหน้า

หากต้องการดาวน์โหลดโมเดล ให้ติดตั้ง Huggingface-cli ก่อน (คำแนะนำโดยละเอียดมีอยู่ที่นี่)

 python -m pip ติดตั้ง "huggingface_hub [cli]"

จากนั้นดาวน์โหลดโมเดลโดยใช้คำสั่งต่อไปนี้:

 # สร้างไดเร็กทอรีชื่อ 'ckpts' โดยที่โมเดลจะถูกบันทึกไว้ เป็นไปตามข้อกำหนดเบื้องต้นสำหรับการรัน demo.mkdir ckpts# ใช้เครื่องมือ Huggingface-cli เพื่อดาวน์โหลดโมเดล # เวลาในการดาวน์โหลดอาจแตกต่างกันตั้งแต่ 10 นาทีถึง 1 ชั่วโมงขึ้นอยู่กับ บนเงื่อนไขเครือข่าย ดาวน์โหลด Huggingface-cli Tencent-Hunyuan/HunyuanDiT-v1.2 --local-dir ./ckpts

คำแนะนำในการใช้ Huggingface-cli (ปัญหาเครือข่าย)

1. การใช้ HF-Mirror

หากคุณพบความเร็วในการดาวน์โหลดที่ช้าในประเทศจีน คุณสามารถลองใช้มิเรอร์เพื่อเร่งกระบวนการดาวน์โหลดได้ ตัวอย่างเช่น,

 HF_ENDPOINT=https://hf-mirror.com Huggingface-cli ดาวน์โหลด Tencent-Hunyuan/HunyuanDiT-v1.2 --local-dir ./ckpts

2. ดาวน์โหลดต่อ

huggingface-cli รองรับการดาวน์โหลดต่อ หากการดาวน์โหลดถูกขัดจังหวะ คุณสามารถรันคำสั่งดาวน์โหลดอีกครั้งเพื่อดำเนินการดาวน์โหลดต่อได้

หมายเหตุ: หาก No such file or directory: 'ckpts/.huggingface/.gitignore.lock' เกิดขึ้นในระหว่างกระบวนการดาวน์โหลด คุณสามารถเพิกเฉยต่อข้อผิดพลาดและรันคำสั่งดาวน์โหลดอีกครั้ง

ทุกรุ่นจะถูกดาวน์โหลดโดยอัตโนมัติ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับโมเดลนี้ โปรดไปที่พื้นที่เก็บข้อมูล Hugging Face ที่นี่

แบบอย่าง	#พารามส์	URL ดาวน์โหลด Huggingface	URL ดาวน์โหลด Tencent Cloud
เอ็มที5	1.6B	เอ็มที5	เอ็มที5
คลิป	350ม	คลิป	คลิป
โทเค็นไนเซอร์	-	โทเค็นไนเซอร์	โทเค็นไนเซอร์
กล่องโต้ตอบ Gen	7.0B	กล่องโต้ตอบ Gen	กล่องโต้ตอบ Gen
sdxl-vae-fp16-แก้ไข	83ม	sdxl-vae-fp16-แก้ไข	sdxl-vae-fp16-แก้ไข
ฮุนหยวน-DiT-v1.0	1.5B	ฮุนหยวน-DiT	ฮุนหยวน-DiT-v1.0
ฮุนหยวน-DiT-v1.1	1.5B	ฮุนหยวน-DiT-v1.1	ฮุนหยวน-DiT-v1.1
ฮุนหยวน-DiT-v1.2	1.5B	ฮุนหยวน-DiT-v1.2	ฮุนหยวน-DiT-v1.2
การสาธิตข้อมูล	-	-	การสาธิตข้อมูล

การฝึกอบรม

การเตรียมข้อมูล

อ้างถึงคำสั่งด้านล่างเพื่อเตรียมข้อมูลการฝึกอบรม

ติดตั้งการพึ่งพา
เรานำเสนอไลบรารีการจัดการข้อมูลที่มีประสิทธิภาพชื่อ IndexKits ซึ่งสนับสนุนการจัดการการอ่านข้อมูลหลายร้อยล้านข้อมูลในระหว่างการฝึกอบรม ดูเพิ่มเติมในเอกสาร
```
 # 1 ติดตั้งการอ้างอิง cd HunyuanDiT
pip ติดตั้ง -e ./IndexKits
```

ดาวน์โหลดข้อมูล

อย่าลังเลที่จะดาวน์โหลดการสาธิตข้อมูล

 # 2 ข้อมูลดาวน์โหลดwget -O ./dataset/data_demo.zip https://dit.hunyuan.tencent.com/download/HunyuanDiT/data_demo.zip
แตกไฟล์ ./dataset/data_demo.zip -d ./dataset
mkdir ./dataset/พอร์ซเลน/ลูกศร ./dataset/porcelain/jsons

การแปลงข้อมูล

สร้างไฟล์ CSV สำหรับข้อมูลการฝึกอบรมตามช่องต่างๆ ที่ระบุไว้ในตารางด้านล่าง

เขตข้อมูล	ที่จำเป็น	คำอธิบาย	ตัวอย่าง
`image_path`	ที่จำเป็น	เส้นทางภาพ	`./dataset/porcelain/images/0.png`
`text_zh`	ที่จำเป็น	ข้อความ	青花瓷风格，一只蓝色的鸟儿站在蓝色的花瓶上，周围点缀着白色花朵，背景是白色
`md5`	ไม่จำเป็น	อิมเมจ md5 (อัลกอริธึมการแยกข้อความ 5)	`d41d8cd98f00b204e9800998ecf8427e`
`width`	ไม่จำเป็น	ความกว้างของภาพ	`1024`
`height`	ไม่จำเป็น	ความสูงของภาพ	`1024`

สามารถละเว้นฟิลด์ตัวเลือก เช่น MD5 ความกว้าง และความสูงได้ หากละเว้น สคริปต์ด้านล่างจะคำนวณโดยอัตโนมัติ กระบวนการนี้อาจใช้เวลานานเมื่อต้องจัดการกับข้อมูลการฝึกอบรมขนาดใหญ่

เราใช้ Arrow สำหรับรูปแบบข้อมูลการฝึกอบรม โดยนำเสนอการแสดงข้อมูลในหน่วยความจำที่เป็นมาตรฐานและมีประสิทธิภาพ มีสคริปต์การแปลงเพื่อแปลงไฟล์ CSV เป็นรูปแบบลูกศร

 # 3 หลามการแปลงข้อมูล ./hydit/data_loader/csv2arrow.py ./dataset/porcelain/csvfile/image_text.csv ./dataset/porcelain/arrows 1

การเลือกข้อมูลและการสร้างไฟล์การกำหนดค่า
เรากำหนดค่าข้อมูลการฝึกอบรมผ่านไฟล์ YAML ในไฟล์เหล่านี้ คุณสามารถตั้งค่ากลยุทธ์การประมวลผลข้อมูลมาตรฐานสำหรับการกรอง การคัดลอก การขจัดข้อมูลซ้ำซ้อน และอื่นๆ ที่เกี่ยวข้องกับข้อมูลการฝึก สำหรับรายละเอียดเพิ่มเติม โปรดดู ./IndexKits
สำหรับไฟล์ตัวอย่าง โปรดดูที่ ไฟล์. สำหรับไฟล์การกำหนดค่าพารามิเตอร์แบบเต็ม โปรดดูไฟล์

สร้างไฟล์ดัชนีข้อมูลการฝึกอบรมโดยใช้ไฟล์ YAML

 # การเตรียมข้อมูลความละเอียดเดียว
 idk base -c dataset/yamls/porcelain.yaml -t dataset/porcelain/jsons/porcelain.json # การเตรียมข้อมูลแบบหลายความละเอียด
      idk multireso -c ชุดข้อมูล/yamls/porcelain_mt.yaml -t ชุดข้อมูล/porcelain/jsons/porcelain_mt.json

โครงสร้างไดเร็กทอรีสำหรับชุดข้อมูล porcelain คือ:

 ซีดี ./ชุดข้อมูล

 เครื่องลายคราม
    ├──images/ (ไฟล์รูปภาพ)
    │ ├──0.png
    │ ├──1.png
    ......
    ├──csvfile/ (ไฟล์ csv ที่มีคู่ข้อความและรูปภาพ)
    │ ├──image_text.csv
    ├──arrows/ (ไฟล์ลูกศรที่มีข้อมูลการฝึกอบรมที่จำเป็นทั้งหมด)
    │ ├──00000.arrow
    │ ├──00001.arrow
    ......
    ├──jsons/ (ไฟล์ดัชนีข้อมูลการฝึกอบรมขั้นสุดท้ายซึ่งอ่านข้อมูลจากไฟล์ลูกศรระหว่างการฝึกอบรม)
    │ ├──porcelain.json
    │ ├──porcelain_mt.json

การฝึกอบรมแบบเต็มพารามิเตอร์

ความต้องการ:

ข้อกำหนดขั้นต่ำคือ GPU ตัวเดียวที่มีหน่วยความจำอย่างน้อย 20GB แต่เราขอแนะนำให้ใช้ GPU ที่มีหน่วยความจำประมาณ 30 GB เพื่อหลีกเลี่ยงการถ่ายข้อมูลหน่วยความจำโฮสต์
นอกจากนี้ เราขอแนะนำให้ผู้ใช้ใช้ประโยชน์จาก GPU หลายตัวในโหนดต่างๆ เพื่อเร่งการฝึกอบรมชุดข้อมูลขนาดใหญ่

สังเกต:

ผู้ใช้ส่วนบุคคลยังสามารถใช้ Kohya น้ำหนักเบาเพื่อปรับแต่งโมเดลด้วยหน่วยความจำประมาณ 16 GB ขณะนี้ เรากำลังพยายามลดการใช้หน่วยความจำของเฟรมเวิร์กระดับอุตสาหกรรมสำหรับผู้ใช้ส่วนบุคคลเพิ่มเติม
หากคุณมีหน่วยความจำ GPU เพียงพอ โปรดลองลบ --cpu-offloading หรือ --gradient-checkpointing เพื่อประหยัดเวลา

สำหรับการฝึกแบบกระจายโดยเฉพาะ คุณมีความยืดหยุ่นในการควบคุมการฝึก แบบโหนดเดียว / หลายโหนด โดยการปรับพารามิเตอร์ เช่น --hostfile และ --master_addr สำหรับรายละเอียดเพิ่มเติม ดูลิงค์

 # การฝึกอบรมความละเอียดเดียว PYTHONPATH=./ sh hydit/train.sh --index-file dataset/porcelain/jsons/porcelain.json# Multi Resolution TrainingPYTHONPATH=./ sh hydit/train.sh --index-file dataset/porcelain/jsons /porcelain_mt.json --multireso --reso-step 64# การฝึกอบรมกับ HunyuanDiT เวอร์ชันเก่า (<= v1.1) PYTHONPATH=./ sh hydit/train_v1.1.sh --ชุดข้อมูลไฟล์ดัชนี/porcelain/jsons/porcelain.json

หลังจากบันทึกจุดตรวจสอบแล้ว คุณสามารถใช้คำสั่งต่อไปนี้เพื่อประเมินแบบจำลองได้

 # การอนุมาน
  # คุณควรแทนที่ 'log_EXP/xxx/checkpoints/final.pt' ด้วย path.python example_t2i.py จริงของคุณ --infer-mode fa --prompt "青花瓷风格，一只可爱的哈士奇" --no-enhance - -dit-weight log_EXP/xxx/checkpoints/final.pt --load-key module# เก่า เวอร์ชันของ HunyuanDiT (<= v1.1)# คุณควรแทนที่ 'log_EXP/xxx/checkpoints/final.pt' ด้วย path.python example_t2i.py จริงของคุณ --infer-mode fa --prompt "青花瓷风格，一只可爱的哈士奇" --model-root ./HunyuanDiT-v1.1 --use-style-cond --size-cond 1024 1024 --beta-end 0.03 --no-enhance --dit-weight log_EXP/xxx/checkpoints/final.pt --load-key โมดูล

โลรา

เราจัดเตรียมสคริปต์การฝึกอบรมและการอนุมานสำหรับ LoRA โดยมีรายละเอียดอยู่ใน ./lora

 # การฝึกอบรมเครื่องเคลือบ LoRA.PYTHONPATH=./ sh lora/train_lora.sh --index-file dataset/porcelain/jsons/porcelain.json# การอนุมานโดยใช้ LORA Weights.python example_t2i.py --infer-mode fa --prompt "青花瓷风格，一只小狗" --no-enhance --lora-ckpt log_EXP/001-lora_porcelain_ema_rank64/จุดตรวจ/0001000.pt

เรามีตุ้มน้ำหนัก LoRA ที่ผ่านการฝึกอบรมสองประเภทสำหรับ porcelain และ jade ดูรายละเอียดที่ลิงก์

 cd HunyuanDiT# ใช้เครื่องมือ Huggingface-cli เพื่อดาวน์โหลด model.huggingface-cli ดาวน์โหลด Tencent-Hunyuan/HYDiT-LoRA --local-dir ./ckpts/t2i/lora# Quick startpython example_t2i.py --infer-mode fa - - พร้อมท์ "青花瓷风格，一只猫在追蝴蝶" --no-enhance --load-key ema --lora-ckpt ./ckpts/t2i/lora/porcelain

ตัวอย่างข้อมูลการฝึกอบรม

青花瓷风格，一只蓝色的鸟儿站在蓝色的ดอกไม้瓶上，周围点缀着白色花朵，背景是白色 (สไตล์พอร์ซเลน นกสีฟ้ายืนอยู่บนแจกันสีน้ำเงิน ล้อมรอบด้วยดอกไม้สีขาว พื้นหลังสีขาว) -	青花瓷风格，这是一幅蓝白相间的陶瓷盘子，上的描绘着一只狐狸它的幼崽在森林中漫步，背景是白色（สไตล์พอร์ซเลน นี่คือจานเซรามิกสีน้ำเงินและสีขาวเป็นรูปสุนัขจิ้งจอกและลูกของมันกำลังเดินเล่นอยู่ในป่า โดยมีพื้นหลังสีขาว)	青花瓷风格，在黑色背景上，一只蓝色的狼站在蓝白相间的盘子上，周围是树木和月亮（สไตล์พอร์ซเลน บนพื้นหลังสีดำ มีหมาป่าสีน้ำเงินยืนอยู่บนจานสีน้ำเงินและสีขาว ล้อมรอบ ข้างต้นไม้และดวงจันทร์)	青花瓷风格，在蓝色背景上，一只蓝色蝴蝶和白色ดอกไม้朵被放置在中央（สไตล์พอร์ซเลน บนพื้นหลังสีน้ำเงิน มีผีเสื้อสีน้ำเงินและดอกไม้สีขาวอยู่ตรงกลาง）
ตัวอย่างผลการอนุมาน

青花瓷风格，苏州园林（เครื่องเคลือบดินเผา สวนซูโจว）	青花瓷风格，一朵荷花 (แบบพอร์ซเลน ดอกบัว)	青花瓷风格，一只羊(แบบเครื่องลายคราม แกะ)	青花瓷风格，一个女孩在雨中跳舞 (สไตล์เครื่องเคลือบดินเผา เด็กผู้หญิงเต้นรำกลางสายฝน)

การอนุมาน

การอนุมาน GPU VRAM ขนาด 6GB

การรัน HunyuanDiT ใน GPU VRAM ขนาดต่ำกว่า 6GB นั้นมีวางจำหน่ายแล้วในขณะนี้โดยอิงจากดิฟฟิวเซอร์ ที่นี่เราให้คำแนะนำและการสาธิตสำหรับการเริ่มต้นอย่างรวดเร็วของคุณ

เวอร์ชัน 6GB รองรับกราฟิกการ์ดซีรีส์สถาปัตยกรรม Nvidia Ampere เช่น RTX 3070/3080/4080/4090, A100 และอื่นๆ

สิ่งเดียวที่คุณต้องทำคือติดตั้งไลบรารีต่อไปนี้:

 pip ติดตั้ง -U บิตแซนด์ไบต์
pip ติดตั้ง git+https://github.com/huggingface/diffusers
pip ติดตั้งไฟฉาย==2.0.0

จากนั้นคุณก็สามารถเพลิดเพลินกับการเดินทางจากการแปลงข้อความเป็นรูปภาพ HunyuanDiT ของคุณภายใต้ GPU VRAM ขนาด 6GB ได้โดยตรง!

นี่คือการสาธิตสำหรับคุณ

 cd HunyuanDiT# เริ่มต้นด่วนmodel_id=Tencent-Hunyuan/HunyuanDiT-v1.2-Diffusers-กลั่น
prompt=一个宇航员在骑马
infer_steps=50
แนวทาง_สเกล=6
python3 lite/inference.py ${model_id} ${prompt} ${infer_steps} ${guidance_scale}

รายละเอียดเพิ่มเติมสามารถพบได้ใน ./lite

การใช้กราดิโอ

ตรวจสอบให้แน่ใจว่าสภาพแวดล้อม conda ถูกเปิดใช้งานก่อนที่จะรันคำสั่งต่อไปนี้

 # โดยค่าเริ่มต้น เราจะเริ่ม UI ภาษาจีน การใช้ Flash Attention สำหรับ Acceleration.python app/hydit_app.py --infer-mode fa# คุณสามารถปิดใช้งานโมเดลการปรับปรุงได้หากหน่วยความจำ GPU ไม่เพียงพอ # การปรับปรุงจะไม่สามารถใช้งานได้จนกว่าคุณจะรีสตาร์ทแอปโดยไม่มี `--no- ปรับปรุงธง python app/hydit_app.py --no-enhance --infer-mode fa# เริ่มต้นด้วย UI ภาษาอังกฤษ แอป python/hydit_app.py --lang en --infer-mode fa# เริ่ม UI การสร้าง T2I แบบหลายรอบ # หากหน่วยความจำ GPU ของคุณน้อยกว่า 32GB ให้ใช้ '--load-4bit' เพื่อเปิดใช้งานการหาปริมาณ 4 บิต ซึ่งต้องใช้ memory.python app/multiTurnT2I_app.py อย่างน้อย 22GB --infer-mode fa

จากนั้นสามารถเข้าไปดูตัวอย่างได้ที่ http://0.0.0.0:443 ควรสังเกตว่า 0.0.0.0 ที่นี่จะต้องเป็น XXXX พร้อม IP เซิร์ฟเวอร์ของคุณ

การใช้ดิฟฟิวเซอร์

โปรดติดตั้ง PyTorch เวอร์ชัน 2.0 หรือสูงกว่าล่วงหน้าเพื่อให้เป็นไปตามข้อกำหนดของไลบรารี diffusers เวอร์ชันที่ระบุ

ติดตั้งดิฟฟิวเซอร์เพื่อให้แน่ใจว่าเวอร์ชันเป็นอย่างน้อย 0.28.1:

 pip ติดตั้ง git+https://github.com/huggingface/diffusers.git

หรือ

 pip ติดตั้งดิฟฟิวเซอร์

คุณสามารถสร้างรูปภาพพร้อมทั้งภาษาจีนและภาษาอังกฤษได้โดยใช้สคริปต์ Python ต่อไปนี้:

 import torchfrom diffusers import HunyuanDiTPipelinepipe = HunyuanDiTPipeline.from_pretrained("Tencent-Hunyuan/HunyuanDiT-v1.2-Diffusers", torch_dtype=torch.float16)pipe.to("cuda")# คุณอาจใช้พรอมต์ภาษาอังกฤษได้เนื่องจาก HunyuanDiT รองรับทั้งภาษาอังกฤษ และภาษาจีน# prompt = "นักบินอวกาศขี่ม้า"prompt = "一个宇航员在骑马"image = pipe(prompt).images[0]

คุณสามารถใช้แบบจำลองกลั่นของเราเพื่อสร้างภาพได้เร็วยิ่งขึ้น:

 import torchfrom diffusers import HunyuanDiTPipelinepipe = HunyuanDiTPipeline.from_pretrained("Tencent-Hunyuan/HunyuanDiT-v1.2-Diffusers-Distilled", torch_dtype=torch.float16)pipe.to("cuda")# คุณอาจใช้พรอมต์ภาษาอังกฤษได้เนื่องจาก HunyuanDiT รองรับ ทั้งภาษาอังกฤษและจีน# prompt = "นักบินอวกาศขี่ม้า"prompt = "一个宇航员在骑马"image = pipe(prompt, num_inference_steps=25).images[0]

ดูรายละเอียดเพิ่มเติมได้ใน HunyuanDiT-v1.2-Diffusers-Distilled

ฟังก์ชั่นเพิ่มเติม: สำหรับฟังก์ชั่นอื่นๆ เช่น LoRA และ ControlNet โปรดดูที่ README ของ ./diffusers

การใช้บรรทัดคำสั่ง

เรามีคำสั่งหลายคำสั่งเพื่อการเริ่มต้นอย่างรวดเร็ว:

 # เฉพาะข้อความเป็นรูปภาพ Flash Attention modepython example_t2i.py --infer-mode fa --prompt "渔舟唱晚" --no-enhance# สร้างภาพด้วยขนาดภาพอื่นๆ python example_t2i.py --infer-mode fa --prompt "渔舟唱晚" --image-size 1280 768# การปรับปรุงพร้อมท์ + ข้อความเป็นรูปภาพ DialogGen โหลดด้วยการหาปริมาณ 4 บิต แต่อาจสูญเสีย Performance.python Sample_t2i.py --infer-mode fa --prompt "渔舟唱晚" --load-4bit

ดูตัวอย่างข้อความแจ้งเพิ่มเติมได้ใน example_prompts.txt

การกำหนดค่าเพิ่มเติม

เราแสดงรายการการกำหนดค่าที่มีประโยชน์เพิ่มเติมเพื่อการใช้งานง่าย:

การโต้แย้ง	ค่าเริ่มต้น	คำอธิบาย
`--prompt`	ไม่มี	ข้อความแจ้งสำหรับการสร้างภาพ
`--image-size`	1024 1024	ขนาดของภาพที่ถูกสร้างขึ้น
`--seed`	42	เมล็ดสุ่มสำหรับการสร้างภาพ
`--infer-steps`	100	จำนวนขั้นตอนการสุ่มตัวอย่าง
`--negative`	-	พรอมต์เชิงลบสำหรับการสร้างภาพ
`--infer-mode`	คบเพลิง	โหมดการอนุมาน (คบเพลิง ฟ้า หรือ trt)
`--sampler`	วว	ตัวอย่างการแพร่กระจาย (ddpm, ddim หรือ dpmms)
`--no-enhance`	เท็จ	ปิดใช้งานโมเดลการปรับปรุงพรอมต์
`--model-root`	ซีเคพีทีส	ไดเร็กทอรีรากของจุดตรวจสอบโมเดล
`--load-key`	เอมะ	โหลดโมเดลนักเรียนหรือโมเดล EMA (ema หรือโมดูล)
`--load-4bit`	ฟาสเล	โหลดโมเดล DialogGen ด้วยการหาปริมาณ 4 บิต

การใช้ ComfyUI

รองรับสองเวิร์กโฟลว์: Standard ComfyUI และ Diffusers Wrapper โดยแนะนำให้ใช้แบบแรก
รองรับ HunyuanDiT-v1.1 และ v1.2
รองรับโมดูล lora และคลิป lora ที่ได้รับการฝึกฝนโดย Kohya
โมดูลสนับสนุน โมเดล Lora ที่ได้รับการฝึกอบรมโดยสคริปต์การฝึกอบรมอย่างเป็นทางการของ HunyunDiT
ControlNet กำลังมาในเร็วๆ นี้

ดูรายละเอียดเพิ่มเติมได้ใน ./comfyui-hydit

การใช้โคห์ย่า

เรารองรับโค้ดที่กำหนดเองสำหรับ kohya_ss GUI และโค้ดการฝึกอบรม sd-scripts สำหรับ HunyuanDiT ดูรายละเอียดเพิ่มเติมได้ใน ./kohya_ss-hydit

การใช้เวอร์ชันก่อนหน้า

ฮุนหยวน-DiT <= v1.1

 # ============================== v1.1 ================ ==============# ดาวน์โหลด modelhuggingface-cli ดาวน์โหลด Tencent-Hunyuan/HunyuanDiT-v1.1 --local-dir ./HunyuanDiT-v1.1# การอนุมานด้วย modelpython example_t2i.py --infer-mode fa --prompt "渔舟唱晚" --model-root ./HunyuanDiT-v1.1 --use-style-cond --size-cond 1024 1024 --beta-end 0.03 # ============================== v1.0 ==============================# ดาวน์โหลด modelhuggingface-cli ดาวน์โหลด Tencent-Hunyuan/HunyuanDiT --local-dir ./HunyuanDiT-v1.0# การอนุมานด้วย modelpython example_t2i.py --infer-mode fa --prompt "渔舟唱晚" --model-root ./HunyuanDiT-v1.0 --use-style-cond --size-cond 1024 1024 --beta-end 0.03

อะแดปเตอร์

คอนโทรลเน็ต

เราจัดเตรียมสคริปต์การฝึกอบรมสำหรับ ControlNet ซึ่งมีรายละเอียดอยู่ใน ./controlnet

 # การฝึกอบรมผู้เก่งกาจ ControlNet.PYTHONPATH=./ sh hydit/train_controlnet.sh

เรามีตุ้มน้ำหนัก ControlNet ที่ผ่านการฝึกอบรมสามประเภทสำหรับ depth และ pose canny ดูรายละเอียดที่ลิงก์

 cd HunyuanDiT# ใช้เครื่องมือ Huggingface-cli เพื่อดาวน์โหลดโมเดล# เราขอแนะนำให้ใช้ตุ้มน้ำหนักกลั่นเป็นโมเดลพื้นฐานสำหรับการอนุมาน ControlNet เนื่องจากตุ้มน้ำหนักที่ได้รับการฝึกไว้ล่วงหน้าของเราได้รับการฝึกฝนบนตุ้มน้ำหนักเหล่านั้น Huggingface-cli ดาวน์โหลด Tencent-Hunyuan/HYDiT-ControlNet- v1.2 --local-dir ./ckpts/t2i/controlnet
ดาวน์โหลด Huggingface-cli Tencent-Hunyuan/Distillation-v1.2 ./pytorch_model_distill.pt --local-dir ./ckpts/t2i/model# Quick startpython3 example_controlnet.py --infer-mode fa --no-enhance --load - การกลั่นที่สำคัญ -- อนุมานขั้นตอนที่ 50 -- ความสามารถประเภทควบคุม -- พร้อมท์ "在夜晚的酒店门前，一座古老的中国风格的狮子雕前矗立着，它的眼睛闪烁着光芒，仿佛在守护着这座建筑。背景是夜晚的酒店前，构上方式是特写，平视，居中构上。这张ถ่ายภาพ呈现了真实摄影风格，蕴含了中文雕塑文化，同时ส่วนขยาย现了神秘氛围" --condition-image-path controlnet/asset/input/canny.jpg --control-weight 1.0

อินพุตเงื่อนไข
แคนนี่ คอนโทรลเน็ต	เครือข่ายควบคุมความลึก	โพสคอนโทรลเน็ต
在夜晚的酒店门前，一座古老的中中风格的狮子雕前矗立着，它的眼睛闪烁着光芒，仿佛在守护着这座建筑。背景是夜晚的酒ร้านอาหาร实摄影风格，蕴含了中国雕塑文化，同时ส่วนขยาย现了神秘氛围（ที่ ยามค่ำคืน รูปปั้นสิงโตแบบจีนโบราณยืนอยู่หน้าโรงแรม ดวงตาเป็นประกายราวกับกำลังเฝ้าอาคาร พื้นหลังคือทางเข้าโรงแรมในเวลากลางคืน โดยมีองค์ประกอบภาพระยะใกล้ ระดับสายตา และอยู่ตรงกลาง ภาพถ่ายนี้นำเสนอสไตล์การถ่ายภาพที่สมจริง ผสมผสานวัฒนธรรมประติมากรรมจีน และเผยให้เห็นบรรยากาศลึกลับ)	在茂密的森林中，一只黑白相间的熊猫静静地坐在绿树红花中，周围是山川和海洋。背景是白天的森林，光线充足。ภาพถ่าย采用特写、平视和居中构上的方式，呈现出写实的效果（In ป่าทึบแพนด้าขาวดำนั่งเงียบ ๆ ท่ามกลางต้นไม้สีเขียวและดอกไม้สีแดงล้อมรอบด้วยภูเขาและมหาสมุทร ฉากหลังเป็นป่าในเวลากลางวันที่มีแสงสว่างเพียงพอ ภาพถ่ายใช้การจัดองค์ประกอบภาพในระยะใกล้ ระดับสายตา และอยู่ตรงกลางเพื่อสร้างเอฟเฟ็กต์ที่สมจริง)	在白天的森林中，一位穿着绿色上衣的亚洲女性站在大象旁边。ภาพถ่าย采用了中景、平视和居中构上的方式，呈现出写实的效果。这张了人物摄影文化，并ส่วนขยาย现了宁静的氛围（In ในป่าในเวลากลางวัน หญิงชาวเอเชียสวมเสื้อสีเขียวยืนอยู่ข้างช้าง ภาพถ่ายใช้ช็อตปานกลาง ระดับสายตา และจัดองค์ประกอบภาพให้อยู่ตรงกลางเพื่อสร้างเอฟเฟ็กต์ที่สมจริง ภาพนี้รวบรวมวัฒนธรรมการถ่ายภาพตัวละครและสื่อถึงบรรยากาศอันเงียบสงบ)

เอาท์พุตคอนโทรลเน็ต

- ฮุนหยวน-คำบรรยายภาพ

Hunyuan-Captioner ตอบสนองความต้องการของเทคนิคการแปลงข้อความเป็นรูปภาพโดยรักษาความสอดคล้องของข้อความรูปภาพในระดับสูง มันสามารถสร้างคำอธิบายภาพคุณภาพสูงจากหลากหลายมุม รวมถึงคำอธิบายวัตถุ ความสัมพันธ์ของวัตถุ ข้อมูลพื้นหลัง สไตล์ของภาพ ฯลฯ โค้ดของเราอิงตามการใช้งาน LLaVA

ตัวอย่าง

คำแนะนำ

ก. ติดตั้งการพึ่งพา

การขึ้นต่อกันและการติดตั้งโดยพื้นฐานแล้วจะเหมือนกับ โมเดลพื้นฐาน

ข. ดาวน์โหลดโมเดล

 # ใช้เครื่องมือ Huggingface-cli เพื่อดาวน์โหลด model.huggingface-cli ดาวน์โหลด Tencent-Hunyuan/HunyuanCaptioner --local-dir ./ckpts/captioner

การอนุมาน

โมเดลของเรารองรับโหมดที่แตกต่างกันสามโหมด ได้แก่: การสร้างคำบรรยายภาษาจีนโดยตรง การสร้างคำบรรยายภาษาจีนตามความรู้เฉพาะ และ สร้างคำบรรยายภาษาอังกฤษโดยตรง ข้อมูลที่แทรกอาจเป็นสัญญาณที่แม่นยำหรือป้ายกำกับที่มีเสียงดัง (เช่น คำอธิบายดิบที่รวบรวมข้อมูลจากอินเทอร์เน็ต) แบบจำลองนี้สามารถสร้างคำอธิบายที่เชื่อถือได้และถูกต้องตามทั้งข้อมูลที่แทรกและเนื้อหารูปภาพ

โหมด	เทมเพลตพร้อมท์	คำอธิบาย
Caption_zh	描述这张รูปภาพ	คำบรรยายเป็นภาษาจีน
insert_content	根据提示词“{}”,描述这张ภาพ	คำบรรยายพร้อมเกร็ดความรู้
คำบรรยายภาพ_th	กรุณาอธิบายเนื้อหาของภาพนี้	คำบรรยายภาพเป็นภาษาอังกฤษ

ก. การอนุมานภาพเดียวในภาษาจีน

 หลาม mllm/caption_demo.py --mode "caption_zh" --image_file "mllm/images/demo1.png" --model_path "./ckpts/captioner"

ข. ใส่ความรู้เฉพาะลงในคำบรรยายภาพ

 python mllm/caption_demo.py --mode "insert_content" --content "宫保鸡丁" --image_file "mllm/images/demo2.png" --model_path "./ckpts/captioner"

ค. การอนุมานภาพเดียวในภาษาอังกฤษ

 หลาม mllm/caption_demo.py --mode "caption_en" --image_file "mllm/images/demo3.png" --model_path "./ckpts/captioner"

ง. การอนุมานภาพหลายภาพเป็นภาษาจีน

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2024-11-14
ขนาด 50MB
มาจาก Github

แอปที่เกี่ยวข้อง

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
SmartTube

ซอร์สโค้ดอื่น ๆ

24.71 Stable
Sunamu

ซอร์สโค้ดอื่น ๆ

Release 2.2.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
wp functions

หมวดหมู่อื่นๆ

1.0.0
termwind

หมวดหมู่อื่นๆ

v2.3.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด