การซื้อคืนนี้ประกอบด้วยคำจำกัดความของโมเดล PyTorch น้ำหนักที่ได้รับการฝึกอบรมล่วงหน้า และโค้ดการอนุมาน/การสุ่มตัวอย่างสำหรับรายงานของเราที่สำรวจ Hunyuan-DiT คุณสามารถดูการแสดงภาพเพิ่มเติมได้ในหน้าโครงการของเรา
Hunyuan-DiT: หม้อแปลงกระจายแสงหลายความละเอียดอันทรงพลังพร้อมความเข้าใจภาษาจีนแบบละเอียด
DialogGen: ระบบบทสนทนาเชิงโต้ตอบหลายรูปแบบสำหรับการสร้างข้อความเป็นรูปภาพแบบหลายเลี้ยว
15 ก.ค. 2024: HunYuanDiT และ Shakker.Ai ร่วมกันเปิดตัวกิจกรรมการปรับแต่งอย่างละเอียดโดยใช้โมเดล HunYuanDiT 1.2 ด้วยการเผยแพร่ Lora หรือโมเดลที่ได้รับการปรับแต่งตาม HunYuanDiT คุณจะได้รับโบนัสสูงสุดถึง 230 ดอลลาร์จาก Shakker.Ai ดู Shakker.Ai สำหรับรายละเอียดเพิ่มเติม
15 ก.ค. 2567: ? อัปเดต ComfyUI เพื่อรองรับเวิร์กโฟลว์ที่เป็นมาตรฐานและความเข้ากันได้กับตุ้มน้ำหนักจากโมดูล t2i และการฝึกอบรม Lora สำหรับเวอร์ชัน 1.1/1.2 รวมถึงที่ได้รับการฝึกอบรมโดย Kohya หรือสคริปต์อย่างเป็นทางการ ดู ComfyUI สำหรับรายละเอียด
15 ก.ค. 2024: ⚡ เรานำเสนอสภาพแวดล้อม Docker สำหรับ CUDA 11/12 ช่วยให้คุณข้ามการติดตั้งที่ซับซ้อนและเล่นได้ด้วยคลิกเดียว! ดูนักเทียบท่าสำหรับรายละเอียด
08 ก.ค. 2567: ? เวอร์ชัน HYDiT-v1.2 เปิดตัวแล้ว โปรดตรวจสอบ HunyuanDiT-v1.2 และการกลั่น-v1.2 สำหรับรายละเอียดเพิ่มเติม
03 ก.ค. 2567: ? เวอร์ชัน Kohya-hydit พร้อมใช้งานแล้วสำหรับรุ่น v1.1 และ v1.2 พร้อม GUI สำหรับการอนุมาน เวอร์ชันทางการของ Kohya อยู่ระหว่างการตรวจสอบ ดูรายละเอียดที่โคห์ยา
27 มิ.ย. 2567: ? Hunyuan-Captioner ได้รับการเผยแพร่ โดยให้คำบรรยายที่ละเอียดสำหรับข้อมูลการฝึกอบรม ดู mllm สำหรับรายละเอียด
27 มิ.ย. 2567: ? รองรับ LoRa และ ControlNet ในดิฟฟิวเซอร์ ดูตัวกระจายสัญญาณสำหรับรายละเอียด
27 มิ.ย. 2567: ? สคริปต์การอนุมาน GPU VRAM ขนาด 6GB ได้รับการเผยแพร่ ดูไลท์สำหรับรายละเอียด
19 มิ.ย. 2567: ? ControlNet เปิดตัวแล้ว รองรับการควบคุมท่าทางและความลึก ดูรหัสการฝึกอบรม/การอนุมานสำหรับรายละเอียด
13 มิถุนายน 2024: ⚡ เวอร์ชัน HYDiT-v1.1 เปิดตัวแล้ว ซึ่งช่วยลดปัญหาภาพอิ่มตัวมากเกินไป และลดปัญหาลายน้ำ โปรดตรวจสอบ HunyuanDiT-v1.1 และการกลั่น-v1.1 สำหรับรายละเอียดเพิ่มเติม
13 มิ.ย. 2567: ? รหัสการฝึกอบรมได้รับการเผยแพร่ โดยนำเสนอการฝึกอบรมแบบเต็มพารามิเตอร์และการฝึกอบรม LoRA
06 มิ.ย. 2567: ? Hunyuan-DiT พร้อมใช้งานแล้วใน ComfyUI โปรดตรวจสอบ ComfyUI สำหรับรายละเอียดเพิ่มเติม
6 มิถุนายน 2024: เราเปิดตัวเวอร์ชันการกลั่นสำหรับการเร่งความเร็ว Hunyuan-DiT ซึ่งสามารถเร่งความเร็วได้ 50% บน NVIDIA GPU โปรดตรวจสอบการกลั่นเพื่อดูรายละเอียดเพิ่มเติม
5 มิ.ย. 2567: ? Hunyuan-DiT วางจำหน่ายแล้วใน ? เครื่องกระจายกลิ่น! โปรดตรวจสอบตัวอย่างด้านล่าง
04 มิ.ย. 2024: รองรับลิงก์ Tencent Cloud เพื่อดาวน์โหลดโมเดลที่ได้รับการฝึกล่วงหน้า! กรุณาตรวจสอบลิงค์ด้านล่าง
22 พฤษภาคม 2024: เราเปิดตัวเวอร์ชัน TensorRT สำหรับการเร่งความเร็ว Hunyuan-DiT ซึ่งได้รับการเร่งความเร็ว 47% บน NVIDIA GPU โปรดตรวจสอบ TensorRT-libs เพื่อดูคำแนะนำ
22 พฤษภาคม 2024: เรารองรับการสาธิตการสร้างข้อความ2รูปภาพแบบหลายเลี้ยวแล้ว โปรดตรวจสอบสคริปต์ด้านล่าง
ยินดีต้อนรับสู่ Tencent Hunyuan Bot บนเว็บของเรา ซึ่งคุณสามารถสำรวจผลิตภัณฑ์ที่เป็นนวัตกรรมของเราได้! เพียงป้อนข้อความแจ้งที่แนะนำด้านล่างหรือ ข้อความแจ้งเชิงจินตนาการอื่นๆ ที่มีคำสำคัญที่เกี่ยวข้องกับการวาดภาพ เพื่อเปิดใช้งานคุณลักษณะการสร้างข้อความเป็นรูปภาพ Hunyuan ปลดปล่อยความคิดสร้างสรรค์ของคุณและสร้างภาพตามที่คุณต้องการ ทั้งหมดนี้ฟรี!
คุณสามารถใช้ข้อความแจ้งง่ายๆ คล้ายกับข้อความภาษาธรรมชาติได้
画一只穿着西装的猪
วาดหมูในชุดสูท
生成一幅画,赛博朋克风,跑车
สร้างภาพวาดสไตล์ไซเบอร์พังค์รถสปอร์ต
หรือการโต้ตอบทางภาษาหลายรอบเพื่อสร้างภาพ
画一个木制的鸟
วาดนกไม้
变成玻璃的
กลายเป็นแก้ว
Hunyuan-DiT (โมเดลข้อความเป็นรูปภาพ)
การอนุมาน
จุดตรวจ
เวอร์ชันการกลั่น
เวอร์ชัน TensorRT
การฝึกอบรม
ลอร่า
Controlnet (โพสท่า, Canny, ความลึก)
การอนุมาน GPU VRAM ขนาด 6GB
อะแดปเตอร์ IP
จุดตรวจ Hunyuan-DiT-S (รุ่น 0.7B)
เอ็มแอลเอ็ม
การอนุมาน
การอนุมาน
Hunyuan-Captioner (ใส่คำอธิบายภาพคู่ข้อความดิบอีกครั้ง)
Hunyuan-DialogGen (แบบจำลองการปรับปรุงทันที)
การสาธิตเว็บ (Gradio)
การสาธิต T2I แบบหลายเลี้ยว (Gradio)
คลิสาธิต
UI ที่สะดวกสบาย
เครื่องกระจายกลิ่น
โคยะ
เว็บ UI
Hunyuan-DiT : หม้อแปลงกระจายแสงหลายความละเอียดอันทรงพลังพร้อมความเข้าใจภาษาจีนแบบละเอียด
ตัวอย่าง
คำแนะนำ
การอนุมาน
กราดิโอ
คอนโทรลเน็ต
การอนุมาน GPU VRAM ขนาด 6GB
การใช้กราดิโอ
โดยใช้ ? เครื่องกระจายกลิ่น
การใช้บรรทัดคำสั่ง
การกำหนดค่าเพิ่มเติม
การใช้ ComfyUI
การใช้โคห์ย่า
การใช้เวอร์ชันก่อนหน้า
การเตรียมข้อมูล
การฝึกอบรมแบบเต็มพารามิเตอร์
โลรา
คู่มือการติดตั้งสำหรับ Linux
สถาปัตยกรรม DiT สองภาษาจีน-อังกฤษ
การสร้าง Text2Image แบบหลายเลี้ยว
ข่าว!!
ลองในเว็บดูครับ
แผนโอเพ่นซอร์ส
สารบัญ
เชิงนามธรรม
คุณสมบัติที่สำคัญของ Hunyuan-DiT
การเปรียบเทียบ
การแสดงภาพ
ความต้องการ
การพึ่งพาและการติดตั้ง
ดาวน์โหลดแบบจำลองที่ได้รับการฝึกอบรม - 1. การใช้ HF-Mirror - 2. ดาวน์โหลดต่อ
การฝึกอบรม
การอนุมาน
อะแดปเตอร์
ฮุนหยวน-คำบรรยายภาพ
การเร่งความเร็ว (สำหรับ Linux)
บิบเท็กซ์
เริ่มประวัติศาสตร์
เรานำเสนอ Hunyuan-DiT ซึ่งเป็นหม้อแปลงกระจายข้อความเป็นรูปภาพที่มีความเข้าใจทั้งภาษาอังกฤษและภาษาจีนอย่างละเอียด ในการสร้าง Hunyuan-DiT เราได้ออกแบบโครงสร้างหม้อแปลง ตัวเข้ารหัสข้อความ และการเข้ารหัสตำแหน่งอย่างระมัดระวัง นอกจากนี้เรายังสร้างไปป์ไลน์ข้อมูลทั้งหมดตั้งแต่เริ่มต้นเพื่ออัปเดตและประเมินข้อมูลเพื่อการปรับโมเดลซ้ำให้เหมาะสม เพื่อความเข้าใจภาษาที่ละเอียด เราฝึกอบรม Multimodal Large Language Model เพื่อปรับแต่งคำอธิบายภาพ สุดท้ายนี้ Hunyuan-DiT สามารถทำการสนทนาแบบหลายรอบกับผู้ใช้ได้หลายรอบ สร้างและปรับแต่งรูปภาพตามบริบท ด้วยโปรโตคอลการประเมินมนุษย์แบบองค์รวมที่ได้รับการออกแบบอย่างพิถีพิถัน พร้อมด้วยผู้ประเมินมนุษย์มืออาชีพมากกว่า 50 คน Hunyuan-DiT ได้สร้างความก้าวหน้าครั้งใหม่ในการสร้างภาษาจีนเป็นรูปภาพ เมื่อเทียบกับโมเดลโอเพ่นซอร์สอื่นๆ
Hunyuan-DiT เป็นแบบจำลองการแพร่กระจายในพื้นที่แฝง ดังแสดงในรูปด้านล่าง ตามแบบจำลองการแพร่กระจายแฝง เราใช้ Variational Autoencoder (VAE) ที่ผ่านการฝึกอบรมมาแล้วเพื่อบีบอัดภาพลงในพื้นที่แฝงในมิติต่ำ และฝึกฝนแบบจำลองการแพร่กระจายเพื่อเรียนรู้การกระจายข้อมูลด้วยแบบจำลองการแพร่กระจาย แบบจำลองการแพร่กระจายของเราถูกกำหนดพารามิเตอร์ด้วยหม้อแปลงไฟฟ้า ในการเข้ารหัสข้อความแจ้ง เราใช้การผสมผสานระหว่าง CLIP สองภาษาที่ได้รับการฝึกอบรมล่วงหน้า (อังกฤษและจีน) และตัวเข้ารหัส T5 หลายภาษา
การทำความเข้าใจคำสั่งภาษาธรรมชาติและการโต้ตอบแบบหลายเลี้ยวกับผู้ใช้เป็นสิ่งสำคัญสำหรับระบบข้อความเป็นรูปภาพ สามารถช่วยสร้างกระบวนการสร้างแบบไดนามิกและวนซ้ำซึ่งนำความคิดของผู้ใช้มาสู่ความเป็นจริงทีละขั้นตอน ในส่วนนี้ เราจะให้รายละเอียดว่าเราเสริมศักยภาพ Hunyuan-DiT ด้วยความสามารถในการสนทนาแบบหลายรอบและสร้างภาพลักษณ์ได้อย่างไร เราฝึก MLLM ให้เข้าใจบทสนทนาของผู้ใช้แบบหลายรอบ และแสดงข้อความแจ้งใหม่สำหรับการสร้างรูปภาพ
เพื่อเปรียบเทียบความสามารถในการสร้างของ HunyuanDiT และรุ่นอื่นๆ อย่างครอบคลุม เราได้สร้างชุดทดสอบ 4 มิติ ซึ่งรวมถึงความสอดคล้องของข้อความ-รูปภาพ การยกเว้นสิ่งประดิษฐ์ AI ความชัดเจนของวัตถุ และความสวยงาม ผู้ประเมินมืออาชีพมากกว่า 50 คนทำการประเมิน
แบบอย่าง | โอเพ่นซอร์ส | ความสอดคล้องของข้อความและรูปภาพ (%) | ไม่รวมสิ่งประดิษฐ์ AI (%) | ความชัดเจนของเรื่อง (%) | สุนทรียศาสตร์ (%) | โดยรวม (%) | ||||
---|---|---|---|---|---|---|---|---|---|---|
SDXL | 64.3 | 60.6 | 91.1 | 76.3 | 42.7 | |||||
PixArt-α | 68.3 | 60.9 | 93.2 | 77.5 | 45.5 | |||||
สนามเด็กเล่น 2.5 | 71.9 | 70.8 | 94.9 | 83.3 | 54.3 | |||||
SD3 | 77.1 | 69.3 | 94.6 | 82.5 | 56.7 | |||||
มิดเจอร์นีย์ v6 | 73.5 | 80.2 | 93.5 | 87.2 | 63.3 | |||||
ดัล-อี 3 | 83.9 | 80.3 | 96.5 | 89.4 | 71.0 | |||||
ฮุนหยวน-DiT | 74.2 | 74.3 | 95.4 | 86.6 | 59.0 |
องค์ประกอบจีน
การป้อนข้อความแบบยาว
การสร้าง Text2Image แบบหลายเลี้ยว
repo นี้ประกอบด้วย DialogGen (โมเดลการปรับปรุงทันที) และ Hunyuan-DiT (โมเดลข้อความเป็นรูปภาพ)
ตารางต่อไปนี้แสดงข้อกำหนดสำหรับการรันโมเดล (ขนาดแบตช์ = 1):
แบบอย่าง | --load-4bit (DialogGen) | หน่วยความจำสูงสุดของ GPU | จีพียู |
---|---|---|---|
DialogGen + Hunyuan-DiT | 32ก | A100 | |
DialogGen + Hunyuan-DiT | 22ก | A100 | |
ฮุนหยวน-DiT | - | 11G | A100 |
ฮุนหยวน-DiT | - | 14G | RTX3090/RTX4090 |
จำเป็นต้องมี NVIDIA GPU พร้อมรองรับ CUDA
เราได้ทดสอบ GPU V100 และ A100 แล้ว
ขั้นต่ำ : หน่วยความจำ GPU ขั้นต่ำที่ต้องการคือ 11GB
แนะนำ : เราขอแนะนำให้ใช้ GPU ที่มีหน่วยความจำ 32GB เพื่อคุณภาพการสร้างที่ดีขึ้น
ระบบปฏิบัติการที่ทดสอบ: Linux
เริ่มต้นด้วยการโคลนที่เก็บ:
โคลนคอมไพล์ https://github.com/tencent/HunyuanDiTcd HunyuanDiT
เรามีไฟล์ environment.yml
สำหรับการตั้งค่าสภาพแวดล้อม Conda คำแนะนำในการติดตั้งของ Conda มีอยู่ที่นี่
เราขอแนะนำ CUDA เวอร์ชัน 11.7 และ 12.0+
# 1. เตรียม condaสภาพแวดล้อมconda env create -f environment.yml# 2. เปิดใช้งานสภาพแวดล้อมconda เปิดใช้งาน HunyuanDiT# 3. ติดตั้ง pip dependenciespython -m pip install -r needs.txt# 4. ติดตั้ง flash Attention v2 สำหรับการเร่งความเร็ว (ต้องใช้ CUDA 11.6 หรือ ด้านบน) python -m pip ติดตั้ง git+https://github.com/Dao-AILab/[email protected]
นอกจากนี้คุณยังสามารถใช้นักเทียบท่าเพื่อตั้งค่าสภาพแวดล้อมได้อีกด้วย
# 1. ใช้ลิงก์ต่อไปนี้เพื่อดาวน์โหลดไฟล์ tar อิมเมจนักเทียบท่า# สำหรับ CUDA 12wget https://dit.hunyuan.tencent.com/download/HunyuanDiT/hunyuan_dit_cu12.tar# สำหรับ CUDA 11wget https://dit.hunyuan tencent.com/download/HunyuanDiT/hunyuan_dit_cu11.tar# 2. นำเข้าไฟล์ tar นักเทียบท่าและแสดง ข้อมูลเมตาของรูปภาพ # สำหรับการโหลด CUDA 12docker -i hunyuan_dit_cu12.tar# สำหรับการโหลด CUDA 11docker -i hunyuan_dit_cu11.tar อิมเมจนักเทียบท่า ls# 3 รันคอนเทนเนอร์ตาม imagedocker run -dit --gpus all --init --net=host --uts=host --ipc=host --name hunyuandit --security-opt=seccomp= ไม่ จำกัด --ulimit=stack=67108864 --ulimit=memlock=-1 --privileged docker_image_tag
หากต้องการดาวน์โหลดโมเดล ให้ติดตั้ง Huggingface-cli ก่อน (คำแนะนำโดยละเอียดมีอยู่ที่นี่)
python -m pip ติดตั้ง "huggingface_hub [cli]"
จากนั้นดาวน์โหลดโมเดลโดยใช้คำสั่งต่อไปนี้:
# สร้างไดเร็กทอรีชื่อ 'ckpts' โดยที่โมเดลจะถูกบันทึกไว้ เป็นไปตามข้อกำหนดเบื้องต้นสำหรับการรัน demo.mkdir ckpts# ใช้เครื่องมือ Huggingface-cli เพื่อดาวน์โหลดโมเดล # เวลาในการดาวน์โหลดอาจแตกต่างกันตั้งแต่ 10 นาทีถึง 1 ชั่วโมงขึ้นอยู่กับ บนเงื่อนไขเครือข่าย ดาวน์โหลด Huggingface-cli Tencent-Hunyuan/HunyuanDiT-v1.2 --local-dir ./ckpts
หากคุณพบความเร็วในการดาวน์โหลดที่ช้าในประเทศจีน คุณสามารถลองใช้มิเรอร์เพื่อเร่งกระบวนการดาวน์โหลดได้ ตัวอย่างเช่น,
HF_ENDPOINT=https://hf-mirror.com Huggingface-cli ดาวน์โหลด Tencent-Hunyuan/HunyuanDiT-v1.2 --local-dir ./ckpts
huggingface-cli
รองรับการดาวน์โหลดต่อ หากการดาวน์โหลดถูกขัดจังหวะ คุณสามารถรันคำสั่งดาวน์โหลดอีกครั้งเพื่อดำเนินการดาวน์โหลดต่อได้
หมายเหตุ: หาก No such file or directory: 'ckpts/.huggingface/.gitignore.lock'
เกิดขึ้นในระหว่างกระบวนการดาวน์โหลด คุณสามารถเพิกเฉยต่อข้อผิดพลาดและรันคำสั่งดาวน์โหลดอีกครั้ง
ทุกรุ่นจะถูกดาวน์โหลดโดยอัตโนมัติ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับโมเดลนี้ โปรดไปที่พื้นที่เก็บข้อมูล Hugging Face ที่นี่
แบบอย่าง | #พารามส์ | URL ดาวน์โหลด Huggingface | URL ดาวน์โหลด Tencent Cloud |
---|---|---|---|
เอ็มที5 | 1.6B | เอ็มที5 | เอ็มที5 |
คลิป | 350ม | คลิป | คลิป |
โทเค็นไนเซอร์ | - | โทเค็นไนเซอร์ | โทเค็นไนเซอร์ |
กล่องโต้ตอบ Gen | 7.0B | กล่องโต้ตอบ Gen | กล่องโต้ตอบ Gen |
sdxl-vae-fp16-แก้ไข | 83ม | sdxl-vae-fp16-แก้ไข | sdxl-vae-fp16-แก้ไข |
ฮุนหยวน-DiT-v1.0 | 1.5B | ฮุนหยวน-DiT | ฮุนหยวน-DiT-v1.0 |
ฮุนหยวน-DiT-v1.1 | 1.5B | ฮุนหยวน-DiT-v1.1 | ฮุนหยวน-DiT-v1.1 |
ฮุนหยวน-DiT-v1.2 | 1.5B | ฮุนหยวน-DiT-v1.2 | ฮุนหยวน-DiT-v1.2 |
การสาธิตข้อมูล | - | - | การสาธิตข้อมูล |
อ้างถึงคำสั่งด้านล่างเพื่อเตรียมข้อมูลการฝึกอบรม
ติดตั้งการพึ่งพา
เรานำเสนอไลบรารีการจัดการข้อมูลที่มีประสิทธิภาพชื่อ IndexKits ซึ่งสนับสนุนการจัดการการอ่านข้อมูลหลายร้อยล้านข้อมูลในระหว่างการฝึกอบรม ดูเพิ่มเติมในเอกสาร
# 1 ติดตั้งการอ้างอิง cd HunyuanDiT pip ติดตั้ง -e ./IndexKits
ดาวน์โหลดข้อมูล
อย่าลังเลที่จะดาวน์โหลดการสาธิตข้อมูล
# 2 ข้อมูลดาวน์โหลดwget -O ./dataset/data_demo.zip https://dit.hunyuan.tencent.com/download/HunyuanDiT/data_demo.zip แตกไฟล์ ./dataset/data_demo.zip -d ./dataset mkdir ./dataset/พอร์ซเลน/ลูกศร ./dataset/porcelain/jsons
การแปลงข้อมูล
สร้างไฟล์ CSV สำหรับข้อมูลการฝึกอบรมตามช่องต่างๆ ที่ระบุไว้ในตารางด้านล่าง
เขตข้อมูล | ที่จำเป็น | คำอธิบาย | ตัวอย่าง |
---|---|---|---|
image_path | ที่จำเป็น | เส้นทางภาพ | ./dataset/porcelain/images/0.png |
text_zh | ที่จำเป็น | ข้อความ | 青花瓷风格,一只蓝色的鸟儿站在蓝色的花瓶上,周围点缀着白色花朵,背景是白色 |
md5 | ไม่จำเป็น | อิมเมจ md5 (อัลกอริธึมการแยกข้อความ 5) | d41d8cd98f00b204e9800998ecf8427e |
width | ไม่จำเป็น | ความกว้างของภาพ | 1024 |
height | ไม่จำเป็น | ความสูงของภาพ | 1024 |
สามารถละเว้นฟิลด์ตัวเลือก เช่น MD5 ความกว้าง และความสูงได้ หากละเว้น สคริปต์ด้านล่างจะคำนวณโดยอัตโนมัติ กระบวนการนี้อาจใช้เวลานานเมื่อต้องจัดการกับข้อมูลการฝึกอบรมขนาดใหญ่
เราใช้ Arrow สำหรับรูปแบบข้อมูลการฝึกอบรม โดยนำเสนอการแสดงข้อมูลในหน่วยความจำที่เป็นมาตรฐานและมีประสิทธิภาพ มีสคริปต์การแปลงเพื่อแปลงไฟล์ CSV เป็นรูปแบบลูกศร
# 3 หลามการแปลงข้อมูล ./hydit/data_loader/csv2arrow.py ./dataset/porcelain/csvfile/image_text.csv ./dataset/porcelain/arrows 1
การเลือกข้อมูลและการสร้างไฟล์การกำหนดค่า
เรากำหนดค่าข้อมูลการฝึกอบรมผ่านไฟล์ YAML ในไฟล์เหล่านี้ คุณสามารถตั้งค่ากลยุทธ์การประมวลผลข้อมูลมาตรฐานสำหรับการกรอง การคัดลอก การขจัดข้อมูลซ้ำซ้อน และอื่นๆ ที่เกี่ยวข้องกับข้อมูลการฝึก สำหรับรายละเอียดเพิ่มเติม โปรดดู ./IndexKits
สำหรับไฟล์ตัวอย่าง โปรดดูที่ ไฟล์. สำหรับไฟล์การกำหนดค่าพารามิเตอร์แบบเต็ม โปรดดูไฟล์
สร้างไฟล์ดัชนีข้อมูลการฝึกอบรมโดยใช้ไฟล์ YAML
# การเตรียมข้อมูลความละเอียดเดียว idk base -c dataset/yamls/porcelain.yaml -t dataset/porcelain/jsons/porcelain.json # การเตรียมข้อมูลแบบหลายความละเอียด idk multireso -c ชุดข้อมูล/yamls/porcelain_mt.yaml -t ชุดข้อมูล/porcelain/jsons/porcelain_mt.json
โครงสร้างไดเร็กทอรีสำหรับชุดข้อมูล porcelain
คือ:
ซีดี ./ชุดข้อมูล เครื่องลายคราม ├──images/ (ไฟล์รูปภาพ) │ ├──0.png │ ├──1.png ...... ├──csvfile/ (ไฟล์ csv ที่มีคู่ข้อความและรูปภาพ) │ ├──image_text.csv ├──arrows/ (ไฟล์ลูกศรที่มีข้อมูลการฝึกอบรมที่จำเป็นทั้งหมด) │ ├──00000.arrow │ ├──00001.arrow ...... ├──jsons/ (ไฟล์ดัชนีข้อมูลการฝึกอบรมขั้นสุดท้ายซึ่งอ่านข้อมูลจากไฟล์ลูกศรระหว่างการฝึกอบรม) │ ├──porcelain.json │ ├──porcelain_mt.json
ความต้องการ:
ข้อกำหนดขั้นต่ำคือ GPU ตัวเดียวที่มีหน่วยความจำอย่างน้อย 20GB แต่เราขอแนะนำให้ใช้ GPU ที่มีหน่วยความจำประมาณ 30 GB เพื่อหลีกเลี่ยงการถ่ายข้อมูลหน่วยความจำโฮสต์
นอกจากนี้ เราขอแนะนำให้ผู้ใช้ใช้ประโยชน์จาก GPU หลายตัวในโหนดต่างๆ เพื่อเร่งการฝึกอบรมชุดข้อมูลขนาดใหญ่
สังเกต:
ผู้ใช้ส่วนบุคคลยังสามารถใช้ Kohya น้ำหนักเบาเพื่อปรับแต่งโมเดลด้วยหน่วยความจำประมาณ 16 GB ขณะนี้ เรากำลังพยายามลดการใช้หน่วยความจำของเฟรมเวิร์กระดับอุตสาหกรรมสำหรับผู้ใช้ส่วนบุคคลเพิ่มเติม
หากคุณมีหน่วยความจำ GPU เพียงพอ โปรดลองลบ --cpu-offloading
หรือ --gradient-checkpointing
เพื่อประหยัดเวลา
สำหรับการฝึกแบบกระจายโดยเฉพาะ คุณมีความยืดหยุ่นในการควบคุมการฝึก แบบโหนดเดียว / หลายโหนด โดยการปรับพารามิเตอร์ เช่น --hostfile
และ --master_addr
สำหรับรายละเอียดเพิ่มเติม ดูลิงค์
# การฝึกอบรมความละเอียดเดียว PYTHONPATH=./ sh hydit/train.sh --index-file dataset/porcelain/jsons/porcelain.json# Multi Resolution TrainingPYTHONPATH=./ sh hydit/train.sh --index-file dataset/porcelain/jsons /porcelain_mt.json --multireso --reso-step 64# การฝึกอบรมกับ HunyuanDiT เวอร์ชันเก่า (<= v1.1) PYTHONPATH=./ sh hydit/train_v1.1.sh --ชุดข้อมูลไฟล์ดัชนี/porcelain/jsons/porcelain.json
หลังจากบันทึกจุดตรวจสอบแล้ว คุณสามารถใช้คำสั่งต่อไปนี้เพื่อประเมินแบบจำลองได้
# การอนุมาน # คุณควรแทนที่ 'log_EXP/xxx/checkpoints/final.pt' ด้วย path.python example_t2i.py จริงของคุณ --infer-mode fa --prompt "青花瓷风格,一只可爱的哈士奇" --no-enhance - -dit-weight log_EXP/xxx/checkpoints/final.pt --load-key module# เก่า เวอร์ชันของ HunyuanDiT (<= v1.1)# คุณควรแทนที่ 'log_EXP/xxx/checkpoints/final.pt' ด้วย path.python example_t2i.py จริงของคุณ --infer-mode fa --prompt "青花瓷风格,一只可爱的哈士奇" --model-root ./HunyuanDiT-v1.1 --use-style-cond --size-cond 1024 1024 --beta-end 0.03 --no-enhance --dit-weight log_EXP/xxx/checkpoints/final.pt --load-key โมดูล
เราจัดเตรียมสคริปต์การฝึกอบรมและการอนุมานสำหรับ LoRA โดยมีรายละเอียดอยู่ใน ./lora
# การฝึกอบรมเครื่องเคลือบ LoRA.PYTHONPATH=./ sh lora/train_lora.sh --index-file dataset/porcelain/jsons/porcelain.json# การอนุมานโดยใช้ LORA Weights.python example_t2i.py --infer-mode fa --prompt "青花瓷风格,一只小狗" --no-enhance --lora-ckpt log_EXP/001-lora_porcelain_ema_rank64/จุดตรวจ/0001000.pt
เรามีตุ้มน้ำหนัก LoRA ที่ผ่านการฝึกอบรมสองประเภทสำหรับ porcelain
และ jade
ดูรายละเอียดที่ลิงก์
cd HunyuanDiT# ใช้เครื่องมือ Huggingface-cli เพื่อดาวน์โหลด model.huggingface-cli ดาวน์โหลด Tencent-Hunyuan/HYDiT-LoRA --local-dir ./ckpts/t2i/lora# Quick startpython example_t2i.py --infer-mode fa - - พร้อมท์ "青花瓷风格,一只猫在追蝴蝶" --no-enhance --load-key ema --lora-ckpt ./ckpts/t2i/lora/porcelain
ตัวอย่างข้อมูลการฝึกอบรม | |||
青花瓷风格,一只蓝色的鸟儿站在蓝色的ดอกไม้瓶上,周围点缀着白色花朵,背景是白色 (สไตล์พอร์ซเลน นกสีฟ้ายืนอยู่บนแจกันสีน้ำเงิน ล้อมรอบด้วยดอกไม้สีขาว พื้นหลังสีขาว) - | 青花瓷风格,这是一幅蓝白相间的陶瓷盘子,上的描绘着一只狐狸它的幼崽在森林中漫步,背景是白色(สไตล์พอร์ซเลน นี่คือจานเซรามิกสีน้ำเงินและสีขาวเป็นรูปสุนัขจิ้งจอกและลูกของมันกำลังเดินเล่นอยู่ในป่า โดยมีพื้นหลังสีขาว) | 青花瓷风格,在黑色背景上,一只蓝色的狼站在蓝白相间的盘子上,周围是树木和月亮 (สไตล์พอร์ซเลน บนพื้นหลังสีดำ มีหมาป่าสีน้ำเงินยืนอยู่บนจานสีน้ำเงินและสีขาว ล้อมรอบ ข้างต้นไม้และดวงจันทร์) | 青花瓷风格,在蓝色背景上,一只蓝色蝴蝶和白色ดอกไม้朵被放置在中央 (สไตล์พอร์ซเลน บนพื้นหลังสีน้ำเงิน มีผีเสื้อสีน้ำเงินและดอกไม้สีขาวอยู่ตรงกลาง) |
ตัวอย่างผลการอนุมาน | |||
青花瓷风格,苏州园林 (เครื่องเคลือบดินเผา สวนซูโจว) | 青花瓷风格,一朵荷花 (แบบพอร์ซเลน ดอกบัว) | 青花瓷风格,一只羊(แบบเครื่องลายคราม แกะ) | 青花瓷风格,一个女孩在雨中跳舞 (สไตล์เครื่องเคลือบดินเผา เด็กผู้หญิงเต้นรำกลางสายฝน) |
การรัน HunyuanDiT ใน GPU VRAM ขนาดต่ำกว่า 6GB นั้นมีวางจำหน่ายแล้วในขณะนี้โดยอิงจากดิฟฟิวเซอร์ ที่นี่เราให้คำแนะนำและการสาธิตสำหรับการเริ่มต้นอย่างรวดเร็วของคุณ
เวอร์ชัน 6GB รองรับกราฟิกการ์ดซีรีส์สถาปัตยกรรม Nvidia Ampere เช่น RTX 3070/3080/4080/4090, A100 และอื่นๆ
สิ่งเดียวที่คุณต้องทำคือติดตั้งไลบรารีต่อไปนี้:
pip ติดตั้ง -U บิตแซนด์ไบต์ pip ติดตั้ง git+https://github.com/huggingface/diffusers pip ติดตั้งไฟฉาย==2.0.0
จากนั้นคุณก็สามารถเพลิดเพลินกับการเดินทางจากการแปลงข้อความเป็นรูปภาพ HunyuanDiT ของคุณภายใต้ GPU VRAM ขนาด 6GB ได้โดยตรง!
นี่คือการสาธิตสำหรับคุณ
cd HunyuanDiT# เริ่มต้นด่วนmodel_id=Tencent-Hunyuan/HunyuanDiT-v1.2-Diffusers-กลั่น prompt=一个宇航员在骑马 infer_steps=50 แนวทาง_สเกล=6 python3 lite/inference.py ${model_id} ${prompt} ${infer_steps} ${guidance_scale}
รายละเอียดเพิ่มเติมสามารถพบได้ใน ./lite
ตรวจสอบให้แน่ใจว่าสภาพแวดล้อม conda ถูกเปิดใช้งานก่อนที่จะรันคำสั่งต่อไปนี้
# โดยค่าเริ่มต้น เราจะเริ่ม UI ภาษาจีน การใช้ Flash Attention สำหรับ Acceleration.python app/hydit_app.py --infer-mode fa# คุณสามารถปิดใช้งานโมเดลการปรับปรุงได้หากหน่วยความจำ GPU ไม่เพียงพอ # การปรับปรุงจะไม่สามารถใช้งานได้จนกว่าคุณจะรีสตาร์ทแอปโดยไม่มี `--no- ปรับปรุงธง python app/hydit_app.py --no-enhance --infer-mode fa# เริ่มต้นด้วย UI ภาษาอังกฤษ แอป python/hydit_app.py --lang en --infer-mode fa# เริ่ม UI การสร้าง T2I แบบหลายรอบ # หากหน่วยความจำ GPU ของคุณน้อยกว่า 32GB ให้ใช้ '--load-4bit' เพื่อเปิดใช้งานการหาปริมาณ 4 บิต ซึ่งต้องใช้ memory.python app/multiTurnT2I_app.py อย่างน้อย 22GB --infer-mode fa
จากนั้นสามารถเข้าไปดูตัวอย่างได้ที่ http://0.0.0.0:443 ควรสังเกตว่า 0.0.0.0 ที่นี่จะต้องเป็น XXXX พร้อม IP เซิร์ฟเวอร์ของคุณ
โปรดติดตั้ง PyTorch เวอร์ชัน 2.0 หรือสูงกว่าล่วงหน้าเพื่อให้เป็นไปตามข้อกำหนดของไลบรารี diffusers เวอร์ชันที่ระบุ
ติดตั้งดิฟฟิวเซอร์เพื่อให้แน่ใจว่าเวอร์ชันเป็นอย่างน้อย 0.28.1:
pip ติดตั้ง git+https://github.com/huggingface/diffusers.git
หรือ
pip ติดตั้งดิฟฟิวเซอร์
คุณสามารถสร้างรูปภาพพร้อมทั้งภาษาจีนและภาษาอังกฤษได้โดยใช้สคริปต์ Python ต่อไปนี้:
import torchfrom diffusers import HunyuanDiTPipelinepipe = HunyuanDiTPipeline.from_pretrained("Tencent-Hunyuan/HunyuanDiT-v1.2-Diffusers", torch_dtype=torch.float16)pipe.to("cuda")# คุณอาจใช้พรอมต์ภาษาอังกฤษได้เนื่องจาก HunyuanDiT รองรับทั้งภาษาอังกฤษ และภาษาจีน# prompt = "นักบินอวกาศขี่ม้า"prompt = "一个宇航员在骑马"image = pipe(prompt).images[0]
คุณสามารถใช้แบบจำลองกลั่นของเราเพื่อสร้างภาพได้เร็วยิ่งขึ้น:
import torchfrom diffusers import HunyuanDiTPipelinepipe = HunyuanDiTPipeline.from_pretrained("Tencent-Hunyuan/HunyuanDiT-v1.2-Diffusers-Distilled", torch_dtype=torch.float16)pipe.to("cuda")# คุณอาจใช้พรอมต์ภาษาอังกฤษได้เนื่องจาก HunyuanDiT รองรับ ทั้งภาษาอังกฤษและจีน# prompt = "นักบินอวกาศขี่ม้า"prompt = "一个宇航员在骑马"image = pipe(prompt, num_inference_steps=25).images[0]
ดูรายละเอียดเพิ่มเติมได้ใน HunyuanDiT-v1.2-Diffusers-Distilled
ฟังก์ชั่นเพิ่มเติม: สำหรับฟังก์ชั่นอื่นๆ เช่น LoRA และ ControlNet โปรดดูที่ README ของ ./diffusers
เรามีคำสั่งหลายคำสั่งเพื่อการเริ่มต้นอย่างรวดเร็ว:
# เฉพาะข้อความเป็นรูปภาพ Flash Attention modepython example_t2i.py --infer-mode fa --prompt "渔舟唱晚" --no-enhance# สร้างภาพด้วยขนาดภาพอื่นๆ python example_t2i.py --infer-mode fa --prompt "渔舟唱晚" --image-size 1280 768# การปรับปรุงพร้อมท์ + ข้อความเป็นรูปภาพ DialogGen โหลดด้วยการหาปริมาณ 4 บิต แต่อาจสูญเสีย Performance.python Sample_t2i.py --infer-mode fa --prompt "渔舟唱晚" --load-4bit
ดูตัวอย่างข้อความแจ้งเพิ่มเติมได้ใน example_prompts.txt
เราแสดงรายการการกำหนดค่าที่มีประโยชน์เพิ่มเติมเพื่อการใช้งานง่าย:
การโต้แย้ง | ค่าเริ่มต้น | คำอธิบาย |
---|---|---|
--prompt | ไม่มี | ข้อความแจ้งสำหรับการสร้างภาพ |
--image-size | 1024 1024 | ขนาดของภาพที่ถูกสร้างขึ้น |
--seed | 42 | เมล็ดสุ่มสำหรับการสร้างภาพ |
--infer-steps | 100 | จำนวนขั้นตอนการสุ่มตัวอย่าง |
--negative | - | พรอมต์เชิงลบสำหรับการสร้างภาพ |
--infer-mode | คบเพลิง | โหมดการอนุมาน (คบเพลิง ฟ้า หรือ trt) |
--sampler | วว | ตัวอย่างการแพร่กระจาย (ddpm, ddim หรือ dpmms) |
--no-enhance | เท็จ | ปิดใช้งานโมเดลการปรับปรุงพรอมต์ |
--model-root | ซีเคพีทีส | ไดเร็กทอรีรากของจุดตรวจสอบโมเดล |
--load-key | เอมะ | โหลดโมเดลนักเรียนหรือโมเดล EMA (ema หรือโมดูล) |
--load-4bit | ฟาสเล | โหลดโมเดล DialogGen ด้วยการหาปริมาณ 4 บิต |
รองรับสองเวิร์กโฟลว์: Standard ComfyUI และ Diffusers Wrapper โดยแนะนำให้ใช้แบบแรก
รองรับ HunyuanDiT-v1.1 และ v1.2
รองรับโมดูล lora และคลิป lora ที่ได้รับการฝึกฝนโดย Kohya
โมดูลสนับสนุน โมเดล Lora ที่ได้รับการฝึกอบรมโดยสคริปต์การฝึกอบรมอย่างเป็นทางการของ HunyunDiT
ControlNet กำลังมาในเร็วๆ นี้
ดูรายละเอียดเพิ่มเติมได้ใน ./comfyui-hydit
เรารองรับโค้ดที่กำหนดเองสำหรับ kohya_ss GUI และโค้ดการฝึกอบรม sd-scripts สำหรับ HunyuanDiT ดูรายละเอียดเพิ่มเติมได้ใน ./kohya_ss-hydit
ฮุนหยวน-DiT <= v1.1
# ============================== v1.1 ================ ==============# ดาวน์โหลด modelhuggingface-cli ดาวน์โหลด Tencent-Hunyuan/HunyuanDiT-v1.1 --local-dir ./HunyuanDiT-v1.1# การอนุมานด้วย modelpython example_t2i.py --infer-mode fa --prompt "渔舟唱晚" --model-root ./HunyuanDiT-v1.1 --use-style-cond --size-cond 1024 1024 --beta-end 0.03 # ============================== v1.0 ==============================# ดาวน์โหลด modelhuggingface-cli ดาวน์โหลด Tencent-Hunyuan/HunyuanDiT --local-dir ./HunyuanDiT-v1.0# การอนุมานด้วย modelpython example_t2i.py --infer-mode fa --prompt "渔舟唱晚" --model-root ./HunyuanDiT-v1.0 --use-style-cond --size-cond 1024 1024 --beta-end 0.03
เราจัดเตรียมสคริปต์การฝึกอบรมสำหรับ ControlNet ซึ่งมีรายละเอียดอยู่ใน ./controlnet
# การฝึกอบรมผู้เก่งกาจ ControlNet.PYTHONPATH=./ sh hydit/train_controlnet.sh
เรามีตุ้มน้ำหนัก ControlNet ที่ผ่านการฝึกอบรมสามประเภทสำหรับ depth
และ pose
canny
ดูรายละเอียดที่ลิงก์
cd HunyuanDiT# ใช้เครื่องมือ Huggingface-cli เพื่อดาวน์โหลดโมเดล# เราขอแนะนำให้ใช้ตุ้มน้ำหนักกลั่นเป็นโมเดลพื้นฐานสำหรับการอนุมาน ControlNet เนื่องจากตุ้มน้ำหนักที่ได้รับการฝึกไว้ล่วงหน้าของเราได้รับการฝึกฝนบนตุ้มน้ำหนักเหล่านั้น Huggingface-cli ดาวน์โหลด Tencent-Hunyuan/HYDiT-ControlNet- v1.2 --local-dir ./ckpts/t2i/controlnet ดาวน์โหลด Huggingface-cli Tencent-Hunyuan/Distillation-v1.2 ./pytorch_model_distill.pt --local-dir ./ckpts/t2i/model# Quick startpython3 example_controlnet.py --infer-mode fa --no-enhance --load - การกลั่นที่สำคัญ -- อนุมานขั้นตอนที่ 50 -- ความสามารถประเภทควบคุม -- พร้อมท์ "在夜晚的酒店门前,一座古老的中国风格的狮子雕前矗立着,它的眼睛闪烁着光芒,仿佛在守护着这座建筑。背景是夜晚的酒店前,构上方式是特写,平视,居中构上。这张ถ่ายภาพ呈现了真实摄影风格,蕴含了中文雕塑文化,同时ส่วนขยาย现了神秘氛围" --condition-image-path controlnet/asset/input/canny.jpg --control-weight 1.0
อินพุตเงื่อนไข | ||
แคนนี่ คอนโทรลเน็ต | เครือข่ายควบคุมความลึก | โพสคอนโทรลเน็ต |
在夜晚的酒店门前,一座古老的中中风格的狮子雕前矗立着,它的眼睛闪烁着光芒,仿佛在守护着这座建筑。背景是夜晚的酒ร้านอาหาร实摄影风格,蕴含了中国雕塑文化,同时ส่วนขยาย现了神秘氛围(ที่ ยามค่ำคืน รูปปั้นสิงโตแบบจีนโบราณยืนอยู่หน้าโรงแรม ดวงตาเป็นประกายราวกับกำลังเฝ้าอาคาร พื้นหลังคือทางเข้าโรงแรมในเวลากลางคืน โดยมีองค์ประกอบภาพระยะใกล้ ระดับสายตา และอยู่ตรงกลาง ภาพถ่ายนี้นำเสนอสไตล์การถ่ายภาพที่สมจริง ผสมผสานวัฒนธรรมประติมากรรมจีน และเผยให้เห็นบรรยากาศลึกลับ) | 在茂密的森林中,一只黑白相间的熊猫静静地坐在绿树红花中,周围是山川和海洋。背景是白天的森林,光线充足。ภาพถ่าย采用特写、平视和居中构上的方式,呈现出写实的效果(In ป่าทึบแพนด้าขาวดำนั่งเงียบ ๆ ท่ามกลางต้นไม้สีเขียวและดอกไม้สีแดงล้อมรอบด้วยภูเขาและมหาสมุทร ฉากหลังเป็นป่าในเวลากลางวันที่มีแสงสว่างเพียงพอ ภาพถ่ายใช้การจัดองค์ประกอบภาพในระยะใกล้ ระดับสายตา และอยู่ตรงกลางเพื่อสร้างเอฟเฟ็กต์ที่สมจริง) | 在白天的森林中,一位穿着绿色上衣的亚洲女性站在大象旁边。ภาพถ่าย采用了中景、平视和居中构上的方式,呈现出写实的效果。这张了人物摄影文化,并ส่วนขยาย现了宁静的氛围(In ในป่าในเวลากลางวัน หญิงชาวเอเชียสวมเสื้อสีเขียวยืนอยู่ข้างช้าง ภาพถ่ายใช้ช็อตปานกลาง ระดับสายตา และจัดองค์ประกอบภาพให้อยู่ตรงกลางเพื่อสร้างเอฟเฟ็กต์ที่สมจริง ภาพนี้รวบรวมวัฒนธรรมการถ่ายภาพตัวละครและสื่อถึงบรรยากาศอันเงียบสงบ) |
เอาท์พุตคอนโทรลเน็ต | ||
Hunyuan-Captioner ตอบสนองความต้องการของเทคนิคการแปลงข้อความเป็นรูปภาพโดยรักษาความสอดคล้องของข้อความรูปภาพในระดับสูง มันสามารถสร้างคำอธิบายภาพคุณภาพสูงจากหลากหลายมุม รวมถึงคำอธิบายวัตถุ ความสัมพันธ์ของวัตถุ ข้อมูลพื้นหลัง สไตล์ของภาพ ฯลฯ โค้ดของเราอิงตามการใช้งาน LLaVA
ก. ติดตั้งการพึ่งพา
การขึ้นต่อกันและการติดตั้งโดยพื้นฐานแล้วจะเหมือนกับ โมเดลพื้นฐาน
ข. ดาวน์โหลดโมเดล
# ใช้เครื่องมือ Huggingface-cli เพื่อดาวน์โหลด model.huggingface-cli ดาวน์โหลด Tencent-Hunyuan/HunyuanCaptioner --local-dir ./ckpts/captioner
โมเดลของเรารองรับโหมดที่แตกต่างกันสามโหมด ได้แก่: การสร้างคำบรรยายภาษาจีนโดยตรง การสร้างคำบรรยายภาษาจีนตามความรู้เฉพาะ และ สร้างคำบรรยายภาษาอังกฤษโดยตรง ข้อมูลที่แทรกอาจเป็นสัญญาณที่แม่นยำหรือป้ายกำกับที่มีเสียงดัง (เช่น คำอธิบายดิบที่รวบรวมข้อมูลจากอินเทอร์เน็ต) แบบจำลองนี้สามารถสร้างคำอธิบายที่เชื่อถือได้และถูกต้องตามทั้งข้อมูลที่แทรกและเนื้อหารูปภาพ
โหมด | เทมเพลตพร้อมท์ | คำอธิบาย |
---|---|---|
Caption_zh | 描述这张รูปภาพ | คำบรรยายเป็นภาษาจีน |
insert_content | 根据提示词“{}”,描述这张ภาพ | คำบรรยายพร้อมเกร็ดความรู้ |
คำบรรยายภาพ_th | กรุณาอธิบายเนื้อหาของภาพนี้ | คำบรรยายภาพเป็นภาษาอังกฤษ |
ก. การอนุมานภาพเดียวในภาษาจีน
หลาม mllm/caption_demo.py --mode "caption_zh" --image_file "mllm/images/demo1.png" --model_path "./ckpts/captioner"
ข. ใส่ความรู้เฉพาะลงในคำบรรยายภาพ
python mllm/caption_demo.py --mode "insert_content" --content "宫保鸡丁" --image_file "mllm/images/demo2.png" --model_path "./ckpts/captioner"
ค. การอนุมานภาพเดียวในภาษาอังกฤษ
หลาม mllm/caption_demo.py --mode "caption_en" --image_file "mllm/images/demo3.png" --model_path "./ckpts/captioner"
ง. การอนุมานภาพหลายภาพเป็นภาษาจีน