DeepFuze เป็นเครื่องมือการเรียนรู้เชิงลึกล้ำสมัยที่ผสานรวมกับ ComfyUI ได้อย่างราบรื่น เพื่อปฏิวัติการเปลี่ยนแปลงใบหน้า การซิงค์ริมฝีปาก การสร้างวิดีโอ การโคลนเสียง การสลับใบหน้า และการแปลริมฝีปาก ด้วยการใช้ประโยชน์จากอัลกอริธึมขั้นสูง DeepFuze ช่วยให้ผู้ใช้สามารถรวมเสียงและวิดีโอเข้ากับความสมจริงที่ไม่มีใครเทียบได้ ทำให้มั่นใจได้ว่าการเคลื่อนไหวของใบหน้าจะประสานกันอย่างสมบูรณ์แบบ โซลูชันที่เป็นนวัตกรรมนี้เหมาะสำหรับผู้สร้างเนื้อหา แอนิเมเตอร์ นักพัฒนา และใครก็ตามที่ต้องการยกระดับโปรเจ็กต์ตัดต่อวิดีโอด้วยฟีเจอร์ที่ขับเคลื่อนด้วย AI ที่ซับซ้อน
คุณต้องติดตั้ง Visual Studio ซึ่งใช้งานได้กับเวอร์ชันชุมชนหรือ VS C++ Build Tools และเลือก "การพัฒนาเดสก์ท็อปด้วย C++" ใต้ "ปริมาณงาน -> เดสก์ท็อปและอุปกรณ์เคลื่อนที่"
จาก ComfyUI-Manager ค้นหา DeepFuze และติดตั้งโหนด รีสตาร์ท ComfyUI ของคุณ และดูที่หน้าต่างเทอร์มินัลของคุณเพื่อให้แน่ใจว่าไม่มีข้อผิดพลาด หรือติดตั้งจากตัวจัดการ ComfyUI เลือก "ติดตั้งผ่าน GIT URL" และคัดลอกที่ผ่านมา:
https://github.com/SamKhoze/CompfyUI-DeepFuze.git
รีสตาร์ท ComfyUI ของคุณ
YOUTUBE LINK คำแนะนำทีละขั้นตอน
ติดตั้ง Nvidia CUDA Toolkit==11.8 และ cuDNN (CUDA Deep Neural Network) สำหรับ Deep Learning คุณต้องดาวน์โหลด cuDNN เวอร์ชัน 8.9.2.26 จาก NVIDIA DEVELOPER cuDNN Archive หากคุณไม่มีบัญชีนักพัฒนา คุณสามารถดาวน์โหลดได้โดยตรงจาก GoogleDrive . ตรวจสอบให้แน่ใจว่าติดตั้ง Cuda1 1.8 ฉันพบว่าวิดีโอ YOUTUBE นี้มีประโยชน์สำหรับการติดตั้ง หากคุณมี CUDA เวอร์ชันอื่น นี่คือลิงก์ YOUTUBE ที่จะแนะนำวิธีถอนการติดตั้ง CUDA ของคุณ ตรวจสอบให้แน่ใจว่าได้สร้างเส้นทางในตัวแปรสภาพแวดล้อมของคุณตามที่อธิบายไว้ในวิดีโอ YOUTUBE รีสตาร์ทคอมพิวเตอร์หลังจากสร้างเส้นทาง ยืนยันการติดตั้ง Cuda ของคุณ วางรหัสนี้บนหน้าต่างเทอร์มินัลของคุณ nvcc --version
คุณควรได้รับการตอบกลับดังนี้:
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Sep_21_10:41:10_Pacific_Daylight_Time_2022
Cuda compilation tools, release 11.8, V11.8.89
Build cuda_11.8.r11.8/compiler.31833905_0`
อย่าติดตั้งผ่าน ComfyUI-Manager มันจะไม่ทำงาน คุณต้องติดตั้งด้วยตนเองและทำตามคำแนะนำด้านล่าง:
เปิดใช้งานสภาพแวดล้อมเสมือนของคุณ Conda หรือ Venv
วิธีติดตั้งและทดสอบ PyTorch ของคุณ
วิธีนี้ได้รับการทดสอบบน Mac M1 และ M3 คุณต้องเรียกใช้โค้ดด้านล่างบนหน้าต่างเทอร์มินัลของคุณสำหรับ Mac Metal Performance Shaders (MPS) โซลูชันเฉพาะของ Apple สำหรับการเขียนโปรแกรม GPU ประสิทธิภาพสูงบนอุปกรณ์ของพวกเขา ด้วยการผสานรวมอย่างใกล้ชิดกับกรอบงานโลหะ MPS มอบชุดเชเดอร์ที่ได้รับการปรับแต่งอย่างเหมาะสมสำหรับงานกราฟิกและการประมวลผล ซึ่งเป็นประโยชน์อย่างยิ่งในแอปพลิเคชันการเรียนรู้ของเครื่อง
คัดลอกและวางคำสั่งด้านล่างลงในหน้าต่างเทอร์มินัลของคุณ
export PYTORCH_ENABLE_MPS_FALLBACK=1
ผู้ใช้ Mac ต้องติดตั้ง ONNX RUNTIME CPU แทน onnxruntime-gpu
pip install onnxruntime
macOS จำเป็นต้องติดตั้ง dlib ดั้งเดิม
pip install dlib
ติดตั้ง Text to Speech สำหรับ Voice Cloning Node
pip install TTS
นำทางไปยัง โฟลเดอร์ custom_nodes
cd custom_nodes
git clone https://github.com/SamKhoze/CompfyUI-DeepFuze.git
นำทางไปยัง โฟลเดอร์ CompfyUI-DeepFuze
และติดตั้ง ไฟล์ requirements.txt
cd CompfyUI-DeepFuze
pip install -r requirements.txt
ข้อกำหนดเบื้องต้นสำหรับการโคลนเสียงและการลิปซิงค์
ด้านล่างนี้คือที่เก็บ ComfyUI สองตัวที่จำเป็นสำหรับการโหลดวิดีโอและเสียง ติดตั้งลงในโฟลเดอร์ custom_nodes
ของคุณ:
โคลนที่เก็บ:
cd custom_nodes
git clone https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite.git
ข้อผิดพลาด CV: หากคุณพบข้อผิดพลาด "ComfyUI_windows_portableComfyUIoutputdeepfuzefaceswap_file.mp4 ไม่สามารถโหลดด้วย cv" หมายความว่าไม่ได้ติดตั้ง onnxruntime
ในการแก้ไขปัญหานี้ ตรวจสอบให้แน่ใจว่าได้ติดตั้ง onnxruntime
สำหรับ CPU และ onnxruntime-gpu
สำหรับ Windows ผู้ใช้ Mac ควรอัปเกรด OpenCV โดยใช้คำสั่ง pip install --upgrade opencv-python-headless
ในสภาพแวดล้อมเสมือน สำหรับผู้ใช้ Windows ให้ไปที่ ComfyUI Manager คลิกที่ "pip install" วาง --upgrade opencv-python-headless
คลิก ตกลง และรีสตาร์ท ComfyUI ของคุณ
ข้อผิดพลาด zlibwapi.dll หายไป: ค้นหาไฟล์ NVIDIA zlibwapi.dll ดาวน์โหลดและคัดลอกใน C:Program FilesNVIDIA GPU Computing ToolkitCUDAv11.8binzlibwapi.dll
หากคุณได้รับข้อผิดพลาดในการติดตั้ง TTS อาจเป็นไปได้ว่าคุณมี Python เวอร์ชันที่แตกต่างกัน ตรวจสอบให้แน่ใจว่าได้ติดตั้งเวอร์ชันที่ถูกต้อง
หากคุณได้รับข้อผิดพลาด: ImportError: ไม่สามารถนำเข้าชื่อ 'get_full_repo_name' จาก 'huggingface_hub' เรียกใช้โค้ดด้านล่างบนเทอร์มินัลของคุณ จะช่วยแก้ปัญหาได้
conda install chardet
pip install --upgrade transformers==4.39.2
หากคุณได้รับข้อผิดพลาดสำหรับแพ็คเกจใด ๆ ให้เปิดไฟล์ Requirments.txt ด้วยโปรแกรมแก้ไขข้อความใด ๆ โดยลบเวอร์ชันออกจากด้านหน้าของชื่อแพ็คเกจ และติดตั้ง requirments.txt ใหม่อีกครั้ง
คุณสามารถดาวน์โหลดโมเดลได้โดยตรงจาก GoogleDrive และวางโมเดลลงใน PATH ./ComfyUI/models/deepfuze/
ตรวจสอบให้แน่ใจว่าได้ดาวน์โหลดแต่ละโมเดลด้วยตนเองทีละตัวและวางไว้ เนื่องจากขนาดของโมเดล บางโมเดลจะไม่ดาวน์โหลดหาก คุณดาวน์โหลดโฟลเดอร์ที่เตรียมตัวแปรสภาพแวดล้อมนำทางไปยังโฟลเดอร์ custom_nodes ของคุณและ git clone หรือดาวน์โหลดโค้ดด้วยตนเองและแตกไฟล์ลงในโฟลเดอร์ custom_nodes
หากต้องการใช้โหนด "Openai LLM" สำหรับกล่องโต้ตอบการโคลนเสียง คุณต้องมีคีย์ OpenAI API คุณสามารถรับคีย์นี้และตั้งค่าได้โดยทำตามคำแนะนำในคู่มือการเริ่มต้นฉบับย่อของ OpenAI Developer โปรดทราบว่าโหนด "Openai LLM" จะไม่บันทึกคีย์ API ของคุณ ทุกครั้งที่คุณปิดโหนด คุณจะต้องคัดลอกและวางคีย์ API ของคุณด้วยตนเอง คุณยังสามารถเพิ่มคีย์ API เป็นตัวแปรสภาพแวดล้อมได้โดยใช้คำสั่งต่อไปนี้: สำหรับ Windows: setx OPENAI_API_KEY "your-api-key-here"
และสำหรับ Mac: export OPENAI_API_KEY='your-api-key-here'
ในครั้งถัดไปที่คุณต้องการคัดลอกและวางคีย์ API ของคุณลงในโหนด LLM คุณสามารถพิมพ์คำสั่งต่อไปนี้ในเทอร์มินัลของคุณ: echo $OPENAI_API_KEY
และจะพิมพ์คีย์ API ของคุณ ทำให้คุณสามารถคัดลอกและวางลงใน Openai LLM ของคุณได้ โหนด
โหนดนี้สร้างวิดีโอแบบลิปซิงค์จากไฟล์วิดีโอ รูปภาพ และเสียง เพื่อคุณภาพที่สูงขึ้น ส่งออกเอาต์พุต IMAGE เป็นชุดรูปภาพแทนการรวมวิดีโอ คุณจะได้รับขนาดรูปภาพคุณภาพสูงสุด 4k สำคัญ: คุณต้องโหลดเสียงด้วยโหนด "โหลดเสียง VHS" จากโหนด VideoHelperSuit
ประเภทอินพุต:
images
: ภาพเฟรมที่แยกออกมาเป็น PyTorch tensorsaudio
: อินสแตนซ์ของข้อมูลเสียงที่โหลดmata_batch
: โหลดหมายเลขแบตช์ผ่านโหนด Meta Batch Managerประเภทเอาต์พุต:
IMAGES
: ภาพเฟรมที่แยกออกมาเป็น PyTorch tensorsframe_count
: จำนวนเฟรมเอาต์พุต intaudio
: เสียงออกvideo_info
: ข้อมูลเมตาของวิดีโอเอาท์พุตคุณสมบัติ DeepFuze Lipsync:
enhancer
: คุณสามารถเพิ่มเครื่องมือปรับปรุงใบหน้าเพื่อปรับปรุงคุณภาพของวิดีโอที่สร้างขึ้นผ่านเครือข่ายการฟื้นฟูใบหน้าframe_enhancer
: คุณสามารถเพิ่มการปรับปรุงทั้งเฟรมของวิดีโอได้face_mask_padding_left
: เลื่อนไปทางซ้ายของใบหน้าขณะกำลังลิปซิงค์face_mask_padding_right
: เติมไปทางขวาของใบหน้าขณะกำลังลิปซิงค์face_mask_padding_bottom
: เติมไปที่ด้านล่างของใบหน้าขณะกำลังลิปซิงค์face_mask_padding_top
: เติมไปที่ด้านบนของใบหน้าขณะกำลังลิปซิงค์device
: [ซีพียู,จีพียู]frame_rate
: ตั้งค่าอัตราเฟรมloop_count
: ควรเล่นวิดีโอซ้ำอีกกี่ครั้งfilename_prefix
: การตั้งชื่อคำนำหน้าสำหรับวิดีโอเอาท์พุตpingpong
: ทำให้อินพุตถูกเล่นกลับเพื่อสร้างลูปที่สะอาดsave_output
: บันทึกเอาต์พุตในโฟลเดอร์เอาต์พุต โหนดนี้สลับ ปรับปรุง และกู้คืนใบหน้าจาก วิดีโอ และรูปภาพ หรือคุณภาพสูงกว่าส่งออกเอาต์พุต IMAGE เป็นชุดรูปภาพแทนการรวมวิดีโอ คุณจะได้รับขนาดรูปภาพคุณภาพสูงสุด 4k
ประเภทอินพุต:
source_images
: แยกภาพเฟรมเป็น PyTorch tensors สำหรับการสลับtarget_images
: แยกภาพเฟรมเป็น PyTorch tensors เพื่ออินพุตวิดีโอ/รูปภาพต้นฉบับmata_batch
: โหลดหมายเลขแบตช์ผ่านโหนด Meta Batch Managerประเภทเอาต์พุต:
IMAGES
: ภาพเฟรมที่แยกออกมาเป็น PyTorch tensorsframe_count
: จำนวนเฟรมเอาต์พุต intaudio
: เสียงออกvideo_info
: ข้อมูลเมตาของวิดีโอเอาต์พุตคุณสมบัติ DeepFuze FaceSwap:
enhancer
: คุณสามารถเพิ่มเครื่องมือปรับปรุงใบหน้าเพื่อปรับปรุงคุณภาพของวิดีโอที่สร้างขึ้นผ่านเครือข่ายการฟื้นฟูใบหน้าfaceswap_model
: คุณสามารถเลือกรุ่นต่างๆ เพื่อทำการสลับได้frame_enhancer
: คุณสามารถเพิ่มการปรับปรุงทั้งเฟรมของวิดีโอได้face_detector_model
: คุณสามารถเลือกรุ่นต่างๆ สำหรับการตรวจจับใบหน้าได้face_mask_padding_left
: เติมไปทางซ้ายบนใบหน้าขณะกำลังลิปซิงค์face_mask_padding_right
: เติมไปทางขวาบนใบหน้าขณะกำลังลิปซิงค์face_mask_padding_bottom
: เติมไปที่ด้านล่างของใบหน้าขณะกำลังลิปซิงค์face_mask_padding_top
: เติมไปด้านบนบนใบหน้าขณะกำลังลิปซิงค์device
: [ซีพียู,จีพียู]frame_rate
: ตั้งค่าอัตราเฟรมloop_count
: ควรเล่นวิดีโอซ้ำอีกกี่ครั้งfilename_prefix
: การตั้งชื่อคำนำหน้าสำหรับวิดีโอเอาท์พุตpingpong
: ทำให้อินพุตถูกเล่นกลับเพื่อสร้างลูปที่สะอาดsave_output
: บันทึกเอาต์พุตในโฟลเดอร์เอาต์พุตตารางสรุปโมเดลเครื่องตรวจจับใบหน้า (RetinaFace ให้คุณภาพที่สูงขึ้นโดยการรวมข้อมูลตามบริบทรอบๆ ใบหน้า ซึ่งช่วยในการตรวจจับใบหน้าภายใต้สภาวะต่างๆ เช่น การบดบัง ขนาดต่างๆ และท่าทาง
คุณสมบัติ | YOLOFace | RetinaFace | สคอาร์เอฟดี | ยูเน็ต |
---|---|---|---|---|
สถาปัตยกรรม | YOLO นัดเดียว | RetinaNet แบบขั้นตอนเดียว | น้ำตกแบบขั้นตอนเดียว | คัสตอมแบบน้ำหนักเบา |
ความเร็ว | เร็วมาก | ปานกลาง | เร็ว | เร็วมาก |
ความแม่นยำ | ดี | สูงมาก | สูง | ดี |
ความทนทาน | ปานกลาง | สูงมาก | สูง | ปานกลาง |
ประสิทธิภาพการคำนวณ | สูง | ปานกลาง | สูง | สูงมาก |
ใช้กรณี | ฉากเรียลไทม์ที่ไม่ซับซ้อน | ความต้องการที่แม่นยำและแข็งแกร่ง | อุปกรณ์พกพา/อุปกรณ์ Edge ที่สมดุล | อุปกรณ์เคลื่อนที่ ฝังตัว แบบเรียลไทม์ |
ข้อดี | ความเร็ว | ความแม่นยำ ความทนทาน | ประสิทธิภาพ ความแม่นยำ | น้ำหนักเบา มีประสิทธิภาพ |
ข้อเสีย | การแลกเปลี่ยนความแม่นยำ | หนักทางการคำนวณ | ไม่ใช่วิธีที่เร็วที่สุด | แข็งแกร่งน้อยกว่าในฉากที่ซับซ้อน |
ภาษา:
การโคลนเสียง DeepFuze_TTS รองรับ 17 ภาษา: อังกฤษ (en), สเปน (es), ฝรั่งเศส (fr), เยอรมัน (de), อิตาลี (มัน), โปรตุเกส (pt), โปแลนด์ (pl), ตุรกี (tr), รัสเซีย (ru ), ดัตช์ (nl), เช็ก (cs), อารบิก (ar), จีน (zh-cn), ญี่ปุ่น (ja), ฮังการี (hu), เกาหลี (ko) ฮินดี (สวัสดี)
โหนดนี้ใช้เพื่อโคลนเสียงจากอินพุตที่พิมพ์ ไฟล์เสียงควรมีความยาว 10-15 วินาทีเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น และไม่ควรมีเสียงรบกวนมากนัก เพื่อหลีกเลี่ยงข้อผิดพลาดเกี่ยวกับอัตราตัวอย่าง ให้โหลดเสียง MP3 และใช้งานได้กับโหนด AudioScheduler เท่านั้น เรากำลังดำเนินการพัฒนาโหนดตัวแปลงเพื่อแก้ไขปัญหานี้
ประเภทอินพุต:
audio
: อินสแตนซ์ของข้อมูลเสียงที่โหลดtext
: ข้อความเพื่อสร้างเสียงเสียงโคลนประเภทเอาต์พุต:
audio
: อินสแตนซ์ของข้อมูลเสียงที่โหลดโหนด "LLM Integration" ใช้เพื่อรวม LLM (โมเดลภาษา) เข้ากับกระบวนการโคลนเสียง คุณสามารถป้อนบทสนทนาของคุณและกำหนดค่าพารามิเตอร์ได้ และข้อความที่สร้างโดย AI จะถูกนำมาใช้สำหรับการโคลนเสียง นอกจากนี้ คุณสามารถใช้โหนดนี้แทน ChatGPT เพื่อสร้างข้อความจาก LLM หรือถามคำถามในลักษณะเดียวกับที่คุณทำกับ ChatGPT คุณสามารถดูเอาต์พุตของ DeepFuze_LLM ได้โดยการเชื่อมต่อ LLM_RESPONSE กับโหนด "Display Any" จาก rgthree-comfy โหนดนี้ยังสามารถใช้สำหรับการสร้างพรอมต์และโหนดใดๆ ที่ป้อนข้อความ
ประเภทอินพุต:
user_query
: พิมพ์บทสนทนาของคุณประเภทเอาต์พุต:
LLM_RESPONSE
: เอาท์พุตข้อความที่สร้างโดย AIคุณสมบัติ DeepFuze Openai LLM:
model_name
: คุณสามารถเลือกจากรุ่น openai ที่มีอยู่api_key
: เพิ่มคีย์ API ของคุณ (คีย์ API ของคุณจะไม่ได้รับการบันทึก ทุกครั้งที่คุณใช้โหนดนี้ คุณต้องป้อนด้วยตนเองmax_tokens
: เป็นพารามิเตอร์ที่จำกัดจำนวนโทเค็นในการตอบสนองของโมเดลใน OpenAI GPT API ใช้ในคำขอที่ส่งผ่าน GPT สำหรับชีตและเอกสาร และในคลาส ChatOpenAI() ค่าเริ่มต้นสำหรับ max_tokens คือ 4,096 โทเค็น ซึ่งเทียบเท่ากับ 3,000 คำโดยประมาณtemperature
: ควบคุมระดับของการสุ่มและความคิดสร้างสรรค์ในการตอบสนอง เป็นไฮเปอร์พารามิเตอร์ใน Large Language Models (LLM) ที่สร้างสมดุลระหว่างความคิดสร้างสรรค์และการเชื่อมโยงกันในข้อความที่สร้างขึ้น การตั้งค่าอุณหภูมิจะเป็นตัวเลขระหว่าง 0 ถึง 1 เสมอ โดยค่าเริ่มต้นคือ 0.7: 0: ให้ผลลัพธ์ที่ตรงไปตรงมาและเกือบจะกำหนดได้ 1: ผลลัพธ์ในการตอบสนองที่แตกต่างกันอย่างมาก 0.7: อุณหภูมิเริ่มต้นสำหรับ ChatGPTtimeout
: ตั้งเวลาหากคำขอใช้เวลานานเกินไปในการดำเนินการให้เสร็จสิ้นและเซิร์ฟเวอร์ปิดการเชื่อมต่อประเภทอินพุต:
image
: แสดงตัวอย่างการเสริมสำหรับมาส์กหน้าคุณสมบัติการเสริม DeepFuze:
face_mask_padding_left
: ปัดไปทางซ้ายบนใบหน้าขณะกำลังลิปซิงค์face_mask_padding_right
: เติมไปทางขวาบนใบหน้าขณะกำลังลิปซิงค์face_mask_padding_bottom
: เติมไปที่ด้านล่างของใบหน้าขณะกำลังลิปซิงค์face_mask_padding_top
: เติมไปด้านบนบนใบหน้าขณะกำลังลิปซิงค์โหนดนี้ใช้เพื่อบันทึกเอาต์พุตของโหนด "Voice Cloning" นอกจากนี้ คุณยังสามารถตัดเสียงและเล่นกลับได้
ประเภทอินพุต:
audio
: อินสแตนซ์ของข้อมูลเสียงที่โหลดคุณสมบัติการเสริม DeepFuze:
METADATA
: ข้อมูลเมตาต่อยstart_time
: ตัดแต่งเวลาเริ่มต้นend_time
: การตัดเวลาสิ้นสุดplayback window
: ให้ตัวเลือกการเล่น บันทึก และความเร็วในการเล่นการโคลนเสียง + การสร้าง Lipsync
การโคลนเสียง + การสร้าง Lipsync + FaceSwap
ComfyUI-DeepFuze/ ├── __init__.py ├── __pycache__/ │ ├── __init__.cpython-311.pyc │ ├── audio_playback.cpython-311.pyc │ ├── llm_node.cpython-311.pyc │ ├── nodes.cpython-311.pyc │ └── utils.cpython-311.pyc ├── audio_playback.py ├── deepfuze/ │ ├── __init__.py │ ├── audio.py │ ├── choices.py │ ├── common_helper.py │ ├── config.py │ ├── content_analyser.py │ ├── core.py │ ├── download.py │ ├── execution.py │ ├── face_analyser.py │ ├── face_helper.py │ ├── face_masker.py │ ├── face_store.py │ ├── ffmpeg.py │ ├── filesystem.py │ ├── globals.py │ ├── installer.py │ ├── logger.py │ ├── memory.py │ ├── metadata.py │ ├── normalizer.py │ ├── process_manager.py ├── requirements.txt ├── images/ ├── install.py ├── LICENSE.txt ├── llm_node.py ├── mypy.ini ├── nodes.py ├── README.md ├── requirements.txt ├── run.py ├── tests/ │ ├── __init__.py │ ├── test_audio.py │ ├── test_cli_face_debugger.py │ ├── test_cli_face_enhancer.py │ ├── test_cli_face_swapper.py │ ├── test_cli_frame_colorizer.py │ ├── test_cli_frame_enhancer.py │ ├── test_cli_lip_syncer.py │ ├── test_common_helper.py │ ├── test_config.py │ ├── test_download.py │ ├── test_execution.py │ ├── test_face_analyser.py │ ├── test_ffmpeg.py │ ├── test_filesystem.py │ ├── test_memory.py │ ├── test_normalizer.py │ ├── test_process_manager.py │ ├── test_vision.py │ └── test_wording.py ├── tts_generation.py └── utils.py
from deepfuze import DeepFuze
# Initialize the DeepFuze instance
deepfuze = DeepFuze ()
# Load video and audio files
deepfuze . load_video ( 'path/to/video.mp4' )
deepfuze . load_audio ( 'path/to/audio.mp3' )
deepfuze . load_checkpoint ( 'path/to/checkpoint_path' )
# Set parameters (optional)
deepfuze . set_parameters ( sync_level = 5 , transform_intensity = 3 )
# Generate lipsynced video
output_path = deepfuze . generate ( output = 'path/to/output.mp4' )
print ( f"Lipsynced video saved at { output_path } " )
พื้นที่เก็บข้อมูลนี้ไม่สามารถดำเนินการให้เสร็จสิ้นได้หากไม่ได้รับการสนับสนุนจาก FaceFusion, InsightFace,SadTalker, Facexlib, GFPGAN, GPEN, Real-ESRGAN, TTS, SSD และ wav2lip
รหัส DeepFuze ได้รับการพัฒนาโดย Dr. Sam Khoze และทีมงานของเขา คุณสามารถใช้โค้ด DeepFuze เพื่อวัตถุประสงค์ส่วนตัว การวิจัย วิชาการ และเชิงพาณิชย์ได้ตามต้องการ คุณสามารถสร้างวิดีโอด้วยเครื่องมือนี้ได้ แต่โปรดปฏิบัติตามกฎหมายท้องถิ่นและใช้อย่างมีความรับผิดชอบ นักพัฒนาจะไม่รับผิดชอบต่อการใช้งานเครื่องมือในทางที่ผิดโดยผู้ใช้