awesome colab notebooks
1.0.0
เพจอาจแสดงผลไม่ถูกต้อง กรุณาเปิดไฟล์ README.md โดยตรง
ที่เก็บ | เอกสาร |
---|---|
|
|
ชื่อ | คำอธิบาย | ผู้เขียน | ลิงค์ | การทำงานร่วมกัน | อัปเดต |
---|---|---|---|---|---|
CoTracker | สถาปัตยกรรมที่ร่วมกันติดตามหลายจุดตลอดทั้งวิดีโอ |
คนอื่น |
| 16.10.2024 | |
PIFU | ฟังก์ชันโดยนัยที่จัดแนวพิกเซลสำหรับการเปลี่ยนภาพมนุษย์แบบสวมเสื้อผ้าที่มีความละเอียดสูง |
| 08.10.2024 | ||
ดิฟเฟซ | วิธีการที่สามารถรับมือกับการย่อยสลายที่ซับซ้อนและมองไม่เห็นได้อย่างสวยงามยิ่งขึ้น โดยไม่ต้องมีการออกแบบการสูญเสียที่ซับซ้อน |
|
| 05.10.2024 | |
แบ่งส่วนอะไรก็ได้ที่ 2 | แบบจำลองพื้นฐานในการแก้ปัญหาการแบ่งส่วนภาพที่รวดเร็วในรูปภาพและวิดีโอ |
คนอื่น |
| 01.10.2024 | |
เปิด-Unmix | การใช้งานอ้างอิงเครือข่ายประสาทเชิงลึกสำหรับการแยกแหล่งเพลง ใช้ได้กับนักวิจัย วิศวกรด้านเสียง และศิลปิน |
|
| 25.09.2024 | |
การประสานกันของจิตรกรอย่างลึกซึ้ง | อัลกอริธึมให้ผลลัพธ์ที่ดีกว่าเทคนิคการจัดภาพหรือการจัดสไตล์ทั่วโลกอย่างเห็นได้ชัด และช่วยให้สามารถแก้ไขงานจิตรกรได้อย่างสร้างสรรค์ ซึ่งหากทำได้ยาก |
|
| 23.09.2024 | |
audio2photoreal | กรอบการทำงานสำหรับการสร้างอวตารที่สมจริงเหมือนจริงซึ่งแสดงท่าทางตามไดนามิกการสนทนาของการโต้ตอบแบบไดอะดิก |
คนอื่น |
| 13.09.2024 | |
แบ่งส่วนอย่างรวดเร็วอะไรก็ได้ | โมเดลอะไรก็ได้ของ CNN Segment ได้รับการฝึกฝนโดยใช้เพียง 2% ของชุดข้อมูล SA-1B ที่เผยแพร่โดยผู้เขียน SAM |
คนอื่น |
| 10.09.2024 | |
Neuralangelo | กรอบงานสำหรับการสร้างพื้นผิว 3 มิติที่มีความเที่ยงตรงสูงใหม่จากการจับภาพวิดีโอ RGB |
คนอื่น |
| 02.09.2024 | |
BiRefNet | กรอบอ้างอิงทวิภาคีสำหรับการแบ่งส่วนภาพแบบไดโคโตมัสที่มีความละเอียดสูง |
คนอื่น |
| 23.08.2024 | |
สปิน | การเรียนรู้ที่จะสร้างท่าทางและรูปร่างของมนุษย์ 3 มิติขึ้นมาใหม่ผ่านการสร้างแบบจำลองในลูป |
|
| 21.08.2024 | |
โยโลฟ10 | มุ่งหวังที่จะพัฒนาขอบเขตประสิทธิภาพและประสิทธิภาพของ YOLO จากทั้งสถาปัตยกรรมหลังการประมวลผลและสถาปัตยกรรมแบบจำลอง |
คนอื่น |
| 20.08.2024 | |
ข้อมูลจำเพาะ VQGAN | ควบคุมการสร้างเสียงด้วยภาพโดยการลดขนาดชุดข้อมูลการฝึกให้เหลือชุดเวกเตอร์ที่เป็นตัวแทน |
|
| 12.07.2024 | |
ภาพเหมือนแบบสด | เฟรมเวิร์กแอนิเมชั่นแนวตั้งที่ขับเคลื่อนด้วยวิดีโอโดยเน้นไปที่ลักษณะทั่วไปที่ดีขึ้น ความสามารถในการควบคุม และประสิทธิภาพสำหรับการใช้งานจริง |
คนอื่น |
| 10.07.2024 | |
สมเสร็จ | ติดตามจุดใดๆ ด้วยการเริ่มต้นต่อเฟรมและการปรับแต่งชั่วคราว |
คนอื่น |
| 05.07.2024 | |
Wav2Lip | ผู้เชี่ยวชาญด้านลิปซิงค์คือทุกสิ่งที่คุณต้องการสำหรับการพูดเพื่อสร้างริมฝีปากในป่า |
|
| 27.06.2024 | |
DeepLabCut | วิธีการที่มีประสิทธิภาพสำหรับการประมาณค่าท่าทางแบบไม่มีมาร์กเกอร์โดยอิงจากการเรียนรู้แบบถ่ายโอนด้วยโครงข่ายประสาทเทียมระดับลึกที่ให้ผลลัพธ์ที่ยอดเยี่ยมด้วยข้อมูลการฝึกที่น้อยที่สุด |
คนอื่น |
| 05.06.2024 | |
สระว่ายน้ำอดีต | MetaFormer คือสิ่งที่คุณต้องการสำหรับการมองเห็นจริงๆ |
คนอื่น |
| 01.06.2024 | |
เรื่องราวการแพร่กระจาย | วิธีการคำนวณการเอาใจใส่ตนเอง เรียกว่าการใส่ใจในตนเองที่สอดคล้องกัน ซึ่งช่วยเพิ่มความสอดคล้องกันอย่างมากระหว่างรูปภาพที่สร้างขึ้นและส่วนเสริมซึ่งใช้โมเดลข้อความเป็นรูปภาพที่อิงตามการแพร่กระจายที่ฝึกไว้ล่วงหน้าในลักษณะซีโร่ช็อต |
|
| 04.05.2024 | |
พูลลิด | การปรับแต่ง Pure และ Lightning ID ซึ่งเป็นวิธีการปรับแต่ง ID โดยไม่ต้องปรับแต่งสำหรับการสร้างข้อความเป็นรูปภาพ |
|
| 03.05.2024 | |
ฟิล์ม | อัลกอริธึมการแก้ไขเฟรมที่สังเคราะห์เฟรมกลางหลายเฟรมจากรูปภาพอินพุตสองภาพที่มีการเคลื่อนไหวขนาดใหญ่อยู่ระหว่างนั้น |
คนอื่น |
| 03.05.2024 | |
วอยซ์คราฟต์ | โทเค็นที่เติมโมเดลภาษาโคเดกแบบนิวรอล ซึ่งให้ประสิทธิภาพที่ล้ำสมัยทั้งในด้านการแก้ไขคำพูดและการอ่านออกเสียงข้อความแบบ Zero-shot บนหนังสือเสียง วิดีโอทางอินเทอร์เน็ต และพอดแคสต์ |
|
| 21.04.2024 | |
ซีเอสที | วิธีการถ่ายโอนวัสดุแบบซีโร่ช็อตไปยังวัตถุในภาพอินพุตโดยให้รูปภาพตัวอย่างวัสดุ |
|
| 16.04.2024 | |
InstantMesh | กรอบการส่งต่อสำหรับการสร้าง 3D mesh ทันทีจากภาพเดียว โดดเด่นด้วยคุณภาพการสร้างที่ล้ำสมัยและความสามารถในการปรับขนาดการฝึกอบรมที่สำคัญ |
คนอื่น |
| 16.04.2024 | |
อัลฟ่าพับ | การทำนายโครงสร้างโปรตีนที่แม่นยำสูง |
คนอื่น |
| 15.04.2024 | |
เวิร์สเชน | สถาปัตยกรรมสำหรับการสังเคราะห์ข้อความเป็นรูปภาพที่ผสมผสานประสิทธิภาพการแข่งขันเข้ากับความคุ้มทุนอย่างที่ไม่เคยมีมาก่อนสำหรับโมเดลการแพร่กระจายข้อความเป็นภาพขนาดใหญ่ |
| 06.04.2024 | ||
AQLM | การบีบอัดโมเดลภาษาขนาดใหญ่ขั้นสูงสุดผ่านการเพิ่มปริมาณ |
คนอื่น |
| 08.03.2024 | |
โยโลฟ9 | การเรียนรู้สิ่งที่คุณต้องการเรียนรู้โดยใช้ข้อมูลการไล่ระดับสีแบบตั้งโปรแกรมได้ |
|
| 05.03.2024 | |
องค์ประกอบ LoRA หลายตัว | LoRA Switch และ LoRA Composite มุ่งหวังที่จะก้าวข้ามเทคนิคแบบดั้งเดิมในแง่ของความแม่นยำและคุณภาพของภาพ โดยเฉพาะอย่างยิ่งในองค์ประกอบที่ซับซ้อน |
คนอื่น |
| 03.03.2024 | |
อมาเร็ตโต | การอนุมานหลายระดับและหลายรูปแบบของเครือข่ายการกำกับดูแลเพื่อระบุวงจรเซลล์และตัวขับเคลื่อนที่ใช้ร่วมกันและชัดเจนภายในและข้ามระบบทางชีววิทยาของโรคในมนุษย์ |
คนอื่น |
| 28.02.2024 | |
ลิด้า | เครื่องมือสำหรับสร้างการแสดงภาพข้อมูลและอินโฟกราฟิกที่ไม่เชื่อเรื่องไวยากรณ์ | วิคเตอร์ ดิเบีย |
| 06.02.2024 | |
ไวที | วิชันซิสเต็มทรานส์ฟอร์มเมอร์และสถาปัตยกรรม MLP-Mixer |
คนอื่น |
| 06.02.2024 | |
3D เคน เบิร์นส์ | การใช้งานอ้างอิงของเอฟเฟกต์ 3D Ken Burns จากภาพเดียวโดยใช้ PyTorch - เมื่อได้รับภาพอินพุตเดียว จะทำให้ภาพนิ่งนี้เคลื่อนไหวด้วยการสแกนกล้องเสมือนและซูมวัตถุตามการเคลื่อนไหวแบบพารัลแลกซ์ | มานูเอล โรเมโร | 24.01.2024 | ||
วัล-อี เอ็กซ์ | แบบจำลองภาษาตัวแปลงสัญญาณประสาทข้ามภาษาสำหรับการสังเคราะห์เสียงพูดข้ามภาษา |
คนอื่น |
| 19.01.2024 | |
โฟโต้เมคเกอร์ | วิธีสร้างข้อความเป็นรูปภาพส่วนบุคคลที่มีประสิทธิภาพ ซึ่งส่วนใหญ่จะเข้ารหัสรูปภาพ ID อินพุตจำนวนเท่าใดก็ได้ลงใน Stack ID ที่ฝังไว้เพื่อรักษาข้อมูล ID |
คนอื่น |
| 18.01.2024 | |
DDColor | วิธีการแบบ end-to-end พร้อมตัวถอดรหัสคู่สำหรับการปรับสีของภาพ |
คนอื่น |
| 15.01.2024 | |
พีเอสดี | เครือข่ายการแพร่กระจายที่เสถียรที่รับรู้พิกเซลเพื่อให้ได้ Real-ISR ที่แข็งแกร่งรวมถึงสไตล์ส่วนบุคคล |
|
| 12.01.2024 | |
HandRefiner | การปรับแต่งมือที่มีรูปแบบไม่ถูกต้องในภาพที่สร้างขึ้นโดยการวาดภาพแบบมีเงื่อนไขแบบกระจาย |
|
| 08.01.2024 | |
GraphCast | เรียนรู้การพยากรณ์อากาศทั่วโลกระยะกลางที่มีทักษะ |
คนอื่น |
| 04.01.2024 | |
อีเอสเอ็ม | การสร้างแบบจำลองขนาดเชิงวิวัฒนาการ: แบบจำลองภาษาที่ได้รับการฝึกอบรมล่วงหน้าสำหรับโปรตีน |
คนอื่น |
| 28.12.2023 | |
ลาวา | Large Language and Vision Assistant ซึ่งเป็นโมเดลต่อเนื่องขนาดใหญ่ที่ได้รับการฝึกอบรมแบบ end-to-end ที่เชื่อมต่อเครื่องเข้ารหัสการมองเห็นและ LLM เพื่อการทำความเข้าใจด้านภาพและภาษาทั่วไป |
|
| 22.12.2023 | |
การปูพื้นหลัง V2 | เทคนิคการเปลี่ยนพื้นหลังแบบเรียลไทม์ที่มีความละเอียดสูง ซึ่งทำงานที่ 30fps ในความละเอียด 4K และ 60fps สำหรับ HD บน GPU สมัยใหม่ |
คนอื่น |
| 22.12.2023 | |
การสาดแบบเกาส์เซียน | คุณภาพของภาพที่ล้ำสมัยในขณะที่ยังคงรักษาเวลาการฝึกซ้อมที่แข่งขันได้ และที่สำคัญช่วยให้สามารถสังเคราะห์มุมมองใหม่แบบเรียลไทม์คุณภาพสูง (≥ 100 fps) ที่ความละเอียด 1080p |
|
| 19.12.2023 | |
เอสเอ็มเพลอร์-X | ปรับขนาด EHPS สู่โมเดลพื้นฐานทั่วไปรุ่นแรก โดยมี ViT-Huge เป็นแกนหลักและการฝึกอบรมด้วยอินสแตนซ์สูงสุด 4.5M จากแหล่งข้อมูลที่หลากหลาย |
คนอื่น |
| 18.12.2023 | |
ดีพแคช | กระบวนทัศน์ที่ไม่ต้องฝึกอบรมซึ่งจะช่วยเร่งโมเดลการแพร่กระจายจากมุมมองของสถาปัตยกรรมโมเดล |
|
| 18.12.2023 | |
มายากลเคลื่อนไหว | เฟรมเวิร์กแบบกระจายที่มีจุดมุ่งหมายเพื่อเพิ่มความสอดคล้องชั่วคราว รักษาภาพอ้างอิงอย่างซื่อสัตย์ และปรับปรุงความเที่ยงตรงของแอนิเมชั่น |
คนอื่น |
| 18.12.2023 | |
ดิฟบีอาร์ | สู่การฟื้นฟูภาพคนตาบอดด้วย Generative Diffusion Prior |
คนอื่น |
| 18.12.2023 | |
เสียงLDM | ระบบแปลงข้อความเป็นเสียงที่สร้างขึ้นบนพื้นที่แฝงเพื่อเรียนรู้การนำเสนอเสียงอย่างต่อเนื่องจากแฝงการฝึกอบรมล่วงหน้าภาษาและเสียงที่ตัดกัน |
คนอื่น |
| 02.12.2023 | |
TabPFN | โครงข่ายประสาทเทียมที่เรียนรู้การทำนายข้อมูลแบบตาราง |
|
| 29.11.2023 | |
แถบเลื่อนแนวคิด | อะแดปเตอร์ระดับต่ำแบบ Plug-and-Play ใช้กับโมเดลที่ผ่านการฝึกอบรมมาแล้ว |
|
| 26.11.2023 | |
เคว่น-VL | ชุดโมเดลภาษาวิสัยทัศน์ขนาดใหญ่ที่ออกแบบมาเพื่อรับรู้และเข้าใจทั้งข้อความและรูปภาพ |
คนอื่น |
| 24.11.2023 | |
อะนิเมะGANv3 | เครือข่ายฝ่ายตรงข้ามกำเนิดแบบ Double-tail สำหรับแอนิเมชั่นภาพถ่ายที่รวดเร็ว |
|
| 23.11.2023 | |
อิธาก้า | เครือข่าย Deep Neural Network แห่งแรกสำหรับการฟื้นฟูข้อความ การระบุแหล่งที่มาทางภูมิศาสตร์และลำดับเวลาของจารึกกรีกโบราณ |
คนอื่น |
| 21.11.2023 | |
PixArt-Σ | การฝึกหม้อแปลงแบบกระจายจากน้อยไปมากสำหรับการสร้างข้อความเป็นภาพ 4K |
คนอื่น |
| 07.11.2023 | |
ซีโร่123++ | แบบจำลองการแพร่กระจายแบบปรับสภาพภาพสำหรับการสร้างภาพหลายมุมมองที่สอดคล้องกันแบบ 3 มิติจากมุมมองอินพุตเดียว |
คนอื่น |
| 26.10.2023 | |
ยูนิฟอร์เมอร์V2 | หม้อแปลงแบบครบวงจรเพื่อการเรียนรู้การเป็นตัวแทน Spatiotemporal ที่มีประสิทธิภาพ |
คนอื่น |
| 20.10.2023 | |
แสดง-1 | โมเดลไฮบริดซึ่งมีชื่อว่า Show-1 ซึ่งผสมผสาน VDM แบบอิงพิกเซลและแบบแฝงสำหรับการสร้างข้อความเป็นวิดีโอ |
คนอื่น |
| 15.10.2023 | |
เสียงก.ย | แบบจำลองพื้นฐานสำหรับการแยกแหล่งกำเนิดเสียงแบบโอเพ่นโดเมนด้วยการสืบค้นภาษาธรรมชาติ |
คนอื่น |
| 12.10.2023 | |
ดา-คลิป | โมเดลภาษาการมองเห็นที่รับรู้การเสื่อมสลายเพื่อถ่ายโอนแบบจำลองภาษาการมองเห็นที่ได้รับการฝึกไว้ล่วงหน้าไปยังงานการมองเห็นระดับต่ำได้ดียิ่งขึ้นในฐานะกรอบงานสากลสำหรับการฟื้นฟูภาพ |
|
| 11.10.2023 | |
เศร้าทอล์คเกอร์ | สร้างค่าสัมประสิทธิ์การเคลื่อนไหว 3 มิติของ 3DMM จากเสียง และปรับเปลี่ยนการเรนเดอร์ใบหน้าที่รับรู้ 3 มิติแบบใหม่โดยปริยายสำหรับการสร้างศีรษะที่พูดได้ |
คนอื่น |
| 10.10.2023 | |
มูสิกา | ระบบการสร้างเพลงที่สามารถฝึกฝนกับเพลงหลายร้อยชั่วโมงได้โดยใช้ GPU สำหรับผู้บริโภคเพียงตัวเดียว และช่วยให้สร้างเพลงได้เร็วกว่าการสร้างเพลงแบบเรียลไทม์ที่มีความยาวตามใจชอบบน CPU สำหรับผู้บริโภค |
|
| 09.10.2023 | |
โยโลฟ6 | กรอบงานการตรวจจับวัตถุขั้นตอนเดียวโดยเฉพาะสำหรับการใช้งานทางอุตสาหกรรม |
|
| 08.10.2023 | |
ดรีมเกาส์เซียน | อัลกอริทึมในการแปลง 3D Gaussians ให้เป็น textured mesh และใช้ขั้นตอนการปรับแต่งแบบละเอียดเพื่อปรับแต่งรายละเอียด |
|
| 04.10.2023 | |
ไอคอน | เมื่อกำหนดชุดรูปภาพ วิธีการจะประมาณพื้นผิว 3 มิติที่มีรายละเอียดจากแต่ละภาพ จากนั้นจึงรวมสิ่งเหล่านี้เข้าด้วยกันเป็นอวตารที่เคลื่อนไหวได้ |
|
| 31.08.2023 | |
ไดโนฟ2 | สร้างคุณลักษณะด้านภาพที่มีประสิทธิภาพสูงซึ่งสามารถนำมาใช้โดยตรงกับตัวแยกประเภทได้ง่ายเหมือนกับเลเยอร์เชิงเส้นในงานคอมพิวเตอร์วิทัศน์ที่หลากหลาย คุณลักษณะด้านภาพเหล่านี้มีประสิทธิภาพและทำงานได้ดีทั่วทั้งโดเมนโดยไม่มีข้อกำหนดในการปรับแต่งอย่างละเอียด |
คนอื่น |
| 31.08.2023 | |
นกฮูก-ViT | การตรวจจับวัตถุคำศัพท์เปิดอย่างง่ายด้วย Vision Transformers |
คนอื่น | 21.08.2023 | ||
สไตล์GAN3 | เครือข่ายฝ่ายตรงข้ามที่สร้างโดยปราศจากนามแฝง |
คนอื่น |
| 13.08.2023 | |
เฟทซีโร่ | วิธีการแก้ไขข้อความแบบ Zero-shot บนวิดีโอในโลกแห่งความเป็นจริง โดยไม่ต้องมีการฝึกอบรมหรือการใช้มาสก์แบบเฉพาะเจาะจง |
คนอื่น |
| 13.08.2023 | |
บิ๊กแกน | การฝึกอบรม GAN ขนาดใหญ่เพื่อการสังเคราะห์ภาพธรรมชาติที่มีความเที่ยงตรงสูง |
| 03.08.2023 | ||
ลามะ | การลงสีมาสก์ขนาดใหญ่ที่มีความละเอียดทนทานพร้อมฟูริเยร์คอนโวลูชั่น |
คนอื่น |
| 02.08.2023 | |
เมคอิททอล์ค | วิธีการสร้างวิดีโอหัวพูดที่แสดงออกถึงความรู้สึกจากภาพใบหน้าเดียวโดยมีเพียงเสียงเท่านั้น |
คนอื่น |
| 27.07.2023 | |
ไฮดีที | โมเดลภาพต่อภาพเชิงสร้างสรรค์และรูปแบบอัปแซมปลิงใหม่ที่ช่วยให้สามารถใช้การแปลภาพด้วยความละเอียดสูง |
|
| 24.07.2023 | |
คัตเลอร์ | วิธีการง่ายๆ สำหรับการฝึกอบรมแบบจำลองการตรวจจับวัตถุและการแบ่งส่วนแบบไม่มีผู้ดูแล |
|
| 24.07.2023 | |
รับรู้ทุกสิ่งและ Tag2Text | กรอบการฝึกอบรมก่อนการฝึกอบรมภาษาวิสัยทัศน์ ซึ่งแนะนำการแท็กรูปภาพในแบบจำลองภาษาวิสัยทัศน์เพื่อเป็นแนวทางในการเรียนรู้คุณลักษณะทางภาพและภาษา |
คนอื่น |
| 09.07.2023 | |
แบบจำลองการเคลื่อนที่แบบ Spline แบบแผ่นบาง | กรอบการถ่ายโอนการเคลื่อนไหวแบบไม่มีผู้ดูแลจากต้นทางถึงปลายทาง |
|
| 07.07.2023 | |
ลากแกน | ลาก GAN ของคุณ: การจัดการตามจุดเชิงโต้ตอบบน Generative Image Manifold |
คนอื่น |
| 03.07.2023 | |
อุปกรณ์เคลื่อนที่SAM | มุ่งสู่ Lightweight SAM สำหรับแอปพลิเคชันบนมือถือ |
คนอื่น |
| 30.06.2023 | |
การต่อสายดิน DINO | แต่งงานกับ DINO ด้วยการฝึกอบรมล่วงหน้าแบบมีสายดินสำหรับการตรวจจับวัตถุแบบเปิด |
คนอื่น |
| 28.06.2023 | |
T5X | กรอบงานแบบโมดูลาร์ที่ประกอบได้และเป็นมิตรกับการวิจัยสำหรับการฝึกอบรมแบบบริการตนเอง การประเมิน และการอนุมานที่มีประสิทธิภาพสูง กำหนดค่าได้ ในหลายระดับ |
คนอื่น |
| 27.06.2023 | |
โค้ดทอล์คเกอร์ | ส่งแอนิเมชั่นใบหน้าที่ขับเคลื่อนด้วยคำพูดเป็นงานสืบค้นโค้ดในพื้นที่พร็อกซีอันจำกัดของ Codebook ที่เรียนรู้ ซึ่งส่งเสริมความสดใสของการเคลื่อนไหวที่สร้างขึ้นอย่างมีประสิทธิภาพโดยการลดความไม่แน่นอนของการทำแผนที่ข้ามโมดัล |
คนอื่น |
| 16.06.2023 | |
โมเดลการเคลื่อนไหวอันดับหนึ่งสำหรับแอนิเมชั่นภาพ | ถ่ายโอนการเคลื่อนไหวใบหน้าจากวิดีโอไปยังรูปภาพ | อลิอัคซานเดอร์ เซียโรฮิน |
| 04.06.2023 | |
WaveGAN แบบขนาน | โมเดลที่ไม่ถดถอยอัตโนมัติล้ำสมัยเพื่อสร้างผู้ร้องที่ยอดเยี่ยมของคุณเอง | โทโมกิ ฮายาชิ |
| 01.06.2023 | |
เศรษฐกิจ | ออกแบบมาสำหรับ "การแปลงเป็นดิจิทัลของมนุษย์จากภาพสี" ซึ่งรวมคุณสมบัติที่ดีที่สุดของการนำเสนอโดยนัยและชัดเจน เพื่ออนุมานมนุษย์ที่สวมเสื้อผ้า 3 มิติที่มีความเที่ยงตรงสูงจากรูปภาพในป่า แม้จะสวมเสื้อผ้าหลวม ๆ หรือในท่าทางที่ท้าทาย |
|
| 31.05.2023 | |
เอ็มเอ็มเอส | โครงการ Massively Multilingual Speech ขยายเทคโนโลยีคำพูดจากประมาณ 100 ภาษาเป็นมากกว่า 1,000 ภาษาโดยการสร้างโมเดลการรู้จำเสียงพูดหลายภาษาเดียวที่รองรับมากกว่า 1,100 ภาษา โมเดลการระบุภาษาที่สามารถระบุภาษาได้มากกว่า 4,000 ภาษา โมเดลที่ผ่านการฝึกอบรมมาแล้วซึ่งรองรับมากกว่า 1,400 ภาษา และการแปลงข้อความเป็น โมเดลคำพูดมากกว่า 1,100 ภาษา |
คนอื่น |
| 26.05.2023 | |
เยี่ยม | Flow AIS Bootstrap ใช้ AIS เพื่อสร้างตัวอย่างในภูมิภาคที่การไหลใกล้เคียงกับเป้าหมายไม่ดี ช่วยให้ค้นพบโหมดใหม่ๆ ได้ง่ายขึ้น |
|
| 29.04.2023 | |
รหัสอดีต | เครือข่ายการคาดการณ์ที่ใช้หม้อแปลงไฟฟ้าเพื่อสร้างแบบจำลององค์ประกอบทั่วโลกและบริบทของใบหน้าคุณภาพต่ำสำหรับการทำนายโค้ด ทำให้สามารถค้นพบใบหน้าธรรมชาติที่ใกล้เคียงกับใบหน้าเป้าหมายได้อย่างใกล้ชิด แม้ว่าอินพุตจะถูกลดระดับลงอย่างรุนแรง |
|
| 21.04.2023 | |
Text2Video-ศูนย์ | โมเดลการแพร่กระจายข้อความเป็นภาพเป็นตัวสร้างวิดีโอแบบ Zero-Shot |
คนอื่น |
| 11.04.2023 | |
แบ่งส่วนอะไรก็ได้ | โมเดลอะไรก็ได้ของเซ็กเมนต์จะสร้างมาสก์วัตถุคุณภาพสูงจากข้อความแจ้งอินพุต เช่น จุดหรือกล่อง และสามารถใช้เพื่อสร้างมาสก์สำหรับวัตถุทั้งหมดในรูปภาพได้ |
คนอื่น |
| 10.04.2023 | |
ทำตามท่าของคุณ | รูปแบบการฝึกอบรมสองขั้นตอนที่สามารถใช้คู่ท่าทางรูปภาพและชุดข้อมูลวิดีโอที่ไม่มีท่าทางและโมเดลข้อความเป็นรูปภาพที่ได้รับการฝึกอบรมล่วงหน้าเพื่อให้ได้วิดีโอตัวละครที่ควบคุมท่าทางได้ |
คนอื่น |
| 07.04.2023 | |
อีวา3ดี | โมเดลกำเนิดมนุษย์ 3 มิติคุณภาพสูงแบบไม่มีเงื่อนไขซึ่งต้องการเพียงคอลเลกชันภาพ 2 มิติสำหรับการฝึกอบรม |
|
| 06.04.2023 | |
ดรีมฟิวชั่นที่เสถียร | การใช้แบบจำลองการแพร่กระจายข้อความเป็นภาพ 2 มิติที่ได้รับการฝึกล่วงหน้าเพื่อทำการสังเคราะห์ข้อความเป็น 3 มิติ |
|
| 04.04.2023 | |
PIFUHD | ฟังก์ชันโดยนัยที่จัดแนวพิกเซลหลายระดับสำหรับการแปลงเป็นดิจิทัลของมนุษย์ 3 มิติที่มีความละเอียดสูง |
|
| 26.03.2023 | |
วิดีโอรีทอล์คกิ้ง | ระบบสำหรับแก้ไขใบหน้าของวิดีโอหัวพูดในโลกแห่งความเป็นจริงตามเสียงอินพุต ทำให้เกิดวิดีโอเอาท์พุตคุณภาพสูงและลิปซิงค์แม้จะมีอารมณ์ที่แตกต่างกัน |
คนอื่น |
| 19.03.2023 | |
Visual ChatGPT | เชื่อมต่อ ChatGPT และชุด Visual Foundation Models เพื่อเปิดใช้งานการส่งและรับภาพระหว่างการสนทนา |
คนอื่น |
| 15.03.2023 | |
ปรับแต่ง-A-Video | การปรับแต่ง One-Shot ของโมเดลการแพร่กระจายภาพสำหรับการสร้างข้อความเป็นวิดีโอ |
คนอื่น |
| 23.02.2023 | |
จีเพน | เครือข่ายฝังตัว GAN Prior สำหรับการฟื้นฟูใบหน้าคนตาบอดในป่า |
|
| 15.02.2023 | |
PyMAF-X | วิธีการแบบ Egression ในการกู้คืนโมเดลตัวเต็มแบบพาราเมตริกจากภาพตาข้างเดียว |
คนอื่น |
| 14.02.2023 | |
การแพร่กระจายของดิสโก้ | การรวมสมุดบันทึก แบบจำลอง และเทคนิคแบบแฟรงเกนสไตเนียนสำหรับการสร้างงานศิลปะและแอนิเมชัน AI |
|
| 11.02.2023 | |
GrooVAE | แอปพลิเคชันบางอย่างของการเรียนรู้ของเครื่องเพื่อสร้างและจัดการจังหวะและการแสดงกลอง |
|
| 02.02.2023 | |
มัลติแทร็ก MusicVAE | รุ่นในสมุดบันทึกนี้สามารถเข้ารหัสและถอดรหัสหน่วยวัดเดี่ยวได้สูงสุด 8 แทร็ก โดยสามารถเลือกปรับเงื่อนไขบนคอร์ดพื้นฐานได้ |
คนอื่น |
| 02.02.2023 | |
ดนตรีVAE | แบบจำลองเวกเตอร์แฝงแบบลำดับชั้นสำหรับการเรียนรู้โครงสร้างระยะยาวทางดนตรี |
|
| 02.02.2023 | |
การเรียนรู้การทาสี | การเรียนรู้การระบายสีด้วยการเรียนรู้การเสริมแรงเชิงลึกตามแบบจำลอง | มานูเอล โรเมโร | 01.02.2023 | ||
ทันที NGP | ดั้งเดิมกราฟิกประสาททันทีพร้อมการเข้ารหัสแฮชแบบหลายความละเอียด |
|
| 18.01.2023 | |
เครือข่ายฟีเจอร์ฟูริเยร์ | คุณสมบัติฟูริเยร์ช่วยให้เครือข่ายเรียนรู้ฟังก์ชันความถี่สูงในโดเมนขนาดต่ำ |
คนอื่น |
| 17.01.2023 | |
อัลฟ่าโพส | การประมาณค่าท่าโพสแบบหลายบุคคลในระดับภูมิภาคทั่วร่างกายและการติดตามแบบเรียลไทม์ |
คนอื่น |
| 07.01.2023 | |
ไฮบริดไอเค | โซลูชันจลนศาสตร์แบบผกผันเชิงวิเคราะห์-ประสาทแบบไฮบริดสำหรับการประมาณท่าทางและการประมาณรูปร่างของมนุษย์แบบ 3 มิติ |
คนอื่น |
| 01.01.2023 | |
คะแนนการผูกมัดจาโคเบียน | ใช้กฎลูกโซ่กับการไล่ระดับสีที่เรียนรู้ และเผยแพร่คะแนนของแบบจำลองการแพร่กระจายกลับผ่านจาโคเบียนของตัวเรนเดอร์ที่สร้างความแตกต่างได้ ซึ่งเราสร้างอินสแตนซ์ให้เป็นสนามรัศมีว็อกเซล |
|
| 05.12.2022 | |
เดมัคส์ | ไฮบริดสเปกโตรแกรมและการแยกแหล่งกำเนิดสัญญาณรูปคลื่น | อเล็กซองดร์ เดฟอสเซซ |
| 21.11.2022 | |
สไตล์คลิป | การจัดการกับข้อความของ StyleGAN Imager |
|
| 30.10.2022 | |
โมชั่นกระจาย | เฟรมเวิร์กการสร้างการเคลื่อนไหวที่ขับเคลื่อนด้วยข้อความตามแบบจำลองการแพร่กระจายครั้งแรก ซึ่งแสดงคุณสมบัติที่ต้องการหลายประการเหนือวิธีการที่มีอยู่ |
คนอื่น |
| 13.10.2022 | |
VToonify | ใช้ประโยชน์จากเลเยอร์ระดับกลางและความละเอียดสูงของ StyleGAN เพื่อแสดงภาพบุคคลเชิงศิลปะคุณภาพสูงโดยอิงตามคุณสมบัติเนื้อหาหลายขนาดที่แยกโดยตัวเข้ารหัสเพื่อรักษารายละเอียดของเฟรมได้ดียิ่งขึ้น |
|
| 07.10.2022 | |
PyMAF | Pyramidal Mesh Alignment Feedback loop ในเครือข่าย regression สำหรับการกู้คืน body mesh ที่ได้รับการจัดตำแหน่งอย่างดี และขยายออกไปสำหรับการกู้คืนโมเดลเต็มตัวที่แสดงออกอย่างชัดเจน |
คนอื่น |
| 06.10.2022 | |
อัลฟ่าเทนเซอร์ | การค้นพบอัลกอริธึมการคูณเมทริกซ์ที่เร็วขึ้นด้วยการเรียนรู้แบบเสริมกำลัง |
คนอื่น |
| 04.10.2022 | |
สวิน2เอสอาร์ | Novel Swin Transformer V2 เพื่อปรับปรุง SwinIR สำหรับภาพที่มีความละเอียดสูงเป็นพิเศษ และโดยเฉพาะอย่างยิ่งสถานการณ์อินพุตที่ถูกบีบอัด |
|
| 03.10.2022 | |
ฟังก์ต้า | จากข้อมูลสู่ฟังก์ชัน: จุดข้อมูลของคุณคือฟังก์ชัน และคุณสามารถปฏิบัติต่อมันได้เหมือนเป็นฟังก์ชันเดียว |
|
| 24.09.2022 | |
กระซิบ | ระบบรู้จำเสียงพูดอัตโนมัติที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลหลายภาษาและหลายงานที่ได้รับการดูแลจากเว็บเป็นเวลา 680,000 ชั่วโมง |
คนอื่น |
| 21.09.2022 | |
ยกเลิกการทำให้เก่า (วิดีโอ) | เติมสีสันให้วิดีโอของคุณเอง! | เจสัน แอนติค |
| 19.09.2022 | |
ยกเลิกความเก่า (ภาพ) | เติมสีสันให้ภาพถ่ายของคุณเอง! |
|
| 19.09.2022 | |
จริง-ESRGAN | ขยาย ESRGAN อันทรงพลังไปสู่แอปพลิเคชันการกู้คืนที่ใช้งานได้จริง ซึ่งได้รับการฝึกฝนด้วยข้อมูลสังเคราะห์แท้ |
|
| 18.09.2022 | |
IDE-3D | การแก้ไขแบบแยกส่วนเชิงโต้ตอบสำหรับการสังเคราะห์ภาพบุคคล 3D ที่มีความละเอียดสูง |
คนอื่น |
| 08.09.2022 | |
หม้อแปลงการตัดสินใจ | สถาปัตยกรรมที่ทอดทิ้งปัญหาของ RL เป็นรูปแบบลำดับแบบมีเงื่อนไข
ขยาย
ข้อมูลเพิ่มเติม
แอปที่เกี่ยวข้อง
แนะนำสำหรับคุณ
ข้อมูลที่เกี่ยวข้อง
ทั้งหมด
|