คอลเลกชันการศึกษาการสร้างข้อความเป็นรูปภาพ
พื้นที่เก็บข้อมูล GitHub นี้สรุปเอกสารและทรัพยากรที่เกี่ยวข้องกับงานการสร้างข้อความเป็นรูปภาพ (T2I)
บันทึก
เอกสารนี้ทำหน้าที่เป็น homepage
ของ repo GitHub ทั้งหมด เอกสารต่างๆ ได้รับการสรุปตาม ทิศทางการวิจัยต่างๆ ปีที่ตีพิมพ์ และการประชุมต่างๆ
ส่วน topics
จะสรุปบทความที่เกี่ยวข้องอย่างมากกับการสร้าง T2I ตามคุณสมบัติที่แตกต่างกัน เช่น ข้อกำหนดเบื้องต้นของการสร้าง T2I แบบจำลองการแพร่กระจายด้วยเทคนิคอื่น ๆ (เช่น Diffusion Transformer, LLMs, Mamba ฯลฯ) และแบบจำลองการแพร่กระจายสำหรับงานอื่น ๆ
หากคุณมีข้อเสนอแนะเกี่ยวกับพื้นที่เก็บข้อมูลนี้ โปรดอย่าลังเลที่จะเริ่มปัญหาใหม่หรือดึงคำขอ
ข่าวล่าสุดของ repo GitHub นี้มีดังนี้
[พ.ย. 19] เราได้เผยแพร่รายงานล่าสุดของเราในชื่อ "StableV2V: ความเสถียรของรูปร่างในการตัดต่อวิดีโอสู่วิดีโอ" พร้อมด้วยโค้ดที่เกี่ยวข้อง น้ำหนักโมเดล และเกณฑ์มาตรฐานการทดสอบ DAVIS-Edit
แบบโอเพ่นซอร์ส อย่าลังเลที่จะตรวจสอบพวกเขาจากลิงค์!
คลิกเพื่อดูข้อมูลเพิ่มเติม
- [เม.ย. 26] อัปเดตหัวข้อใหม่: โมเดลการแพร่กระจายพบกับการเรียนรู้แบบสหพันธรัฐ ดูส่วน
topics
เพื่อดูรายละเอียดเพิ่มเติม! - [มี.ค. 28] ประกาศรายชื่อกระดาษ AAAI 2024 อย่างเป็นทางการแล้ว! เวอร์ชันอย่างเป็นทางการของ PDF และการอ้างอิง BibTeX ได้รับการอัปเดตตามนั้น
- [มี.ค. วันที่ 21] ส่วน
topics
ได้รับการอัปเดตแล้ว ส่วนนี้มีจุดมุ่งหมายเพื่อเสนอ รายการกระดาษที่สรุปตามคุณสมบัติอื่นๆ ของแบบจำลองการแพร่กระจาย เช่น วิธีการที่ใช้หม้อแปลงกระจาย แบบจำลองการแพร่กระจายสำหรับ NLP แบบจำลองการแพร่กระจายที่บูรณาการกับ LLM เป็นต้น การอ้างอิงที่เกี่ยวข้องของเอกสารเหล่านี้ยังสรุปไว้ใน reference.bib
ด้วย reference.bib
เปื้อน - [มี.ค. 7th] เอกสารและข้อมูลอ้างอิง CVPR, ICLR และ AAAI 2024 ที่มีอยู่ทั้งหมดได้รับการอัปเดต
- [มี.ค. อันดับ 1] สรุปเว็บไซต์ของผลิตภัณฑ์และ ชุดเครื่องมือ สร้างข้อความเป็นรูปภาพที่มีจำหน่ายทั่วไป
สารบัญ
- สินค้า
- รายการที่ต้องทำ
- เอกสาร
- เอกสารการสำรวจ
- การสร้างข้อความเป็นรูปภาพ
- ปี 2567
- ปี 2566
- ปี 2565
- ปี 2564
- ปี 2563
- การสร้างข้อความเป็นรูปภาพแบบมีเงื่อนไข
- การสร้างข้อความเป็นรูปภาพในแบบของคุณ
- การแก้ไขรูปภาพพร้อมข้อความแนะนำ
- การสร้างภาพข้อความ
- ชุดข้อมูล
- ชุดเครื่องมือ
- ถามตอบ
- อ้างอิง
- ประวัติดารา
รายการที่ต้องทำ
- เอกสารตีพิมพ์ในการประชุม
- การบำรุงรักษากระดาษ Preprint arXiv และกระดาษที่ขาดหายไปเป็นประจำ
<กลับสู่ด้านบน>
สินค้า
ชื่อ | ปี | เว็บไซต์ | ความเชี่ยวชาญพิเศษ |
---|
การแพร่กระจายที่เสถียร 3 | 2024 | ลิงค์ | การแพร่กระจายที่เสถียรบนพื้นฐานการแพร่กระจายของหม้อแปลง |
วิดีโอที่เสถียร | 2024 | ลิงค์ | ภาพความละเอียดสูงคุณภาพสูง |
ดัล-อี 3 | 2023 | ลิงค์ | ทำงานร่วมกับ ChatGPT |
อุดมคติ | 2023 | ลิงค์ | รูปภาพข้อความ |
สนามเด็กเล่น | 2023 | ลิงค์ | ภาพที่สวยงาม |
HiDream.ai | 2023 | ลิงค์ | - |
แดชตูน | 2023 | ลิงค์ | การสร้างข้อความเป็นการ์ตูน |
ไง | 2023 | ลิงค์ | WHEE เป็นเครื่องมือสร้าง AI ออนไลน์ ซึ่งสามารถนำไปใช้กับ การสร้าง T2I, การสร้าง I2I, SR, การลงสี, การลงสีภายนอก, การเปลี่ยนแปลงรูปภาพ, การทดลองเสมือนจริง ฯลฯ |
เวก้า เอไอ | 2023 | ลิงค์ | Vega AI เป็นเครื่องมือสร้าง AI ออนไลน์ ซึ่งสามารถนำไปใช้กับ การสร้าง T2I, การสร้าง I2I, SR, การสร้าง T2V, การสร้าง I2V ฯลฯ |
อู๋เจี๋ย เอไอ | 2022 | ลิงค์ | ชื่อภาษาจีนคือ "无界AI" ซึ่งนำเสนอทรัพยากร AIGC และบริการออนไลน์ |
กลางการเดินทาง | 2022 | ลิงค์ | เครื่องมือสร้างจากแหล่งใกล้อันทรงพลัง |
<กลับสู่ด้านบน>
เอกสาร
เอกสารการสำรวจ
- การสร้างข้อความเป็นรูปภาพ
- ปี 2567
- แบบสำรวจคอมพิวเตอร์ ACM
- แบบจำลองการแพร่กระจาย: การสำรวจวิธีการและการประยุกต์อย่างครอบคลุม [เอกสาร]
- ปี 2566
- ทีปามิ
- แบบจำลองการแพร่กระจายในวิสัยทัศน์: แบบสำรวจ [กระดาษ] [รหัส]
- อาร์เอ็กซ์
- โมเดลการแพร่กระจายข้อความเป็นรูปภาพใน Generative AI: แบบสำรวจ [กระดาษ]
- ความล้ำสมัยของแบบจำลองการแพร่กระจายสำหรับคอมพิวเตอร์เชิงภาพ [กระดาษ]
- ปี 2565
- อาร์เอ็กซ์
- แบบจำลองการแพร่กระจายที่มีประสิทธิภาพสำหรับการมองเห็น: แบบสำรวจ [กระดาษ]
- การสร้างข้อความเป็นรูปภาพแบบมีเงื่อนไข
- ปี 2567
- อาร์เอ็กซ์
- การสร้างที่ควบคุมได้ด้วยโมเดลการแพร่กระจายข้อความเป็นรูปภาพ: แบบสำรวจ [กระดาษ]
- การแก้ไขรูปภาพพร้อมข้อความแนะนำ
- ปี 2567
- อาร์เอ็กซ์
- การแก้ไขภาพตามแบบจำลองการแพร่กระจาย: แบบสำรวจ [กระดาษ] [รหัส]
<กลับสู่ด้านบน>
การสร้างข้อความเป็นรูปภาพ
- ปี 2567
- ซีวีพีอาร์
- DistriFusion: การอนุมานแบบขนานแบบกระจายสำหรับโมเดลการแพร่กระจายความละเอียดสูง [กระดาษ] [รหัส]
- InstanceDiffusion: การควบคุมระดับอินสแตนซ์สำหรับการสร้างอิมเมจ [กระดาษ] [โค้ด] [โปรเจ็กต์]
- ECLIPSE: การแปลงข้อความเป็นรูปภาพที่มีประสิทธิภาพทรัพยากรก่อนสำหรับการสร้างรูปภาพ [กระดาษ] [รหัส] [โครงการ] [สาธิต]
- Instruct-Imagen: การสร้างอิมเมจพร้อมคำสั่งหลายรูปแบบ [กระดาษ]
- การเรียนรู้คำศัพท์ 3 มิติอย่างต่อเนื่องสำหรับการสร้างข้อความเป็นภาพ [กระดาษ] [รหัส]
- HanDiffuser: การสร้างข้อความเป็นรูปภาพด้วยลักษณะมือที่สมจริง [กระดาษ]
- เสียงตอบรับจากมนุษย์มากมายสำหรับการสร้างข้อความเป็นรูปภาพ [กระดาษ]
- MarkovGen: การทำนายแบบมีโครงสร้างสำหรับการสร้างข้อความเป็นรูปภาพอย่างมีประสิทธิภาพ [กระดาษ]
- ตัวช่วยปรับแต่งสำหรับการสร้างข้อความเป็นรูปภาพ [กระดาษ]
- ADI: การเรียนรู้ตัวระบุที่ไม่พันกันสำหรับการสร้างข้อความเป็นรูปภาพที่ปรับแต่งตามการดำเนินการ [กระดาษ] [โครงการ]
- UFOGen: คุณส่งต่อการสร้างข้อความเป็นรูปภาพขนาดใหญ่ผ่าน Diffusion GANs [กระดาษ]
- ทิศทางแฝงในการแพร่กระจายที่สามารถค้นพบได้ด้วยตนเองสำหรับการสร้างข้อความเป็นภาพที่มีความรับผิดชอบ [กระดาษ]
- วิสัยทัศน์ที่ปรับแต่ง: ปรับปรุงการสร้างข้อความเป็นรูปภาพด้วยการเขียนใหม่พร้อมท์ส่วนบุคคล [กระดาษ] [รหัส]
- CoDi: การกลั่นแบบกระจายแบบมีเงื่อนไขเพื่อความเที่ยงตรงสูงและการสร้างภาพที่เร็วขึ้น [กระดาษ] [รหัส] [โครงการ] [สาธิต]
- การสร้างภาพตามอำเภอใจและการสุ่มตัวอย่างโดยใช้แบบจำลองการแพร่กระจายแฝงและตัวถอดรหัสประสาทโดยนัย [กระดาษ]
- สู่การใช้งานอย่างมีประสิทธิผลของลำดับความสำคัญที่มีมนุษย์เป็นศูนย์กลางในแบบจำลองการแพร่กระจายสำหรับการสร้างภาพมนุษย์โดยใช้ข้อความ [กระดาษ]
- ElasticDiffusion: การสร้างภาพขนาดตามอำเภอใจโดยไม่ต้องฝึกอบรม [กระดาษ] [รหัส] [โครงการ] [สาธิต]
- CosmicMan: แบบจำลองพื้นฐานการแปลงข้อความเป็นรูปภาพสำหรับมนุษย์ [กระดาษ] [รหัส] [โครงการ]
- PanFusion: การควบคุมการแพร่กระจายที่เสถียรสำหรับข้อความถึงการสร้างภาพพาโนรามา 360° [กระดาษ] [โค้ด] [โปรเจ็กต์]
- กริมม์อัจฉริยะ: การเล่าเรื่องด้วยภาพปลายเปิดผ่านโมเดลการแพร่กระจายแฝง [กระดาษ] [รหัส] [โครงการ]
- เรื่องความสามารถในการปรับขนาดของการสร้างข้อความเป็นภาพโดยใช้การแพร่กระจาย [กระดาษ]
- MuLAn: ชุดข้อมูลที่มีคำอธิบายประกอบหลายชั้นสำหรับการสร้างข้อความเป็นภาพที่ควบคุมได้ [กระดาษ] [โครงการ] [ชุดข้อมูล]
- การเรียนรู้การตั้งค่าของมนุษย์หลายมิติสำหรับการสร้างข้อความเป็นรูปภาพ [กระดาษ]
- การเพิ่มประสิทธิภาพพรอมต์แบบไดนามิกสำหรับการสร้างข้อความเป็นรูปภาพ [กระดาษ]
- การฝึกอบรมแบบจำลองการแพร่กระจายไปสู่การสร้างภาพที่หลากหลายด้วยการเรียนรู้แบบเสริมกำลัง [กระดาษ]
- ข้อความที่ขัดแย้งกันเพื่อสร้างภาพต่อเนื่อง [กระดาษ] [โครงการ] [วิดีโอ]
- EmoGen: การสร้างเนื้อหาภาพทางอารมณ์ด้วยโมเดลการแพร่กระจายข้อความเป็นภาพ [กระดาษ] [รหัส]
- อีซีซีวี
- การเชื่อมโยงโมเดลภาษาที่แตกต่างกันและโมเดลการมองเห็นเชิงสร้างสรรค์สำหรับการสร้างข้อความเป็นรูปภาพ [กระดาษ] [รหัส] [โครงการ]
- การสำรวจการต่อสายดินระดับวลีด้วยโมเดลการแพร่กระจายข้อความเป็นภาพ [กระดาษ] [โค้ด]
- ทำให้ถูกต้อง: การปรับปรุงความสอดคล้องเชิงพื้นที่ในโมเดลข้อความเป็นรูปภาพ [กระดาษ] [รหัส] [โครงการ]
- การนำทางอคติในการสร้างข้อความเป็นภาพข้ามภาษาอินเดีย [กระดาษ] [โครงการ]
- ปกป้องโมเดลการแพร่กระจายของข้อความเป็นรูปภาพด้วยการผกผันผลตอบรับของมนุษย์ [กระดาษ]
- การประดิษฐ์ความเป็นจริงและแฟนตาซี: การสร้างฉากด้วยการตีความพร้อมท์แบบช่วยเหลือ LLM [กระดาษ] [รหัส] [โครงการ] [ชุดข้อมูล]
- การลบแนวคิดที่เชื่อถือได้และมีประสิทธิภาพของโมเดลการแพร่กระจายข้อความเป็นภาพ [กระดาษ] [รหัส]
- การสำรวจการต่อสายดินระดับวลีด้วยโมเดลการแพร่กระจายข้อความเป็นภาพ [กระดาษ] [โค้ด]
- StyleTokenizer: การกำหนดสไตล์ของภาพด้วยอินสแตนซ์เดียวสำหรับการควบคุมโมเดลการแพร่กระจาย [กระดาษ] [รหัส]
- PEA-Diffusion: อะแดปเตอร์ที่มีประสิทธิภาพพารามิเตอร์พร้อมการกลั่นความรู้ในการสร้างข้อความเป็นรูปภาพที่ไม่ใช่ภาษาอังกฤษ [กระดาษ] [รหัส]
- ความเบ้ในพื้นที่ปรากฏการณ์ขัดขวางการวางนัยทั่วไปในการสร้างข้อความเป็นรูปภาพ [กระดาษ] [รหัส]
- Parrot: กรอบการเรียนรู้การเสริมแรงหลายรางวัลที่เหมาะสมที่สุดของ Pareto สำหรับการสร้างข้อความเป็นรูปภาพ [กระดาษ]
- การเชื่อมโยงโมเดลภาษาที่แตกต่างกันและโมเดลการมองเห็นเชิงสร้างสรรค์สำหรับการสร้างข้อความเป็นรูปภาพ [กระดาษ] [รหัส] [โครงการ]
- MobileDiffusion: การสร้างข้อความเป็นภาพทันทีบนอุปกรณ์เคลื่อนที่ [กระดาษ]
- PixArt-Σ: การฝึกอบรม Diffusion Transformer จากน้อยไปมากสำหรับการสร้างข้อความเป็นภาพ 4K [กระดาษ] [โค้ด] [โครงการ]
- CogView3: การสร้างข้อความเป็นรูปภาพที่ละเอียดและเร็วขึ้นผ่านการแพร่กระจายของรีเลย์ [กระดาษ] [รหัส]
- ไอซีแอลอาร์
- โมเดลการแพร่กระจาย Denoising แบบแพตช์สำหรับการสังเคราะห์ภาพความละเอียดสูง [กระดาษ] [โค้ด]
- Relay Diffusion: รวมกระบวนการแพร่กระจายข้ามความละเอียดเพื่อการสังเคราะห์ภาพ [กระดาษ] [รหัส]
- SDXL: การปรับปรุงแบบจำลองการแพร่กระจายแฝงสำหรับการสังเคราะห์ภาพความละเอียดสูง [กระดาษ] [รหัส]
- เขียนและพิชิต: การสังเคราะห์ภาพที่รับรู้ความลึกแบบ 3 มิติโดยใช้การแพร่กระจาย [กระดาษ] [โค้ด]
- PixArt-α: การฝึกอบรมอย่างรวดเร็วของ Diffusion Transformer สำหรับการสังเคราะห์ข้อความเป็นภาพเสมือนจริง [กระดาษ] [โค้ด] [โครงการ] [สาธิต]
- ซิกกราฟ
- RGB↔X: การสลายตัวและการสังเคราะห์ภาพโดยใช้แบบจำลองการแพร่กระจายที่คำนึงถึงวัสดุและแสงสว่าง [กระดาษ] [โครงการ]
- AAAI
- การเพิ่มข้อมูลการรับรู้ความหมายสำหรับการสังเคราะห์ข้อความเป็นภาพ [กระดาษ]
- การสร้างข้อความเป็นรูปภาพสำหรับแนวคิดเชิงนามธรรม [กระดาษ]
- อาร์เอ็กซ์
- การปรับแต่งแบบจำลองการแพร่กระจายอย่างละเอียดด้วยตนเองสำหรับการสร้างข้อความเป็นภาพ [กระดาษ]
- RPG: การเรียนรู้การแพร่กระจายข้อความเป็นภาพ: การสรุป การวางแผน และการสร้างด้วย Multimodal LLMs [กระดาษ] [รหัส]
- Playground v2.5: ข้อมูลเชิงลึกสามประการในการปรับปรุงคุณภาพสุนทรียภาพในการสร้างข้อความเป็นรูปภาพ [กระดาษ] [โค้ด]
- ResAdapter: อะแดปเตอร์ความละเอียดที่สม่ำเสมอของโดเมนสำหรับโมเดลการแพร่กระจาย [กระดาษ] [รหัส] [โครงการ]
- InstantID: การสร้างการรักษาเอกลักษณ์แบบ Zero-shot ในไม่กี่วินาที [กระดาษ] [รหัส] [โครงการ] [สาธิต]
- PIXART-δ: การสร้างภาพที่รวดเร็วและควบคุมได้ด้วยโมเดลความสม่ำเสมอแฝง [กระดาษ] [โค้ด]
- ELLA: ติดตั้งแบบจำลองการแพร่กระจายด้วย LLM สำหรับการจัดตำแหน่งความหมายขั้นสูง [กระดาษ] [รหัส] [โครงการ]
- Text2Street: การสร้างข้อความเป็นภาพที่ควบคุมได้สำหรับ Street View [กระดาษ]
- LayerDiffuse: การแพร่กระจายของเลเยอร์ภาพที่โปร่งใสโดยใช้ความโปร่งใสแฝง [กระดาษ] [รหัส]
- SD3-Turbo: การสังเคราะห์ภาพที่มีความละเอียดสูงอย่างรวดเร็วพร้อมการกลั่นแบบกระจายฝ่ายตรงข้ามที่แฝงอยู่ [กระดาษ]
- StreamMultiDiffusion: การสร้างการโต้ตอบแบบเรียลไทม์พร้อมการควบคุมความหมายตามภูมิภาค [กระดาษ] [รหัส]
- SVGDreamer: การสร้าง SVG แบบมีข้อความแนะนำพร้อมโมเดลการแพร่กระจาย [กระดาษ] [รหัส] [โครงการ]
- PromptCharm: การสร้างข้อความเป็นรูปภาพผ่านการแจ้งและการปรับแต่งหลายรูปแบบ [กระดาษ]
- YOSO: คุณสุ่มตัวอย่างเพียงครั้งเดียว: ฝึกฝนการสังเคราะห์ข้อความเป็นรูปภาพในขั้นตอนเดียวโดย GANs แบบกระจายความร่วมมือด้วยตนเอง [กระดาษ] [รหัส]
- SingDiffusion: การแก้ปัญหาภาวะเอกฐานที่จุดสิ้นสุดของช่วงเวลาในแบบจำลองการแพร่กระจาย [กระดาษ] [รหัส]
- CoMat: การจัดแนวโมเดลการแพร่กระจายข้อความเป็นภาพด้วยการจับคู่แนวคิดภาพเป็นข้อความ [กระดาษ] [รหัส] [โครงการ]
- StoryDiffusion: การเอาใจใส่ตนเองอย่างสม่ำเสมอสำหรับการสร้างภาพและวิดีโอระยะไกล [กระดาษ] [รหัส] [โครงการ] [สาธิต]
- อะแดปเตอร์ใบหน้าสำหรับโมเดลการแพร่กระจายที่ได้รับการฝึกอบรมล่วงหน้าพร้อม ID แบบละเอียดและการควบคุมคุณสมบัติ [กระดาษ] [โครงการ]
- LinFusion: 1 GPU, 1 นาที, รูปภาพ 16K [กระดาษ] [โค้ด] [โปรเจ็กต์] [สาธิต]
- OmniGen: การสร้างภาพแบบครบวงจร [กระดาษ] [รหัส]
- CoMPaSS: การเพิ่มความเข้าใจเชิงพื้นที่ในโมเดลการแพร่กระจายข้อความเป็นรูปภาพ [กระดาษ] [โค้ด]
- คนอื่น
- น้ำตกที่เสถียร [บล็อก] [รหัส]
<กลับสู่ด้านบน>
- ปี 2566
- ซีวีพีอาร์
- GigaGAN: การขยายขนาด GAN สำหรับการสังเคราะห์ข้อความเป็นรูปภาพ [กระดาษ] [รหัสที่ทำซ้ำ] [โครงการ] [วิดีโอ]
- ERNIE-ViLG 2.0: การปรับปรุงโมเดลการแพร่กระจายของข้อความเป็นรูปภาพด้วยการผสมผสานความรู้ของผู้เชี่ยวชาญด้านการลดเสียงรบกวน [กระดาษ]
- การแพร่กระจายแบบเลื่อนสำหรับการสร้างข้อความเป็นภาพ [กระดาษ] [รหัส]
- GALIP: Generative Adversarial CLIPs สำหรับการสังเคราะห์ข้อความเป็นรูปภาพ [กระดาษ] [รหัส]
- การแพร่กระจายของผู้เชี่ยวชาญ: การปรับแต่งตัวอย่างอย่างละเอียดแบบ Plug-and-Play ของโมเดลการแพร่กระจายของข้อความเป็นรูปภาพเพื่อเรียนรู้สไตล์ที่มองไม่เห็น [กระดาษ] [รหัส]
- สู่การประเมินโดยมนุษย์ที่ตรวจสอบได้และทำซ้ำได้สำหรับการสร้างข้อความเป็นรูปภาพ [กระดาษ]
- RIATIG: การสร้างข้อความเป็นรูปภาพของฝ่ายตรงข้ามที่เชื่อถือได้และมองไม่เห็นพร้อมการแจ้งเตือนที่เป็นธรรมชาติ [กระดาษ] [รหัส]
- ไอซีซีวี
- DiffFit: ปลดล็อคความสามารถในการถ่ายโอนของโมเดลการแพร่กระจายขนาดใหญ่ผ่านการปรับแต่งพารามิเตอร์อย่างง่ายและมีประสิทธิภาพ [กระดาษ] [รหัส] [สาธิต]
- ประสาทไอพีเอส
- ImageReward: การเรียนรู้และการประเมินความชอบของมนุษย์สำหรับการสร้างข้อความเป็นรูปภาพ [กระดาษ] [รหัส]
- RAPHAEL : การสร้างข้อความเป็นภาพผ่านการผสมผสานขนาดใหญ่ของเส้นทางการแพร่กระจาย [กระดาษ] [โครงการ]
- การผูกมัดทางภาษาในแบบจำลองการแพร่กระจาย: การปรับปรุงความสอดคล้องของคุณลักษณะผ่านการจัดตำแหน่งแผนที่ความสนใจ [กระดาษ] [รหัส]
- DenseDiffusion: การสร้างข้อความเป็นรูปภาพหนาแน่นพร้อมการปรับความสนใจ [กระดาษ] [รหัส]
- ไอซีแอลอาร์
- คำแนะนำการแพร่กระจายที่มีโครงสร้างแบบไม่มีการฝึกอบรมสำหรับการสังเคราะห์ข้อความเป็นภาพเชิงองค์ประกอบ [กระดาษ] [รหัส]
- ไอซีเอ็มแอล
- StyleGAN-T: ปลดล็อกพลังของ GAN เพื่อการสังเคราะห์ข้อความเป็นรูปภาพขนาดใหญ่อย่างรวดเร็ว [กระดาษ] [รหัส] [โครงการ] [วิดีโอ]
- Muse: การสร้างข้อความเป็นรูปภาพผ่าน Masked Generative Transformers [กระดาษ] [รหัสที่ทำซ้ำ] [โครงการ]
- UniDiffusers: หม้อแปลงหนึ่งตัวเหมาะกับการกระจายทั้งหมดใน Multi-Modal Diffusion at Scale [กระดาษ] [รหัส]
- พลอากาศเอก เอ็ม
- อะแดปเตอร์ SUR: การปรับปรุงโมเดลการแพร่กระจายข้อความเป็นรูปภาพที่ผ่านการฝึกอบรมล่วงหน้าด้วยโมเดลภาษาขนาดใหญ่ [กระดาษ] [รหัส]
- ControlStyle: การสร้างภาพที่มีสไตล์ด้วยข้อความโดยใช้ Diffusion Priors [กระดาษ]
- ซิกกราฟ
- เข้าร่วมและตื่นเต้น: คำแนะนำความหมายตามความสนใจสำหรับโมเดลการแพร่กระจายข้อความเป็นภาพ [กระดาษ] [รหัส] [โครงการ] [สาธิต]
- อาร์เอ็กซ์
- P+: การปรับเงื่อนไขข้อความเพิ่มเติมในการสร้างข้อความเป็นรูปภาพ [กระดาษ]
- SDXL-Turbo: การกลั่นแบบกระจายแบบตรงข้าม [กระดาษ] [รหัส]
- Wuerstchen: สถาปัตยกรรมที่มีประสิทธิภาพสำหรับโมเดลการแพร่กระจายข้อความเป็นภาพขนาดใหญ่ [กระดาษ] [โค้ด]
- StreamDiffusion: โซลูชันระดับไปป์ไลน์สำหรับการสร้างการโต้ตอบแบบเรียลไทม์ [กระดาษ] [โครงการ]
- ParaDiffusion: การสร้างย่อหน้าเป็นภาพด้วยโมเดลการแพร่กระจายที่เสริมข้อมูล [กระดาษ] [รหัส]
- คนอื่น
- DALL-E 3: การปรับปรุงการสร้างภาพด้วยคำบรรยายภาพที่ดีขึ้น [กระดาษ]
<กลับสู่ด้านบน>
- ปี 2565
- ซีวีพีอาร์
- การแพร่กระจายที่เสถียร: การสังเคราะห์ภาพความละเอียดสูงด้วยแบบจำลองการแพร่กระจายแบบแฝง [กระดาษ] [รหัส] [โครงการ]
- แบบจำลองการแพร่กระจายเชิงปริมาณเวกเตอร์สำหรับการสังเคราะห์ข้อความเป็นภาพ [กระดาษ] [รหัส]
- DF-GAN: เส้นฐานที่ง่ายและมีประสิทธิภาพสำหรับการสังเคราะห์ข้อความเป็นรูปภาพ [กระดาษ] [รหัส]
- LAFITE: สู่การฝึกอบรมแบบไม่ใช้ภาษาสำหรับการสร้างข้อความเป็นรูปภาพ [กระดาษ] [โค้ด]
- การสังเคราะห์ข้อความเป็นรูปภาพโดยใช้หม้อแปลงถอดรหัสร่วมแบบ Object-Guided [กระดาษ]
- StyleT2I: สู่การสังเคราะห์ข้อความเป็นรูปภาพที่มีองค์ประกอบและความเที่ยงตรงสูง [กระดาษ] [โค้ด]
- อีซีซีวี
- Make-A-Scene: การสร้างข้อความเป็นรูปภาพตามฉากด้วย Human Priors [กระดาษ] [โค้ด] [สาธิต]
- ติดตามข้อความที่ควบคุมการสร้างภาพ [กระดาษ]
- ปรับปรุงการสร้างภาพมาสก์ด้วย Token-Critic [กระดาษ]
- VQGAN-CLIP: การสร้างและการจัดการอิมเมจของโดเมนแบบเปิดโดยใช้ภาษาธรรมชาติ [กระดาษ] [โค้ด]
- TISE: ถุงเมตริกสำหรับการประเมินการสังเคราะห์ข้อความเป็นรูปภาพ [กระดาษ] [รหัส]
- StoryDALL-E: การปรับหม้อแปลงแปลงข้อความเป็นรูปภาพที่ได้รับการฝึกมาล่วงหน้าเพื่อความต่อเนื่องของเรื่องราว [กระดาษ] [โค้ด] [สาธิต]
- ประสาทไอพีเอส
- CogView2: การสร้างข้อความเป็นรูปภาพที่รวดเร็วและดีขึ้นผ่าน Transformers แบบลำดับชั้น [กระดาษ] [รหัส]
- Imagen: โมเดลการแพร่กระจายข้อความเป็นรูปภาพเสมือนจริงพร้อมความเข้าใจภาษาเชิงลึก [กระดาษ] [รหัสที่ทำซ้ำ] [โครงการ] [ Imagen 2 ]
- พลอากาศเอก เอ็ม
- Adma-GAN: GANs ที่ขับเคลื่อนด้วยคุณสมบัติที่ขับเคลื่อนด้วยคุณสมบัติสำหรับการสร้างข้อความเป็นรูปภาพ [กระดาษ] [รหัส]
- การสร้างเค้าโครงพื้นหลังและการถ่ายโอนความรู้เกี่ยวกับวัตถุสำหรับการสร้างข้อความเป็นรูปภาพ [กระดาษ]
- DSE-GAN: เครือข่ายฝ่ายตรงข้ามที่สร้างวิวัฒนาการความหมายแบบไดนามิกสำหรับการสร้างข้อความเป็นรูปภาพ [กระดาษ]
- AtHom: ความสนใจที่แตกต่างกันสองประการที่ถูกกระตุ้นโดยการฝึกอบรม Homomorphic ในการสังเคราะห์ข้อความเป็นรูปภาพ [กระดาษ]
- อาร์เอ็กซ์
- DALLE-2: การสร้างภาพข้อความแบบมีเงื่อนไขแบบลำดับชั้นด้วย CLIP Latents [กระดาษ]
- PITI: การฝึกอบรมล่วงหน้าคือสิ่งที่คุณต้องการสำหรับการแปลภาพเป็นภาพ [กระดาษ] [โค้ด]
<กลับสู่ด้านบน>
- ปี 2564
- ไอซีซีวี
- DAE-GAN: GAN แบบรับรู้มุมมองแบบไดนามิกสำหรับการสังเคราะห์ข้อความเป็นรูปภาพ [กระดาษ] [รหัส]
- ประสาทไอพีเอส
- CogView: การเรียนรู้การสร้างข้อความเป็นรูปภาพผ่าน Transformers [Paper] [Code] [Demo]
- UFC-BERT: การรวมการควบคุมแบบหลายโมดัลเพื่อการสังเคราะห์ภาพแบบมีเงื่อนไข [กระดาษ]
- ไอซีเอ็มแอล
- DALLE-1: การสร้างข้อความเป็นภาพแบบ Zero-Shot [กระดาษ] [รหัสที่ทำซ้ำ]
- พลอากาศเอก เอ็ม
- GAN ผกผันที่สอดคล้องตามวงจรสำหรับการสังเคราะห์ข้อความเป็นรูปภาพ [กระดาษ]
- R-GAN: การสำรวจวิธีที่เหมือนมนุษย์เพื่อการสังเคราะห์ข้อความเป็นรูปภาพที่สมเหตุสมผลผ่านเครือข่าย Generative Adversarial Networks [กระดาษ]
<กลับสู่ด้านบน>
- ปี 2563
- พลอากาศเอก เอ็ม
- การสังเคราะห์ข้อความเป็นรูปภาพผ่านเลย์เอาต์ที่สวยงาม [กระดาษ]
<กลับสู่ด้านบน>
การสร้างข้อความเป็นรูปภาพแบบมีเงื่อนไข
- ปี 2567
- ซีวีพีอาร์
- สถานที่: Adaptive Layout-Semantic Fusion สำหรับการสังเคราะห์ภาพความหมาย [กระดาษ]
- การสังเคราะห์ภาพที่มีสไตล์ด้วยการรับรู้โครงสร้างช็อตเดียว [กระดาษ]
- การสังเคราะห์ข้อความเป็นรูปภาพที่มีพื้นฐานพร้อมการปรับโฟกัสใหม่ [กระดาษ] [รหัส] [โครงการ] [สาธิต]
- การแพร่กระจายแฝงแบบหยาบถึงละเอียดสำหรับการสังเคราะห์ภาพบุคคลที่นำทางด้วยท่าทาง [กระดาษ] [รหัส]
- DetDiffusion: การประสานแบบจำลองการสร้างและการรับรู้เพื่อการสร้างข้อมูลและการรับรู้ที่ได้รับการปรับปรุง [กระดาษ]
- CAN: โครงข่ายประสาทเทียมแบบรับรู้เงื่อนไขสำหรับการสร้างภาพที่ควบคุม [กระดาษ]
- SceneDiffusion: ย้ายทุกสิ่งด้วย Layered Scene Diffusion [กระดาษ]
- Zero-Painter: การควบคุมเค้าโครงที่ไม่ต้องฝึกอบรมสำหรับการสังเคราะห์ข้อความเป็นรูปภาพ [กระดาษ] [โค้ด]
- MIGC: ตัวควบคุมการสร้างอินสแตนซ์หลายอินสแตนซ์สำหรับการสังเคราะห์ข้อความเป็นรูปภาพ [กระดาษ] [รหัส] [โครงการ]
- FreeControl: การควบคุมเชิงพื้นที่ของโมเดลการแพร่กระจายจากข้อความเป็นรูปภาพโดยไม่ต้องมีการฝึกอบรมใดๆ ในทุกสภาวะ [กระดาษ] [รหัส] [โครงการ]
- อีซีซีวี
- PreciseControl: การปรับปรุงโมเดลการแพร่กระจายของข้อความเป็นรูปภาพด้วยการควบคุมแอตทริบิวต์แบบละเอียด [กระดาษ] [รหัส] [โครงการ]
- AnyControl: สร้างงานศิลปะของคุณด้วยการควบคุมที่หลากหลายในการสร้างข้อความเป็นรูปภาพ [กระดาษ] [รหัส]
- ไอซีแอลอาร์
- การสังเคราะห์ภาพแบบ Pose-Guided ที่ล้ำหน้าด้วยแบบจำลองการแพร่กระจายแบบมีเงื่อนไขแบบก้าวหน้า [กระดาษ] [โค้ด]
- WACV
- การควบคุมเลย์เอาต์ที่ไม่ต้องฝึกอบรมพร้อมคำแนะนำแบบเน้นความสนใจ [กระดาษ] [รหัส] [โครงการ] [สาธิต]
- AAAI
- SSMG: โมเดลการแพร่กระจายด้วยแผนที่เชิงพื้นที่และความหมายสำหรับการสร้างเค้าโครงเป็นภาพในรูปแบบอิสระ [กระดาษ]
- การสังเคราะห์ข้อความเป็นภาพเชิงองค์ประกอบพร้อมการควบคุมแผนที่ความสนใจของโมเดลการแพร่กระจาย [กระดาษ] [รหัส]
- อาร์เอ็กซ์
- DEADiff: โมเดลการแพร่กระจายของสไตไลเซชันที่มีประสิทธิภาพพร้อมการนำเสนอที่ไม่พันกัน [กระดาษ]
- InstantStyle: อาหารกลางวันฟรีสู่การรักษาสไตล์ในการสร้างข้อความเป็นรูปภาพ [กระดาษ] [รหัส] [โครงการ]
- ControlNet++: การปรับปรุงการควบคุมแบบมีเงื่อนไขพร้อมผลตอบรับที่สม่ำเสมออย่างมีประสิทธิภาพ [เอกสาร] [โครงการ]
- Hunyuan-DiT: หม้อแปลงกระจายแสงหลายความละเอียดอันทรงพลังพร้อมความเข้าใจภาษาจีนแบบละเอียด [กระดาษ] [รหัส] [โครงการ]
- DialogGen: ระบบบทสนทนาเชิงโต้ตอบหลายรูปแบบสำหรับการสร้างข้อความเป็นรูปภาพแบบหลายเลี้ยว [กระดาษ] [รหัส] [โครงการ]
- ControlNeXt: การควบคุมที่ทรงพลังและมีประสิทธิภาพสำหรับการสร้างรูปภาพและวิดีโอ [กระดาษ] [รหัส] [โครงการ]
- UniPortrait: กรอบงานแบบครบวงจรสำหรับการรักษาเอกลักษณ์ของภาพบุคคลเดี่ยวและหลายภาพส่วนบุคคล [กระดาษ] [รหัส] [โครงการ] [สาธิต]
- OmniControl: การควบคุมขั้นต่ำและเป็นสากลสำหรับหม้อแปลงกระจาย [กระดาษ] [รหัส] [สาธิต]
- UnZipLoRA: การแยกเนื้อหาและสไตล์ออกจากภาพเดียว [กระดาษ] [โครงการ]
- CtrLoRA: กรอบงานที่ขยายได้และมีประสิทธิภาพสำหรับการสร้างภาพที่ควบคุมได้ [กระดาษ] [โค้ด]
- การสร้างข้อความเป็นรูปภาพแบบรับรู้ภูมิภาคผ่านการเย็บเล่มแบบแข็งและการปรับแต่งแบบอ่อน [กระดาษ] [รหัส]
<กลับสู่ด้านบน>
- ปี 2566
- ซีวีพีอาร์
- GLIGEN: การสร้างข้อความเป็นรูปภาพแบบกราวด์แบบเปิดชุด [กระดาษ] [รหัส] [โครงการ] [สาธิต] [วิดีโอ]
- การสร้างภาพแบบถดถอยอัตโนมัติโดยใช้การหาปริมาณที่เหลือ [กระดาษ] [รหัส]
- SpaText: การแสดงข้อความเชิงพื้นที่สำหรับการสร้างภาพที่ควบคุมได้ [กระดาษ] [โครงการ] [วิดีโอ]
- การสร้างข้อความเป็นรูปภาพด้วย Semantic-Spatial Aware GAN [กระดาษ]
- ReCo: การสร้างข้อความเป็นภาพที่ควบคุมตามภูมิภาค [กระดาษ] [รหัส]
- LayoutDiffusion: โมเดลการแพร่กระจายที่ควบคุมได้สำหรับการสร้างเค้าโครงเป็นภาพ [กระดาษ] [รหัส]
- ไอซีซีวี
- ControlNet: การเพิ่มการควบคุมแบบมีเงื่อนไขให้กับโมเดลการแพร่กระจายข้อความเป็นรูปภาพ [กระดาษ] [รหัส]
- SceneGenie: แบบจำลองการแพร่กระจายด้วยกราฟฉากสำหรับการสังเคราะห์ภาพ [กระดาษ] [โค้ด]
- ZestGuide: การปรับเค้าโครงเชิงพื้นที่แบบ Zero-Shot สำหรับโมเดลการแพร่กระจายข้อความเป็นภาพ [กระดาษ]
- ไอซีเอ็มแอล
- ผู้แต่ง: การสังเคราะห์ภาพที่สร้างสรรค์และควบคุมได้ด้วยเงื่อนไขที่สามารถประกอบได้ [กระดาษ] [โค้ด] [โปรเจ็กต์]
- MultiDiffusion: การหลอมรวมเส้นทางการแพร่กระจายสำหรับการสร้างภาพที่ควบคุม [กระดาษ] [รหัส] [วิดีโอ] [โครงการ] [สาธิต]
- ซิกกราฟ
- โมเดลการแพร่กระจายข้อความเป็นรูปภาพพร้อมคำแนะนำแบบร่าง [กระดาษ] [โค้ดที่ทำซ้ำ] [โครงการ]
- ประสาทไอพีเอส
- Uni-ControlNet: การควบคุมแบบออลอินวันสำหรับโมเดลการแพร่กระจายข้อความเป็นรูปภาพ [กระดาษ] [รหัส] [โครงการ]
- การแพร่กระจายอย่างรวดเร็ว: การเรียนรู้ในบริบทถูกปลดล็อคสำหรับแบบจำลองการแพร่กระจาย [กระดาษ] [รหัส] [โครงการ]
- WACV
- ควบคุมเพิ่มเติมได้ฟรี! การสังเคราะห์ภาพด้วยคำแนะนำการแพร่กระจายความหมาย [กระดาษ]
- พลอากาศเอก เอ็ม
- LayoutLLM-T2I: การดึงคำแนะนำเค้าโครงจาก LLM สำหรับการสร้างข้อความเป็นรูปภาพ [กระดาษ]
- อาร์เอ็กซ์
- T2I-Adapter: อะแดปเตอร์การเรียนรู้เพื่อค้นหาความสามารถในการควบคุมเพิ่มเติมสำหรับโมเดลการแพร่กระจายของข้อความเป็นรูปภาพ [กระดาษ] [โค้ด] [สาธิต]
- BLIP-Diffusion: การนำเสนอหัวข้อที่ได้รับการฝึกอบรมล่วงหน้าสำหรับการสร้างและการแก้ไขข้อความเป็นรูปภาพที่ควบคุมได้ [กระดาษ] [รหัส]
- คำแนะนำการแพร่กระจายที่มีข้อจำกัดล่าช้าสำหรับการสังเคราะห์ภาพที่ควบคุมได้ [กระดาษ] [รหัส]
- ปี 2565
- ไอซีแอลอาร์
- SDEdit: การสังเคราะห์และการแก้ไขภาพที่แนะนำด้วยสมการเชิงอนุพันธ์สุ่ม [กระดาษ] [รหัส] [โครงการ]
<กลับสู่ด้านบน>
การสร้างข้อความเป็นรูปภาพในแบบของคุณ
- ปี 2567
- ซีวีพีอาร์
- การเริ่มต้นข้ามสำหรับการสร้างข้อความเป็นรูปภาพส่วนบุคคล [กระดาษ]
- เมื่อ StyleGAN พบกับการกระจายที่เสถียร: อะแดปเตอร์ W+ สำหรับการสร้างภาพส่วนบุคคล [กระดาษ] [โค้ด] [โปรเจ็กต์]
- การสร้างภาพที่จัดรูปแบบโดยอาศัยความสนใจร่วมกัน [กระดาษ] [รหัส] [โครงการ]
- InstantBooth: การสร้างข้อความเป็นรูปภาพส่วนบุคคลโดยไม่ต้องปรับแต่งเวลาทดสอบอย่างละเอียด [กระดาษ] [โครงการ]
- การสังเคราะห์ตามภาพโดยเน้นบุคคลเป็นศูนย์กลางความเที่ยงตรงสูง [กระดาษ]
- RealCustom: การจำกัดคำข้อความจริงให้แคบลงสำหรับการปรับแต่งข้อความเป็นรูปภาพโดเมนแบบเปิดแบบเรียลไทม์ [กระดาษ] [โครงการ]
- DisenDiff: การปรับเทียบความสนใจสำหรับการปรับแต่งข้อความเป็นรูปภาพที่ไม่พันกัน [กระดาษ] [รหัส]
- FreeCustom: การสร้างภาพแบบกำหนดเองที่ปรับแต่งได้ฟรีสำหรับองค์ประกอบหลายแนวคิด [กระดาษ] [โค้ด] [โปรเจ็กต์]
- ส่วนที่เหลือส่วนบุคคลสำหรับการสร้างข้อความเป็นรูปภาพที่ขับเคลื่อนด้วยแนวคิด [กระดาษ]
- การปรับปรุงการสังเคราะห์ภาพที่ขับเคลื่อนด้วยเป้าหมายด้วยการแนะแนวผู้ไม่เชื่อเรื่องพระเจ้า [กระดาษ]
- JeDi: โมเดลการแพร่กระจายภาพร่วมสำหรับการสร้างข้อความเป็นภาพส่วนบุคคลที่ปรับแต่งได้ฟรี [กระดาษ]
- การตอบโต้การสร้างข้อความเป็นรูปภาพส่วนบุคคลด้วยลายน้ำที่มีอิทธิพล [กระดาษ]
- อีซีซีวี
- เป็นตัวของตัวเอง: ความสนใจที่มีขอบเขตสำหรับการสร้างข้อความเป็นรูปภาพหลายหัวข้อ [กระดาษ] [โครงการ]
- ทรงพลังและยืดหยุ่น: การสร้างข้อความเป็นรูปภาพส่วนบุคคลผ่านการเรียนรู้แบบเสริมกำลัง [กระดาษ] [รหัส]
- TIGC: การปรับแต่งรูปภาพโดยไม่ต้องปรับแต่งด้วยคำแนะนำรูปภาพและข้อความ [กระดาษ] [โค้ด] [โปรเจ็กต์]
- MasterWeaver: ฝึกฝนการแก้ไขและการระบุตัวตนของใบหน้าสำหรับการสร้างข้อความเป็นรูปภาพส่วนบุคคล [กระดาษ] [รหัส] [โครงการ]
- AAAI
- การฝังข้อความแบบแยกส่วนสำหรับการสร้างภาพแบบกำหนดเอง [กระดาษ]
- อาร์เอ็กซ์
- FlashFace: การปรับแต่งภาพบุคคลด้วยการรักษาเอกลักษณ์ความเที่ยงตรงสูง [กระดาษ] [รหัส] [โครงการ]
- MoMA: อะแดปเตอร์ Multimodal LLM สำหรับการสร้างภาพส่วนบุคคลอย่างรวดเร็ว [กระดาษ]
- IDAdapter: การเรียนรู้คุณสมบัติแบบผสมสำหรับการปรับแต่งโมเดลข้อความเป็นรูปภาพในแบบของคุณโดยไม่เสียค่าใช้จ่าย [กระดาษ]
- CoRe: การเรียนรู้การฝังข้อความตามบริบทสำหรับการปรับเปลี่ยนข้อความเป็นรูปภาพ [กระดาษ]
- ลองนึกภาพตัวคุณเอง: การสร้างภาพส่วนบุคคลที่ปรับแต่งได้ฟรี [กระดาษ] [โครงการ]
- ปี 2566
- ซีวีพีอาร์
- การแพร่กระจายแบบกำหนดเอง: การปรับแต่งหลายแนวคิดของการแพร่กระจายข้อความเป็นภาพ [กระดาษ] [รหัส] [โครงการ]
- DreamBooth: การปรับแต่งโมเดลการแพร่กระจายข้อความเป็นรูปภาพอย่างละเอียดสำหรับรุ่นที่ขับเคลื่อนด้วยหัวเรื่อง [กระดาษ] [รหัส] [โครงการ]
- ไอซีซีวี
- ELITE: การเข้ารหัสแนวคิดเชิงภาพเป็นการฝังข้อความสำหรับการสร้างข้อความเป็นรูปภาพแบบกำหนดเอง [กระดาษ] [รหัส]
- ไอซีแอลอาร์
- การกลับข้อความ: รูปภาพมีค่าเพียงคำเดียว: การปรับแต่งการสร้างข้อความเป็นรูปภาพโดยใช้การกลับข้อความ [กระดาษ] [รหัส] [โครงการ]
- ซิกกราฟ
- แตกฉาก: แยกแนวคิดหลายรายการออกจากภาพเดียว [กระดาษ] [โค้ด]
- การปรับแต่งโดเมนที่ใช้ตัวเข้ารหัสเพื่อการปรับเปลี่ยนโมเดลข้อความเป็นรูปภาพให้เป็นส่วนตัวอย่างรวดเร็ว [กระดาษ] [โครงการ]
- LayerDiffusion: การแก้ไขภาพที่ควบคุมแบบเลเยอร์ด้วยแบบจำลองการแพร่กระจาย [กระดาษ]
- อาร์เอ็กซ์
- DreamTuner: ภาพเดียวก็เพียงพอแล้วสำหรับรุ่นที่ขับเคลื่อนด้วยหัวเรื่อง [กระดาษ] [โปรเจ็กต์]
- PhotoMaker: ปรับแต่งภาพถ่ายมนุษย์ที่สมจริงผ่านการฝัง ID แบบเรียงซ้อน [กระดาษ] [รหัส]
- อะแดปเตอร์ IP: อะแดปเตอร์พร้อมท์รูปภาพที่รองรับข้อความสำหรับโมเดลการแพร่กระจายข้อความเป็นรูปภาพ [กระดาษ] [รหัส] [โครงการ]
- FastComposer: การปรับแต่งการสร้างภาพหลายเรื่องโดยปราศจากการปรับแต่งพร้อมความสนใจเฉพาะที่ [กระดาษ] [รหัส]
<กลับสู่ด้านบน>
การแก้ไขรูปภาพพร้อมข้อความแนะนำ
- ปี 2567
- ซีวีพีอาร์
- InfEdit: การแก้ไขภาพที่ไม่มีการผกผันด้วยภาษาธรรมชาติ [กระดาษ] [รหัส] [โครงการ]
- สู่การทำความเข้าใจข้ามและการใส่ใจในตนเองในการแพร่กระจายที่เสถียรสำหรับการแก้ไขรูปภาพโดยใช้ข้อความ [กระดาษ]
- การอนุมานที่ขัดต่อข้อเท็จจริงแบบแอบแฝงเป็นทวีคูณสำหรับการแก้ไขรูปภาพแบบข้อความ [กระดาษ] [รหัส]
- มุ่งเน้นไปที่คำสั่งของคุณ: การแก้ไขรูปภาพที่มีรายละเอียดละเอียดและหลายคำสั่งโดย Attention Modulation [กระดาษ] [รหัส]
- คะแนนการลดสัญญาณรบกวนที่ตัดกันสำหรับการแก้ไขรูปภาพการแพร่กระจายแฝงที่นำทางด้วยข้อความ [กระดาษ]
- DragDiffusion: ควบคุมโมเดลการแพร่กระจายสำหรับการแก้ไขรูปภาพตามจุดเชิงโต้ตอบ [กระดาษ] [รหัส]
- DiffEditor: เพิ่มความแม่นยำและความยืดหยุ่นในการแก้ไขรูปภาพแบบกระจาย [กระดาษ]
- FreeDrag: การลากคุณสมบัติเพื่อการแก้ไขรูปภาพตามจุดที่เชื่อถือได้ [กระดาษ] [โค้ด]
- การแก้ไขภาพที่ขับเคลื่อนด้วยข้อความผ่านขอบเขตการเรียนรู้ [กระดาษ] [โค้ด] [โปรเจ็กต์] [วิดีโอ]
- LEDITS++: การแก้ไขภาพที่ไร้ขีดจำกัดโดยใช้โมเดลการแปลงข้อความเป็นรูปภาพ [กระดาษ] [โค้ด] [โปรเจ็กต์] [สาธิต]
- SmartEdit: สำรวจการแก้ไขรูปภาพตามคำสั่งที่ซับซ้อนด้วยโมเดลภาษาขนาดใหญ่ [กระดาษ] [โค้ด] [โปรเจ็กต์]
- แก้ไขหนึ่งเดียวสำหรับทั้งหมด: การแก้ไขภาพเป็นกลุ่มแบบโต้ตอบ [กระดาษ] [รหัส] [โครงการ]
- DiffMorpher: ปลดปล่อยความสามารถของแบบจำลองการแพร่กระจายสำหรับการปรับแต่งภาพ [กระดาษ] [รหัส] [โครงการ] [สาธิต]
- TiNO-Edit: การปรับเวลาและสัญญาณรบกวนให้เหมาะสมสำหรับการแก้ไขภาพที่เน้นการกระจายอย่างทนทาน [กระดาษ] [รหัส]
- บุคคลในสถานที่: การสร้างแผนที่เชื่อมโยงโครงกระดูก-คำแนะนำสำหรับการแก้ไขภาพปฏิสัมพันธ์ระหว่างมนุษย์และวัตถุ [กระดาษ] [โครงการ] [รหัส]
- การแก้ไขรูปภาพอ้างอิง: การแก้ไขรูปภาพระดับวัตถุผ่านนิพจน์อ้างอิง [กระดาษ]
- การเพิ่มอย่างรวดเร็วสำหรับการจัดการรูปภาพที่มีข้อความแนะนำด้วยตนเอง [กระดาษ]
- ปีศาจอยู่ในรายละเอียด: StyleFeatureEditor สำหรับการกลับด้าน StyleGAN ที่มีรายละเอียดสูงและการแก้ไขภาพคุณภาพสูง [กระดาษ] [รหัส]
- อีซีซีวี
- RegionDrag: การแก้ไขภาพตามภูมิภาคอย่างรวดเร็วด้วย Diffusion Models [กระดาษ] [โค้ด] [โปรเจ็กต์] [สาธิต]
- TurboEdit: การแก้ไขรูปภาพด้วยข้อความโต้ตอบแบบทันที [กระดาษ] [โปรเจ็กต์]
- InstructGIE: สู่การแก้ไขรูปภาพทั่วไป [กระดาษ]
- StableDrag: การลากที่เสถียรสำหรับการแก้ไขรูปภาพตามจุด [กระดาษ]
- การผกผันของ Eta: การออกแบบฟังก์ชัน Eta ที่เหมาะสมที่สุดสำหรับการแก้ไขภาพจริงโดยใช้การแพร่กระจาย [กระดาษ] [โค้ด] [โปรเจ็กต์]
- SwapAnything: การเปิดใช้งานการสลับวัตถุตามอำเภอใจในการแก้ไขภาพส่วนบุคคล [กระดาษ] [รหัส] [โครงการ]
- การนำทางและปรับขนาด: กลไกการนำทางด้วยตนเองเพื่อการปรับแต่งภาพจริงโดยไม่ต้องปรับแต่งอย่างมีประสิทธิภาพ [กระดาษ]
- FreeDiff: การตัดความถี่แบบก้าวหน้าสำหรับการแก้ไขภาพด้วยแบบจำลองการแพร่กระจาย [กระดาษ] [รหัส]
- Lazy Diffusion Transformer สำหรับการแก้ไขภาพเชิงโต้ตอบ [กระดาษ] [โปรเจ็กต์]
- ByteEdit: เพิ่ม ปฏิบัติตาม และเร่งการแก้ไขภาพทั่วไป [กระดาษ] [โครงการ]
- ไอซีแอลอาร์
- การแก้ไขรูปภาพตามคำแนะนำโดยใช้แบบจำลองภาษาขนาดใหญ่หลายรูปแบบ [กระดาษ] [รหัส] [โครงการ]
- พรแห่งความสุ่ม: SDE เอาชนะ ODE ในการแก้ไขรูปภาพแบบกระจายโดยทั่วไป [กระดาษ] [โค้ด] [โปรเจ็กต์]
- แนวทางการเคลื่อนไหว: การแก้ไขภาพที่อิงการแพร่กระจายด้วยตัวประมาณการเคลื่อนไหวที่หาความแตกต่างได้ [กระดาษ] [โค้ด] [โปรเจ็กต์]
- การผกผันของ Object-Aware และการประกอบซ้ำสำหรับการแก้ไขภาพ [กระดาษ] [รหัส] [โครงการ]
- คำแนะนำแผนที่สัญญาณรบกวน: การผกผันกับบริบทเชิงพื้นที่สำหรับการแก้ไขภาพจริง [กระดาษ]
- AAAI
- การควบคุมแบบผกผันที่ปรับปรุงโดยปราศจากการปรับแต่งสำหรับการแก้ไขภาพที่สม่ำเสมอ [กระดาษ]
- BARET: การแก้ไขภาพจริงตามความสนใจที่สมดุลซึ่งขับเคลื่อนโดยการผกผันข้อความเป้าหมาย [กระดาษ]
- การเร่งการแก้ไขข้อความเป็นรูปภาพผ่านการอนุมานการแพร่กระจายแบบกระจายที่เปิดใช้งานแคช [กระดาษ]
- การแก้ไขรูปภาพแบบกระจายความเที่ยงตรงสูง [กระดาษ]
- AdapEdit: อัลกอริธึมการแก้ไขแบบปรับเปลี่ยนตาม Spatio-Temporal Guided สำหรับการแก้ไขภาพที่มีความต่อเนื่องตามข้อความ [กระดาษ]
- TexFit: การแก้ไขภาพแฟชั่นที่ขับเคลื่อนด้วยข้อความด้วยโมเดลการแพร่กระจาย [กระดาษ]
- อาร์เอ็กซ์
- รายการควรค่าแก่การแจ้ง: การแก้ไขรูปภาพอเนกประสงค์พร้อมการควบคุมที่ไม่พันกัน [กระดาษ] [โค้ด]
- อะแดปเตอร์ขนาดเดียวเพื่อควบคุมสิ่งเหล่านั้นทั้งหมด: แนวคิด แบบจำลองการแพร่กระจาย และการประยุกต์ใช้การลบข้อมูล [กระดาษ] [รหัส] [โครงการ]
- EditWorld: การจำลองพลวัตของโลกสำหรับการแก้ไขรูปภาพตามคำแนะนำ [กระดาษ] [รหัส] [โครงการ]
- ReasonPix2Pix: ชุดข้อมูลการใช้เหตุผลของคำสั่งสำหรับการแก้ไขภาพขั้นสูง [กระดาษ]
- FlowEdit: การแก้ไขข้อความแบบผกผันโดยใช้โมเดลโฟลว์ที่ได้รับการฝึกอบรมล่วงหน้า [กระดาษ] [รหัส] [โครงการ] [สาธิต]
- ปี 2566
- ซีวีพีอาร์
- การเปิดเผยความสามารถในการคลายตัวในโมเดลการแพร่กระจายจากข้อความเป็นรูปภาพ [กระดาษ] [รหัส]
- SINE: การแก้ไขภาพเดี่ยวด้วยโมเดลการแพร่กระจายข้อความเป็นภาพ [กระดาษ] [โค้ด]
- Imagic: การแก้ไขภาพจริงโดยใช้ข้อความด้วยแบบจำลองการแพร่กระจาย [กระดาษ]
- InstructPix2Pix: การเรียนรู้การปฏิบัติตามคำแนะนำในการแก้ไขภาพ [กระดาษ] [โค้ด] [ชุดข้อมูล] [โปรเจ็กต์] [สาธิต]
- การกลับข้อความ Null สำหรับการแก้ไขภาพจริงโดยใช้แบบจำลองการแพร่กระจายที่แนะนำ [กระดาษ] [รหัส]
- ไอซีซีวี
- MasaCtrl: การควบคุมการเอาใจใส่ซึ่งกันและกันโดยปราศจากการปรับแต่งเพื่อการสังเคราะห์และการแก้ไขภาพที่สม่ำเสมอ [กระดาษ] [โค้ด] [โปรเจ็กต์] [สาธิต]
- การแปลความแปรผันของรูปร่างระดับวัตถุด้วยโมเดลการแพร่กระจายข้อความเป็นภาพ [กระดาษ] [รหัส] [โครงการ] [สาธิต]
- ไอซีแอลอาร์
- SDEdit: การสังเคราะห์และการแก้ไขภาพที่แนะนำด้วยสมการเชิงอนุพันธ์สุ่ม [กระดาษ] [รหัส] [โครงการ]
- ปี 2565
- ซีวีพีอาร์
- DiffusionCLIP: โมเดลการแพร่กระจายแบบใช้ข้อความเพื่อการจัดการภาพที่ทนทาน [กระดาษ] [โค้ด]
<กลับสู่ด้านบน>
การสร้างภาพข้อความ
- ปี 2567
- อาร์เอ็กซ์
- AnyText: การสร้างและแก้ไขข้อความภาพหลายภาษา [กระดาษ] [รหัส] [โครงการ]
- ซีวีพีอาร์
- SceneTextGen: การสังเคราะห์ภาพข้อความฉากแบบไม่เชื่อเรื่องพระเจ้าพร้อมการแพร่กระจายระดับตัวละครแบบบูรณาการและความสอดคล้องของบริบท [กระดาษ]
<กลับสู่ด้านบน>
ชุดข้อมูล
- Microsoft COCO: วัตถุทั่วไปในบริบท [กระดาษ] [ชุดข้อมูล]
- คำบรรยายเชิงแนวคิด: ชุดข้อมูลข้อความ Alt-text ของรูปภาพที่สะอาด ไฮเปอร์ไนม์ สำหรับคำบรรยายภาพอัตโนมัติ [กระดาษ] [ชุดข้อมูล]
- LAION-5B: ชุดข้อมูลขนาดใหญ่แบบเปิดสำหรับการฝึกอบรมโมเดลข้อความรูปภาพรุ่นต่อไป [กระดาษ] [ชุดข้อมูล]
- PartiPrompts: การปรับขนาดโมเดลการถดถอยอัตโนมัติสำหรับการสร้างข้อความเป็นรูปภาพที่มีเนื้อหาสมบูรณ์ [กระดาษ] [ชุดข้อมูล] [โครงการ]
<กลับสู่ด้านบน>
ชุดเครื่องมือ
ชื่อ | เว็บไซต์ | คำอธิบาย |
---|
WebUI การแพร่กระจายที่เสถียร | ลิงค์ | สร้างขึ้นโดยใช้ Gradio ปรับใช้ภายในเครื่องเพื่อรันจุดตรวจสอบ Stable Diffusion, ตุ้มน้ำหนัก LoRA, ตุ้มน้ำหนัก ControlNet ฯลฯ |
WebUI-forge การแพร่กระจายที่เสถียร | ลิงค์ | สร้างขึ้นโดยใช้ Gradio ปรับใช้ภายในเครื่องเพื่อรันจุดตรวจสอบ Stable Diffusion, ตุ้มน้ำหนัก LoRA, ตุ้มน้ำหนัก ControlNet ฯลฯ |
ฟูคัส | ลิงค์ | สร้างโดยใช้ Gradio ออฟไลน์ โอเพ่นซอร์ส และฟรี ไม่จำเป็นต้องปรับแต่งด้วยตนเอง และผู้ใช้เพียงแค่เน้นไปที่ข้อความแจ้งและรูปภาพเท่านั้น |
UI ที่สะดวกสบาย | ลิงค์ | ปรับใช้ภายในเครื่องเพื่อเปิดใช้งานเวิร์กโฟลว์แบบกำหนดเองด้วย Stable Diffusion |
ชิวิไต | ลิงค์ | เว็บไซต์สำหรับจุดตรวจการแพร่กระจายเสถียรภาพและ LoRA ของชุมชน |
<กลับสู่ด้านบน>
ถามตอบ
- ถาม: ลำดับการประชุมของรายการกระดาษนี้
- รายการกระดาษนี้จัดเรียงตามลำดับต่อไปนี้:
- ซีวีพีอาร์
- ไอซีซีวี
- อีซีซีวี
- WACV
- ประสาทไอพีเอส
- ไอซีแอลอาร์
- ไอซีเอ็มแอล
- พลอากาศเอก เอ็ม
- ซิกกราฟ
- AAAI
- อาร์เอ็กซ์
- คนอื่น
- ถาม:
Others
หมายถึงอะไร- การศึกษาบางส่วนต่อไปนี้ (เช่น
Stable Casacade
) ไม่ได้เผยแพร่รายงานทางเทคนิคเกี่ยวกับ arXiv แต่พวกเขามักจะเขียนบล็อกในเว็บไซต์ทางการแทน หมวด Others
หมายถึงการศึกษาประเภทดังกล่าว
<กลับสู่ด้านบน>
อ้างอิง
ไฟล์ reference.bib
สรุปการอ้างอิง bibtex ของรูปภาพที่ทันสมัยในเอกสารวาดภาพ ชุดข้อมูลที่ใช้กันอย่างแพร่หลาย และชุดเครื่องมือ จากข้อมูลอ้างอิงดั้งเดิม ฉันได้ทำการปรับเปลี่ยนต่อไปนี้เพื่อให้ผลลัพธ์ดูดีในต้นฉบับ LaTeX
:
- โดยปกติการอ้างอิงจะถูกสร้างขึ้นในรูปแบบของ
author-etal-year-nickname
โดยเฉพาะอย่างยิ่ง การอ้างอิงชุดข้อมูลและชุดเครื่องมือจะถูกสร้างขึ้นโดยตรงเป็น nickname
เช่น imagenet
- ในการอ้างอิงแต่ละครั้ง ชื่อการประชุม/วารสารทั้งหมดจะถูกแปลงเป็นตัวย่อ เช่น
Computer Vision and Pattern Recognition -> CVPR
-
url
, doi
, publisher
, organization
, editor
, series
ในการอ้างอิงทั้งหมดจะถูกลบออก -
pages
ข้อมูลอ้างอิงทั้งหมดจะถูกเพิ่มหากขาดหายไป - ชื่อกระดาษทั้งหมดอยู่ในตัวพิมพ์ชื่อเรื่อง นอกจากนี้ ฉันได้เพิ่ม
{}
เพิ่มเติมเพื่อให้แน่ใจว่าตัวพิมพ์ชื่อเรื่องจะทำงานได้ดีในเทมเพลตบางเทมเพลตด้วย
หากคุณมีความต้องการรูปแบบการอ้างอิงอื่นๆ คุณอาจอ้างอิงถึงเอกสารอ้างอิงต้นฉบับโดยค้นหาชื่อใน DBLP หรือ Google Scholar
บันทึก
โปรดทราบว่าการอ้างอิงใน homepage
และ topic
สามารถทำซ้ำได้ใน reference.bib
โดยส่วนตัวแล้วฉันขอแนะนำให้ใช้ "Ctrl+F" / "Command+F"
เพื่อค้นหาการอ้างอิง BibTeX
ที่คุณต้องการ
<กลับไปด้านบน>
ประวัติดารา
<กลับไปด้านบน>