ด้วยการสร้างสาขาใหม่ที่เรียกว่า "Generative AI" ไม่ว่าคุณจะชอบคำนี้หรือไม่ก็ตาม การวิจัยก็ไม่ได้ช่วยชะลอความเร่งรีบของวงการ โดยเฉพาะอุตสาหกรรมที่ได้เห็นการเติบโตอย่างรวดเร็วในการนำเทคโนโลยี AI มาใช้ ปัญญาประดิษฐ์และความเข้าใจของเราเกี่ยวกับสมองของมนุษย์ และความเชื่อมโยงกับ AI นั้นมีการพัฒนาอยู่ตลอดเวลา ซึ่งแสดงให้เห็นว่าแอปพลิเคชันมีแนวโน้มว่าจะปรับปรุงคุณภาพชีวิตของเราในอนาคตอันใกล้นี้ อย่างไรก็ตาม เราควรระมัดระวังว่าเราจะเลือกใช้เทคโนโลยีใด
“วิทยาศาสตร์ไม่สามารถบอกเราได้ว่าเราควรทำอะไร แต่บอกได้เฉพาะสิ่งที่เราทำได้เท่านั้น”
- ฌอง-ปอล ซาร์ตร์ ความเป็นอยู่และความว่างเปล่า
ต่อไปนี้คือรายการความก้าวหน้าล่าสุดในด้าน AI และ Data Science ที่รวบรวมไว้ตามวันที่เผยแพร่พร้อมคำอธิบายวิดีโอที่ชัดเจน ลิงก์ไปยังบทความเชิงลึกเพิ่มเติม และโค้ด (ถ้ามี) สนุกกับการอ่าน!
การอ้างอิงฉบับสมบูรณ์ของรายงานแต่ละฉบับจะแสดงอยู่ที่ส่วนท้ายของที่เก็บข้อมูลนี้ ติดดาวพื้นที่เก็บข้อมูลนี้เพื่อติดตามข้อมูลล่าสุดและติดตามความคืบหน้าในปีหน้า!
ผู้ดูแล: louisfb01 ยังใช้งานบน YouTube และในฐานะ Podcaster หากคุณต้องการดู/ได้ยินเพิ่มเติมเกี่ยวกับ AI!
สมัครรับจดหมายข่าวของฉัน - จะมีการอธิบายการอัปเดตล่าสุดใน AI ทุกสัปดาห์
โปรดส่งข้อความถึงฉันเกี่ยวกับรายงานที่น่าสนใจใดๆ ที่ฉันอาจพลาดไปเพื่อเพิ่มลงในพื้นที่เก็บข้อมูลนี้
แท็กฉันบน Twitter @Whats_AI หรือ LinkedIn @Louis (AI คืออะไร) Bouchard หากคุณแบ่งปันรายชื่อ! และมาพูดคุยกับเราในชุมชน Learn AI Together Discord ของเรา!
- หากคุณต้องการสนับสนุนงานของฉัน คุณสามารถตรวจสอบเพื่อสนับสนุนพื้นที่เก็บข้อมูลนี้หรือสนับสนุนฉันบน Patreon
ปีที่แล้วเราเห็นการลุกฮือของ generative AI สำหรับทั้งรูปภาพและข้อความ ล่าสุดคือ ChatGPT ภายในสัปดาห์แรกของปี 2023 นักวิจัยได้สร้างระบบใหม่สำหรับข้อมูลเสียงที่เรียกว่า VALL-E แล้ว
VALL-E สามารถเลียนแบบเสียงของใครบางคนด้วยการบันทึกเพียง 3 วินาที โดยมีความคล้ายคลึงและความเป็นธรรมชาติของคำพูดสูงกว่าที่เคย ChatGPT สามารถเลียนแบบนักเขียนที่เป็นมนุษย์ได้ VALL-E ทำเช่นเดียวกันกับเสียง
เรารู้ว่า AI สามารถสร้างภาพได้ ตอนนี้เรามาแก้ไขกันเถอะ!
โมเดลใหม่นี้ชื่อ InstructPix2Pix ทำสิ่งนั้นได้อย่างแม่นยำ มันแก้ไขรูปภาพตามคำสั่งแบบข้อความที่กำหนดโดยผู้ใช้ แค่ดูผลลัพธ์ที่น่าทึ่งเหล่านั้น… และนั่นไม่ได้มาจาก OpenAI หรือ Google ด้วยงบประมาณที่ไม่มีที่สิ้นสุด
เป็นสิ่งพิมพ์ล่าสุดจาก Tim Brooks และผู้ร่วมงานจาก University of California รวมถึงศาสตราจารย์ Alexei A. Efros บุคคลที่มีชื่อเสียงในอุตสาหกรรมคอมพิวเตอร์วิทัศน์ อย่างที่คุณเห็น ผลลัพธ์ที่ได้นั้นน่าทึ่งมาก
เมื่อเร็วๆ นี้ เราได้พูดถึงโมเดลที่สามารถเลียนแบบเสียงของใครบางคนที่เรียกว่า VALL-E ได้ ก้าวไปอีกขั้นในทิศทางที่สร้างสรรค์ด้วย AI ใหม่ที่เรียกว่า MusicLM MusicLM ช่วยให้คุณสร้างเพลงจากคำอธิบายข้อความ
อย่ารอช้าอีกต่อไปแล้วดำดิ่งสู่ผลลัพธ์... สิ่งที่คุณจะได้ยินจะทำให้คุณตะลึง!
ทางรันเวย์ได้สร้างระบบที่เรียกว่า GEN-1 ซึ่งสามารถถ่ายวิดีโอและใช้สไตล์ที่แตกต่างไปจากเดิมอย่างสิ้นเชิงได้ภายในไม่กี่วินาที โมเดลนี้อยู่ในระหว่างดำเนินการและมีข้อบกพร่อง แต่ยังคงถ่ายโอนสไตล์ที่ยอดเยี่ยมจากรูปภาพหรือข้อความไปยังวิดีโอ ซึ่งเป็นสิ่งที่คงเป็นไปไม่ได้เมื่อไม่กี่ปีหรือหลายเดือนก่อน มันเจ๋งกว่านั้นคือวิธีการทำงาน...
PaLM-E ซึ่งเป็นสิ่งพิมพ์ล่าสุดของ Google คือสิ่งที่พวกเขาเรียกว่าโมเดลภาษาหลากรูปแบบที่รวบรวมไว้ สิ่งนี้หมายความว่าอย่างไร? หมายความว่าเป็นโมเดลที่สามารถเข้าใจข้อมูลประเภทต่างๆ เช่น ข้อความและรูปภาพจากโมเดล ViT และ PaLM ที่เรากล่าวถึง และสามารถเปลี่ยนข้อมูลเชิงลึกเหล่านี้ให้เป็นการกระทำจากมือหุ่นยนต์ได้!
การแบ่งส่วน - มันเหมือนกับโลกภาพถ่ายที่เทียบเท่ากับการเล่นนักสืบ พลังพิเศษนี้ช่วยให้คุณสามารถระบุทุกสิ่งในภาพ ตั้งแต่วัตถุไปจนถึงผู้คน ด้วยความแม่นยำระดับพิกเซลที่สมบูรณ์แบบ มันเป็นตัวเปลี่ยนเกมสำหรับการใช้งานทุกประเภท เช่น ยานพาหนะอัตโนมัติที่จำเป็นต้องรู้ว่าเกิดอะไรขึ้นรอบตัว ไม่ว่าจะเป็นรถยนต์หรือคนเดินเท้า
ตอนนี้คุณก็รู้เกี่ยวกับการกระตุ้นเตือนแล้ว แต่คุณเคยได้ยินเกี่ยวกับการแบ่งส่วนที่รวดเร็วหรือไม่? มันเป็นเด็กใหม่ล่าสุดในบล็อก และมันเจ๋งจริงๆ ด้วยเคล็ดลับใหม่นี้ คุณสามารถแจ้งให้โมเดล AI ของคุณแบ่งส่วนสิ่งที่คุณต้องการได้ และฉันก็หมายถึงอะไรก็ได้! ต้องขอบคุณ SAM (Segment Anything Model) ใหม่ที่น่าทึ่งของ Meta สิ่งที่คุณทำได้ไม่มีขีดจำกัด
หากคุณสงสัยว่าการแบ่งส่วนที่รวดเร็วและโมเดล SAM ทำงานได้อย่างมหัศจรรย์เพียงใด คุณคงไม่อยากพลาดวิดีโอของฉัน ในนั้น คุณจะได้เรียนรู้ทั้งหมดว่าเทคโนโลยีใหม่ที่น่าทึ่งนี้เปลี่ยนแปลงเกมอย่างไรเมื่อพูดถึงการแบ่งส่วนภาพ เชิญนั่งพัก ผ่อนคลาย และให้ฉันพาคุณเดินทางสู่โลกแห่งการแบ่งส่วนอย่างรวดเร็วด้วย SAM เชื่อฉันเถอะ คุณจะไม่เสียใจ!
ลองนึกภาพการสร้างภาพ Instagram ที่น่าทึ่งโดยไม่ต้องออกจากบ้านหรือถ่ายรูป! Perfusion โมเดล AI ใหม่ของ NVIDIA พัฒนาการสร้างข้อความเป็นรูปภาพด้วยการควบคุมที่ดีขึ้นและความเที่ยงตรงสำหรับภาพตามแนวคิด
Perfusion คือการปรับปรุงที่สำคัญเหนือเทคนิค AI ที่มีอยู่ โดยเอาชนะข้อจำกัดในการสร้างภาพที่ยังคงความซื่อสัตย์ต่อเนื้อหาต้นฉบับ โมเดลนี้สามารถสร้าง "แนวคิด" เหล่านี้ได้อย่างถูกต้องในสถานการณ์ใหม่ที่หลากหลาย
การปะทุสร้างจากการกระจายที่เสถียรพร้อมกลไกเพิ่มเติมสำหรับการล็อคและสร้าง "แนวคิด" หลายรายการในภาพใหม่พร้อมกัน ซึ่งส่งผลให้เกิดประสิทธิภาพเชิงปริมาณและคุณภาพที่ไม่มีใครเทียบได้ เปิดโอกาสที่น่าตื่นเต้นในอุตสาหกรรมที่หลากหลาย
- แม้ว่าจะไม่สมบูรณ์แบบ แต่ Perfusion ก็เป็นก้าวสำคัญสำหรับโมเดลข้อความเป็นรูปภาพ ความท้าทายรวมถึงการรักษาเอกลักษณ์ของวัตถุและการทำให้เป็นทั่วไปมากเกินไป รวมถึงต้องมีงานวิศวกรรมที่รวดเร็วเล็กน้อย
Perfusion ของ NVIDIA ปูทางสำหรับอนาคตที่น่าตื่นเต้นของรูปภาพที่สร้างโดย AI ซึ่งปรับให้เหมาะกับความต้องการของเรา
Drag Your Gan จัดลำดับความสำคัญของการลากวัตถุที่แม่นยำเหนือการสร้างภาพหรือการจัดการข้อความ AI ปรับภาพทั้งหมดอย่างสมจริง โดยปรับเปลี่ยนตำแหน่ง ท่าทาง รูปร่าง การแสดงออก และองค์ประกอบเฟรมอื่นๆ ของวัตถุ
- แก้ไขการแสดงออกของสุนัข ให้พวกเขานั่ง ปรับท่าทางของมนุษย์ หรือแม้แต่เปลี่ยนภูมิทัศน์ได้อย่างลงตัว Drag Your Gan นำเสนอวิธีการเชิงนวัตกรรมและการโต้ตอบในการทดลองแก้ไขภาพ
มันทำงานอย่างไร? Drag Your Gan ใช้ประโยชน์จาก StyleGAN2 ซึ่งเป็นสถาปัตยกรรม GAN ที่ล้ำสมัยโดย NVIDIA ด้วยการทำงานในพื้นที่ฟีเจอร์ (โค้ดแฝง) AI จะเรียนรู้วิธีแก้ไขภาพอย่างเหมาะสมผ่านชุดขั้นตอนและการคำนวณการสูญเสีย
แม้ว่าผลลัพธ์จะออกมายอดเยี่ยม ดังที่คุณเห็นด้านล่าง แต่สิ่งสำคัญที่ต้องทราบก็คือ Drag Your Gan มีข้อจำกัดบางประการ รวมถึงแก้ไขได้เฉพาะรูปภาพที่สร้างขึ้นในตอนนี้เท่านั้น รูปภาพเป็นส่วนหนึ่งของการเผยแพร่ ข้อจำกัดอื่นๆ คือการเลือกจุดจะขึ้นอยู่กับสีและคอนทราสต์ของพิกเซล ดังนั้นคุณจึงไม่สามารถลากสิ่งใดได้เลย หากคุณนำชิ้นส่วนของรถสีแดงแล้วเคลื่อนย้ายโดยให้อยู่บนรถสีแดง อาจไม่เข้าใจว่าคุณเคลื่อนย้ายมันเลย
แทบรอไม่ไหวที่จะลองใช้ดูเหรอ? ผู้เขียนกล่าวว่าโค้ดควรจะพร้อมใช้งานในเดือนมิถุนายน ปรับเข้าสู่วิดีโอ (หรือบทความ) เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับรูปแบบการจัดการภาพใหม่ด้วย DragYourGan!
ลองฟังพอดแคสต์ AI คืออะไรเพื่อดูเนื้อหา AI เพิ่มเติมในรูปแบบของการสัมภาษณ์ผู้เชี่ยวชาญในสาขานั้น! ผู้เชี่ยวชาญด้าน AI ที่ได้รับเชิญและฉันจะพูดถึงหัวข้อเฉพาะ สาขาย่อย และบทบาทที่เกี่ยวข้องกับ AI เพื่อสอนและแบ่งปันความรู้จากบุคคลที่ทำงานอย่างหนักเพื่อรวบรวมความรู้ดังกล่าว
Neuralangelo คือความก้าวหน้าครั้งล่าสุดของ NVIDIA ในด้าน image-to-3D AI วิธีการใหม่นี้สร้างขึ้นจาก Instant NeRF ซึ่งปรับปรุงคุณภาพพื้นผิว และมอบฉาก 3 มิติที่สมจริงอย่างมากจากภาพธรรมดาๆ ในเวลาเพียงไม่กี่วินาที
Neuralangelo มุ่งหวังที่จะเอาชนะข้อจำกัดของ Instant NeRF รุ่นก่อน เช่น การขาดโครงสร้างที่มีรายละเอียดและรูปลักษณ์ที่ค่อนข้างเป็นการ์ตูนของโมเดล 3 มิติที่สร้างโดย AI
ความลับเบื้องหลังการปรับปรุงของ Neuralangelo อยู่ที่ความแตกต่างที่สำคัญสองประการ: การใช้การไล่ระดับสีเชิงตัวเลขสำหรับการคำนวณอนุพันธ์ที่มีลำดับสูง และการนำการปรับให้เหมาะสมแบบหยาบไปละเอียดบนกริดแฮชที่ควบคุมระดับรายละเอียด ซึ่งเราจะเจาะลึกในวิดีโอ
กระบวนการปรับให้เหมาะสมนี้ส่งผลให้มีการป้อนข้อมูลที่ราบรื่นยิ่งขึ้นสำหรับการสร้างแบบจำลอง 3 มิติใหม่ ช่วยให้สามารถผสมผสานข้อมูลได้มากขึ้น และสร้างสมดุลที่สมบูรณ์แบบระหว่างความสม่ำเสมอและรายละเอียดที่ละเอียดเพื่อผลลัพธ์ที่สมจริง
คุณภาพของโมเดล 3 มิติของ Neuralangelo นั้นน่าทึ่งมาก แต่ AI ต้องเผชิญกับความท้าทายด้วยฉากที่มีการสะท้อนกลับสูง อย่างไรก็ตาม แอปพลิเคชั่นที่มีศักยภาพในโลกแห่งความเป็นจริงนั้นมีมากมายและน่าตื่นเต้น!
ในตอนของสัปดาห์นี้ ฉันตัดสินใจสำรวจงานวิจัยใหม่ที่เรียกว่า TryOnDiffusion ซึ่งนำเสนอในการประชุม CVPR 2023 วิธีการที่เป็นนวัตกรรมใหม่นี้แสดงถึงการก้าวกระโดดครั้งสำคัญในประสบการณ์การลองใช้งานเสมือนจริงที่สมจริง ด้วยการฝึกโมเดล AI เพื่อทำความเข้าใจภาพที่นำเข้า แยกเสื้อผ้าออกจากบุคคล และรวมข้อมูลอย่างชาญฉลาด TryOnDiffusion จะสร้างผลลัพธ์ที่น่าประทับใจ ซึ่งนำเราเข้าใกล้เป้าหมายสูงสุดของการลองเสมือนจริงที่สมบูรณ์แบบ
หากคุณสนใจกับการมาบรรจบกันของ AI และแฟชั่น เข้าร่วมกับเราในขณะที่เราเปิดเผยการทำงานภายในของ TryOnDiffusion และผลกระทบที่อาจเกิดขึ้นต่ออนาคตของการช้อปปิ้งออนไลน์ ไม่ว่าคุณจะเป็นผู้ชื่นชอบ AI ผู้ชื่นชอบแฟชั่น หรือเพียงแค่อยากรู้เกี่ยวกับความก้าวหน้าทางเทคโนโลยีล่าสุด วิดีโอนี้จะนำเสนอข้อมูลเชิงลึกอันมีค่าเกี่ยวกับโลกแห่งการลองสวมเสื้อผ้าเสมือนจริงที่ล้ำสมัย
เราจะดำดิ่งสู่โลกแห่งโมเดลการแพร่กระจาย UNet และความสนใจ ซึ่งกลไกที่ทรงพลังอย่างเหลือเชื่อเหล่านั้นผสมผสานพลังเข้ากับการช่วยเหลือด้านแฟชั่นและการค้าปลีกออนไลน์ แน่นอนว่างานนี้มีข้อ จำกัด แต่ (ดังที่คุณเห็น) ผลลัพธ์ที่ได้นั้นน่าทึ่งและมีแนวโน้มดีมาก
เรามาพูดถึงโมเดล AI ที่เปลี่ยนใบหน้าของคุณให้เป็นการ์ตูนตลก แก้ไขคุณลักษณะของใบหน้า เช่น เปลี่ยนสีผม หรือเพียงแค่เพิ่มสเกลรูปภาพของคุณให้กลายเป็น HD มากขึ้น หากคุณติดตามบทความของฉัน คุณจะรู้ว่าแอปพลิเคชันเหล่านี้ส่วนใหญ่ใช้โมเดลเดียวและหลายเวอร์ชันที่เรียกว่า StyleGAN ซึ่งฉันได้กล่าวถึงหลายครั้งแล้ว StyleGAN เป็นสถาปัตยกรรมแบบ GAN ที่พัฒนาโดย NVIDIA ซึ่งสามารถรับอินพุตและแปลงเป็นสถาปัตยกรรมอื่นตามสไตล์เฉพาะที่ได้รับการฝึกฝน นอกจากนี้ยังเป็นโอเพ่นซอร์ส ซึ่งหมายความว่าทุกคนสามารถใช้และสร้างมันขึ้นมาได้ และทำไมเอกสารวิจัยทั้งหมดถึงใช้มัน
ปัญหาของ StyleGAN คือจำกัดเฉพาะใบหน้าที่ครอบตัดและจัดแนวด้วยความละเอียดของภาพคงที่จากข้อมูลที่ได้รับการฝึก หมายความว่าสำหรับภาพในโลกแห่งความเป็นจริง คุณต้องมีวิธีอื่นในการค้นหาใบหน้า ครอบตัดออก และปรับทิศทางใหม่ และต้องมีความละเอียดของภาพเท่ากันด้วย นี่เป็นปัญหาใหญ่เนื่องจากโดยปกติแล้วคุณต้องการได้ภาพคุณภาพสูง แต่การฝึกฝนกับภาพเหล่านี้จะใช้เวลานานมาก
ดังนั้นสิ่งที่เราทำโดยทั่วไปคือเราใช้สถาปัตยกรรม StyleGAN เพื่อถ่ายโอนสไตล์ของรูปภาพของเรา จากนั้นเราใช้เครือข่ายอื่นเพื่อขยายขนาดรูปภาพให้มีความละเอียดสูงขึ้น แม้ว่าวิธีการนี้จะได้ผลดี แต่ก็ไม่เหมาะอย่างแน่นอน คุณต้องมีแบบจำลองสองแบบแทนที่จะเป็นแบบเดียว ทำให้เกิดอคติและข้อผิดพลาดที่อาจเกิดขึ้นมากขึ้น รวมถึงจำเป็นต้องฝึกทั้งสองแบบและจำกัดความสามารถทั่วไป โชคดีสำหรับเรา นักวิจัยที่น่าทึ่งบางคนกำลังทำงานเกี่ยวกับปัญหารูปภาพอินพุตที่จำกัดนี้ และเพิ่งเผยแพร่แนวทางใหม่ที่ ICCV 2023 ที่เรียกว่า StyleGANEX ผ่านการเปลี่ยนแปลงเล็กๆ น้อยๆ ที่ชาญฉลาดมาก...
แท็กฉันบน Twitter @Whats_AI หรือ LinkedIn @Louis (AI คืออะไร) Bouchard หากคุณแบ่งปันรายชื่อ!
เราได้เห็นความสามารถอันน่าทึ่งของโมเดลภาษาขนาดใหญ่ (LLM) แต่มีช่องว่าง ซึ่งเป็นส่วนที่ขาดหายไปในการทำความเข้าใจโลกรอบตัวเรา พวกเขาใช้ข้อความ โค้ด และรูปภาพเป็นเลิศ แต่พวกเขาก็ยังพยายามดิ้นรนที่จะมีส่วนร่วมกับความเป็นจริงของเราอย่างแท้จริง นั่นคือจนถึงขณะนี้ นี่คือการก้าวกระโดดครั้งยิ่งใหญ่ในภูมิทัศน์ AI: 3D-LLM
3D-LLM เป็นโมเดลใหม่ที่เชื่อมช่องว่างระหว่างภาษาและอาณาจักร 3 มิติที่เราอาศัยอยู่ แม้ว่าจะไม่ครอบคลุมโลกของเราทั้งหมด แต่ก็เป็นก้าวที่ยิ่งใหญ่ในการทำความเข้าใจมิติและข้อความที่สำคัญซึ่งกำหนดรูปแบบชีวิตของเรา ดังที่คุณจะค้นพบในวิดีโอ 3D-LLM ไม่เพียงแต่รับรู้โลกเท่านั้น แต่ยังโต้ตอบกับโลกด้วย คุณสามารถตั้งคำถามเกี่ยวกับสภาพแวดล้อม ค้นหาสิ่งของหรือสำรวจอวกาศ และร่วมเป็นสักขีพยานในการให้เหตุผลร่วมกัน ซึ่งชวนให้นึกถึงความสำเร็จอันน่าทึ่งที่เราเคยประสบกับ ChatGPT
สิ่งที่น่าสนใจยิ่งกว่านั้นคือ ผู้เขียนได้ควบคุมความสามารถของ ChatGPT ในการรวบรวมข้อมูลผ่านวิธีการที่แตกต่างกันสามวิธีที่คุณจะได้เรียนรู้ โดยสร้างพื้นที่เก็บข้อมูลงานและตัวอย่างที่ครอบคลุมสำหรับแต่ละฉากที่ใช้ในการฝึกโมเดล...
งานนี้แนะนำกรอบการทำงานใหม่สำหรับการเตรียมแบบจำลองภาษาขนาดใหญ่เพื่อให้ทำงานสอดคล้องกันพร้อมทั้งลดความเสี่ยงของอาการประสาทหลอน แนวทางนี้เป็นการผสมผสานพลังของตัวแทน AI เข้ากับความชัดเจนของขั้นตอนการปฏิบัติงานที่เป็นมาตรฐาน ทำให้มั่นใจได้ว่าตัวแทนจะทำงานร่วมกันอย่างมีประสิทธิภาพและสอดคล้องกับวัตถุประสงค์ของผู้ใช้
สมัครรับจดหมายข่าวรายสัปดาห์ของฉันและติดตามข่าวสารล่าสุดเกี่ยวกับสิ่งพิมพ์ใหม่ใน AI ในปี 2023!
หลิวและคณะ ใช้ GPT-4 เพื่อสร้างโมเดลการมองเห็นภาษาสำหรับวัตถุประสงค์ทั่วไปที่เรียกว่า LLaVA ซึ่งเป็นโมเดลสำหรับใช้งานทั่วไปรุ่นแรกที่เข้าใจและปฏิบัติตามคำแนะนำด้วยภาพและภาษา ใช่ พวกเขาไม่ได้ใช้ GPT-4 เป็นโมเดลพื้นฐาน แต่ใช้เพื่อฝึกโมเดลของพวกเขา! ดังที่เราจะเห็นในวิดีโอ GPT-4 ถูกใช้เพื่อสร้างชุดข้อมูลขนาดใหญ่และมีคุณภาพสูงเพื่อฝึกโมเดลใหม่ที่เข้าใจรูปภาพ โอ้ และเห็นได้ชัดว่ามันไม่เพียงแต่เข้าใจรูปภาพเท่านั้น แต่ยังเข้าใจข้อความด้วย (มีหลายรูปแบบ) ซึ่งหมายความว่าสามารถตอบคำถามที่หลากหลายเกี่ยวกับรูปภาพเหล่านั้นได้! เรียนรู้เพิ่มเติมในบทความเต็มหรือในวิดีโอ...
เราได้เห็นวิธีการใหม่ๆ มากมายในการสร้างข้อความ จากนั้นการสร้างภาพก็ยิ่งดีขึ้นเท่านั้น จากนั้น เราได้เห็นผลงานเริ่มแรกที่น่าทึ่งอื่นๆ ในการสร้างวิดีโอและแม้แต่โมเดล 3 มิติจากข้อความ ลองจินตนาการถึงความซับซ้อนของงานดังกล่าวเมื่อคุณมีเพียงแค่ประโยคเดียว และคุณจำเป็นต้องสร้างบางสิ่งที่อาจดูเหมือนวัตถุในโลกแห่งความเป็นจริงพร้อมรายละเอียดทั้งหมด นี่เป็นก้าวใหม่ที่ไม่ใช่แค่ก้าวแรกเท่านั้น นับเป็นก้าวสำคัญในการสร้างโมเดล 3 มิติจากเพียงข้อความ: MVDream!
Distil-Whisper เป็นโมเดลการถอดเสียงที่เร็วกว่ารุ่น Whisper ดั้งเดิมถึง 6 เท่า เล็กลง 49% และคงความแม่นยำไว้ 99% และสิ่งที่ดีที่สุดคือมันเป็นโอเพ่นซอร์สโดยสมบูรณ์ และคุณสามารถใช้งานได้ทันที
ในวิดีโอนี้ เราจะเจาะลึกเรื่อง Stable Video Diffusion (SVD) โดยสำรวจว่าเทคโนโลยีที่เป็นนวัตกรรมจาก Stability AI กำลังปฏิวัติการสร้างสรรค์วิดีโอที่ขับเคลื่อนด้วย AI อย่างไร ทำความเข้าใจหลักการสำคัญของโมเดลการแพร่กระจายและการใช้งานในการสังเคราะห์ข้อความเป็นวิดีโอและการสังเคราะห์หลายมุมมอง เหมาะสำหรับผู้ที่ชื่นชอบ AI และสื่อดิจิทัลที่กระตือรือร้นที่จะเข้าใจอนาคตของการสร้างวิดีโอ
หากคุณต้องการอ่านเอกสารเพิ่มเติมและมีมุมมองที่กว้างขึ้น นี่คืออีกหนึ่งพื้นที่เก็บข้อมูลที่ยอดเยี่ยมสำหรับคุณซึ่งครอบคลุมปี 2022: 2022: หนึ่งปีที่เต็มไปด้วยเอกสาร AI ที่น่าทึ่ง- ตรวจสอบและอย่าลังเลที่จะสมัครรับจดหมายข่าวรายสัปดาห์ของฉันและติดตามข่าวสารล่าสุด - พบกับสิ่งพิมพ์ใหม่ใน AI ในปี 2023!
แท็กฉันบน Twitter @Whats_AI หรือ LinkedIn @Louis (AI คืออะไร) Bouchard หากคุณแบ่งปันรายชื่อ!
[1] วัง, C., เฉิน, เอส., วู, วาย., จาง, Z., โจว, แอล., หลิว, เอส., เฉิน, Z., หลิว, วาย., วัง, เอช, หลี่, J. และ He, L., 2023 โมเดลภาษา Neural Codec เป็นตัวสังเคราะห์ข้อความเป็นคำพูดแบบ Zero-Shot https://arxiv.org/abs/2301.02111
[2] บรูคส์ และคณะ 2022: InstructPix2Pix, https://arxiv.org/abs/2211.09800
[3] Agostinelli และคณะ 2023: MusicLM, https://arxiv.org/abs/2301.11325
[4] Esser, P., Chiu, J., Atighehchian, P., Granskog, J. และ Germanidis, A., 2023. การสังเคราะห์วิดีโอที่มีโครงสร้างและการชี้นำเนื้อหาด้วยโมเดลการแพร่กระจาย https://arxiv.org/abs /2302.03011
[5] ดรีส, D., Xia, F., Sajjadi, MS, Lynch, C., Chowdhery, A., Ichter, B., Wahid, A., Tompson, J., Vuong, Q., Yu, T. และ Huang, W., 2023. Palm-e: รูปแบบภาษาที่รวบรวมไว้, https://arxiv.org/abs/2303.03378
[6] คิริลลอฟ, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., ไวท์เฮด, S., Berg, AC, Lo, WY และ Dollár, P., 2023. แบ่งส่วนอะไรก็ได้ https://arxiv.org/abs/2304.02643
[7] Tewel, Y., Gal, R., Chechik, G. และ Atzmon, Y., 2023. การแก้ไขด้วยคีย์ล็อคอันดับหนึ่งสำหรับการปรับแต่งข้อความเป็นรูปภาพ https://arxiv.org/abs/2305.01644
(8) Pan, X. , Tewari, A. , Leimkühler, T. , Liu, L. , Meka, A. และ Theobalt, C. , 2023 ลาก GAN ของคุณ: การจัดการตามจุดเชิงโต้ตอบบน Generative Image Manifold https://arxiv.org/abs/2305.10973
(9) Li, Z., Müller, T., Evans, A., Taylor, RH, Unberath, M., Liu, MY และ Lin, CH, 2023 Neuralangelo: การสร้างพื้นผิวประสาทความเที่ยงตรงสูงใหม่ ในการดำเนินการประชุม IEEE/CVF ว่าด้วยการมองเห็นคอมพิวเตอร์และการจดจำรูปแบบ (หน้า 8456-8465) https://arxiv.org/abs/2306.03092
[10] Zhu, L., Yang, D., Zhu, T., Reda, F., Chan, W., Saharia, C., Norouzi, M. และ Kemelmacher-Shlizerman, I., 2023. TryOnDiffusion: A เรื่องราวของสอง Unet ในการดำเนินการประชุม IEEE/CVF ว่าด้วยการมองเห็นคอมพิวเตอร์และการจดจำรูปแบบ (หน้า 4606-4615) https://arxiv.org/abs/2306.08276
(11) Yang, S. , Jiang, L. , Liu, Z. และ Loy, CC, 2023 StyleGANEX: การจัดการตาม StyleGAN นอกเหนือจากใบหน้าที่ถูกครอบตัด arXiv พิมพ์ล่วงหน้า arXiv:2303.06146
(12) Hong, Y., Zhen, H., Chen, P., Zheng, S., Du, Y., Chen, Z. และ Gan, C., 2023 3d-llm: ฉีดโลก 3 มิติให้ใหญ่ขึ้น โมเดลภาษา arXiv พิมพ์ล่วงหน้า arXiv:2307.12981
[13] Hong, S., Zheng, X., Chen, J., Cheng, Y., Zhang, C., Wang, Z., Yau, SKS, Lin, Z., Zhou, L., Ran, C และ Xiao, L., 2023. Metagpt: การเขียนโปรแกรม Meta สำหรับกรอบการทำงานร่วมกันหลายตัวแทน arXiv พิมพ์ล่วงหน้า arXiv:2308.00352
(14) Liu, H. , Li, C. , Wu, Q. และ Lee, YJ, 2023 การปรับแต่งคำสั่งด้วยภาพ arXiv พิมพ์ล่วงหน้า arXiv:2304.08485
15 Shi, Y., Wang, P., Ye, J., Long, M., Li, K. และ Yang, X., 2023. Mvdream: การแพร่กระจายหลายมุมมองสำหรับรุ่น 3 มิติ arXiv พิมพ์ล่วงหน้า arXiv:2308.16512
(16) Gandhi, S. , von Platen, P. และ Rush, AM, 2023. Distil-Whisper: การกลั่นความรู้ที่แข็งแกร่งผ่านการติดฉลากหลอกขนาดใหญ่ arXiv พิมพ์ล่วงหน้า arXiv:2311.00430
(17) Blattmann และคณะ 2023: การแพร่กระจายวิดีโอที่เสถียร https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf