ในขณะที่โลกยังคงฟื้นตัวการวิจัยไม่ได้ชะลอความเร็วที่รุนแรงโดยเฉพาะอย่างยิ่งในด้านปัญญาประดิษฐ์ ยิ่งไปกว่านั้นมีการเน้นประเด็นสำคัญมากมายในปีนี้เช่นด้านจริยธรรมอคติที่สำคัญการกำกับดูแลความโปร่งใสและอื่น ๆ อีกมากมาย ปัญญาประดิษฐ์และความเข้าใจของเราเกี่ยวกับสมองมนุษย์และการเชื่อมโยงไปยัง AI นั้นมีการพัฒนาอย่างต่อเนื่องแสดงให้เห็นว่าแอพพลิเคชั่นที่มีแนวโน้มปรับปรุงคุณภาพชีวิตของเราในอนาคตอันใกล้ ถึงกระนั้นเราควรระวังเทคโนโลยีที่เราเลือกใช้
"วิทยาศาสตร์ไม่สามารถบอกเราได้ว่าเราควรทำอะไรเฉพาะสิ่งที่เราสามารถทำได้"
- Jean-Paul Sartre เป็นและความว่างเปล่า
นี่คือเอกสารการวิจัยที่น่าสนใจที่สุดแห่งปีในกรณีที่คุณพลาดสิ่งใด ๆ กล่าวโดยย่อคือรายการที่รวบรวมของความก้าวหน้าล่าสุดใน AI และวิทยาศาสตร์ข้อมูลโดยวันที่วางจำหน่ายพร้อมคำอธิบายวิดีโอที่ชัดเจนลิงก์ไปยังบทความเชิงลึกเพิ่มเติมและรหัส (ถ้ามี) สนุกกับการอ่าน!
การอ้างอิงที่สมบูรณ์ของแต่ละกระดาษมีการระบุไว้ในตอนท้ายของที่เก็บนี้ แสดงที่เก็บนี้เพื่อติดตามข่าวสารล่าสุด!
ผู้ดูแล: louisfb01
สมัครรับจดหมายข่าวของฉัน - การอัปเดตล่าสุดใน AI อธิบายทุกสัปดาห์
อย่าลังเลที่จะส่งข้อความถึงกระดาษที่น่าสนใจที่ฉันอาจพลาดที่จะเพิ่มลงในที่เก็บนี้
แท็กฉันบน Twitter @whats_ai หรือ LinkedIn @louis (AI คืออะไร) Bouchard ถ้าคุณแชร์รายการ!
รายการที่รวบรวมไว้ของสิ่งพิมพ์ CV 10 อันดับแรกในปี 2021 พร้อมคำอธิบายวิดีโอที่ชัดเจนลิงก์ไปยังบทความเชิงลึกและรหัส
เอกสารการมองเห็นคอมพิวเตอร์ 10 อันดับแรกของปี 2021
- หากคุณต้องการสนับสนุนงานของฉัน และใช้ W&B (ฟรี) เพื่อติดตามการทดลอง ML ของคุณและทำให้งานของคุณทำซ้ำหรือทำงานร่วมกับทีมคุณสามารถลองใช้งานได้โดยทำตามคำแนะนำนี้! เนื่องจากรหัสส่วนใหญ่ที่นี่เป็นแบบ Pytorch เราจึงคิดว่าคู่มือ QuickStart สำหรับการใช้ W&B บน Pytorch น่าสนใจที่สุดที่จะแบ่งปัน
ทำตามคู่มือด่วนนี้ใช้บรรทัด W&B เดียวกันในรหัสของคุณหรือ repos ใด ๆ ด้านล่างและให้การทดลองทั้งหมดของคุณติดตามโดยอัตโนมัติในบัญชี W&B ของคุณ! ใช้เวลาไม่เกิน 5 นาทีในการตั้งค่าและจะเปลี่ยนชีวิตของคุณอย่างที่ทำเพื่อฉัน! นี่คือคู่มือขั้นสูงสำหรับการใช้การกวาดแบบไฮเปอร์พารามิเตอร์หากสนใจ :)
- ขอบคุณน้ำหนักและอคติสำหรับการสนับสนุนที่เก็บนี้และงานที่ฉันทำและขอบคุณทุกคนที่ใช้ลิงค์นี้และลองใช้ W & B!
OpenAI ผ่านการฝึกอบรมเครือข่ายให้ประสบความสำเร็จในการสร้างภาพจากคำอธิบายข้อความ มันคล้ายกับ GPT-3 และ Image GPT และให้ผลลัพธ์ที่น่าทึ่ง
Google ใช้สถาปัตยกรรม Stylegan2 ที่ได้รับการดัดแปลงเพื่อสร้างห้องที่เหมาะสมออนไลน์ซึ่งคุณสามารถลองกางเกงหรือเสื้อเชิ้ตใด ๆ ที่คุณต้องการใช้ภาพของตัวเองเท่านั้น
TL; DR: พวกเขารวมประสิทธิภาพของ GANS และวิธีการ convolutional เข้ากับการแสดงออกของหม้อแปลงเพื่อผลิตวิธีที่ทรงพลังและประหยัดเวลาสำหรับการสังเคราะห์ภาพคุณภาพสูงที่มีความหมาย
การวาดแรงบันดาลใจจากความสามารถของมนุษย์ไปสู่คำถาม AI และ 10 คำถามที่น่าเชื่อถือและน่าเชื่อถือมากขึ้นสำหรับชุมชนการวิจัย AI
Odei Garcia-Garin และคณะ จากมหาวิทยาลัยบาร์เซโลนาได้พัฒนาอัลกอริทึมที่ใช้การเรียนรู้อย่างลึกซึ้งสามารถตรวจจับและหาปริมาณขยะลอยจากภาพทางอากาศ พวกเขายังสร้างแอปพลิเคชั่นที่มุ่งเน้นเว็บช่วยให้ผู้ใช้สามารถระบุขยะเหล่านี้เรียกว่าแมโครมารีนมารีนมารีนหรือ FMML ภายในภาพพื้นผิวทะเล
แค่คิดว่ามันจะเจ๋งแค่ไหนที่จะถ่ายรูปวัตถุและมีมันใน 3D เพื่อแทรกในภาพยนตร์หรือวิดีโอเกมที่คุณกำลังสร้างหรือในฉาก 3 มิติสำหรับภาพประกอบ
โดยทั่วไปแล้วพวกเขาใช้ประโยชน์จากกลไกความสนใจของ Transformers ในสถาปัตยกรรม Stylegan2 ที่ทรงพลังเพื่อให้มีประสิทธิภาพยิ่งขึ้น!
สมัครรับจดหมายข่าวรายสัปดาห์ของฉันและติดตามสิ่งพิมพ์ใหม่ใน AI ในปี 2022!
คุณจะปัดไปในโปรไฟล์ AI หรือไม่? คุณสามารถแยกแยะมนุษย์ที่แท้จริงออกจากเครื่องได้หรือไม่? นี่คือสิ่งที่การศึกษาครั้งนี้เปิดเผยโดยใช้ผู้คนที่ทำขึ้นมาในแอพออกเดท
หม้อแปลงจะแทนที่ CNNs ในการมองเห็นคอมพิวเตอร์หรือไม่? ในเวลาน้อยกว่า 5 นาทีคุณจะรู้ว่าสถาปัตยกรรมหม้อแปลงสามารถนำไปใช้กับการมองเห็นคอมพิวเตอร์ด้วยกระดาษใหม่ที่เรียกว่า Swin Transformer ได้อย่างไร
โมเดลที่มีแนวโน้มนี้เรียกว่า Ganverse3D ต้องการเพียงภาพเพื่อสร้างรูป 3 มิติที่สามารถปรับแต่งและเคลื่อนไหวได้!
"ฉันจะแบ่งปันทุกอย่างเกี่ยวกับอวนลึกสำหรับแอปพลิเคชันวิสัยทัศน์ความสำเร็จและข้อ จำกัด ที่เราต้องกล่าวถึง"
ขั้นตอนต่อไปสำหรับการสังเคราะห์มุมมอง: การสร้างมุมมองตลอดเวลาที่เป้าหมายคือการถ่ายภาพเพื่อบินเข้าไปและสำรวจภูมิทัศน์!
ด้วยอินเตอร์เฟสเส้นประสาทที่ขับเคลื่อนด้วย AI นี้ผู้พิการสามารถควบคุมมือ neuroprosthetic ที่มีความคล่องแคล่วเหมือนชีวิตและความไม่เหมาะสม
Relight ภาพบุคคลใด ๆ ตามแสงของพื้นหลังใหม่ที่คุณเพิ่ม คุณเคยต้องการเปลี่ยนพื้นหลังของภาพ แต่มันดูสมจริงหรือไม่? หากคุณเคยลองแล้วคุณก็รู้แล้วว่ามันไม่ง่าย คุณไม่สามารถถ่ายรูปตัวเองในบ้านของคุณและเปลี่ยนพื้นหลังเป็นชายหาดได้ มันดูไม่ดีและไม่เหมือนจริง ทุกคนจะพูดว่า "นั่นคือ photoshopped" ในไม่กี่วินาที สำหรับภาพยนตร์และวิดีโอระดับมืออาชีพคุณต้องมีแสงสว่างและศิลปินที่สมบูรณ์แบบในการสร้างภาพที่มีคุณภาพสูงและราคาแพงมาก ไม่มีวิธีที่คุณสามารถทำได้ด้วยรูปภาพของคุณเอง หรือคุณสามารถ?
สร้างแบบจำลอง 3 มิติของมนุษย์หรือสัตว์ที่ย้ายจากวิดีโอสั้น ๆ เป็นอินพุต นี่เป็นวิธีการใหม่สำหรับการสร้างแบบจำลอง 3 มิติของมนุษย์หรือสัตว์ที่ย้ายจากวิดีโอสั้น ๆ เป็นอินพุต อันที่จริงมันเข้าใจจริง ๆ ว่านี่เป็นรูปร่างแปลก ๆ ที่มันสามารถเคลื่อนไหวได้ แต่ก็ยังคงต้องติดอยู่เพราะนี่ยังคงเป็นหนึ่ง "วัตถุ" และไม่ใช่แค่วัตถุมากมายด้วยกัน ...
AI นี้สามารถนำไปใช้กับวิดีโอเกมและเปลี่ยนทุกเฟรมให้ดูเป็นธรรมชาติมากขึ้น นักวิจัยจาก Intel Labs เพิ่งตีพิมพ์บทความนี้เรียกว่าการเพิ่มประสิทธิภาพการเพิ่มขึ้นของแสง และถ้าคุณคิดว่านี่อาจเป็น "เพียงแค่กาน" การถ่ายภาพวิดีโอเกมเป็นอินพุตและเปลี่ยนตามสไตล์ของโลกธรรมชาติให้ฉันเปลี่ยนใจ พวกเขาทำงานกับโมเดลนี้เป็นเวลาสองปีเพื่อให้แข็งแกร่งมาก มันสามารถนำไปใช้กับวิดีโอเกมและเปลี่ยนทุกเฟรมให้ดูเป็นธรรมชาติมากขึ้น แค่จินตนาการถึงความเป็นไปได้ที่คุณสามารถใช้ความพยายามน้อยลงในกราฟิกของเกมทำให้มันมีความเสถียรและสมบูรณ์มากจากนั้นปรับปรุงสไตล์โดยใช้รุ่นนี้ ...
วิธีการมองเห็นของปลอมลึกในปี 2021 เทคโนโลยีกองทัพสหรัฐที่พัฒนาโดยใช้ปัญญาประดิษฐ์เพื่อค้นหา deepfakes
ในขณะที่พวกเขาดูเหมือนว่าพวกเขาเคยอยู่ที่นั่นเสมอ Deepfake ที่สมจริงครั้งแรกไม่ปรากฏขึ้นจนถึงปี 2560 มันเปลี่ยนจากภาพปลอมครั้งแรกที่สร้างขึ้นโดยอัตโนมัติเพื่อสำเนาของใครบางคนในวิดีโอที่เหมือนกันในวันนี้ด้วยเสียง
ความจริงก็คือเราไม่สามารถเห็นความแตกต่างระหว่างวิดีโอหรือรูปภาพจริงกับ Deepfake อีกต่อไป เราจะบอกได้อย่างไรว่าอะไรจริงจากสิ่งที่ไม่ได้? ไฟล์เสียงหรือไฟล์วิดีโอสามารถใช้ในศาลเพื่อพิสูจน์ได้อย่างไรว่า AI สามารถสร้างไฟล์เหล่านั้นได้อย่างไร บทความใหม่นี้อาจให้คำตอบสำหรับคำถามเหล่านี้ และคำตอบที่นี่อาจเป็นการใช้ปัญญาประดิษฐ์อีกครั้ง คำพูดที่ว่า“ ฉันจะเชื่อเมื่อฉันเห็นมัน” อาจเปลี่ยนไปในไม่ช้า“ ฉันจะเชื่อเมื่อ AI บอกให้ฉันเชื่อ…”
ใช้สไตล์ใด ๆ กับภาพ 4K ของคุณแบบเรียลไทม์โดยใช้วิธีการเรียนรู้ของเครื่องใหม่นี้!
บทความนี้ไม่ได้เกี่ยวกับเทคโนโลยีใหม่ในตัวเอง แต่เป็นเรื่องเกี่ยวกับแอปพลิเคชั่นใหม่และน่าตื่นเต้นของ Gans แน่นอนคุณเห็นชื่อและไม่ใช่ clickbait AI นี้สามารถถ่ายโอนผมของคุณเพื่อดูว่ามันจะเป็นอย่างไรก่อนที่จะเปลี่ยนแปลงการเปลี่ยนแปลง ...
รุ่น Facebook AI ใหม่นี้สามารถแปลหรือแก้ไขข้อความโดยตรงในภาพในภาษาของคุณเองตามสไตล์เดียวกัน!
ลองนึกภาพว่าคุณกำลังพักร้อนในประเทศอื่นที่คุณไม่พูดภาษา คุณต้องการลองร้านอาหารท้องถิ่น แต่เมนูของพวกเขาอยู่ในภาษาที่คุณไม่ได้พูด ฉันคิดว่านี่จะไม่ยากเกินไปที่จะจินตนาการเพราะพวกเราส่วนใหญ่ต้องเผชิญกับสถานการณ์นี้ไม่ว่าคุณจะเห็นรายการเมนูหรือเส้นทางและคุณไม่เข้าใจสิ่งที่เขียน ในปี 2020 คุณจะถอดโทรศัพท์และ Google แปลสิ่งที่คุณเห็น ในปี 2021 คุณไม่จำเป็นต้องเปิด Google Translate อีกต่อไปและพยายามเขียนสิ่งที่คุณเห็นทีละคนเพื่อแปล แต่คุณสามารถใช้โมเดลใหม่นี้โดย Facebook AI เพื่อแปลทุกข้อความในภาพในภาษาของคุณเอง ...
หากคุณต้องการอ่านงานวิจัยเพิ่มเติมเช่นกันฉันขอแนะนำให้คุณอ่านบทความของฉันที่ฉันแบ่งปันเคล็ดลับที่ดีที่สุดสำหรับการค้นหาและอ่านเอกสารการวิจัยเพิ่มเติม
โมเดลนี้ถ่ายภาพเข้าใจว่าอนุภาคใดที่ควรจะเคลื่อนไหวและทำให้พวกมันเคลื่อนไหวในวงที่ไม่มีที่สิ้นสุดในขณะที่อนุรักษ์ส่วนที่เหลือของภาพทั้งหมดยังคงสร้างวิดีโอที่ดูน่าทึ่งเช่นนี้ ...
การใช้สถาปัตยกรรม GAN ที่ได้รับการแก้ไขพวกเขาสามารถย้ายวัตถุในภาพโดยไม่ส่งผลกระทบต่อพื้นหลังหรือวัตถุอื่น ๆ !
ค้นหาว่าโมเดลใหม่นี้จาก OpenAI สร้างรหัสจาก Words ได้อย่างไร!
ด้วยการใช้อัลกอริทึมที่ใช้การเรียนรู้ด้วยเครื่องหลายครั้งที่ทำงานแบบส่วนตัวบนอุปกรณ์ของคุณ Apple ช่วยให้คุณสามารถดูแลและจัดระเบียบรูปภาพและวิดีโอของคุณบน iOS 15 ได้อย่างถูกต้อง
กล่าวคำอำลากับสถาปัตยกรรม Gan และ Transformer ที่ซับซ้อนสำหรับการสร้างภาพ! วิธีการใหม่นี้โดย Chenling Meng และคณะ จากมหาวิทยาลัยสแตนฟอร์ดและมหาวิทยาลัย Carnegie Mellon สามารถสร้างภาพใหม่จากอินพุตที่ใช้ผู้ใช้ แม้แต่คนอย่างฉันที่มีทักษะทางศิลปะเป็นศูนย์ก็สามารถสร้างภาพที่สวยงามหรือการดัดแปลงจากภาพร่างด่วน ...
ทำให้การฝึกอบรม Gans ง่ายขึ้นสำหรับทุกคนโดยการสร้างภาพตามภาพร่าง! อันที่จริงวิธีการใหม่นี้คุณสามารถควบคุมผลลัพธ์ของ GAN ตามประเภทของความรู้ที่ง่ายที่สุดที่คุณสามารถให้ได้: ภาพร่างวาดด้วยมือ
หากคุณสงสัยว่ารถเทสลาไม่เพียง แต่มองเห็น แต่นำทางถนนกับยานพาหนะอื่น ๆ นี่คือวิดีโอที่คุณรอคอย สองสามวันที่ผ่านมาเป็นวันแรกของเทสลาไออาร์ที่ Andrej Karpathy ผู้อำนวยการของ AI ที่ Tesla และคนอื่น ๆ นำเสนอว่า Autopilot ของ Tesla ทำงานได้อย่างไรจากการได้มาซึ่งภาพผ่านกล้องแปดตัวไปยังกระบวนการนำทางบนถนน
AI สามารถสร้างภาพได้โดยใช้พลังสมองและการทดลองและข้อผิดพลาดจำนวนมากนักวิจัยสามารถควบคุมผลลัพธ์ได้ตามสไตล์ที่เฉพาะเจาะจง ตอนนี้ด้วยรุ่นใหม่นี้คุณสามารถทำได้โดยใช้ข้อความเท่านั้น!
Timelens สามารถเข้าใจการเคลื่อนไหวของอนุภาคในระหว่างเฟรมของวิดีโอเพื่อสร้างสิ่งที่เกิดขึ้นจริงด้วยความเร็วจริง ๆ แม้แต่ดวงตาของเราไม่สามารถมองเห็นได้ ในความเป็นจริงมันบรรลุผลที่โทรศัพท์อัจฉริยะของเราและไม่มีรุ่นอื่นที่สามารถเข้าถึงได้มาก่อน!
สมัครรับจดหมายข่าวรายสัปดาห์ของฉันและติดตามสิ่งพิมพ์ใหม่ใน AI ในปี 2022!
คุณเคยต้องการแก้ไขวิดีโอหรือไม่?
ลบหรือเพิ่มใครบางคนเปลี่ยนพื้นหลังทำให้นานขึ้นเล็กน้อยหรือเปลี่ยนความละเอียดเพื่อให้พอดีกับอัตราส่วนเฉพาะโดยไม่ต้องบีบอัดหรือยืดมัน สำหรับผู้ที่ดำเนินการแคมเปญโฆษณาอยู่แล้วคุณต้องการที่จะมีวิดีโอที่หลากหลายสำหรับการทดสอบ AB และดูว่าอะไรดีที่สุด การวิจัยใหม่นี้โดย Niv Haim และคณะ สามารถช่วยให้คุณทำสิ่งเหล่านี้ทั้งหมดจากวิดีโอเดียวและใน HD!
แน่นอนด้วยการใช้วิดีโอง่าย ๆ คุณสามารถทำงานใด ๆ ที่ฉันเพิ่งพูดถึงในไม่กี่วินาทีหรือไม่กี่นาทีสำหรับวิดีโอคุณภาพสูง โดยทั่วไปคุณสามารถใช้สำหรับการจัดการวิดีโอหรือแอปพลิเคชันการสร้างวิดีโอที่คุณมีอยู่ในใจ แม้จะมีประสิทธิภาพสูงกว่า Gans ในทุก ๆ ด้านและไม่ได้ใช้การวิจัยที่มีการเรียนรู้อย่างลึกซึ้งและไม่จำเป็นต้องใช้ชุดข้อมูลขนาดใหญ่และไม่สามารถทำได้! และสิ่งที่ดีที่สุดคือเทคนิคนี้สามารถปรับขนาดได้กับวิดีโอความละเอียดสูง
DeepMind เพิ่งเปิดตัวโมเดล Generative ที่สามารถทำได้ดีกว่าวิธีการที่ใช้กันอย่างแพร่หลายในตอนนี้ใน 89% ของสถานการณ์เพื่อความแม่นยำและประโยชน์ที่ประเมินโดยนักอุตุนิยมวิทยาผู้เชี่ยวชาญมากกว่า 50 คน! แบบจำลองของพวกเขามุ่งเน้นไปที่การทำนายการตกตะกอนในอีก 2 ชั่วโมงข้างหน้าและประสบความสำเร็จอย่างน่าประหลาดใจ มันเป็นแบบจำลองการกำเนิดซึ่งหมายความว่ามันจะสร้างการคาดการณ์แทนที่จะทำนายเพียงแค่ทำ โดยทั่วไปจะใช้ข้อมูลเรดาร์จากอดีตเพื่อสร้างข้อมูลเรดาร์ในอนาคต ดังนั้นการใช้ทั้งเวลาและส่วนประกอบเชิงพื้นที่จากอดีตพวกเขาสามารถสร้างสิ่งที่มันจะเป็นในอนาคตอันใกล้นี้
คุณสามารถเห็นสิ่งนี้เหมือนกับตัวกรอง Snapchat เอาใบหน้าของคุณและสร้างใบหน้าใหม่ด้วยการดัดแปลง ในการฝึกอบรมแบบจำลองการกำเนิดคุณต้องมีข้อมูลมากมายจากทั้งใบหน้ามนุษย์และใบหน้าที่คุณต้องการสร้าง จากนั้นใช้โมเดลที่คล้ายกันมากที่ได้รับการฝึกฝนมาหลายชั่วโมงคุณจะมีแบบจำลองที่ทรงพลัง แบบจำลองประเภทนี้มักจะใช้สถาปัตยกรรม GANS เพื่อการฝึกอบรมและใช้โมเดลเครื่องกำเนิดไฟฟ้าอย่างอิสระ
คุณเคยปรับวิดีโอหรือรายการทีวีและนักแสดงไม่ได้ยินอย่างสมบูรณ์หรือเพลงดังเกินไป? ปัญหานี้เรียกอีกอย่างว่าปัญหาปาร์ตี้ค็อกเทลอาจไม่เกิดขึ้นอีก Mitsubishi และ Indiana University เพิ่งตีพิมพ์โมเดลใหม่รวมถึงชุดข้อมูลใหม่ที่จัดการกับงานนี้ในการระบุซาวด์แทร็กที่ถูกต้อง ตัวอย่างเช่นหากเราใช้คลิปเสียงเดียวกันเราเพิ่งวิ่งไปกับเพลงที่ดังเกินไปคุณสามารถเปิดหรือลงแทร็กเสียงที่คุณต้องการให้ความสำคัญกับคำพูดมากกว่าเพลง
ปัญหาที่นี่คือการแยกแหล่งเสียงอิสระออกจากฉากอะคูสติกที่ซับซ้อนเช่นฉากภาพยนตร์หรือวิดีโอ YouTube ที่บางเสียงไม่สมดุลกัน บางครั้งคุณก็ไม่สามารถได้ยินนักแสดงบางคนได้เนื่องจากการเล่นดนตรีหรือการระเบิดหรือเสียงรอบข้างอื่น ๆ ในพื้นหลัง ถ้าคุณประสบความสำเร็จในการแยกหมวดหมู่ที่แตกต่างกันในซาวด์แทร็กก็หมายความว่าคุณสามารถเปิดขึ้นหรือลงได้เพียงหนึ่งในนั้นเช่นการปิดเพลงเล็กน้อยเพื่อฟังนักแสดงคนอื่น ๆ อย่างถูกต้อง นี่คือสิ่งที่นักวิจัยประสบความสำเร็จ
ลองนึกภาพคุณต้องการสร้างรุ่น 3 มิติหรือเพียงแค่วิดีโอของเหลวออกมาจากรูปภาพที่คุณถ่าย ตอนนี้เป็นไปได้แล้ว! ฉันไม่ต้องการให้มากเกินไป แต่ผลลัพธ์ก็น่าทึ่งมากและคุณต้องตรวจสอบด้วยตัวเอง!
คุณเคยใฝ่ฝันที่จะถ่ายภาพสไตล์เช่นสไตล์การวาดภาพ Tiktok ที่ยอดเยี่ยมทางด้านซ้ายและนำไปใช้กับภาพใหม่ที่คุณเลือกหรือไม่? ฉันทำและมันไม่เคยทำง่ายกว่า ในความเป็นจริงคุณสามารถทำได้จากข้อความเท่านั้นและสามารถลองได้ทันทีด้วยวิธีการใหม่นี้และโน้ตบุ๊ก Google Colab ของพวกเขาสำหรับทุกคน (ดูการอ้างอิง) เพียงถ่ายภาพสไตล์ที่คุณต้องการคัดลอกป้อนข้อความที่คุณต้องการสร้างและอัลกอริทึมนี้จะสร้างภาพใหม่ออกมา! เพียงมองย้อนกลับไปที่ผลลัพธ์ข้างต้นก้าวใหญ่ไปข้างหน้า! ผลลัพธ์นั้นน่าประทับใจอย่างยิ่งโดยเฉพาะอย่างยิ่งถ้าคุณพิจารณาว่าพวกเขาทำจากข้อความบรรทัดเดียว!
คุณเคยมีภาพที่คุณชอบจริง ๆ และสามารถหารุ่นเล็ก ๆ ที่ดูเหมือนภาพนี้ด้านล่างทางซ้ายได้หรือไม่? มันจะเจ๋งแค่ไหนถ้าคุณสามารถถ่ายภาพนี้และทำให้มันดูดีสองครั้ง? มันเยี่ยมมาก แต่ถ้าคุณสามารถทำให้มันมีความละเอียดสูงกว่าสี่หรือแปดเท่า ตอนนี้เรากำลังพูดถึงแค่ดูที่
ที่นี่เราปรับปรุงความละเอียดของภาพด้วยปัจจัยสี่ซึ่งหมายความว่าเรามีพิกเซลที่มีความสูงและความกว้างเพิ่มขึ้นสี่เท่าสำหรับรายละเอียดเพิ่มเติมทำให้ดูราบรื่นขึ้นมาก สิ่งที่ดีที่สุดคือสิ่งนี้จะทำภายในไม่กี่วินาทีโดยอัตโนมัติอย่างสมบูรณ์และทำงานกับภาพใด ๆ โอ้และคุณยังสามารถใช้มันด้วยการสาธิตที่พวกเขาให้บริการ ...
ควบคุมคุณสมบัติใด ๆ จากร่างด่วนและมันจะแก้ไขสิ่งที่คุณต้องการเก็บภาพที่เหลือเหมือนกันเท่านั้น! Sota Image Editing จาก Sketches Model ตาม Gans โดย Nvidia, MIT และ UOFT
แบบจำลองนี้เรียกว่า Citynerf และเติบโตจาก Nerf ซึ่งก่อนหน้านี้ฉันได้กล่าวถึงช่องของฉัน NERF เป็นหนึ่งในรุ่นแรกที่ใช้ Radiance Fields และการเรียนรู้ของเครื่องเพื่อสร้างโมเดล 3 มิติจากภาพ แต่ Nerf นั้นไม่ได้มีประสิทธิภาพและใช้งานได้ในระดับเดียว ที่นี่ Citynerf ถูกนำไปใช้กับภาพดาวเทียมและระดับพื้นดินในเวลาเดียวกันเพื่อสร้างเครื่องชั่งแบบจำลอง 3 มิติต่างๆสำหรับมุมมองใด ๆ ในคำพูดง่ายๆพวกเขานำ Nerf มาสู่ระดับเมือง แต่ยังไง?
เราได้เห็น AI สร้างภาพจากภาพอื่น ๆ โดยใช้ Gans จากนั้นมีแบบจำลองที่สามารถสร้างภาพที่น่าสงสัยโดยใช้ข้อความ ในช่วงต้นปี 2021 Dall-E ได้รับการเผยแพร่โดยเอาชนะความพยายามก่อนหน้านี้ทั้งหมดเพื่อสร้างภาพจากการป้อนข้อความโดยใช้คลิปซึ่งเป็นโมเดลที่เชื่อมโยงรูปภาพกับข้อความเป็นคำแนะนำ งานที่คล้ายกันมากที่เรียกว่าคำบรรยายภาพอาจฟังดูง่าย แต่อันที่จริงแล้วซับซ้อน มันเป็นความสามารถของเครื่องจักรในการสร้างคำอธิบายที่เป็นธรรมชาติของภาพ เป็นเรื่องง่ายที่จะติดแท็กวัตถุที่คุณเห็นในภาพ แต่มันก็เป็นความท้าทายอีกอย่างหนึ่งที่จะเข้าใจว่าเกิดอะไรขึ้นในภาพ 2 มิติเดียวและรุ่นใหม่นี้ทำได้ดีมาก ...
หากคุณต้องการอ่านเอกสารเพิ่มเติมและมีมุมมองที่กว้างขึ้นนี่เป็นอีกหนึ่งพื้นที่เก็บข้อมูลที่ยอดเยี่ยมสำหรับคุณครอบคลุม 2020: 2020: หนึ่งปีที่เต็มไปด้วยเอกสาร AI ที่น่าทึ่ง- บทวิจารณ์และรู้สึกอิสระที่จะสมัครรับจดหมายข่าวรายสัปดาห์ของฉัน -วันที่มีสิ่งพิมพ์ใหม่ใน AI ในปี 2022!
แท็กฉันบน Twitter @whats_ai หรือ LinkedIn @louis (AI คืออะไร) Bouchard ถ้าคุณแชร์รายการ!
[1] A. Ramesh et al., Zero-Shot Text-to-Image Generation, 2021. Arxiv: 2102.12092
[2] Lewis, Kathleen M et al., (2021), Vogue: Try-on โดยการเพิ่มประสิทธิภาพการแก้ไข Stylegan
[3] Taming Transformers สำหรับการสังเคราะห์ภาพความละเอียดสูง Esser et al., 2020
[4] การคิดอย่างรวดเร็วและช้าใน AI, Booch et al., (2020), https://arxiv.org/abs/2010.06002
[5] Odei Garcia-Garin et al., การตรวจจับอัตโนมัติและปริมาณของแมโครมารีนแมโครที่ลอยอยู่ในภาพทางอากาศ: แนะนำวิธีการเรียนรู้เชิงลึกนวนิยายที่เชื่อมต่อกับเว็บแอปพลิเคชันใน R, มลพิษต่อสิ่งแวดล้อม, https://doi.org/ 10.1016/j.envpol.2021.116490
[6] Rematas, K. , Martin-Brualla, R. , และ Ferrari, V. ,“ Sharf: ฟิลด์ Radiance ที่ปรับแต่งรูปร่างจากมุมมองเดียว”, (2021), https://arxiv.org/abs/2102.08860
[7] Drew A. Hudson และ C. Lawrence Zitnick, Transformers ฝ่ายตรงข้ามกำเนิด, (2021)
[8] Sandra Bryant et al.“ เราขอให้ปัญญาประดิษฐ์เพื่อสร้างโปรไฟล์การออกเดท คุณจะปัดใช่มั้ย?”, (2021), UNSW Sydney Blog
[9] Liu, Z. et al., 2021,“ Swin Transformer: Transformer วิสัยทัศน์แบบลำดับชั้นโดยใช้ Windows ที่เปลี่ยนไป”, arxiv preprint https://arxiv.org/abs/2103.14030v1
[10] Zhang, Y. , Chen, W. , Ling, H. , Gao, J. , Zhang, Y. , Torralba, A. และ Fidler, S. , 2020. ภาพ Gans พบการแสดงผลที่แตกต่างกันสำหรับกราฟิกผกผันและตีความได้ การเรนเดอร์ระบบประสาท 3 มิติ arxiv preprint arxiv: 2010.09125
[11] Yuille, Al, และ Liu, C. , 2021. อวนลึก: พวกเขาเคยทำอะไรเพื่อการมองเห็น? International Journal of Computer Vision, 129(3), pp.781–802, https://arxiv.org/abs/1805.04025.
[12] Liu, A., Tucker, R., Jampani, V., Makadia, A., Snavely, N. and Kanazawa, A., 2020. Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image, https://arxiv.org/pdf/2012.09855.pdf
[13] Nguyen & Drealan et al. (2021) A Portable, Self-Contained Neuroprosthetic Hand with Deep Learning-Based Finger Control: https://arxiv.org/abs/2103.13452
[14] Pandey et al., 2021, Total Relighting: Learning to Relight Portraits for Background Replacement, doi: 10.1145/3450626.3459872, https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf.
[15] Gengshan Yang et al., (2021), LASR: Learning Articulated Shape Reconstruction from a Monocular Video, CVPR, https://lasr-google.github.io/.
[16] Richter, Abu AlHaija, Koltun, (2021), "Enhancing Photorealism Enhancement", https://intel-isl.github.io/PhotorealismEnhancement/.
[17] DeepFakeHop: Chen, Hong-Shuo, et al., (2021), “DefakeHop: A Light-Weight High-Performance Deepfake Detector.” ArXiv abs/2103.06929.
[18] Liang, Jie and Zeng, Hui and Zhang, Lei, (2021), "High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network", https://export.arxiv.org/pdf/2105.09188.pdf.
[19] Peihao Zhu et al., (2021), Barbershop, https://arxiv.org/pdf/2106.01505.pdf.
[20] Praveen Krishnan, Rama Kovvuri, Guan Pang, Boris Vassilev, and Tal Hassner, Facebook AI, (2021), ”TextStyleBrush: Transfer of text aesthetics from a single example”.
[21] Holynski, Aleksander, et al. “Animating Pictures with Eulerian Motion Fields.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
[22] Michael Niemeyer and Andreas Geiger, (2021), "GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields", Published in CVPR 2021.
[23] Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, HPDO, Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G. and Ray, A., 2021. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.
[24] Apple, “Recognizing People in Photos Through Private On-Device Machine Learning”, (2021), https://machinelearning.apple.com/research/recognizing-people-photos
[25] Meng, C., Song, Y., Song, J., Wu, J., Zhu, JY and Ermon, S., 2021. Sdedit: Image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073.
[26] Wang, SY, Bau, D. and Zhu, JY, 2021. Sketch Your Own GAN. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 14050-14060).
[27] “Tesla AI Day”, Tesla, August 19th 2021, https://youtu.be/j0z4FweCy4M
[28] Patashnik, Or, et al., (2021), “Styleclip: Text-driven manipulation of StyleGAN imagery.”, https://arxiv.org/abs/2103.17249
[29] Stepan Tulyakov*, Daniel Gehrig*, Stamatios Georgoulis, Julius Erbach, Mathias Gehrig, Yuanyou Li, Davide Scaramuzza, TimeLens: Event-based Video Frame Interpolation, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 2021 ,, http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf
[30] Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Diverse Generation from a Single Video Made Possible, https://arxiv.org/abs/2109.08591.
[31] Ravuri, S., Lenc, K., Willson, M., Kangin, D., Lam, R., Mirowski, P., Fitzsimons, M., Athanassiadou, M., Kashem, S., Madge, S. and Prudden, R., 2021. Skillful Precipitation Nowcasting using Deep Generative Models of Radar, https://www.nature.com/articles/s41586-021-03854-z
[32] Petermann, D., Wichern, G., Wang, Z., & Roux, JL (2021). The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks. https://arxiv.org/pdf/2110.09958.pdf.
[33] Rückert, D., Franke, L. and Stamminger, M., 2021. ADOP: Approximate Differentiable One-Pixel Point Rendering, https://arxiv.org/pdf/2110.06635.pdf.
[34] a) CLIPDraw: exploring text-to-drawing synthesis through language-image encoders
b) StyleCLIPDraw: Schaldenbrand, P., Liu, Z. and Oh, J., 2021. StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis.
[35] Liang, J., Cao, J., Sun, G., Zhang, K., Van Gool, L. and Timofte, R., 2021. SwinIR: Image restoration using swin transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 1833–1844).
[36] Ling, H., Kreis, K., Li, D., Kim, SW, Torralba, A. and Fidler, S., 2021, May. EditGAN: High-Precision Semantic Image Editing. In Thirty-Fifth Conference on Neural Information Processing Systems.
[37] Xiangli, Y., Xu, L., Pan, X., Zhao, N., Rao, A., Theobalt, C., Dai, B. and Lin, D., 2021. CityNeRF: Building NeRF at City Scale.
[38] Mokady, R., Hertz, A. and Bermano, AH, 2021. ClipCap: CLIP Prefix for Image Captioning. https://arxiv.org/abs/2111.09734