Nvidia ถูกเปิดเผยว่าได้แอบคัดลอกข้อมูลวิดีโอ YouTube เพื่อฝึก AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-12 14:32:01

เมื่อเร็ว ๆ นี้สื่อเปิดเผยว่า Nvidia แอบคว้าข้อมูลวิดีโอ YouTube ในวงกว้างเพื่อฝึกโมเดล AI ซึ่งก่อให้เกิดความขัดแย้งทางกฎหมายและจริยธรรมอย่างกว้างขวาง การเคลื่อนไหวนี้เกี่ยวข้องกับผลิตภัณฑ์ AI จำนวนมากของ Nvidia รวมถึงโมเดลการเรียนรู้เชิงลึกของ Cosmos อัลกอริธึมการขับขี่อัตโนมัติ ฯลฯ วิธีการรับข้อมูลถูกซ่อนไว้และไม่ได้รับอนุญาตจากผู้สร้างวิดีโอและ Google อีเมลภายในของ NVIDIA แสดงให้เห็นว่าผู้บริหารระดับสูงมีทัศนคติในแง่ดีเกี่ยวกับพฤติกรรมนี้ และเชื่อว่า "ได้รับการอนุมัติโดยสมบูรณ์" คำแถลงนี้ขัดแย้งกับคำแถลงอย่างเป็นทางการของ Google ซึ่งระบุไว้อย่างชัดเจนว่าพฤติกรรมนี้ละเมิดข้อกำหนดในการให้บริการของแพลตฟอร์ม ข้อมูลจำนวนมหาศาลที่เกี่ยวข้อง วิธีการปฏิบัติงานที่เป็นความลับ และการโต้ตอบที่แตกต่างไปจากทุกฝ่ายโดยสิ้นเชิง ทำให้เหตุการณ์นี้น่ากังวล

เมื่อเร็ว ๆ นี้ มีการเปิดเผยการดำเนินการลับโดย Nvidia ยักษ์ใหญ่ด้านเทคโนโลยีในการเก็บข้อมูล ตามรายงานจากสื่อ 404 Nvidia ฝึกฝนโมเดลปัญญาประดิษฐ์โดยดึงข้อมูลวิดีโอ YouTube จำนวนมหาศาล ซึ่งค่อนข้างคลุมเครือในแง่ของกฎหมายและจริยธรรม

รายงานชี้ให้เห็นว่า Nvidia ใช้ข้อมูลวิดีโอเหล่านี้เพื่อฝึกโมเดล AI ที่หลากหลาย รวมถึงโมเดลการเรียนรู้เชิงลึกของ Cosmos อัลกอริธึมการขับขี่อัตโนมัติ ผลิตภัณฑ์อวตาร AI ของมนุษย์ดิจิทัล และเครื่องมือสร้างโลก 3 มิติ Omniverse

เป็นที่เข้าใจกันว่า Nvidia ได้ใช้มาตรการลับมากมายเพื่อปกปิดพฤติกรรมการขูดข้อมูลโดยใช้ "เครื่องเสมือน" หลายเครื่องและเปลี่ยนที่อยู่ IP อยู่ตลอดเวลาเพื่อหลีกเลี่ยงไม่ให้ YouTube ค้นพบ นอกจากนี้ ผู้สร้างวิดีโอและบริษัทแม่ของ YouTube อย่าง Google ไม่ได้ให้อนุญาตใดๆ สำหรับกิจกรรมการคัดลอกข้อมูลนี้ การสื่อสารภายในของ Nvidia แสดงให้เห็นว่ากลยุทธ์ของพวกเขาค่อนข้างกล้าได้กล้าเสีย ผู้บริหารคนหนึ่งกล่าวถึงในอีเมลว่าพวกเขากำลังสร้าง "โรงงานข้อมูลวิดีโอ" ที่สามารถสร้างข้อมูลประสบการณ์การมองเห็นที่เทียบเท่ากับชีวิตมนุษย์ทุกวัน

สิ่งที่น่าสนใจคือเมื่อพนักงานแสดงความกังวลเกี่ยวกับความถูกต้องตามกฎหมายและจริยธรรมของการได้มาซึ่งข้อมูลดังกล่าว ฝ่ายบริหารก็ค่อนข้างมั่นใจ โดยเชื่อว่าทั้งหมดนี้เป็นการตัดสินใจในระดับสูง “เราได้รับการอนุมัติข้อมูลทั้งหมดแบบครอบคลุม” อ่านอีเมล

ปัญหาที่น่าหนักใจกว่านั้นคือ Nvidia รู้มาระยะหนึ่งแล้วว่ากำลังใช้ชุดข้อมูล HD-VG-130M ที่มีวิดีโอ YouTube 130 ล้านรายการ ซึ่งเดิมสร้างขึ้นเพื่อการวิจัยเชิงวิชาการ ผู้เชี่ยวชาญหลายคนแสดงความไม่พอใจอย่างมากต่อเรื่องนี้ โดยโต้แย้งว่าการนำข้อมูลที่ใช้สำหรับการวิจัยไปใช้ประโยชน์ในเชิงพาณิชย์นั้นไม่เหมาะสม

ในฐานะผู้เล่นหลักในอุตสาหกรรม AI นั้น NVIDIA ครองตำแหน่งที่โดดเด่นในตลาด และหน่วยประมวลผลกราฟิก (GPU) นั้นเป็นพื้นฐานสำหรับระบบ AI ที่เน้นการประมวลผลจำนวนมาก บริษัทที่ทำงานร่วมกับ Nvidia เช่น OpenAI, Microsoft และ Google ได้แสดงความกังวลเกี่ยวกับพฤติกรรมนี้ โฆษกของ Google กล่าวว่าการใช้ข้อมูล YouTube โดยไม่ได้รับอนุญาตถือเป็นการละเมิดข้อกำหนดในการให้บริการของแพลตฟอร์มอย่างชัดเจน

เพื่อตอบสนองต่อสื่อ Nvidia อ้างว่าการฝึกอบรม AI ของพวกเขา “สอดคล้องกับจิตวิญญาณและกฎหมายลิขสิทธิ์อย่างสมบูรณ์” อย่างไรก็ตาม ผู้สร้างที่ใช้เนื้อหานี้คิดอย่างไรกับข้อความนี้

ไฮไลท์:

Nvidia แอบคัดลอกข้อมูลวิดีโอ YouTube จำนวนมากสำหรับการฝึกอบรม AI ทำให้เกิดความกังวลเกี่ยวกับปัญหาทางกฎหมายและจริยธรรม

อีเมลภายในแสดงให้เห็นว่าผู้บริหารของ Nvidia เชื่อว่าพฤติกรรมนี้ได้รับการอนุมัติอย่างสมบูรณ์และทัศนคติของพวกเขาก็ค่อนข้างกล้าแสดงออก

? Google ชี้ให้เห็นว่าการใช้ข้อมูล YouTube โดยไม่ได้รับอนุญาตถือเป็นการละเมิดข้อกำหนดในการให้บริการของแพลตฟอร์มอย่างชัดเจน และการตอบสนองของ Nvidia ทำให้เกิดข้อโต้แย้ง

พฤติกรรมการขูดข้อมูลของ NVIDIA ทำให้เกิดการถกเถียงกันอย่างกว้างขวางเกี่ยวกับจริยธรรมและกฎหมายของการได้มาซึ่งข้อมูล AI และการตอบสนองก็ไม่สามารถระงับข้อโต้แย้งได้ เหตุการณ์นี้เน้นให้เห็นถึงความท้าทายที่บริษัทเทคโนโลยีขนาดใหญ่ต้องเผชิญในการใช้ข้อมูล และความจำเป็นเร่งด่วนในการปรับปรุงกฎหมายและกฎระเบียบที่เกี่ยวข้อง ในอนาคต เหตุการณ์ที่คล้ายกันอาจยังคงดึงดูดความสนใจและกระตุ้นให้อุตสาหกรรมเสริมสร้างวินัยในตนเองและสร้างมาตรฐานพฤติกรรมการใช้ข้อมูล