มหาวิทยาลัยฮาร์วาร์ดเผยแพร่ชุดข้อมูลหนังสือหลายสิบล้านชุดเพื่อจัดหาสื่อการฝึกอบรมคุณภาพสูงสำหรับโมเดล AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-16 15:32:01

มหาวิทยาลัยฮาร์วาร์ดใช้เงินจำนวนมหาศาลเพื่อเผยแพร่ชุดข้อมูลหนังสือที่เป็นสาธารณสมบัติเกือบหนึ่งล้านชุด โดยมีเป้าหมายเพื่อส่งเสริมการแข่งขันที่ยุติธรรมในด้านปัญญาประดิษฐ์ และส่งเสริมการพัฒนาเทคโนโลยี AI โครงการนี้นำโดย Harvard University Institutional Data Initiative และได้รับทุนสนับสนุนจาก Microsoft และ OpenAI ชุดข้อมูลประกอบด้วยเนื้อหาที่หลากหลายตั้งแต่วรรณกรรมคลาสสิกไปจนถึงวรรณกรรมเชิงวิชาการระดับมืออาชีพ ซึ่งเป็นทรัพยากรที่มีคุณค่าสำหรับบริษัท AI ขนาดเล็กและนักวิจัยรายบุคคล ซึ่งช่วยเชื่อมช่องว่างระหว่างช่องว่างของข้อมูล ที่บริษัทเทคโนโลยีขนาดใหญ่ ความเคลื่อนไหวนี้ยังให้แนวคิดใหม่ๆ สำหรับแหล่งที่มาของข้อมูลการฝึกอบรมในด้านปัญญาประดิษฐ์ และความพยายามในการสำรวจเส้นทางการพัฒนาที่ยั่งยืนในบริบทของปัญหาลิขสิทธิ์ที่ซับซ้อนมากขึ้น

เมื่อเร็วๆ นี้ มหาวิทยาลัยฮาร์วาร์ดได้ประกาศแผนที่จะเผยแพร่ชุดข้อมูลที่ประกอบด้วยหนังสือที่เป็นสาธารณสมบัติเกือบ 1 ล้านเล่มที่ใครๆ ก็สามารถใช้เพื่อฝึกโมเดลภาษาขนาดใหญ่และเครื่องมือปัญญาประดิษฐ์อื่นๆ

โครงการนี้นำโดย Institutional Data Initiative (Institutional Data Initiative) ที่จัดตั้งขึ้นใหม่ของมหาวิทยาลัยฮาร์วาร์ด และเสร็จสิ้นด้วยเงินทุนจาก Microsoft และ OpenAI ชุดข้อมูลประกอบด้วยหนังสือที่สแกนจากโครงการ Google Books ครอบคลุมงานคลาสสิก เช่น เช็คสเปียร์ ดิคเกนส์ และดันเต้ รวมถึงหนังสือเรียนคณิตศาสตร์เช็กและพจนานุกรมภาษาเวลส์ที่คลุมเครือบางเล่ม

AI助教机器人

หมายเหตุแหล่งที่มาของรูปภาพ: รูปภาพนี้สร้างขึ้นโดย AI และผู้ให้บริการอนุญาตรูปภาพ Midjourney

เรียกว่า “ชุดข้อมูล Books3” ชุดข้อมูลนี้มีขนาดใหญ่กว่าห้าเท่าและมีจุดมุ่งหมายเพื่อยกระดับสนามแข่งขันในด้านปัญญาประดิษฐ์ ให้สาธารณชน โดยเฉพาะบริษัท AI ขนาดเล็กและนักวิจัยรายบุคคล สามารถเข้าถึงสิ่งที่โดยปกติจะมีให้เฉพาะกับเทคโนโลยีขนาดใหญ่เท่านั้น มีเพียงบริษัทเท่านั้นที่สามารถรวบรวมข้อมูลคุณภาพสูงได้ Greg Leppert กล่าวว่าโครงการนี้ได้รับการคัดเลือกอย่างเข้มงวดและเนื้อหาได้รับการดูแลจัดการอย่างระมัดระวัง

Burton Davis รองประธาน Microsoft เน้นย้ำว่าเป้าหมายของ Microsoft ในการสนับสนุนโครงการนี้คือการสร้าง "กลุ่มข้อมูลที่เข้าถึงได้" สำหรับสตาร์ทอัพ และตรวจสอบให้แน่ใจว่าข้อมูลนี้ได้รับการจัดการเพื่อ "ประโยชน์สาธารณะ" Tom Rubin ผู้อำนวยการฝ่ายทรัพย์สินทางปัญญาของ OpenAI กล่าวอีกว่าบริษัทมีความยินดีที่จะสนับสนุนโครงการนี้

เนื่องจากการฟ้องร้องเกี่ยวกับการใช้ข้อมูลที่มีลิขสิทธิ์ใน AI ยังคงเพิ่มมากขึ้น โครงการต่างๆ เช่น ชุดข้อมูลที่เป็นสาธารณสมบัติของ Harvard จึงกลายเป็นแหล่งข้อมูลการฝึกอบรม AI ที่สำคัญ แม้ว่าจะไม่ชัดเจนว่าชุดข้อมูลจะเผยแพร่อย่างไรโดยเฉพาะ แต่คาดว่าจะช่วยให้องค์กรได้รับข้อมูลคุณภาพสูงจำนวนมากในขณะที่หลีกเลี่ยงปัญหาลิขสิทธิ์

Institutional Data Initiative ของ Harvard เป็นมากกว่าหนังสือ โดยทำงานร่วมกับห้องสมุดสาธารณะบอสตันเพื่อสแกนบทความในหนังสือพิมพ์ที่เป็นสาธารณสมบัติหลายล้านบทความ และวางแผนความร่วมมือที่คล้ายคลึงกันกับพันธมิตรรายอื่น ๆ ในอนาคต นอกจากนี้ Harvard ยังทำงานร่วมกับ Google เพื่อหารือเกี่ยวกับวิธีเผยแพร่ชุดข้อมูลสู่สาธารณะ

โครงการนี้จะเข้าร่วมโครงการริเริ่มที่คล้ายกันหลายประการซึ่งสัญญาว่าจะจัดหาสื่อการฝึกอบรม AI คุณภาพสูงโดยไม่มีความเสี่ยงด้านลิขสิทธิ์ ในอนาคต เมื่อมีชุดข้อมูลที่เป็นสาธารณสมบัติเพิ่มมากขึ้น บริษัท AI จะมีทางเลือกมากขึ้นในการฝึกอบรมโมเดลของตน ในขณะเดียวกันก็ลดความเสี่ยงทางกฎหมายที่เกี่ยวข้องกับลิขสิทธิ์ไปด้วย

ความเคลื่อนไหวของมหาวิทยาลัยฮาร์วาร์ดนี้ไม่เพียงแต่มอบแหล่งข้อมูลคุณภาพสูงสำหรับการวิจัยปัญญาประดิษฐ์เท่านั้น แต่ยังให้แนวคิดใหม่ๆ ในการแก้ปัญหาลิขสิทธิ์ของแหล่งข้อมูลการฝึกอบรม AI อีกด้วย โดยคาดว่าจะส่งเสริมการพัฒนาที่ดีและการแข่งขันที่ยุติธรรมในด้านปัญญาประดิษฐ์ ในอนาคต. การดำเนินโครงการนี้ให้ประสบความสำเร็จจะมีผลกระทบอย่างมากต่ออุตสาหกรรมทั้งหมด