บรรณาธิการของ Downcodes จะช่วยให้คุณเข้าใจ "การใช้ทางเลือก" ของเอกสารทางวิชาการ! ในช่วงไม่กี่ปีที่ผ่านมา แหล่งที่มาของข้อมูลการฝึกอบรมสำหรับโมเดล AI ได้รับความสนใจอย่างกว้างขวาง ผู้เผยแพร่ทางวิชาการหลายรายกำลัง "บรรจุและขาย" เอกสารวิจัยให้กับบริษัทเทคโนโลยีเพื่อปรับปรุงความสามารถของระบบ AI สิ่งนี้เกี่ยวข้องกับการทำธุรกรรมขนาดใหญ่และก่อให้เกิดการถกเถียงอย่างดุเดือดในชุมชนวิชาการเกี่ยวกับสิทธิในทรัพย์สินทางปัญญา สิทธิของผู้เขียน และจริยธรรมของการพัฒนา AI บทความนี้จะเจาะลึกถึงกลไก ผลกระทบ และแนวโน้มในอนาคตที่อยู่เบื้องหลังปรากฏการณ์นี้
คุณเคยคิดบ้างไหมว่างานวิจัยของคุณอาจถูกนำมาใช้ในการฝึกอบรม AI ใช่ ผู้เผยแพร่ทางวิชาการหลายรายกำลัง "บรรจุและขาย" ผลลัพธ์ของตนให้กับบริษัทเทคโนโลยีที่กำลังพัฒนาโมเดล AI ไม่ต้องสงสัยเลยว่าการเคลื่อนไหวครั้งนี้ทำให้เกิดความปั่นป่วนในชุมชนการวิจัยทางวิทยาศาสตร์ โดยเฉพาะอย่างยิ่งเมื่อผู้เขียนไม่รู้อะไรเลย ผู้เชี่ยวชาญกล่าวว่าหากโมเดลภาษาขนาดใหญ่ (LLM) ของคุณยังไม่ได้ใช้อยู่แล้ว ก็มีโอกาสที่ดีที่จะเกิดขึ้นในอนาคตอันใกล้นี้
เมื่อเร็วๆ นี้ Taylor & Francis ผู้จัดพิมพ์ด้านวิชาการของอังกฤษ บรรลุข้อตกลงมูลค่า 10 ล้านดอลลาร์กับ Microsoft โดยอนุญาตให้ยักษ์ใหญ่ด้านเทคโนโลยีใช้ข้อมูลการวิจัยของตนเพื่อปรับปรุงขีดความสามารถของระบบ AI เมื่อต้นเดือนมิถุนายน Wiley ผู้จัดพิมพ์ชาวอเมริกันยังได้บรรลุข้อตกลงกับบริษัทแห่งหนึ่ง และได้รับรายได้ 23 ล้านดอลลาร์สหรัฐเป็นการตอบแทนสำหรับเนื้อหาที่ใช้ในการฝึกโมเดล AI เชิงสร้างสรรค์
หากมีบทความเผยแพร่ทางออนไลน์ ไม่ว่าจะเป็นการเข้าถึงแบบเปิดหรือหลังเพย์วอลล์ ก็มีแนวโน้มว่าบทความดังกล่าวจะถูกป้อนเข้าสู่โมเดลภาษาขนาดใหญ่ “เมื่อใช้กระดาษในการฝึกโมเดลแล้ว จะไม่สามารถเอาออกได้หลังจากฝึกโมเดลแล้ว” ลูซี หลู่ หวาง นักวิจัยด้าน AI จากมหาวิทยาลัยวอชิงตัน กล่าว
โมเดลภาษาขนาดใหญ่ต้องใช้ข้อมูลจำนวนมากในการฝึก ซึ่งมักจะถูกดึงมาจากอินเทอร์เน็ต โมเดลเหล่านี้สามารถเรียนรู้และสร้างข้อความได้อย่างคล่องแคล่วด้วยการวิเคราะห์ตัวอย่างภาษานับพันล้านตัวอย่าง บทความทางวิชาการได้กลายเป็น "สมบัติ" ที่มีค่ามากสำหรับนักพัฒนา LLM เนื่องจากมีความหนาแน่นของข้อมูลสูงและมีความยาวมาก ข้อมูลดังกล่าวช่วยให้ AI ทำการอนุมานทางวิทยาศาสตร์ได้ดีขึ้น
ล่าสุด แนวโน้มการซื้อชุดข้อมูลคุณภาพสูงกำลังเพิ่มสูงขึ้น และสื่อและแพลตฟอร์มที่มีชื่อเสียงหลายแห่งเริ่มร่วมมือกับนักพัฒนา AI เพื่อขายเนื้อหาของตน เมื่อพิจารณาว่าหากไม่มีข้อตกลง งานจำนวนมากอาจถูกคัดลอกไปอย่างเงียบๆ ความร่วมมือประเภทนี้จะกลายเป็นเรื่องธรรมดามากขึ้นในอนาคตเท่านั้น
อย่างไรก็ตาม นักพัฒนา AI บางราย เช่น Large-scale Artificial Intelligence Network เลือกที่จะเก็บชุดข้อมูลไว้ แต่หลายบริษัทที่พัฒนา AI ดั้งเดิมจะเก็บข้อมูลการฝึกอบรมไว้เป็นความลับ ไม่มีสิ่งใดที่ทราบเกี่ยวกับข้อมูลการฝึกอบรมดังกล่าว" แพลตฟอร์มอย่าง arXiv และฐานข้อมูลอย่าง PubMed ถือเป็นเป้าหมายยอดนิยมสำหรับบริษัท AI ในการรวบรวมข้อมูลอย่างไม่ต้องสงสัย
มันไม่ง่ายเลยที่จะพิสูจน์ว่ามีเอกสารบางฉบับปรากฏในชุดการฝึกอบรมของ LLM บางแห่งหรือไม่ นักวิจัยสามารถใช้ประโยคที่ผิดปกติจากรายงานเพื่อทดสอบว่าผลลัพธ์ของแบบจำลองตรงกับข้อความต้นฉบับหรือไม่ แต่นี่ไม่ได้พิสูจน์อย่างสมบูรณ์ว่าไม่ได้ใช้กระดาษดังกล่าว เนื่องจากนักพัฒนาสามารถปรับแบบจำลองเพื่อหลีกเลี่ยงการแสดงผลข้อมูลการฝึกอบรมโดยตรง
แม้ว่าจะพิสูจน์ได้ว่า LLM ใช้ข้อความใดข้อความหนึ่ง แต่จะเกิดอะไรขึ้นต่อไป ผู้จัดพิมพ์อ้างว่าการใช้ข้อความที่มีลิขสิทธิ์โดยไม่ได้รับอนุญาตถือเป็นการละเมิด แต่ยังมีข้อโต้แย้งว่า LLM ไม่ได้คัดลอกข้อความ แต่จะสร้างข้อความใหม่ โดยการวิเคราะห์เนื้อหาข้อมูล
ขณะนี้มีการฟ้องร้องเรื่องลิขสิทธิ์ในสหรัฐอเมริกาซึ่งอาจกลายเป็นคดีสำคัญได้ New York Times กำลังฟ้องร้อง Microsoft และ OpenAI ผู้พัฒนา ChatGPT โดยกล่าวหาว่าพวกเขาใช้เนื้อหาข่าวเพื่อฝึกโมเดลโดยไม่ได้รับอนุญาต
นักวิชาการหลายคนยินดีที่รวมผลงานของตนไว้ในข้อมูลการฝึกอบรมของ LLM โดยเฉพาะอย่างยิ่งเมื่อแบบจำลองเหล่านี้สามารถปรับปรุงความแม่นยำของการวิจัยได้ อย่างไรก็ตาม ไม่ใช่ว่านักวิจัยในสายอาชีพทุกคนจะก้าวไปในทิศทางนี้ และหลายคนรู้สึกว่างานของตนถูกคุกคาม
โดยทั่วไปแล้ว ผู้เขียนทางวิทยาศาสตร์แต่ละคนแทบไม่มีอำนาจตัดสินใจในการขายของผู้จัดพิมพ์ และไม่มีกลไกที่ชัดเจนในการจัดสรรเครดิตและไม่ว่าจะนำไปใช้กับบทความที่ตีพิมพ์หรือไม่ นักวิจัยบางคนแสดงความไม่พอใจ: "เราหวังว่าจะได้รับความช่วยเหลือจากโมเดล AI แต่เราก็หวังว่าจะมีกลไกที่ยุติธรรมเช่นกัน เรายังไม่พบวิธีแก้ปัญหาดังกล่าว"
อ้างอิง:
https://www.nature.com/articles/d41586-024-02599-9
https://arxiv.org/pdf/2112.03570
ทิศทางในอนาคตของ AI และการเผยแพร่ทางวิชาการยังไม่ชัดเจน และประเด็นด้านลิขสิทธิ์ ความเป็นส่วนตัวของข้อมูล และกลไกการปกป้องสิทธิ์และผลประโยชน์ของผู้เขียน ล้วนจำเป็นต้องได้รับการปรับปรุงให้ดียิ่งขึ้น นี่ไม่ใช่แค่เกมระหว่างผู้จัดพิมพ์และบริษัทเทคโนโลยีเท่านั้น แต่ยังเป็นประเด็นสำคัญที่เกี่ยวข้องกับการพัฒนาการวิจัยทางวิชาการที่ยั่งยืนและจริยธรรมของเทคโนโลยี AI ซึ่งต้องอาศัยความสนใจและความพยายามร่วมกันของสังคมทั้งหมด