Editor Downcodes akan membantu Anda memahami "penggunaan alternatif" dari makalah akademis! Dalam beberapa tahun terakhir, sumber data pelatihan untuk model AI telah menarik perhatian luas. Banyak penerbit akademis yang “mengemas dan menjual” makalah penelitian kepada perusahaan teknologi untuk meningkatkan kemampuan sistem AI. Hal ini melibatkan transaksi besar-besaran dan memicu diskusi hangat di komunitas akademis tentang hak kekayaan intelektual, hak penulis, dan etika pengembangan AI. Artikel ini akan mempelajari mekanisme, dampak, dan tren masa depan di balik fenomena ini.
Pernahkah Anda berpikir bahwa makalah penelitian Anda mungkin digunakan untuk melatih AI. Ya, banyak penerbit akademis yang “mengemas dan menjual” hasilnya kepada perusahaan teknologi yang mengembangkan model AI. Tidak ada keraguan bahwa langkah ini telah menyebabkan kegemparan di komunitas riset ilmiah, terutama ketika penulis tidak mengetahui apa pun tentang hal tersebut. Para ahli mengatakan bahwa jika model bahasa Anda belum digunakan oleh model bahasa besar (LLM), kemungkinan besar hal tersebut akan terjadi dalam waktu dekat.
Baru-baru ini, penerbit akademis Inggris Taylor & Francis mencapai kesepakatan senilai $10 juta dengan Microsoft, yang memungkinkan raksasa teknologi tersebut menggunakan data penelitian mereka untuk meningkatkan kemampuan sistem AI-nya. Pada awal bulan Juni, penerbit Amerika Wiley juga mencapai kesepakatan dengan sebuah perusahaan dan menerima pendapatan sebesar US$23 juta sebagai imbalan atas konten mereka yang digunakan untuk melatih model AI generatif.
Jika sebuah makalah tersedia online, baik dalam akses terbuka atau di balik paywall, kemungkinan besar makalah tersebut telah dimasukkan ke dalam model bahasa yang besar. “Setelah kertas digunakan untuk melatih suatu model, kertas tersebut tidak dapat dihapus setelah model tersebut dilatih,” kata Lucy Lu Wang, peneliti AI di Universitas Washington.
Model bahasa yang besar memerlukan data dalam jumlah besar untuk dilatih, yang sering kali diambil dari Internet. Dengan menganalisis miliaran cuplikan bahasa, model ini mampu mempelajari dan menghasilkan teks yang lancar. Makalah akademis telah menjadi "harta" yang sangat berharga bagi pengembang LLM karena kepadatan informasinya yang tinggi dan panjangnya. Data tersebut membantu AI membuat kesimpulan yang lebih baik dalam sains.
Baru-baru ini, tren pembelian kumpulan data berkualitas tinggi sedang meningkat, dan banyak media dan platform terkenal mulai bekerja sama dengan pengembang AI untuk menjual konten mereka. Mengingat tanpa adanya kesepakatan, banyak karya yang mungkin terkikis secara diam-diam, maka kerja sama seperti ini akan semakin marak di masa mendatang.
Namun, beberapa pengembang AI, seperti Jaringan Kecerdasan Buatan Skala Besar, memilih untuk membiarkan kumpulan data mereka tetap terbuka, namun banyak perusahaan yang mengembangkan AI generatif merahasiakan data pelatihan mereka. Tidak ada yang diketahui tentang data pelatihan tersebut.” platform seperti arXiv dan database seperti PubMed tidak diragukan lagi merupakan target populer untuk dirayapi oleh perusahaan AI.
Tidak mudah untuk membuktikan apakah suatu makalah tertentu muncul dalam set pelatihan LLM tertentu. Peneliti dapat menggunakan kalimat yang tidak biasa dari makalah untuk menguji apakah keluaran model cocok dengan teks aslinya, namun hal ini tidak sepenuhnya membuktikan bahwa makalah tersebut tidak digunakan, karena pengembang dapat menyesuaikan model untuk menghindari keluaran data pelatihan secara langsung.
Sekalipun LLM terbukti menggunakan teks tertentu, apa yang terjadi selanjutnya? Penerbit mengklaim bahwa penggunaan tidak sah atas teks berhak cipta merupakan pelanggaran, namun ada juga yang keberatan bahwa LLM tidak menyalin teks tersebut, melainkan menghasilkan teks baru. dengan menganalisis kandungan informasinya.
Saat ini terdapat tuntutan hukum hak cipta yang sedang berlangsung di Amerika Serikat yang dapat menjadi kasus penting. The New York Times menggugat Microsoft dan pengembang ChatGPT OpenAI, menuduh mereka menggunakan konten beritanya untuk melatih model tanpa izin.
Banyak sarjana menyambut baik dimasukkannya karya mereka dalam data pelatihan LLM, terutama ketika model ini dapat meningkatkan akurasi penelitian. Namun, tidak semua peneliti dalam profesi ini mengambil tindakan ini dengan tenang, dan banyak yang merasa pekerjaan mereka terancam.
Secara umum, masing-masing penulis ilmiah saat ini tidak mempunyai banyak suara dalam keputusan penjualan penerbit, dan tidak ada mekanisme yang jelas tentang bagaimana kredit dialokasikan dan apakah kredit tersebut digunakan untuk artikel yang diterbitkan. Beberapa peneliti mengungkapkan rasa frustrasinya: "Kami berharap mendapatkan bantuan model AI, namun kami juga berharap memiliki mekanisme yang adil. Kami belum menemukan solusi seperti itu."
Referensi:
https://www.nature.com/articles/d41586-024-02599-9
https://arxiv.org/pdf/2112.03570
Arah masa depan AI dan penerbitan akademis masih belum jelas, dan masalah hak cipta, privasi data, serta mekanisme perlindungan hak dan kepentingan penulis perlu lebih ditingkatkan. Ini bukan hanya permainan antara penerbit dan perusahaan teknologi, tetapi juga merupakan isu besar terkait pengembangan penelitian akademis yang berkelanjutan dan etika teknologi AI yang memerlukan perhatian dan upaya bersama dari seluruh masyarakat.