Seri model Tülu3 terbaru yang dirilis oleh Allen Institute for Artificial Intelligence (AI2) telah membawa terobosan mengesankan dalam bidang model bahasa sumber terbuka. Tülu3 tidak hanya memiliki performa yang sebanding dengan model sumber tertutup seperti GPT-4o-mini, namun yang lebih penting, Tülu3 sepenuhnya merupakan sumber terbuka dan menyediakan data pelatihan, kode, resep pelatihan, dan kerangka evaluasi yang komprehensif, yang sangat penting untuk mempromosikan keterbukaan. model sumber. Perkembangan teknologi pelatihan merupakan tonggak penting. Ini memecahkan banyak masalah yang ada dalam penerapan praktis model pra-pelatihan tradisional, seperti menghasilkan informasi berbahaya dan kesulitan dalam mengikuti instruksi, dll., dan membawa kemungkinan baru untuk penelitian dan penerapan di bidang kecerdasan buatan.
Di bidang kecerdasan buatan, teknologi pasca pelatihan secara bertahap menjadi sarana penting untuk meningkatkan kinerja model. Baru-baru ini, Allen Institute for Artificial Intelligence (AI2) merilis seri model Tülu3, yang merupakan model bahasa tingkat lanjut sumber terbuka sepenuhnya dengan kinerja yang sebanding dengan model sumber tertutup seperti GPT-4o-mini. Tülu3 tidak hanya berisi data model, kode, dan resep pelatihan, tetapi juga menyediakan kerangka evaluasi, yang bertujuan untuk mendorong pengembangan teknologi pasca-pelatihan model sumber terbuka.
Secara tradisional, model yang telah dilatih sebelumnya seringkali tidak efektif dalam memenuhi kebutuhan aplikasi praktis, dapat menghasilkan informasi yang beracun atau berbahaya, dan sulit untuk mengikuti instruksi manusia. Oleh karena itu, tahapan pasca pelatihan seperti penyesuaian instruksi dan pembelajaran umpan balik manusia sangatlah penting. Namun cara mengoptimalkan proses pasca pelatihan masih menjadi kendala teknis, apalagi jika meningkatkan salah satu kemampuan model, dapat mempengaruhi kemampuan lainnya.
Untuk mengatasi masalah ini, perusahaan-perusahaan besar telah meningkatkan kompleksitas metode pasca-pelatihan, mencoba beberapa putaran pelatihan dan menggabungkan data buatan dan sintetis, namun sebagian besar metode masih bersifat sumber tertutup. Sebaliknya, peluncuran seri Tülu3 telah mendobrak kesenjangan kinerja antara model sumber terbuka dan model sumber tertutup serta membawa ide pelatihan baru.
Proses pelatihan Tülu3 dibagi menjadi empat tahap: konstruksi data, penyesuaian yang diawasi, penyesuaian preferensi, dan pembelajaran penguatan dengan imbalan yang dapat diverifikasi.
Pertama, peneliti fokus pada keterampilan inti model dan membangun data pelatihan dengan menggabungkan data buatan dengan data sintetis.
Kedua, penyempurnaan yang diawasi dilakukan untuk memastikan bahwa model tersebut memiliki kinerja sebaik model canggih lainnya pada keterampilan tertentu.
Ketiga, metode optimasi preferensi langsung digunakan untuk lebih meningkatkan kinerja model secara keseluruhan. Terakhir, metode inovatif pembelajaran penguatan penghargaan yang dapat diverifikasi diperkenalkan untuk membantu model menyelesaikan tugas dengan lebih baik dengan hasil yang dapat diverifikasi.
Model Tülu3 dibangun berdasarkan Llama3.1 dan memiliki kinerja luar biasa di berbagai bidang seperti penalaran, matematika, pemrograman, dan mengikuti instruksi. Dibandingkan dengan model sumber terbuka dan sumber tertutup lainnya, kemampuan komprehensif Tülu3 berkinerja baik di berbagai tolok ukur, menandai kemajuan besar dalam teknologi pelatihan pasca-sumber terbuka.
Tautan makalah: https://allenai.org/papers/tulu-3-report.pdf
Demo: https://playground.allenai.org/
Menyorot:
? Tülu3 adalah model bahasa sumber terbuka yang diluncurkan oleh AI2, yang memiliki kinerja sebanding dengan model sumber tertutup seperti GPT-4o-mini.
? Teknologi pasca pelatihan sangat penting dan dapat secara efektif meningkatkan kinerja model dalam aplikasi praktis.
? Proses pelatihan inovatif Tülu3 dibagi menjadi empat tahap: konstruksi data, penyesuaian yang diawasi, penyesuaian preferensi, dan pembelajaran penguatan penghargaan yang dapat diverifikasi.
Sifat open source Tülu3 memungkinkan peneliti untuk mempelajari metode pelatihannya secara mendalam dan melakukan perbaikan serta inovasi atas dasar ini, yang akan sangat mendorong pengembangan model bahasa open source. Performanya yang luar biasa di berbagai bidang juga menunjukkan bahwa model open source akan memainkan peran yang lebih penting di masa depan. Tülu3 diharapkan dapat lebih mendorong pemasyarakatan dan penerapan teknologi kecerdasan buatan.