Editor Downcodes mengetahui bahwa tim Shanghai AI Lab telah membuat proyek LLaMA versi o1 menjadi sumber terbuka. Ini adalah berita yang menggembirakan! Proyek ini bertujuan untuk mereproduksi o1 OpenAI, artefak pemecahan teka-teki matematika, dan telah mencapai kemajuan yang signifikan. Tim ini dengan terampil menggunakan teknologi canggih seperti pencarian pohon Monte Carlo dan pembelajaran penguatan untuk melampaui banyak solusi sumber tertutup dalam uji benchmark AIME2024, menunjukkan kekuatan teknis yang kuat dan semangat sumber terbuka. Proyek sumber terbuka berisi kumpulan data, model, dan kode pelatihan yang telah dilatih sebelumnya, sehingga memberikan sumber daya pembelajaran yang berharga bagi pengembang.
Jauh sebelum peluncuran seri o1 OpenAI, tim Shanghai AI Lab mulai mengeksplorasi penggunaan pencarian pohon Monte Carlo untuk meningkatkan kemampuan matematika model besar. Setelah o1 dirilis, tim meningkatkan algoritmenya lebih lanjut, dengan fokus pada soal Olimpiade Matematika, dan mengembangkannya sebagai versi open source dari OpenAI Strawberry Project.
Untuk meningkatkan performa model LLaMA pada soal Olimpiade Matematika, tim mengadopsi strategi optimasi berpasangan, yang tidak secara langsung memberikan skor absolut dari jawaban, namun membandingkan manfaat relatif dari kedua jawaban. Dengan pendekatan ini, mereka mencapai peningkatan signifikan pada benchmark AIME2024 yang paling sulit. Di antara 30 soal tes, model yang dioptimalkan menjawab 8 soal dengan benar, sedangkan model LLaMA-3.1-8B-Instruct asli hanya menjawab 2 soal dengan benar. Pencapaian ini melebihi solusi sumber tertutup komersial lainnya kecuali o1-preview dan o1-mini.
Pada akhir bulan Oktober, tim mengumumkan bahwa mereka telah membuat kemajuan signifikan dalam mereproduksi OpenAI o1 berdasarkan arsitektur AlphaGo Zero, dan berhasil memungkinkan model memperoleh kemampuan berpikir tingkat lanjut dengan berinteraksi dengan pohon pencarian selama proses pembelajaran tanpa anotasi manual. Dalam waktu kurang dari seminggu, proyek ini menjadi open source.
Saat ini, konten sumber terbuka LLaMA versi o1 meliputi: kumpulan data pra-pelatihan, model pra-pelatihan, dan kode pelatihan pembelajaran penguatan. Diantaranya, kumpulan data "OpenLongCoT-Pretrain" berisi lebih dari 100.000 data rantai pemikiran panjang. Setiap bagian data berisi proses penalaran masalah matematis yang lengkap, termasuk isi pemikiran, hasil penilaian, deskripsi masalah, koordinat grafik, proses perhitungan, dan kesimpulan. derivasi. Melengkapi tautan penalaran, serta isi kritik dan verifikasi setiap langkah penalaran, memberikan evaluasi dan panduan untuk proses penalaran. Setelah pra-pelatihan lanjutan pada kumpulan data ini, model dapat membaca dan mengeluarkan proses rantai pemikiran panjang seperti o1.
Meskipun proyek tersebut disebut LLaMA-O1, model pra-pelatihan yang disediakan secara resmi saat ini didasarkan pada Gemma2 Google. Berdasarkan model yang telah dilatih sebelumnya, pengembang dapat terus melakukan pelatihan pembelajaran penguatan. Proses pelatihan meliputi: menggunakan pencarian pohon Monte Carlo untuk melakukan permainan mandiri guna menghasilkan pengalaman; menyimpan pengalaman dalam buffer pemutaran sampel pengalaman prioritas dari buffer untuk memperbarui parameter model dan prioritas pengalaman. Beberapa teknologi utama juga digunakan dalam kode pelatihan, termasuk penggunaan LoRA untuk penyesuaian parameter yang efisien, penggunaan algoritme PPO sebagai metode pengoptimalan strategi, penerapan algoritme GAE untuk menghitung fungsi keunggulan, dan penggunaan pemutaran pengalaman prioritas untuk meningkatkan pelatihan. efisiensi.
Perlu dicatat bahwa kode LLaMA-O1 dirilis di bawah akun GitHub bernama SimpleBerry. Akun tersebut tidak memiliki pengenalan khusus dan tampaknya relatif misterius. Dari akun lain dan informasi website resmi terkait SimpleBerry, hanya terlihat sifatnya sebagai laboratorium penelitian, namun tidak diungkapkan informasi lebih lanjut mengenai arah penelitiannya.
Selain LLaMA-O1, proyek replika o1 lainnya yang mengalami kemajuan publik adalah O1-Journey dari tim Shanghai Jiao Tong University. Tim ini merilis laporan kemajuan pertamanya pada awal Oktober, memperkenalkan paradigma Pembelajaran Perjalanan yang inovatif dan model pertama yang berhasil mengintegrasikan pencarian dan pembelajaran ke dalam penalaran matematika. Tim pengembangan inti O1-Journey sebagian besar terdiri dari mahasiswa sarjana junior dan senior Universitas Shanghai Jiao Tong, serta mahasiswa doktoral tahun pertama dari Laboratorium GAIR (Laboratorium Penelitian Kecerdasan Buatan Generatif) Universitas Shanghai Jiao Tong termasuk Liu Pengfei dan Yao Ban, profesor asosiasi Universitas Shanghai Jiao Tong. Alumni dan pemenang Penghargaan Sloan Li Yuanzhi, dll.
Alamat makalah: https://arxiv.org/pdf/2410.02884
https://arxiv.org/pdf/2406.07394
Sumber terbuka proyek LLaMA versi o1 telah membawa vitalitas baru ke bidang pemecahan masalah matematika AI, dan juga memberi pengembang sumber daya pembelajaran dan penelitian yang berharga. Kami menantikan lebih banyak proyek sumber terbuka serupa yang muncul di masa depan untuk mendorong pengembangan berkelanjutan di bidang kecerdasan buatan!