Model bahasa besar (LLM) menghadapi tantangan dalam penalaran yang kompleks, dan kerangka kerja sumber terbuka inovatif yang disebut OpenR pun muncul. Dikembangkan bersama oleh para peneliti dari beberapa universitas, termasuk University College London, OpenR secara signifikan meningkatkan kemampuan penalaran LLM dengan menggabungkan komputasi waktu tes, pembelajaran penguatan, dan pengawasan proses. Ini tidak hanya mereplikasi kemampuan penalaran model-model canggih, tetapi juga mencapai terobosan atas dasar ini, memberikan ide-ide baru untuk memecahkan kekurangan LLM dalam matematika, pemrograman dan masalah ilmiah. Editor Downcodes akan memberi Anda pemahaman mendalam tentang desain unik dan kinerja luar biasa dari kerangka OpenR.
Kerangka kerja sumber terbuka inovatif yang disebut OpenR baru-baru ini diluncurkan, yang bertujuan untuk mengatasi kekurangan model bahasa besar (LLM) dalam tugas penalaran yang kompleks. Kerangka kerja ini, yang dikembangkan bersama oleh para peneliti dari University College London, Universitas Liverpool, Universitas Shanghai Jiao Tong, Universitas Sains dan Teknologi Hong Kong (Guangzhou) dan Universitas Westlake, membuka jalan baru untuk meningkatkan kemampuan penalaran LLM dengan menggabungkan komputasi waktu ujian, pembelajaran penguatan dan pengawasan proses.
Meskipun LLM telah membuat kemajuan yang signifikan dalam generasi bahasa, mereka masih menghadapi tantangan dalam menangani tugas-tugas kompleks seperti matematika, pemrograman, dan masalah ilmiah. Kemunculan OpenR adalah untuk menjembatani kesenjangan ini dan memperluas kemampuan LLM dari pembuatan teks sederhana ke bidang penalaran yang lebih maju.
Desain OpenR sebagian terinspirasi oleh model o1 OpenAI, namun tujuannya lebih ambisius: tidak hanya mereplikasi kemampuan penalaran model bahasa tingkat lanjut, namun juga mencapai terobosan atas dasar ini. Sebagai solusi sumber terbuka pertama yang memberikan dukungan penalaran kompleks, OpenR berfokus pada akuisisi data, model imbalan proses, dan metode penalaran yang efisien, yang bertujuan untuk mempercepat pengembangan model bahasa skala besar yang berfokus pada penalaran.
Catatan sumber gambar: Gambar dihasilkan oleh AI, dan gambar tersebut disahkan oleh penyedia layanan Midjourney
Struktur inti kerangka ini berkisar pada augmentasi data, pembelajaran kebijakan, dan panduan penalaran yang dipadukan dengan eksplorasi multi-jalur. OpenR menggunakan Markov Decision Process (MDP) untuk memodelkan tugas penalaran, menguraikan proses penalaran yang kompleks menjadi serangkaian langkah yang dapat dievaluasi dan dioptimalkan. Metode ini tidak hanya secara langsung memupuk keterampilan penalaran, namun juga mengeksplorasi berbagai jalur penalaran di setiap tahap, sehingga sangat meningkatkan ketahanan proses penalaran.
Fitur penting lainnya dari kerangka kerja ini adalah model imbalan proses (PRM), yang memberikan umpan balik terperinci untuk langkah-langkah penalaran menengah, sehingga model dapat menyesuaikan keputusan dengan lebih tepat daripada hanya mengandalkan penilaian hasil akhir. Panduan terperinci ini secara signifikan meningkatkan efisiensi pembelajaran model.
Dalam pengujian sebenarnya, OpenR menunjukkan kinerja yang mengesankan. Dengan menggunakan kumpulan data MATEMATIKA sebagai tolok ukur, akurasi inferensi OpenR sekitar 10% lebih tinggi dibandingkan metode tradisional. Studi ini juga menemukan bahwa metode eksplorasi multi-jalur seperti Best-of-N dan Beam Search secara signifikan lebih baik dibandingkan teknik pemungutan suara mayoritas sederhana, terutama ketika sumber daya komputasi terbatas.
Teknologi pembelajaran penguatan OpenR, khususnya metode yang memanfaatkan PRM, bekerja dengan baik dalam skenario pembelajaran kebijakan online dan mendorong peningkatan berkelanjutan pada kemampuan penalaran LLM. Hasil ini menunjukkan bahwa melalui strategi pembelajaran yang dirancang dengan cermat, LLM memiliki potensi untuk mencapai kemajuan terobosan dalam tugas-tugas penalaran yang kompleks.
Sebagai platform sumber terbuka, OpenR memberi peneliti dan pengembang sumber daya berharga untuk bekerja sama guna meningkatkan kemampuan penalaran model bahasa. Hal ini tidak hanya menyediakan jalur peningkatan untuk LLM saat ini, namun juga membuka jalan bagi sistem AI yang lebih cerdas dan mampu berpikir di masa depan.
Di masa depan, tim OpenR berencana untuk lebih memperluas fungsionalitas kerangka kerja untuk mencakup jenis tugas inferensi yang lebih luas dan terus mengoptimalkan proses inferensinya. Upaya ini diharapkan dapat memberikan kontribusi penting terhadap tujuan jangka panjang agen AI yang mampu meningkatkan penalaran secara mandiri.
Alamat proyek: https://github.com/facebook/openr
Secara keseluruhan, kemunculan kerangka OpenR memberikan kemungkinan baru bagi terobosan model bahasa besar di bidang penalaran kompleks. Fitur open source-nya juga memfasilitasi partisipasi lebih banyak peneliti dan pengembang untuk bersama-sama mendorong kemajuan teknologi kecerdasan buatan. Kami berharap OpenR dapat mencapai hasil yang lebih signifikan di masa depan dan berkontribusi dalam membangun sistem AI yang lebih cerdas.