Model matematika open source terbaru Alibaba, Qwen2-Math, langsung mengalahkan GPT-4o dalam kemampuan matematika

Penulis：Eve Cole Waktu Pembaruan：2024-12-06 20:16:01

Alibaba Cloud telah meluncurkan seri Qwen2-Math, model bahasa berskala besar baru yang berfokus pada bidang matematika, yang telah menarik perhatian luas di industri ini. Rangkaian model ini melampaui model sumber terbuka yang ada dalam berbagai uji benchmark matematika, dan bahkan mengungguli model sumber tertutup terkenal seperti GPT-4o dan Claude-3.5-Sonnet dalam beberapa aspek. Editor Downcodes akan memberi Anda penjelasan mendalam tentang kinerja luar biasa, teknologi inovatif, dan arah pengembangan masa depan model seri Qwen2-Math, dan mengajak Anda menjelajahi terobosan terbaru di bidang matematika AI.

Baru-baru ini, Alibaba Cloud telah meluncurkan seri model bahasa skala besar Qwen2-Math. Pendatang baru AI yang berfokus pada bidang matematika ini telah menarik perhatian luas di industri segera setelah diluncurkan.

Sebagai anggota terbaru dari seri Qwen2, model Qwen2-Math dan Qwen2-Math-Instruct-1.5B/7B/72B telah menunjukkan kekuatan yang mengesankan dalam kemampuan pemecahan masalah matematika. Dilaporkan bahwa rangkaian model ini tidak hanya mengungguli model open source yang ada dalam beberapa uji benchmark matematika, tetapi juga mengungguli dalam beberapa aspek termasuk GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro dan Llama-Well- model sumber tertutup yang dikenal, termasuk 3.1-405B, dapat disebut sebagai kuda hitam dalam komunitas matematika AI.

Keberhasilan Qwen2-Math bukanlah suatu kebetulan. Tim Alibaba Cloud telah mencurahkan banyak upaya dalam satu tahun terakhir untuk meningkatkan kemampuan penalaran model bahasa besar pada masalah aritmatika dan matematika. Dasar dari rangkaian model ini adalah Qwen2-1.5B/7B/72B. Atas dasar ini, tim R&D melakukan pra-pelatihan mendalam menggunakan korpus matematika profesional yang dirancang dengan cermat. Korpus unik ini mencakup teks online matematika berskala besar dan berkualitas tinggi, buku profesional, contoh kode, dan soal ujian besar-besaran, dan bahkan mencakup data pra-pelatihan matematika yang dihasilkan secara independen oleh Qwen2.

Yang paling layak disebutkan adalah model Qwen2-Math-Instruct. Model penghargaan profesional matematika berdasarkan pelatihan Qwen2-Math-72B mengadopsi metode pelatihan inovatif. Tim R&D dengan cerdik menggabungkan sinyal reward yang padat dengan sinyal biner apakah model menjawab dengan benar atau tidak. Sinyal gabungan ini digunakan sebagai sinyal pengawasan untuk menyusun data SFT (Supervised Fine-Tuning) melalui pengambilan sampel penolakan, dan dalam pembelajaran penguatan. setelah teknologi optimasi kebijakan relatif (GRPO) Grup SFT diterapkan. Metode pelatihan unik ini sangat meningkatkan kemampuan pemecahan masalah matematis model.

Dalam aplikasi praktis, Qwen2-Math-Instruct menunjukkan kinerja luar biasa. Baik itu AIME (American Invitational Mathematics Examination) 2024 atau AMC (American Mathematics Competition) 2023, model ini telah bekerja dengan baik di berbagai situasi, termasuk pencarian serakah (Greedy), pemungutan suara mayoritas, minimalisasi risiko, dan strategi lainnya.

Yang lebih menariknya lagi, Qwen2-Math juga telah menunjukkan kekuatan yang besar dalam menyelesaikan beberapa soal tingkat International Mathematical Olympiad (IMO). Melalui analisis serangkaian test case, peneliti menemukan bahwa Qwen2-Math tidak hanya dapat dengan mudah menyelesaikan permasalahan kompetisi matematika sederhana, tetapi juga memberikan solusi yang meyakinkan ketika menghadapi permasalahan yang kompleks.

Namun, tim Alibaba Cloud tidak berhenti sampai di situ. Mereka mengungkapkan bahwa seri Qwen2-Math saat ini hanya mendukung bahasa Inggris, namun mereka sudah aktif mengembangkan model bilingual yang mendukung bahasa Inggris dan Mandarin, dan berencana meluncurkan versi multibahasa dalam waktu dekat. Selain itu, tim terus mengoptimalkan model tersebut untuk lebih meningkatkan kemampuannya dalam memecahkan masalah matematika yang lebih kompleks dan menantang.

Kemunculan Qwen2-Math tentu membuka kemungkinan baru penerapan AI di bidang matematika. Ini tidak hanya akan membawa perubahan revolusioner pada industri pendidikan dan membantu siswa lebih memahami dan menguasai pengetahuan matematika, namun juga dapat memainkan peran penting dalam penelitian ilmiah, teknik, dan bidang lain yang memerlukan perhitungan matematika yang rumit.

Halaman proyek: https://top.aibase.com/tool/qwen2-math

Unduhan model: https://huggingface.co/Qwen

Secara keseluruhan, kemunculan rangkaian model Qwen2-Math menandai terobosan besar AI di bidang matematika. Potensi pengembangannya di masa depan sangat besar dan patut mendapat perhatian terus-menerus. Editor Downcodes percaya bahwa dengan kemajuan teknologi yang berkelanjutan, Qwen2-Math akan membawa lebih banyak kemungkinan bagi pendidikan matematika dan penelitian ilmiah.