Tim Alibaba Cloud Tongyi meluncurkan model penghargaan proses penalaran matematis baru Qwen2.5-Math-PRM. Model ini tersedia dalam ukuran 72B dan 7B. Model ini secara signifikan melampaui model sumber terbuka serupa dalam hal kinerja, terutama dalam mengidentifikasi kesalahan penalaran. Perlu dicatat bahwa versi 7B bahkan melampaui GPT-4o yang populer, yang menunjukkan kemajuan terobosan Alibaba Cloud di bidang penelitian dan pengembangan model inferensi. Untuk mengevaluasi kinerja model secara lebih komprehensif, tim juga membuat standar evaluasi tingkat langkah pertama ProcessBench menjadi sumber terbuka, yang berisi 3.400 soal matematika yang mencakup kesulitan Olimpiade Matematika, dan ditandai dengan proses penalaran terperinci oleh para ahli untuk memastikan keilmuannya. dan ketelitian evaluasi.
Hari ini, tim Alibaba Cloud Tongyi secara resmi merilis model penghargaan proses penalaran matematis baru Qwen2.5-Math-PRM. Model ini tersedia dalam ukuran 72B dan 7B, dan performanya jauh lebih baik dibandingkan model imbalan proses sumber terbuka serupa, terutama dalam mengidentifikasi kesalahan inferensi.
Qwen2.5-Math-PRM versi 7B secara mengejutkan melampaui GPT-4o yang populer di industri. Pencapaian ini menandai langkah penting bagi Alibaba Cloud dalam pengembangan model inferensi. Untuk mengevaluasi kinerja model dalam penalaran matematika secara komprehensif, tim Tongyi juga menggunakan sumber terbuka standar evaluasi tingkat langkah pertama-ProcessBench. Standar evaluasi ini mencakup 3.400 kasus tes masalah matematika, termasuk soal-soal sulit dari Kompetisi Olimpiade Matematika Internasional. Setiap kasus ditandai dengan proses penalaran terperinci oleh para ahli untuk memastikan keilmuan dan kelengkapan evaluasi.
Dengan mengevaluasi kinerja Qwen2.5-Math-PRM di ProcessBench, tim peneliti menemukan bahwa model ukuran 72B dan 7B memiliki kinerja yang baik. Khususnya versi 7B, tidak hanya mengungguli model open source dengan ukuran yang sama, tetapi bahkan mengungguli sumber tertutup GPT-4o-0806 dalam beberapa aspek. Hal ini membuktikan potensi besar Process Reward Model (PRM) dalam meningkatkan reliabilitas penalaran dan memberikan ide-ide baru bagi pengembangan teknologi pengawasan proses penalaran di masa depan.
Karya inovatif tim Alibaba Cloud Tongyi ini tidak hanya mendorong kemajuan teknologi penalaran kecerdasan buatan, namun juga memberikan referensi berharga bagi pengembang lain di industri ini. Melalui open source, tim Tongyi berharap dapat berbagi pengalaman dengan lebih banyak peneliti dan mempromosikan kemajuan teknologi di seluruh industri.
Peluncuran Qwen2.5-Math-PRM menandai terobosan baru untuk model besar di bidang penalaran matematika. Fitur open source-nya juga memberikan kemudahan yang luar biasa untuk penelitian dan penerapan di dunia akademis dan industri Lebih banyak kemungkinan pengembangan kecerdasan buatan di masa depan.