Perbesar! OpenAI merilis model inferensi terkuat o3 dan versi efisien o3-mini

Penulis：Eve Cole Waktu Pembaruan：2024-12-26 17:32:02

OpenAI telah merilis model inferensi generasi baru o3 dan versi sederhananya o3-mini, yang merupakan penerus seri o1 dan dirancang untuk meningkatkan akurasi menjawab pertanyaan melalui pemikiran yang lebih dalam. o3 telah membuat kemajuan terobosan dalam benchmark ARC-AGI, menunjukkan kemampuan pemecahan masalah yang mendekati tingkat manusia. o3-mini berfokus pada kecepatan dan efektivitas biaya, dan sangat cocok untuk tugas pemrograman. Meskipun model seri o3 tidak akan dirilis langsung ke publik, OpenAI telah membukanya bagi peneliti keamanan untuk dipratinjau.

Model o3 berkinerja baik di berbagai tolok ukur. Misalnya, akurasi pada benchmark Terverifikasi SWE-bench 20% lebih tinggi dibandingkan o1, dan akurasi pada matematika kompetisi dan GPQA Diamond juga meningkat secara signifikan. OpenAI juga telah memperkenalkan metode penilaian keamanan baru yang disebut “penyelarasan deliberatif” untuk memastikan keamanan model dan kepatuhan terhadap spesifikasi keamanan. Saat ini OpenAI sedang menjalani pengujian keamanan eksternal dan telah membuka aplikasi akses awal.

Model inferensi terkuat OpenAI o3 telah dirilis: Kemampuan AGI telah meroket, mendekati tingkat kemampuan manusia

Dalam hal pemrograman dan pemecahan masalah matematika, model o3 telah menunjukkan kemampuan yang luar biasa. Pada benchmark Terverifikasi SWE-bench, akurasi o3 sekitar 71,7%, 20% lebih tinggi dibandingkan model o1. Pada Kode Kompetisi, o3 mendapatkan skor Elo sebesar 2727, sedangkan o1 hanya mendapatkan skor 1891. Selain itu, akurasi o3 dalam matematika kompetisi mencapai 96,7%, dan akurasinya di GPQA Diamond mencapai 87,7%, hampir 10% lebih tinggi dari o1.

OpenAI juga memperkenalkan metode penilaian keamanan baru - penyelarasan deliberatif, yang merupakan paradigma baru yang secara langsung mengajarkan spesifikasi keamanan model dan dapat melatih model untuk mengingat spesifikasi secara eksplisit dan melakukan penalaran secara akurat sebelum menjawab. Pendekatan ini digunakan untuk menyelaraskan model o-series OpenAI dan mencapai kepatuhan yang sangat tepat terhadap kebijakan keamanan OpenAI.

Saat ini, OpenAI sedang mempromosikan pengujian keamanan eksternal dan telah membuka aplikasi akses awal di situs web. Pelamar perlu mengisi formulir online dan memberikan informasi yang relevan. Peneliti terpilih akan diberikan akses ke o3 dan o3-mini untuk mengeksplorasi kemampuan mereka dan berkontribusi pada penilaian keamanan.

Peluncuran model seri OpenAI o3 menandai peningkatan signifikan dalam kemampuan penalaran kecerdasan buatan, dan kinerjanya yang luar biasa di berbagai bidang menandai arah baru bagi pengembangan teknologi AI di masa depan. Kedepannya kami akan terus memperhatikan kemajuan dan penerapan model seri o3.