Editor Downcodes mengetahui bahwa penelitian terbaru dari OpenAI menunjukkan bahwa meskipun teknologi AI berkembang pesat, keakuratan model bahasa tercanggih saat ini dalam menjawab pertanyaan faktual masih mengkhawatirkan. Studi ini menggunakan benchmark SimpleQA milik OpenAI. Hasil pengujian menunjukkan bahwa akurasi model terbaik OpenAI jauh lebih rendah dari yang diharapkan, sehingga memicu pemeriksaan ulang terhadap kemampuan akuisisi pengetahuan model AI.
Penelitian ini menggunakan tes benchmark SimpleQA milik OpenAI. Tes ini berisi 4.326 pertanyaan, mencakup berbagai bidang seperti sains, politik, dan seni.
Setelah diverifikasi oleh dua reviewer independen, hasilnya menunjukkan bahwa akurasi pratinjau o1 model terbaik OpenAI hanya 42,7%, sedangkan GPT-4o sedikit lebih rendah, hanya 38,2%. Sedangkan untuk GPT-4o-mini yang lebih kecil, akurasinya bahkan hanya 8,6%. Sebagai perbandingan, model Claude Anthropic memiliki kinerja yang lebih buruk lagi, dengan soneta Claude-3.5 hanya mencapai akurasi 28,9%.
Kunci dari penelitian ini terletak pada desain pengujian, tidak hanya untuk menguji kinerja AI, tetapi juga untuk menyadarkan semua orang akan keterbatasan model AI dalam perolehan pengetahuan. Para peneliti menekankan bahwa ketika pengguna menggunakan model ini, mereka harus memperlakukannya sebagai alat pemrosesan informasi dan bukan sebagai sumber pengetahuan yang sepenuhnya bergantung. Untuk mendapatkan jawaban yang lebih akurat, yang terbaik adalah memberikan AI data yang andal daripada hanya mengandalkan pengetahuan bawaannya.
Perlu dicatat bahwa model AI sering kali memiliki perkiraan kemampuan yang terlalu optimis. Para peneliti menemukan bahwa ketika model-model ini diminta untuk menilai tingkat kepercayaan terhadap jawaban mereka, mereka sering kali memberikan skor akurasi yang meningkat. Dalam pengujian di mana pertanyaan yang sama dijawab berulang kali, meskipun model memberikan jawaban yang sama beberapa kali, tingkat keberhasilan aktual model tersebut masih lebih rendah dibandingkan akurasi penilaian mandiri. Hal ini sesuai dengan kritik dari luar bahwa model bahasa seringkali menghasilkan jawaban yang konyol namun terkesan percaya diri.
Para peneliti percaya bahwa sistem AI saat ini memiliki kesenjangan yang jelas dalam akurasi faktual dan memerlukan perbaikan segera. Mereka juga mengajukan pertanyaan terbuka apakah kinerja AI dalam menjawab pertanyaan faktual singkat memprediksi kinerjanya dalam memproses respons yang lebih lama dan kompleks. Untuk mendukung pengembangan model bahasa yang lebih andal, OpenAI telah merilis data benchmark SimpleQA ke Github secara publik.
Penelitian ini memberikan peringatan akan keandalan model AI dan menunjukkan arah perbaikan di masa depan. Kita perlu menggunakan alat AI dengan lebih hati-hati dan menantikan terobosan yang lebih besar dalam akurasi faktual model AI di masa depan. Data benchmark SimpleQA OpenAI yang dirilis secara publik akan membantu mendorong pengembangan seluruh bidang AI.