Baru-baru ini, pertanyaan perbandingan matematis yang tampaknya sederhana, "Mana yang lebih besar, 13,8 atau 13,11?" telah membuat bingung banyak orang, termasuk beberapa model AI tingkat lanjut. Editor Downcodes akan mengajak Anda mendalami kejadian ini, menganalisis kekurangan AI dalam menangani masalah akal sehat, dan arah perbaikan di masa depan. Hal ini tidak hanya mengungkap keterbatasan teknologi AI, tetapi juga memicu pemikiran masyarakat tentang perkembangan AI di masa depan.
Baru-baru ini, sebuah pertanyaan matematika sederhana—mana yang lebih besar, 13,8 atau 13,11?—tidak hanya membuat bingung sebagian orang, tetapi juga membuat banyak model bahasa besar (LLM) mendapat masalah. Pertanyaan ini telah memicu diskusi luas tentang kemampuan AI dalam menangani permasalahan yang masuk akal.
Dalam sebuah variety show ternama, isu ini memicu perbincangan hangat di kalangan netizen. Banyak orang mengira 13,11% seharusnya lebih besar dari 13,8%, namun kenyataannya 13,8% lebih besar.
Peneliti AI2 Lin Yuchen menemukan bahwa model bahasa besar sekalipun, seperti GPT-4o, membuat kesalahan dalam masalah perbandingan sederhana ini. GPT-4o secara keliru percaya bahwa 13.11 lebih besar dari 13.8 dan memberikan penjelasan yang salah.
Penemuan Lin Yuchen dengan cepat memicu diskusi hangat di komunitas AI. Banyak model bahasa besar lainnya, seperti Gemini, Claude3.5Sonnet, dll., juga melakukan kesalahan yang sama pada masalah perbandingan sederhana ini.
Munculnya masalah ini mengungkapkan kesulitan yang mungkin dihadapi AI ketika menangani tugas-tugas yang tampak sederhana namun sebenarnya melibatkan perbandingan numerik yang tepat.
Meskipun kecerdasan buatan telah mencapai kemajuan yang signifikan di banyak bidang, seperti pemahaman bahasa alami, pengenalan gambar, dan pengambilan keputusan yang kompleks, kecerdasan buatan masih dapat membuat kesalahan dalam operasi matematika dasar dan penalaran logis, yang menunjukkan keterbatasan teknologi saat ini.
Mengapa AI melakukan kesalahan seperti itu?
Bias dalam data pelatihan: Data pelatihan untuk model AI mungkin tidak berisi cukup contoh untuk menangani jenis masalah perbandingan numerik khusus ini dengan benar. Jika model terkena data selama pelatihan yang terutama menunjukkan bahwa angka yang lebih besar selalu memiliki lebih banyak tempat desimal, model tersebut mungkin salah mengartikan lebih banyak tempat desimal sebagai nilai yang lebih besar.
Masalah presisi floating point: Dalam ilmu komputer, representasi dan penghitungan angka floating point melibatkan masalah presisi. Perbedaan kecil sekalipun dapat menyebabkan hasil yang salah saat membandingkan, terutama jika presisi tidak ditentukan secara eksplisit.
Pemahaman kontekstual yang tidak memadai: Meskipun kejelasan kontekstual mungkin bukan masalah besar dalam kasus ini, model AI sering kali perlu menafsirkan informasi berdasarkan konteks dengan benar. Kesalahpahaman dapat terjadi jika pertanyaan dirumuskan dengan cara yang tidak cukup jelas atau tidak sesuai dengan pola yang umum pada AI dalam data pelatihan.
Dampak desain yang cepat: Cara Anda mengajukan pertanyaan kepada AI sangat penting untuk mendapatkan jawaban yang tepat. Metode pertanyaan yang berbeda dapat mempengaruhi pemahaman dan keakuratan jawaban AI.
Bagaimana cara meningkatkannya?
Data pelatihan yang ditingkatkan: Dengan menyediakan data pelatihan yang lebih beragam dan akurat, model AI dapat dibantu untuk lebih memahami perbandingan numerik dan konsep matematika dasar lainnya.
Optimalkan desain cepat: Rumusan masalah yang dirancang dengan baik dapat meningkatkan peluang AI memberikan jawaban yang benar. Misalnya, penggunaan representasi numerik dan metode pertanyaan yang lebih eksplisit dapat mengurangi ambiguitas.
Meningkatkan akurasi pemrosesan numerik: Mengembangkan dan mengadopsi algoritme dan teknik yang menangani operasi floating point dengan lebih akurat untuk mengurangi kesalahan komputasi.
Peningkatan kemampuan penalaran logis dan akal sehat: Melalui pelatihan yang secara khusus berfokus pada penalaran logis dan akal sehat, kemampuan AI di bidang ini ditingkatkan, sehingga memungkinkan AI untuk lebih memahami dan menangani tugas-tugas yang berhubungan dengan akal sehat.
Secara keseluruhan, kelemahan AI dalam menangani masalah perbandingan matematis sederhana mengingatkan kita bahwa teknologi AI masih dalam tahap pengembangan dan memerlukan perbaikan dan penyempurnaan terus-menerus. Di masa depan, dengan mengoptimalkan data pelatihan, meningkatkan algoritme, dan meningkatkan kemampuan penalaran logis, AI akan mencapai kemajuan yang lebih besar dalam menangani masalah akal sehat.