Sebuah studi baru-baru ini yang diterbitkan dalam Scientific Reports menarik perhatian, yang menunjukkan bahwa beberapa chatbot AI tingkat lanjut telah melampaui kemampuan manusia untuk mengevaluasi situasi sosial yang kompleks. Para peneliti membandingkan beberapa chatbot AI dengan partisipan manusia melalui tes penilaian situasional. Hasilnya menunjukkan bahwa beberapa AI berkinerja lebih baik dalam memilih respons perilaku terbaik, yang memberikan wawasan baru tentang penerapan AI dalam layanan pelanggan, dukungan kesehatan mental, dan bidang lainnya kemungkinan-kemungkinan baru. Penelitian ini tidak sempurna, dan eksplorasi lebih lanjut diperlukan untuk memahami bagaimana kinerja AI dalam interaksi sosial nyata dan bagaimana mengatasi keterbatasannya yaitu kurangnya emosi nyata.
Baru-baru ini, sebuah penelitian yang diterbitkan dalam Scientific Reports menunjukkan bahwa beberapa chatbot AI tingkat lanjut dapat bekerja lebih baik daripada manusia dalam mengevaluasi situasi sosial yang kompleks.
Dengan menggunakan alat psikologis yang banyak digunakan yang disebut Uji Penghakiman Situasional, para peneliti menemukan bahwa tiga chatbot—Claude, Microsoft Co-pilot, dan Intelligent Assistant you.com—mengungguli manusia dalam memilih respons perilaku yang paling efektif.
Catatan sumber gambar: Gambar dihasilkan oleh AI, dan penyedia layanan otorisasi gambar Midjourney
Ketika interaksi sosial menjadi semakin penting, potensi AI dalam interaksi sosial terus bermunculan, termasuk penerapannya di berbagai bidang seperti layanan pelanggan dan dukungan kesehatan mental. Model bahasa besar, seperti chatbot yang diuji dalam penelitian ini, mampu memproses bahasa, memahami konteks, dan memberikan respons yang efektif. Meskipun penelitian sebelumnya telah menunjukkan kemampuan model-model ini dalam penalaran akademis dan tugas-tugas bahasa, efektivitasnya dalam dinamika sosial yang kompleks masih belum dieksplorasi.
Tim peneliti menguji 276 partisipan manusia, yang merupakan pelamar pilot berkualifikasi tinggi. Penelitian ini menggunakan tes penilaian situasional yang menyajikan 12 situasi untuk dievaluasi, masing-masing memberikan empat pilihan perilaku potensial. Para peneliti membandingkan kinerja lima chatbot AI dan menemukan bahwa semua chatbot yang diuji memiliki kinerja yang setidaknya sama baiknya dengan manusia, dan beberapa bahkan memiliki kinerja yang lebih baik. Claude memiliki kinerja terbaik, diikuti oleh pilot Microsoft Co dan asisten cerdas you.com.
Menariknya, ketika chatbots tidak memilih respons terbaik, mereka sering kali memilih opsi paling efektif kedua, yang menunjukkan kemiripan dengan pola pengambilan keputusan manusia. Hal ini menunjukkan bahwa meskipun sistem AI tidak sempurna, namun memiliki kemampuan tertentu dalam penilaian sosial dan penalaran probabilistik.
Selain itu, penelitian menemukan perbedaan keandalan antara sistem AI yang berbeda. Claude menunjukkan konsistensi tertinggi di beberapa pengujian, sementara Google Gemini dapat memiliki peringkat yang bertentangan di seluruh pengujian. Meskipun demikian, kinerja keseluruhan sistem AI melebihi ekspektasi, dan hal ini menunjukkan potensi mereka dalam memberikan rekomendasi kompetensi sosial.
Para peneliti mencatat bahwa meskipun banyak orang sudah menggunakan chatbot dalam tugas sehari-hari, kinerja mereka dalam skenario interaksi sosial yang kompleks masih memerlukan validasi lebih lanjut. Penelitian menunjukkan bahwa model bahasa besar bekerja dengan baik dalam simulasi situasi sosial, namun mereka tidak memiliki emosi nyata yang diperlukan untuk perilaku sosial nyata.
Secara keseluruhan, penelitian ini mengungkapkan potensi besar AI di bidang sosial, namun juga mengingatkan kita bahwa kita perlu berhati-hati dalam penerapan AI dalam skenario sosial nyata, dan penelitian lebih lanjut diperlukan mengenai pemahaman emosional AI dan sosial nyata. kemampuan.