Canggung! Google terpapar menggunakan model Claude untuk pengujian komparatif guna meningkatkan AI Gemini

Penulis：Eve Cole Waktu Pembaruan：2024-12-28 12:48:01

Baru-baru ini, ada laporan bahwa Google menggunakan model Claude Anthropic untuk meningkatkan proyek kecerdasan buatan Gemini. Dokumen internal menunjukkan bahwa kontraktor Google secara sistematis membandingkan keluaran Gemini dan Claude untuk mengevaluasi dan meningkatkan kinerja Gemini. Pendekatan ini telah menarik perhatian industri dan juga melibatkan norma-norma industri untuk evaluasi model AI dan masalah etika dalam kerjasama teknis antara berbagai perusahaan. Artikel ini akan menyelidiki rincian insiden ini dan menganalisis potensi dampaknya.

Baru-baru ini, proyek kecerdasan buatan Gemini Google meningkatkan kinerjanya dengan membandingkan hasil keluarannya dengan model Claude Anthropic. Menurut komunikasi internal yang diperoleh TechCrunch, kontraktor yang bertanggung jawab untuk meningkatkan Gemini secara sistematis mengevaluasi jawaban dari kedua model AI tersebut.

代码互联网电脑

Dalam industri AI, evaluasi kinerja model biasanya dilakukan melalui tolok ukur industri, daripada meminta kontraktor membandingkan jawaban berbagai model satu per satu. Kontraktor yang bertanggung jawab atas Gemini perlu menilai keluaran model berdasarkan beberapa kriteria, termasuk keaslian dan tingkat detail. Mereka memiliki waktu hingga 30 menit setiap kali untuk memutuskan jawaban mana yang lebih baik, jawaban Gemini atau jawaban Claude.

Baru-baru ini, para kontraktor ini memperhatikan referensi tentang Claude sering muncul di platform internal yang mereka gunakan. Bagian dari apa yang diperlihatkan kepada kontraktor dengan jelas menyatakan: "Saya Claude yang diciptakan oleh Anthropic." Dalam obrolan internal, kontraktor juga menemukan bahwa jawaban Claude lebih fokus pada keamanan. Beberapa kontraktor menunjukkan bahwa pengaturan keamanan Claude adalah yang paling ketat di antara semua model AI. Dalam beberapa kasus, Claude akan memilih untuk tidak merespons perintah yang dianggap tidak aman, seperti memainkan peran asisten AI lainnya. Dalam kasus lain, Claude menghindari perintah dan jawaban Gemini ditandai sebagai "pelanggaran keamanan besar" karena mengandung "ketelanjangan dan perbudakan".

Perlu dicatat bahwa persyaratan layanan komersial Anthropic melarang pelanggan menggunakan Claude untuk "membangun produk atau layanan pesaing" atau "melatih model AI pesaing" tanpa izin. Google adalah salah satu investor utama Anthropic.

Dalam wawancara dengan TechCrunch, juru bicara Google DeepMind Shira McNamara tidak mengungkapkan apakah Google telah mendapat persetujuan dari Anthropic untuk menggunakan Claude. McNamara mengatakan bahwa DeepMind membandingkan keluaran model untuk evaluasi, tetapi tidak melatih Gemini pada model Claude. “Tentu saja, seperti praktik standar industri, kami akan membandingkan keluaran model dalam beberapa kasus,” katanya. “Namun, saran apa pun bahwa kami menggunakan model Antropik untuk melatih Gemini tidak akurat.”

Pekan lalu, TechCrunch juga secara eksklusif melaporkan bahwa kontraktor Google diminta menilai tanggapan AI Gemini di bidang di luar bidang keahlian mereka. Beberapa kontraktor telah menyatakan keprihatinannya dalam komunikasi internal bahwa Gemini dapat menghasilkan informasi yang tidak akurat mengenai topik sensitif seperti layanan kesehatan.

Highlight:

Gemini sedang melakukan pengujian komparatif dengan Claude untuk meningkatkan performa model AI miliknya.

Kontraktor bertanggung jawab atas penilaian tersebut, dan tanggapan keduanya dibandingkan berdasarkan berbagai kriteria, termasuk keaslian dan keamanan.

Anthropic melarang penggunaan Claude secara tidak sah untuk pelatihan model kompetitif.

Penggunaan model Claude oleh Google untuk meningkatkan perilaku Gemini telah memicu diskusi tentang metode evaluasi model AI, etika penggunaan data, dan hubungan kompetitif. Di masa depan, apakah perbandingan model AI lintas perusahaan yang serupa akan menjadi norma di industri dan bagaimana mengatur perilaku tersebut perlu mendapat perhatian lebih lanjut. Hal ini akan berdampak besar pada perkembangan dan regulasi industri AI.