Anthropic telah mengumumkan rencana ambisius untuk mendanai pengembangan tolok ukur model AI baru. Program ini bertujuan untuk meningkatkan penilaian kinerja dan dampak model AI, dengan memberikan perhatian khusus pada aspek-aspek penting seperti keamanan AI dan dampak sosial. Langkah ini dimaksudkan untuk mengatasi kekurangan dalam tolok ukur yang ada, seperti ketidakmampuan mereka untuk secara efektif menangkap skenario aplikasi dunia nyata dan kegagalan mereka untuk mengukur secara akurat apa yang ingin mereka ukur. Anthropic menyerukan pengembangan uji benchmark yang lebih menantang untuk mengevaluasi kemampuan model AI dalam serangan cyber, peningkatan senjata, manipulasi informasi, dll., dan untuk mengeksplorasi potensi AI dalam penelitian ilmiah, komunikasi multi-bahasa, dan bidang lainnya. Hal ini akan membantu memberikan pemahaman yang lebih komprehensif tentang kemampuan dan risiko AI serta mendorong pengembangan bidang keamanan AI.
Anthropic akan memberikan dukungan finansial kepada organisasi pihak ketiga untuk mendorong mereka mengembangkan metode penilaian yang lebih efektif. Program ini mencerminkan komitmen Anthropic untuk meningkatkan bidang keselamatan AI secara keseluruhan dan mempromosikan penilaian AI yang komprehensif sebagai standar industri. Namun mengingat kepentingan bisnis Anthropic sendiri, objektivitas dan keadilan rencananya masih perlu dipertimbangkan lebih lanjut. Di masa depan, keberhasilan program ini akan bergantung pada investasi dana dan sumber daya manusia, serta tingkat kerjasama dengan organisasi terkait lainnya.