เมื่อเร็ว ๆ นี้ TechCrunch เปิดเผยเอกสารภายในของ Google ซึ่งแสดงให้เห็นว่า Google ใช้ผู้รับเหมาเพื่อเปรียบเทียบและทดสอบ Gemini AI และ Claude AI ของ Anthropic ซึ่งก่อให้เกิดข้อขัดแย้งเกี่ยวกับการปฏิบัติตามข้อกำหนด เอกสารดังกล่าวแสดงให้เห็นว่าผู้รับเหมาจำเป็นต้องประเมินคุณภาพของคำตอบของ AI ทั้งสองภายใต้เกณฑ์ที่หลากหลาย และยกย่องความปลอดภัยของ Claude เป็นอย่างสูง การเคลื่อนไหวนี้อาจละเมิดข้อกำหนดในการให้บริการของ Anthropic เนื่องจาก Google เป็นผู้ลงทุนรายใหญ่ใน Anthropic และข้อกำหนดดังกล่าวห้ามมิให้ใช้ Claude เพื่อพัฒนาผลิตภัณฑ์ของคู่แข่งหรือฝึกโมเดล AI ที่แข่งขันกันโดยไม่ได้รับอนุญาต
Google กำลังให้ผู้รับเหมาประเมิน Gemini AI กับ Claude ของ Anthropic ตามการสื่อสารภายในที่ได้รับจาก TechCrunch ทำให้เกิดคำถามเกี่ยวกับการปฏิบัติตามข้อกำหนด
เอกสารดังกล่าวแสดงให้เห็นว่าผู้รับเหมาที่รับผิดชอบในการปรับปรุง Gemini จำเป็นต้องเปรียบเทียบและประเมินคุณภาพของคำตอบของ Gemini และ Claude ตามเกณฑ์หลายประการ เช่น ความถูกต้องและความถี่ถ้วนภายใน 30 นาที เมื่อเร็วๆ นี้ผู้รับเหมาค้นพบการอ้างอิงถึง Claude อย่างชัดแจ้งบนแพลตฟอร์มการตรวจสอบภายในของ Google ซึ่งรวมถึงคำว่า "I am Claude สร้างสรรค์โดย Anthropic"
การอภิปรายภายในเปิดเผยว่าผู้รับเหมาสังเกตเห็นหลักปฏิบัติด้านความปลอดภัยที่เข้มงวดยิ่งขึ้นของ Claude ผู้รับเหมารายหนึ่งกล่าวว่า "การตั้งค่าความปลอดภัยของ Claude นั้นเข้มงวดที่สุดในบรรดาโมเดล AI ทั้งหมด" ในบางกรณี เมื่อคำตอบของ Gemini ถูกมองว่าเป็น "การละเมิดความปลอดภัยอย่างร้ายแรง" เนื่องจากคำตอบเหล่านั้นเกี่ยวข้องกับ "ภาพเปลือยและการยับยั้งชั่งใจ" Claude ก็ปฏิเสธที่จะตอบสนองต่อคำแนะนำที่เกี่ยวข้อง
เป็นที่น่าสังเกตว่าในฐานะนักลงทุนรายใหญ่ของ Anthropic แนวทางของ Google อาจละเมิดข้อกำหนดในการให้บริการของ Anthropic ข้อกำหนดนี้ห้ามอย่างชัดเจนไม่ให้เข้าถึง Claude เพื่อ "สร้างผลิตภัณฑ์ของคู่แข่ง" หรือ "ฝึกโมเดล AI ที่แข่งขันกัน" เมื่อถูกถามว่าได้รับอนุญาตจาก Anthropic หรือไม่ Shira McNamara โฆษกของ Google DeepMind ก็ปฏิเสธที่จะตอบโดยตรง
McNamara กล่าวว่าแม้ว่า DeepMind จะ "เปรียบเทียบผลลัพธ์ของโมเดล" เพื่อการประเมิน แต่เขาปฏิเสธการใช้โมเดล Anthropic เพื่อฝึก Gemini “นี่เป็นไปตามแนวปฏิบัติมาตรฐานอุตสาหกรรม” เธอกล่าว “แต่การกล่าวอ้างใดๆ ที่เราใช้แบบจำลองมานุษยวิทยาในการฝึกราศีเมถุนนั้นไม่ถูกต้อง”
ก่อนหน้านี้ Google กำหนดให้ผู้รับเหมาผลิตภัณฑ์ AI ประเมินคำตอบของ Gemini นอกขอบเขตความเชี่ยวชาญ ทำให้เกิดความกังวลในหมู่ผู้รับเหมาว่า AI สามารถสร้างข้อมูลที่ไม่ถูกต้องในสาขาที่ละเอียดอ่อน เช่น การดูแลสุขภาพ
ณ เวลานี้ โฆษกของกลุ่มมานุษยวิทยาไม่ได้ให้ความเห็นเกี่ยวกับเรื่องนี้
การทดสอบเปรียบเทียบราศีเมถุนและคลอดด์ของ Google ได้รับความสนใจอย่างกว้างขวาง และปัญหาการปฏิบัติตามข้อกำหนดและผลกระทบต่ออุตสาหกรรม AI ยังคงต้องมีการสังเกตเพิ่มเติม การตอบสนองของ Google ไม่ได้ขจัดข้อกังวลไปอย่างสิ้นเชิง การตอบสนองอย่างเป็นทางการของ Anthropic ยังไม่ได้รับการเผยแพร่ และเหตุการณ์ดังกล่าวยังคงปรากฏอยู่