เมื่อเร็ว ๆ นี้ มีรายงานว่า Google ใช้แบบจำลอง Claude ของ Anthropic เพื่อปรับปรุงโครงการปัญญาประดิษฐ์ Gemini เอกสารภายในแสดงให้เห็นว่าผู้รับเหมาของ Google กำลังเปรียบเทียบผลลัพธ์ของ Gemini และ Claude อย่างเป็นระบบเพื่อประเมินและปรับปรุงประสิทธิภาพของ Gemini แนวทางนี้ดึงดูดความสนใจของอุตสาหกรรม และยังเกี่ยวข้องกับบรรทัดฐานอุตสาหกรรมสำหรับการประเมินโมเดล AI และประเด็นด้านจริยธรรมในความร่วมมือทางเทคนิคระหว่างบริษัทต่างๆ บทความนี้จะเจาะลึกรายละเอียดของเหตุการณ์นี้และวิเคราะห์ผลกระทบที่อาจเกิดขึ้น
เมื่อเร็วๆ นี้ โครงการปัญญาประดิษฐ์ Gemini ของ Google กำลังปรับปรุงประสิทธิภาพโดยการเปรียบเทียบผลลัพธ์ผลลัพธ์กับแบบจำลอง Claude ของ Anthropic ตามการสื่อสารภายในที่ได้รับจาก TechCrunch ผู้รับเหมาที่รับผิดชอบในการปรับปรุง Gemini กำลังประเมินคำตอบของโมเดล AI ทั้งสองอย่างเป็นระบบ
ในอุตสาหกรรม AI การประเมินประสิทธิภาพของโมเดลมักจะทำผ่านเกณฑ์มาตรฐานอุตสาหกรรม แทนที่จะให้ผู้รับเหมาเปรียบเทียบคำตอบของโมเดลต่างๆ ทีละตัว ผู้รับเหมาที่รับผิดชอบ Gemini จำเป็นต้องให้คะแนนผลลัพธ์ของแบบจำลองตามเกณฑ์หลายประการ รวมถึงความถูกต้องและระดับของรายละเอียด พวกเขามีเวลาสูงสุด 30 นาทีในแต่ละครั้งในการตัดสินใจว่าคำตอบไหนดีกว่ากัน ระหว่างราศีเมถุนหรือของคลอดด์
เมื่อเร็วๆ นี้ ผู้รับเหมาเหล่านี้สังเกตเห็นว่ามีการอ้างอิงถึง Claude ปรากฏบ่อยครั้งบนแพลตฟอร์มภายในที่พวกเขาใช้ ส่วนหนึ่งของสิ่งที่แสดงต่อผู้รับเหมาระบุอย่างชัดเจน: "ฉันคือ Claude ที่สร้างโดย Anthropic" ในการสนทนาภายใน ผู้รับเหมายังพบว่าคำตอบของ Claude เน้นไปที่ความปลอดภัยมากกว่า ผู้รับเหมาบางรายชี้ให้เห็นว่าการตั้งค่าความปลอดภัยของ Claude นั้นเข้มงวดที่สุดในบรรดาโมเดล AI ทั้งหมด ในบางกรณี Claude จะเลือกที่จะไม่ตอบสนองต่อการแจ้งที่เห็นว่าไม่ปลอดภัย เช่น การสวมบทบาทเป็นผู้ช่วย AI คนอื่นๆ ในอีกกรณีหนึ่ง Claude หลีกเลี่ยงการแจ้งเตือนและคำตอบของ Gemini ถูกทำเครื่องหมายว่าเป็น "การละเมิดความปลอดภัยที่สำคัญ" เนื่องจากมี "ภาพเปลือยและพันธนาการ"
ควรสังเกตว่าข้อกำหนดการให้บริการเชิงพาณิชย์ของ Anthropic ห้ามมิให้ลูกค้าใช้ Claude เพื่อ "สร้างผลิตภัณฑ์หรือบริการที่แข่งขันกัน" หรือ "ฝึกโมเดล AI ที่แข่งขันกัน" โดยไม่ได้รับอนุญาต Google เป็นหนึ่งในนักลงทุนรายใหญ่ของ Anthropic
ในการให้สัมภาษณ์กับ TechCrunch โฆษกของ Google DeepMind Shira McNamara จะไม่เปิดเผยว่า Google ได้รับการอนุมัติจาก Anthropic ให้ใช้ Claude หรือไม่ McNamara กล่าวว่า DeepMind จะเปรียบเทียบผลลัพธ์ของโมเดลเพื่อการประเมิน แต่ไม่ได้ฝึก Gemini กับโมเดล Claude "แน่นอนว่า ในบางกรณีเราจะเปรียบเทียบผลลัพธ์ของโมเดล" เธอกล่าว "อย่างไรก็ตาม ข้อเสนอแนะใดๆ ที่เราใช้โมเดล Anthropic เพื่อฝึก Gemini นั้นไม่ถูกต้อง"
เมื่อสัปดาห์ที่แล้ว TechCrunch ยังรายงานโดยเฉพาะว่าผู้รับเหมาของ Google ถูกขอให้ให้คะแนนการตอบสนอง AI ของ Gemini ในพื้นที่นอกขอบเขตความเชี่ยวชาญ ผู้รับเหมาบางรายได้แสดงความกังวลในการสื่อสารภายในว่า Gemini สามารถสร้างข้อมูลที่ไม่ถูกต้องในหัวข้อที่ละเอียดอ่อน เช่น การดูแลสุขภาพ
ไฮไลท์:
Gemini กำลังทำการทดสอบเปรียบเทียบกับ Claude เพื่อปรับปรุงประสิทธิภาพของโมเดล AI ของตัวเอง
ผู้รับเหมามีหน้าที่รับผิดชอบในการให้คะแนน และคำตอบของทั้งสองจะถูกเปรียบเทียบตามเกณฑ์ต่างๆ รวมถึงความถูกต้องและความปลอดภัย
Anthropic ห้ามมิให้มีการใช้ Claude โดยไม่ได้รับอนุญาตในการฝึกโมเดลการแข่งขัน
การใช้โมเดล Claude ของ Google เพื่อปรับปรุงพฤติกรรมของ Gemini ทำให้เกิดการอภิปรายเกี่ยวกับวิธีการประเมินโมเดล AI จริยธรรมในการใช้ข้อมูล และความสัมพันธ์ทางการแข่งขัน ในอนาคต ไม่ว่าการเปรียบเทียบโมเดล AI ข้ามบริษัทที่คล้ายกันจะกลายเป็นบรรทัดฐานในอุตสาหกรรมหรือไม่ และวิธีการควบคุมพฤติกรรมดังกล่าวก็สมควรได้รับความสนใจเพิ่มเติม ซึ่งจะมีผลกระทบอย่างมากต่อการพัฒนาและการควบคุมอุตสาหกรรม AI