Recientemente, hubo informes de que Google está utilizando el modelo Claude de Anthropic para mejorar su proyecto de inteligencia artificial Gemini. Los documentos internos muestran que los contratistas de Google están comparando sistemáticamente el rendimiento de Gemini y Claude para evaluar y mejorar el desempeño de Gemini. Este enfoque ha atraído la atención de la industria y también involucra normas de la industria para la evaluación de modelos de IA y cuestiones éticas en la cooperación técnica entre diferentes empresas. Este artículo profundizará en los detalles de este incidente y analizará su potencial impacto.
Recientemente, el proyecto de inteligencia artificial Gemini de Google está mejorando su rendimiento al comparar sus resultados con el modelo Claude de Anthropic. Según comunicaciones internas obtenidas por TechCrunch, el contratista responsable de mejorar Gemini está evaluando sistemáticamente las respuestas de los dos modelos de IA.
En la industria de la IA, la evaluación del desempeño del modelo generalmente se realiza a través de puntos de referencia de la industria, en lugar de que los contratistas comparen las respuestas de diferentes modelos uno por uno. El contratista responsable de Gemini debe calificar el resultado del modelo basándose en varios criterios, incluida la autenticidad y el nivel de detalle. Tenían hasta 30 minutos cada vez para decidir qué respuesta era mejor, la de Géminis o la de Claude.
Recientemente, estos contratistas han notado que aparecen referencias a Claude con frecuencia en las plataformas internas que utilizan. Parte de lo que se mostró a los contratistas decía claramente: "Soy Claude creado por Anthropic". En un chat interno, los contratistas también descubrieron que las respuestas de Claude se centraban más en la seguridad. Algunos contratistas señalaron que las configuraciones de seguridad de Claude son las más estrictas entre todos los modelos de IA. En algunos casos, Claude optará por no responder a indicaciones que considere inseguras, como interpretar a otros asistentes de IA. En otro caso, Claude evitó una pregunta y la respuesta de Gemini fue marcada como una "violación de seguridad importante" por contener "desnudez y ataduras".
Cabe señalar que los términos del servicio comercial de Anthropic prohíben a los clientes utilizar Claude para "crear productos o servicios competitivos" o "entrenar modelos de IA competitivos" sin autorización. Google es uno de los principales inversores de Anthropic.
En una entrevista con TechCrunch, la portavoz de Google DeepMind, Shira McNamara, no reveló si Google recibió la aprobación de Anthropic para utilizar Claude. McNamara dijo que DeepMind compara los resultados del modelo para su evaluación, pero no entrena a Gemini en el modelo de Claude. "Por supuesto, como es práctica estándar en la industria, compararemos los resultados del modelo en algunos casos", dijo. "Sin embargo, cualquier sugerencia de que utilizamos el modelo Antrópico para entrenar a Gemini es inexacta".
La semana pasada, TechCrunch también informó en exclusiva que a los contratistas de Google se les pidió que calificaran las respuestas de IA de Gemini en áreas fuera de sus áreas de especialización. Algunos contratistas han expresado su preocupación en las comunicaciones internas de que Gemini pueda generar información inexacta sobre temas delicados como la atención médica.
Reflejos:
Gemini está realizando pruebas comparativas con Claude para mejorar el rendimiento de su propio modelo de IA.
El contratista es responsable de la puntuación y las respuestas de ambos se comparan según múltiples criterios, incluidos la autenticidad y la seguridad.
Anthropic prohíbe el uso no autorizado de Claude para el entrenamiento de modelos competitivos.
El uso del modelo Claude por parte de Google para mejorar el comportamiento de Gemini ha desencadenado debates sobre los métodos de evaluación del modelo de IA, la ética del uso de datos y las relaciones competitivas. En el futuro, merecen mayor atención si las comparaciones similares de modelos de IA entre empresas se convertirán en la norma en la industria y cómo regular dicho comportamiento. Esto tendrá un profundo impacto en el desarrollo y la regulación de la industria de la IA.