Recientemente, el entrenamiento de corpus chino Gemini-Pro de Google provocó acaloradas discusiones. Admitió que utilizó datos de Baidu Wenxin Yiyan para el entrenamiento, lo que causó revuelo en las redes sociales. Muchos internautas cuestionaron si existía competencia desleal entre las grandes empresas, lo que generó debates sobre las fuentes y la ética de los datos de entrenamiento de modelos de inteligencia artificial. El núcleo del incidente es que Gemini-Pro se basó en los datos de Baidu Wenxinyiyan en el entrenamiento de corpus chino. Esto desafió directamente los límites de la industria en cuanto a propiedad de datos y derechos de propiedad intelectual, y también expuso posibles riesgos y peligros ocultos en el entrenamiento de modelos lingüísticos a gran escala. .
El artículo se centra en:
El corpus chino Gemini-Pro de Google causó controversia. Reveló que utilizaba a Baidu Wenxinyiyan para entrenar. Los internautas se preguntaron si las grandes empresas estaban tratando de robarse la lana entre sí. Gemini-Pro despertó la atención en las redes sociales después de parecer confundido acerca de su identidad durante las pruebas. Los funcionarios de Gemini finalmente admitieron haber utilizado Baidu Wenxin para obtener datos de entrenamiento chinos, intensificando aún más el tema.
Este incidente no sólo pone de relieve la contradicción entre el intercambio de recursos de datos y la protección de la propiedad intelectual en el campo de la inteligencia artificial, sino que también plantea preocupaciones sobre la confiabilidad y transparencia de los grandes modelos lingüísticos. En el futuro, la formación y aplicación de modelos de inteligencia artificial requerirá una gestión más estandarizada y estándares éticos más estrictos para garantizar el sano desarrollo de la industria.