Récemment, la formation sur le corpus chinois Gemini-Pro de Google a suscité de vives discussions. Elle a admis avoir utilisé les données de Baidu Wenxin Yiyan pour la formation, ce qui a provoqué un tollé sur les réseaux sociaux. De nombreux internautes se sont demandé s'il existait une concurrence déloyale entre les grandes entreprises, suscitant des discussions sur les sources et l'éthique des données de formation des modèles d'intelligence artificielle. Le cœur de l'incident est que Gemini-Pro s'est appuyé sur les données de Baidu Wenxinyiyan dans la formation du corpus chinois. Cela a directement remis en question les limites de l'industrie en matière de propriété des données et de droits de propriété intellectuelle, et a également exposé les risques possibles et les dangers cachés dans la formation de modèles linguistiques à grande échelle. .
L’article se concentre sur :
Le corpus chinois Gemini-Pro de Google a suscité la controverse. Il a révélé qu'il utilisait Baidu Wenxinyiyan pour la formation. Les internautes se demandaient si les grandes entreprises essayaient de se voler la laine. Gemini-Pro a attiré l'attention des médias sociaux après avoir semblé confus quant à son identité lors des tests. Les responsables de Gemini ont finalement admis avoir utilisé Baidu Wenxin pour les données de formation chinoises, intensifiant ainsi le sujet.
Cet incident met non seulement en évidence la contradiction entre le partage des ressources de données et la protection de la propriété intellectuelle dans le domaine de l'intelligence artificielle, mais soulève également des inquiétudes quant à la fiabilité et à la transparence des grands modèles linguistiques. À l'avenir, la formation et l'application de modèles d'intelligence artificielle nécessiteront une gestion plus standardisée et des normes éthiques plus strictes pour garantir le développement sain de l'industrie.