Recentemente, o treinamento do corpus chinês Gemini-Pro do Google gerou discussões acaloradas. Ele admitiu que usou dados do Baidu Wenxin Yiyan para treinamento, o que causou alvoroço nas redes sociais. Muitos internautas questionaram se havia concorrência desleal entre grandes empresas, gerando discussões sobre as fontes e a ética dos dados de treinamento de modelos de inteligência artificial. O cerne do incidente é que Gemini-Pro confiou nos dados do Baidu Wenxinyiyan no treinamento do corpus chinês. Isso desafiou diretamente os limites da indústria em termos de propriedade de dados e direitos de propriedade intelectual, e também expôs possíveis riscos e perigos ocultos no treinamento de modelos linguísticos em larga escala. .
O artigo se concentra em:
O corpus chinês Gemini-Pro do Google causou polêmica. Ele revelou que usava Baidu Wenxinyiyan para treinamento. Os internautas se perguntavam se as grandes empresas estavam tentando roubar a lã umas das outras. Gemini-Pro chamou a atenção das redes sociais depois de parecer confuso sobre sua identidade durante os testes. Funcionários da Gemini finalmente admitiram usar o Baidu Wenxin para dados de treinamento chineses, intensificando ainda mais o assunto.
Este incidente não só destaca a contradição entre a partilha de recursos de dados e a protecção da propriedade intelectual no domínio da inteligência artificial, mas também levanta preocupações sobre a fiabilidade e transparência de grandes modelos linguísticos. No futuro, a formação e aplicação de modelos de inteligência artificial exigirão uma gestão mais padronizada e padrões éticos mais rigorosos para garantir o desenvolvimento saudável da indústria.