A Meta causou uma enorme controvérsia devido à sua mais recente fonte de dados de treinamento de treinamento de robôs de bate -papo da AI. De acordo com os arquivos divulgados, a Meta usa a biblioteca de sites do e -book pirata Gênesis (LibGen) para treinar o LLAMA3, que despertou extensas preocupações sobre direitos autorais e propriedade de dados. Embora os funcionários internos da Meta tenham expressado preocupações sobre o uso de riscos da Libgen, incluindo riscos legais potenciais e opinião pública negativa, o CEO Zuckerberg ainda aprova essa decisão, destacando a estratégia radical de grandes empresas de tecnologia em competições e direitos autorais de direitos autorais indiferentes.
Recentemente, com os documentos da Meta divulgados em um processo coletivo sobre direitos autorais, a empresa usou uma biblioteca de livros e -books pirata chamada Library Genesis (LibGen) para treinar seu mais recente robô de bate -papo da IA Llama3, atraiu a atenção generalizada. Esses arquivos mostram que os engenheiros da Meta discutiram os riscos potenciais de usar o LibGen, uma "Biblioteca Sombra", especialmente no contexto de direitos autorais cada vez mais proeminentes e propriedade de dados. Apesar do potencial impacto negativo e risco de opinião pública, Mark Zuckerberg, CEO da Meta, ainda aprovou a decisão.
A pedido do tribunal, os registros de diálogo confidencial da Meta do uso do conjunto de dados da libgen foram descriptografados. de lhama3. Em um email, a Sony Theakanath, diretora de gerenciamento de produtos da Meta, apontou que, embora a decisão de usar a libgen tenha desencadeado o risco de opinião pública, outras empresas de IA também estão usando dados semelhantes, o que faz com que a Meta Team sinta que essa estrada não é sozinho.
O que é ainda mais preocupante é que os funcionários da Meta também discutiram como processar e filtrar o texto no LibGen para remover os logotipos de direitos autorais, como o ISBN e a declaração de direitos autorais. O memorando interno afirma que os materiais fornecidos pela LibGen são "de alta qualidade e longa documentação, o que é muito adequado para aprender conhecimento profissional especial". Isso mostra que a Meta parece tentar ocultar seu conteúdo não autorizado.
Além disso, os funcionários da Meta também mencionaram no e -mail que pode ser inapropriado usar diretamente o endereço IP da empresa para downloads de sementes e expressar preocupações sobre esse comportamento. No entanto, na ausência do uso do conjunto de dados LibGen por Zuckerberg, a mentalidade vencedora de Meta na competição de IA foi revelada. Esse incidente mais uma vez provocou a atenção e duvida sobre as questões de grandes empresas de tecnologia em questões de direitos autorais.
Os resultados desse processo de direitos autorais podem ter um impacto importante em outros casos semelhantes, especialmente o uso de obras criativas, como imagens, música e literatura. Com a crescente demanda por conteúdo original das empresas de tecnologia, os direitos e interesses dos criadores originais de conteúdo se tornarão o foco da atenção.
Esse incidente não apenas expôs a atitude irresponsável de Meta em questões de direitos autorais, mas também fez com que as pessoas pensassem profundamente sobre questões éticas e legais no desenvolvimento da IA. No futuro, como equilibrar o desenvolvimento científico e tecnológico e a proteção da propriedade intelectual se tornará um tópico importante, que exige esforços conjuntos dentro e fora da indústria para buscar soluções.