Recentemente, a mídia revelou que a Nvidia capturou secretamente dados de vídeo do YouTube em grande escala para treinar seu modelo de IA, gerando ampla controvérsia jurídica e ética. Esta mudança envolve muitos dos produtos de IA da Nvidia, incluindo o modelo de aprendizagem profunda Cosmos, algoritmos de condução autônoma, etc. O método de aquisição de dados é oculto e sem autorização do criador do vídeo e do Google. E-mails internos da NVIDIA mostram que os executivos seniores estão otimistas sobre esse comportamento e acreditam que ele foi “totalmente aprovado”. Esta declaração é contrária à declaração oficial do Google, que afirma claramente que este comportamento viola os termos de serviço da plataforma. A enorme quantidade de dados envolvidos, os métodos operacionais secretos e as respostas completamente diferentes de todas as partes tornaram este incidente uma preocupação.
Recentemente, foi exposta uma operação secreta da gigante tecnológica Nvidia na aquisição de dados. De acordo com relatos da mídia 404, a Nvidia treinou seu modelo de inteligência artificial capturando grandes quantidades de dados de vídeo do YouTube, o que é bastante ambíguo em termos de lei e ética.
O relatório apontou que a Nvidia está usando esses dados de vídeo para treinar seus múltiplos modelos de IA, incluindo modelos de aprendizagem profunda Cosmos, algoritmos de direção autônoma, produtos digitais de avatar de IA humana e ferramenta de construção de mundo 3D Omniverse.
Entende-se que a Nvidia tomou muitas medidas secretas para encobrir seu comportamento de coleta de dados, usando múltiplas “máquinas virtuais” e mudando constantemente de endereços IP para evitar ser descoberta pelo YouTube. Além disso, o criador do vídeo e Google, empresa controladora do YouTube, não deu qualquer autorização para esta atividade de coleta de dados. As comunicações internas da Nvidia mostram que sua estratégia é bastante ousada. Um executivo mencionou em um e-mail que eles estão construindo uma “fábrica de dados de vídeo” que pode gerar dados de experiência visual equivalentes a uma vida humana todos os dias.
Curiosamente, quando os funcionários expressaram preocupações sobre a legalidade e a ética dessa aquisição de dados, a administração pareceu bastante confiante, acreditando que tudo isto era uma decisão de alto nível. “Temos uma aprovação geral de todos os dados”, dizia o e-mail.
Ainda mais preocupante é que a Nvidia já sabia há algum tempo que estava usando o conjunto de dados HD-VG-130M contendo 130 milhões de vídeos do YouTube, que foi originalmente criado para pesquisas acadêmicas. Muitos especialistas expressaram forte insatisfação com isto, argumentando que a comercialização de dados utilizados para investigação é inadequada.
Como ator principal na indústria de IA, a NVIDIA ocupa uma posição de destaque no mercado, e suas unidades de processamento gráfico (GPUs) são a base para muitos sistemas de IA com uso intensivo de computação. Empresas que trabalham com a Nvidia, como OpenAI, Microsoft e Google, manifestaram preocupação com este comportamento. Um porta-voz do Google mencionou que usar dados do YouTube sem permissão é uma clara violação dos termos de serviço da plataforma.
Em resposta à mídia, a Nvidia afirmou que suas práticas de treinamento em IA são “totalmente compatíveis com o espírito e a letra da lei de direitos autorais”. Porém, o que pensam os criadores que utilizam esse conteúdo sobre essa afirmação?
Destaque:
A Nvidia secretamente coletou uma grande quantidade de dados de vídeo do YouTube para treinamento de IA, levantando preocupações sobre questões legais e éticas.
?E-mails internos mostram que os executivos da Nvidia acreditaram que esse comportamento foi totalmente aprovado e sua atitude foi bastante ousada.
?O Google apontou que o uso de dados do YouTube sem permissão violava claramente os termos de serviço da plataforma, e a resposta da Nvidia causou polêmica.
O comportamento de coleta de dados da NVIDIA desencadeou discussões generalizadas sobre a ética e as leis da aquisição de dados de IA, e sua resposta não conseguiu acabar com a controvérsia. Este incidente destaca os desafios enfrentados pelas grandes empresas de tecnologia na utilização de dados e a necessidade urgente de melhorar as leis e regulamentos relevantes. No futuro, incidentes semelhantes poderão continuar a atrair a atenção e a levar a indústria a reforçar a autodisciplina e a padronizar os comportamentos de utilização de dados.