Recentemente, o New York Times e o Daily News entraram com uma ação de direitos autorais contra a OpenAI, acusando-a de usar seus trabalhos para treinar modelos de IA sem autorização. O caso centrou-se no facto de os engenheiros da OpenAI terem apagado acidentalmente provas que podem ser cruciais para o caso, o que causou preocupação generalizada. Essa medida não afetou apenas o processo de julgamento do caso, mas também expôs os riscos potenciais e as questões éticas do processamento de dados durante o treinamento de grandes modelos de linguagem. Este artigo analisará detalhadamente os meandros deste incidente e explorará seu impacto no desenvolvimento da indústria de inteligência artificial.
Recentemente, o The New York Times e o Daily News processaram conjuntamente a OpenAI, acusando-a de usar os seus trabalhos para treinar modelos de inteligência artificial sem autorização.
O desenvolvimento do caso atraiu a atenção do público porque a equipe jurídica do demandante apontou nos últimos documentos judiciais que os engenheiros da OpenAI excluíram acidentalmente evidências que podem ter um impacto importante no caso ao processar dados relevantes.
É relatado que a OpenAI concordou em fornecer duas máquinas virtuais neste outono para que a equipe jurídica do demandante pudesse pesquisar seus dados de treinamento em busca de conteúdo protegido por direitos autorais. Uma máquina virtual é um computador virtual executado em um sistema operacional de computador e normalmente usado para testes, backup de dados e execução de aplicativos. Os consultores jurídicos do The New York Times e do Daily News e seus especialistas contratados trabalharam nos dados de treinamento da OpenAI por mais de 150 horas desde 1º de novembro.
No entanto, em 14 de novembro, os engenheiros da OpenAI limparam acidentalmente os dados de pesquisa armazenados em uma das máquinas virtuais. De acordo com a carta dos advogados dos demandantes, embora a OpenAI tenha tentado recuperar os dados perdidos e tenha obtido sucesso na maioria dos casos, os dados recuperados não puderam ser usados para determinar quais notícias eram os artigos dos demandantes porque a estrutura das pastas e os nomes dos arquivos eram "irrecuperável." Como é usado para treinar modelos OpenAI.
Os consultores jurídicos dos demandantes observaram que eles não acreditam que a remoção tenha sido intencional, mas que o incidente demonstra que a OpenAI está “na melhor posição para pesquisar em seus próprios conjuntos de dados conteúdo potencialmente infrator”. Isto significa que a OpenAI deve utilizar as suas próprias ferramentas para encontrar conteúdos infratores relevantes de forma mais eficiente.
A OpenAI manteve neste caso e em outros semelhantes que o uso de dados disponíveis publicamente para treinamento de modelo é um uso justo. Isto significa que a OpenAI acredita que não tem de pagar royalties pela utilização destes exemplos, embora ganhe dinheiro com estes modelos.
Vale a pena mencionar que a OpenAI assinou acordos de licenciamento com um número crescente de novos meios de comunicação, incluindo a Associated Press, Business Insider, Financial Times, etc., mas a OpenAI não divulgou os termos específicos desses acordos. É relatado que o parceiro de conteúdo Dotdash recebe pelo menos US$ 16 milhões em remuneração anual.
Apesar da disputa legal, a OpenAI não confirmou ou negou o uso de obras específicas protegidas por direitos autorais para treinamento de IA sem permissão.
Destaque:
A OpenAI foi acusada de excluir por engano evidências potencialmente importantes em um processo de direitos autorais.
Os advogados dos demandantes disseram que gastaram muito tempo e mão de obra tentando recuperar os dados.
A OpenAI afirma que o uso de dados disponíveis publicamente para treinar seus modelos é um uso justo.
Este incidente destaca a complexidade das questões de origem e direitos autorais dos dados de treinamento de modelos de inteligência artificial e também levanta preocupações sobre a segurança dos dados e o gerenciamento de evidências. Se o comportamento da OpenAI constitui uma infração e como definir os limites do “uso justo” serão questões importantes que precisarão de mais discussão no futuro. O resultado final deste caso terá um impacto profundo no desenvolvimento da indústria de inteligência artificial.