Nos últimos anos, o treinamento de modelos de inteligência artificial tem dependido cada vez mais da coleta de dados de rede. Como uma importante fonte de dados, a atitude dos sites de notícias em relação aos rastreadores de inteligência artificial afeta diretamente o efeito de treinamento do modelo. Este artigo analisará os resultados de um estudo sobre sites de notícias que bloqueiam rastreadores OpenAI e explorará as razões e os impactos potenciais por trás disso.
Um estudo descobriu que quase metade dos sites de notícias populares bloquearam os rastreadores da OpenAI. Os sites tradicionais de mídia impressa são mais bloqueados pelos rastreadores da OpenAI, e novos modelos de IA podem sofrer degradação quando treinados com modelos anteriores. Os rastreadores de inteligência artificial são usados para coletar dados para treinar modelos de linguagem, e as organizações de notícias nos países do hemisfério norte estão mais inclinadas a bloquear os rastreadores de inteligência artificial.
As descobertas lançam luz sobre a crescente tensão entre os sites de notícias e o treinamento de modelos de inteligência artificial. O comportamento dos sites de notícias que bloqueiam os rastreadores pode levar a uma diminuição na qualidade dos dados de treinamento do modelo de inteligência artificial, afetando assim o desempenho e a confiabilidade do modelo. No futuro, como equilibrar as necessidades de formação dos modelos de inteligência artificial e a protecção dos direitos e interesses dos sítios noticiosos será um tema importante. É necessário explorar modelos de cooperação mais eficazes para promover o desenvolvimento da tecnologia de inteligência artificial, respeitando simultaneamente os direitos de propriedade intelectual e a segurança dos dados das organizações noticiosas.