Um novo estudo da Universidade de Nova York revela a vulnerabilidade alarmante dos modelos de linguagem em larga escala (LLMs) no treinamento de dados. A pesquisa mostra que uma quantidade muito pequena de informações falsas, mesmo representando apenas 0,001% dos dados de treinamento, pode afetar seriamente a precisão e a confiabilidade do LLM, fazendo com que ele produza erros graves. Esta constatação é particularmente importante na área médica, onde informações médicas erradas podem comprometer diretamente a segurança do paciente. A investigação foi publicada na revista Nature Medicine, levantando preocupações generalizadas sobre a segurança e fiabilidade da IA em aplicações médicas.
Recentemente, uma equipe de pesquisa da Universidade de Nova York publicou um estudo revelando a vulnerabilidade dos modelos de linguagem em larga escala (LLM) no treinamento de dados. Eles descobriram que mesmo uma pequena quantidade de informações falsas, representando apenas 0,001% dos dados de treinamento, pode causar erros significativos em todo o modelo. Esta descoberta é particularmente preocupante para a área médica, onde a desinformação pode impactar diretamente a segurança do paciente.
Os pesquisadores apontaram em um artigo publicado na revista "Nature Medicine" que, embora o LLM tenha um bom desempenho, se informações falsas forem injetadas em seus dados de treinamento, esses modelos ainda podem ter um desempenho pior do que os modelos não treinados em alguns benchmarks de avaliação de código aberto. é tão bom. Isto significa que, sob testes regulares, poderemos não conseguir detectar riscos potenciais nestes modelos.
Para testar isso, a equipe de pesquisa conduziu experimentos em um conjunto de dados de treinamento chamado “The Pile”, ao qual adicionaram deliberadamente 150.000 artigos médicos falsos gerados por IA. Em apenas 24 horas, eles geraram o conteúdo, e o estudo mostrou que a substituição de 0,001% do conteúdo no conjunto de dados, mesmo que seja um pequeno 1 milhão de marcadores de treinamento, resultou em um aumento de 4,8% no conteúdo prejudicial. O processo é extremamente barato, custando apenas US$ 5.
Este ataque de envenenamento de dados não requer contato direto com os pesos do modelo, mas sim o invasor pode enfraquecer a eficácia do LLM simplesmente publicando informações prejudiciais na rede. A equipe de pesquisa enfatiza que esta descoberta destaca riscos significativos ao usar ferramentas de IA na área médica. Ao mesmo tempo, também mencionaram que houve casos relevantes que mostram que algumas plataformas médicas de IA, como o MyChart, muitas vezes geram informações erradas ao responder automaticamente às perguntas dos pacientes, causando problemas aos pacientes.
Portanto, os pesquisadores apelam aos desenvolvedores de IA e aos prestadores de serviços médicos para reconhecerem claramente esta vulnerabilidade ao desenvolverem LLMs médicos. Eles recomendam que o LLM não seja usado para tarefas críticas, como diagnóstico ou tratamento, até que a segurança possa ser garantida no futuro.
Destaque:
A pesquisa mostra que apenas 0,001% das informações falsas podem tornar um modelo de linguagem em larga escala (LLM) ineficaz.
Na área médica, a disseminação de informações falsas pode afetar seriamente a segurança dos pacientes.
Os pesquisadores insistem que o LLM não deve ser usado para tarefas médicas importantes, como diagnóstico ou tratamento, até que a segurança seja garantida.
Os resultados deste estudo alertam-nos que antes de aplicar modelos de linguagem em larga escala a campos críticos como os cuidados médicos, devemos reforçar a investigação sobre segurança de dados e fiabilidade dos modelos para garantir a sua segurança e eficácia e evitar riscos potenciais.