Fonte: Notícias do MIT
Embora as capacidades dos grandes modelos de linguagem sejam impressionantes, elas ainda estão longe de ser perfeitas. Estes modelos de IA podem por vezes “alucinar” e gerar informações incorretas ou infundadas em resposta a consultas.
Devido a este problema ilusório, as respostas dos modelos muitas vezes precisam de ser verificadas por revisores humanos, especialmente em ambientes de alto risco, como os cuidados de saúde ou as finanças. No entanto, o processo de validação muitas vezes exige que as pessoas leiam documentos longos referenciados pelo modelo, uma tarefa tediosa e propensa a erros que pode impedir alguns usuários de usar modelos generativos de IA.
Para ajudar os verificadores humanos, os pesquisadores do MIT criaram um sistema fácil de usar que permite às pessoas verificar mais rapidamente as respostas de grandes modelos de linguagem. A ferramenta, chamada SymGen, permite que o LLM gere respostas com referências que apontam diretamente para locais específicos no documento de origem, como uma célula de um banco de dados.
Os usuários podem passar o mouse sobre as partes destacadas das respostas de texto para ver os dados que o modelo usou para gerar palavras ou frases específicas. Enquanto isso, as partes não destacadas mostram frases que requerem atenção adicional para inspeção e verificação.
"Damos às pessoas a capacidade de se concentrarem seletivamente nas partes do texto às quais precisam prestar mais atenção. Em última análise, o SymGen aumenta a confiança das pessoas na resposta do modelo porque elas podem facilmente verificar novamente para garantir que as informações sejam confiáveis." & Ciência da Computação disse a estudante de pós-graduação Shannon Shen, coautora do artigo SymGen.
Através de pesquisas com usuários, Shen e seus colaboradores descobriram que o tempo de verificação usando SymGen foi reduzido em cerca de 20% em comparação com o processo manual. Ao tornar o processo de validação do resultado do modelo mais rápido e simples, o SymGen ajuda a identificar erros em LLMs usados em diversas aplicações do mundo real, desde a geração de registros clínicos até o resumo de relatórios do mercado financeiro.
Os coautores de Shen no artigo também incluem o coautor Lucas Torroba Hennigen, estudante de pós-graduação do EECS, Aniruddha “Ani” Nrusimha, presidente da Good Data Initiative; e membro da Clínica Jameel do MIT, Ciência da Computação com chefe do Grupo Clínico de Aprendizado de Máquina do Laboratório de Inteligência Artificial (CSAIL) e Professor Assistente Yoon Kim, membro do CSAIL; A pesquisa foi recentemente apresentada em uma conferência de modelagem de linguagem.
Referência de símbolo
Para auxiliar na verificação, muitos LLMs são projetados para gerar referências a documentos externos e fornecer respostas baseadas em idiomas para inspeção do usuário. No entanto, estes sistemas de verificação são muitas vezes uma reflexão tardia e não levam em conta o esforço exigido das pessoas para analisar um grande número de citações, disse Shen.
“O objetivo da IA generativa é reduzir o tempo que os usuários levam para concluir uma tarefa. Se você precisar passar horas lendo esses documentos para verificar se as afirmações do modelo são razoáveis, o conteúdo gerado será menos útil em aplicações do mundo real. ”Shen disse.
Os pesquisadores abordaram essa questão da perspectiva de quem faria o trabalho de validação.
Os usuários do SymGen primeiro fornecem ao LLM dados que podem ser usados como referência, como uma tabela contendo estatísticas de jogos de basquete. Os pesquisadores então realizam uma etapa intermediária sem solicitar imediatamente ao modelo que conclua uma tarefa, como gerar um resumo de correspondência a partir desses dados. Eles estimulam o modelo a gerar respostas de forma simbólica.
Com este prompt, sempre que o modelo desejar fazer referência a uma palavra em uma resposta, ele deverá escrever a célula específica da tabela de dados que contém essa informação. Por exemplo, se o modelo quiser fazer referência à frase “Portland Trail Blazers” em uma resposta, ele substituirá esse texto pelos nomes das células na tabela de dados que contêm essas palavras.
“Como temos essa etapa intermediária em que o texto é apresentado em formato simbólico, podemos obter referências muito refinadas. Podemos indicar claramente a qual parte dos dados corresponde cada trecho de texto na saída”, diz Torroba Hennigen.
SymGen então usa ferramentas baseadas em regras para analisar cada referência, copiando o texto correspondente da tabela de dados para a resposta do modelo.
“Dessa forma, sabemos que foi copiado literalmente, para que possamos ter certeza de que não há erros nas partes do texto que correspondem às variáveis de dados reais”, acrescentou Shen.
Simplifique a verificação
O modelo é capaz de gerar respostas simbólicas devido à forma como é treinado. Grandes modelos de linguagem aceitam grandes quantidades de dados da Internet, alguns dos quais são registrados em “formato de espaço reservado” com códigos substituindo os valores reais.
SymGen usa uma estrutura semelhante quando solicita ao modelo que gere respostas simbólicas.
“Projetamos os prompts de uma maneira específica para liberar os recursos do LLM”, acrescentou Shen.
Em estudos de usuários, a maioria dos participantes afirmou que o SymGen facilitou a verificação do texto gerado pelo LLM. Eles verificaram as respostas do modelo cerca de 20% mais rápido do que usando métodos padrão.
No entanto, a eficácia do SymGen é limitada pela qualidade dos dados de origem. O LLM pode fazer referência às variáveis erradas e o verificador humano pode não estar ciente disso.
Além disso, os usuários devem fornecer os dados de origem em um formato estruturado (como uma tabela) para entrada no SymGen. Atualmente o sistema funciona apenas com dados tabulares.
No futuro, os pesquisadores estão aprimorando as capacidades do SymGen para lidar com texto arbitrário e outras formas de dados. Com esse recurso, pode ajudar a validar certas partes dos resumos de documentos jurídicos gerados por IA. Eles também planejam testar o SymGen com médicos para estudar como ele identifica erros em resumos clínicos gerados por IA.
Este trabalho foi financiado em parte pela LiBERTy Mutual e pela MIT Intelligent Discovery Initiative.