Grandes modelos de linguagem (LLMs) têm mostrado grande potencial na área de processamento de dados, mas o processamento de dados não estruturados complexos ainda enfrenta desafios. As estruturas existentes baseadas em LLM geralmente se concentram no custo e ignoram a melhoria da precisão, especialmente em tarefas complexas. O editor de Downcodes apresentará a você um sistema DocETL de resultados de pesquisa inovador, que resolve efetivamente o problema de precisão do LLM ao processar documentos complexos.
Nos últimos anos, os grandes modelos de linguagem (LLMs) têm recebido ampla atenção no campo do gerenciamento de dados e seu escopo de aplicação continuou a se expandir, incluindo integração de dados, ajuste de banco de dados, otimização de consultas e limpeza de dados. No entanto, ainda existem muitos desafios ao lidar com dados não estruturados, especialmente documentos complexos.
Actualmente, algumas estruturas de processamento de dados não estruturados baseadas em LLM tendem a concentrar-se mais na redução de custos, ignorando ao mesmo tempo a questão da melhoria da precisão do processamento. Este problema é particularmente proeminente ao analisar tarefas complexas, porque os resultados produzidos pelo LLM muitas vezes não conseguem atender com precisão às necessidades específicas dos usuários.
No caso do Projeto de Reportagem Investigativa da UC Berkeley, os pesquisadores esperam analisar grandes quantidades de registros policiais obtidos por meio de solicitações de registros para revelar a má conduta dos policiais e possíveis violações processuais. A tarefa, chamada Identificação de Má Conduta Policial (PMI), requer o processamento de vários tipos de documentos, a extração e o resumo de informações importantes e a agregação simultânea de dados em vários documentos para gerar resumos comportamentais detalhados. Os métodos existentes geralmente usam o LLM apenas uma vez para processar cada documento. Essa operação de mapeamento de etapa única geralmente é insuficiente em termos de precisão, especialmente quando o comprimento do documento excede o limite de contexto do LLM, informações importantes podem ser perdidas.
Para resolver esses problemas, uma equipe de pesquisa da Universidade da Califórnia, Berkeley, e da Universidade de Columbia propôs um sistema inovador chamado DocETL. DocETL visa otimizar processos complexos de processamento de documentos e resolver as limitações do LLM existente. Este sistema fornece uma interface declarativa que permite aos usuários definir fluxos de processamento com flexibilidade e aproveitar uma estrutura baseada em agente para otimização automática. Os principais recursos do DocETL incluem um processo de reescrita lógica adaptado para tarefas LLM, um mecanismo de avaliação de plano guiado por agente e um algoritmo de otimização eficiente que ajuda a identificar planos de processamento com maior potencial.
Quando avaliado na tarefa de identificação de má conduta policial, o DocETL adotou um conjunto de 227 documentos dos departamentos de polícia da Califórnia e enfrentou vários desafios, como o tamanho do documento excedendo o limite de contexto do LLM. Avaliado em diferentes variantes de pipeline, o DocETL mostra uma capacidade única na otimização de tarefas complexas de processamento de documentos.
A avaliação humana e a revisão do LLM mostram que a precisão de saída do DocETL é 1,34 vezes maior do que a dos métodos tradicionais, indicando a importância e eficácia deste sistema no processamento de tarefas documentais complexas.
Resumindo, o DocETL, como um sistema declarativo inovador, pode não só resolver eficazmente muitos problemas no processamento complexo de documentos, mas também estabelecer uma base sólida para pesquisas e aplicações futuras.
Artigo: https://arxiv.org/abs/2410.12189v1
Projeto: https://github.com/ucbepic/docetl
Destaque:
O LLM apresenta desafios significativos devido à sua falta de precisão no manuseio de documentos complexos.
O sistema DocETL fornece uma interface declarativa flexível e recursos de otimização automática para processamento de documentos.
Através da avaliação humana, a qualidade da saída DocETL é significativamente melhorada, com uma melhoria de 1,34 vezes.
O surgimento do sistema DocETL fornece novas ideias para resolver o problema de precisão do LLM no processamento de documentos complexos. Seu excelente desempenho em aplicações práticas também estabelece uma base sólida para a aplicação futura do LLM na área de processamento de dados. Esperamos ansiosamente o surgimento de mais tecnologias inovadoras semelhantes para promover a tecnologia LLM para melhor servir vários campos.