Большие языковые модели (LLM) продемонстрировали большой потенциал в области обработки данных, но обработка сложных неструктурированных данных по-прежнему сталкивается с проблемами. Существующие концепции LLM часто фокусируются на стоимости и игнорируют повышение точности, особенно в сложных задачах. Редактор Downcodes познакомит вас с прорывной системой результатов исследований — DocETL, которая эффективно решает проблему точности LLM при обработке сложных документов.
В последние годы модели больших языков (LLM) получили широкое внимание в области управления данными, и сфера их применения продолжает расширяться, включая интеграцию данных, настройку базы данных, оптимизацию запросов и очистку данных. Однако при работе с неструктурированными данными, особенно сложными документами, по-прежнему существует множество проблем.
В настоящее время некоторые структуры обработки неструктурированных данных, основанные на LLM, больше ориентированы на снижение затрат, игнорируя при этом проблему повышения точности обработки. Эта проблема особенно заметна при анализе сложных задач, поскольку результаты, выдаваемые LLM, часто не могут точно удовлетворить конкретные потребности пользователей.
В случае с проектом расследований Калифорнийского университета в Беркли исследователи надеются проанализировать большое количество полицейских записей, полученных в результате запросов на записи, чтобы выявить неправомерные действия офицеров и потенциальные процессуальные нарушения. Задача, получившая название «Идентификация неправомерных действий полиции» (PMI), требует обработки нескольких типов документов, извлечения и обобщения ключевой информации, а также одновременного агрегирования данных из нескольких документов для создания подробных сводок о поведении. Существующие методы обычно используют LLM только один раз для обработки каждого документа. Эта одноэтапная операция сопоставления часто недостаточна по точности, особенно когда длина документа превышает контекстный предел LLM, важная информация может быть упущена.
Для решения этих проблем исследовательская группа из Калифорнийского университета Беркли и Колумбийского университета предложила инновационную систему под названием DocETL. DocETL направлен на оптимизацию сложных процессов обработки документов и устранение ограничений существующего LLM. Эта система предоставляет декларативный интерфейс, который позволяет пользователям гибко определять потоки обработки и использовать агентную структуру для автоматической оптимизации. Ключевые особенности DocETL включают процесс переписывания логики, адаптированный для задач LLM, механизм оценки планов под управлением агента и эффективный алгоритм оптимизации, который помогает идентифицировать планы обработки с самым высоким потенциалом.
При оценке задачи по выявлению неправомерных действий полиции DocETL принял набор из 227 документов из полицейских управлений Калифорнии и столкнулся с множеством проблем, таких как длина документа, превышающая ограничение контекста LLM. При оценке различных вариантов конвейера DocETL демонстрирует уникальную способность оптимизировать сложные задачи обработки документов.
Человеческая оценка и обзор LLM показывают, что точность вывода DocETL в 1,34 раза выше, чем у традиционных методов, что указывает на важность и эффективность этой системы при обработке сложных документальных задач.
Подводя итог, DocETL, как инновационная декларативная система, может не только эффективно решить многие проблемы сложной обработки документов, но и заложить прочную основу для будущих исследований и приложений.
Статья: https://arxiv.org/abs/2410.12189v1.
Проект: https://github.com/ucbepic/docetl
Выделять:
LLM представляет собой серьезные проблемы из-за недостаточной точности при работе со сложными документами.
Система DocETL предоставляет гибкий декларативный интерфейс и возможности автоматической оптимизации обработки документов.
Благодаря человеческой оценке качество вывода DocETL значительно улучшается — в 1,34 раза.
Появление системы DocETL дает новые идеи для решения проблемы точности LLM при обработке сложных документов. Ее отличные характеристики в практических приложениях также закладывают прочную основу для будущего применения LLM в области обработки данных. Мы с нетерпением ожидаем появления большего количества подобных инновационных технологий для продвижения технологии LLM для лучшего обслуживания различных областей.