Академические исследования основаны на эффективном поиске литературы, но существующие поисковые системы трудно удовлетворить потребности сложных профессиональных запросов. Например, исследование обучения на нестационарном подкреплении для конкретных алгоритмов (таких как методы UCB) требует более сильных возможностей поиска и анализа. Исследователи часто тратят много времени и усилий вручную, получая огромные академические базы данных. В этой статье представлена PASA, саморазвитый исследовательским институтом Bytedance и Peking University, агентом по поиску академических документов на основе модели крупного языка (LLM), направленного на решение этой проблемы.
В области академических исследований поиск литературы является сложной и важной задачей для получения информации. Исследователи должны иметь возможность справляться с сложными областями опыта поисковых возможностей для удовлетворения тщательных потребностей в исследованиях. Однако существующие академические поисковые платформы, такие как Google Scholar, часто пытаются справиться с этими сложными исследованиями исследования. Например, профессиональные запросы для нестационарного обучения подкреплению с использованием методов UCB требуют более сильных вычислительных и аналитических возможностей. Кроме того, исследователям часто нужно тратить много времени и усилий вручную, просматривая огромные академические базы данных при проведении обзоров литературы.
Хотя в нескольких исследованиях изучалось применение крупных языковых моделей (LLMS) в поиске в академических документах и научных открытиях, традиционные инструменты поиска по -прежнему испытывают трудности с удовлетворением сложных профессиональных потребностей в исследованиях. Многие исследования сосредоточены на разработке агентов LLM через рамки оптимизации и быстрые инженерные технологии Большой разрыв пришел.
Недавно научно-исследовательский институт Bytedance и исследователи из Пекинского университета совместно предложили PASA, инновационного поискового агента на основе LLM. PASA может автономно выполнять сложные стратегии поиска, включая вызовы инструментов, показания бумаги и выбор ссылок, стремясь получить всеобъемлющие и точные результаты для сложных академических запросов. Чтобы оптимизировать производительность PASA, исследовательская группа создала AutoScholarQuery, синтетический набор данных, содержащий 35 000 мелкозернистых академических запросов, и создал RealScholarQuery в качестве эталона для оценки фактической производительности агента. Система использует методы обучения подкрепления для расширения возможностей поиска, решения основных ограничений в существующих методах академического поиска.
Система PASA состоит из двух агентов LLM: гусеницы и селектора, которые работают вместе для выполнения комплексного поиска в академических документах. Crawler сначала анализирует запросы пользователя, чтобы генерировать несколько гранулированных запросов поиска, чтобы получить соответствующие документы и добавляет эти документы в выделенную бумажную очередь. Crawlers обрабатывают каждую статью в очереди, идентифицируют и изучают ключевые цитаты, которые могут расширить объем исследования, и динамически добавлять в список вновь обнаруженные связанные документы. Затем селектор оценит, соответствует ли каждая статья исходные требования запроса.
Экспериментальные результаты показывают, что PASA-7B работает превосходно в нескольких тестах. На испытательном наборе AutoScholarQuery PASA-7B увеличился на 9,64% в отзывах по сравнению с PASA-GPT-4O. Столкнувшись с критериями на основе Google, уровень отзыва PASA-7B увеличился от 33,80% до 42,64%. В более сложном сценарии RealscholarQuery PASA-7B показывает увеличение отзыва 30,36% и повышение точности на 4,25%.
В целом, запуск PASA знаменует собой важный прогресс в технологии поиска в академических документах и обеспечивает эффективное решение для поиска информации об академических исследованиях. Сочетая крупные языковые модели и методы обучения подкрепления, PASA значительно снижает время и усилия, инвестированные исследователями в обзоры литературы, а также предоставляя им эффективный инструмент для борьбы со все более большой и сложной академической литературной средой.
Код: https://github.com/bytedance/pasa
Бумага: https://arxiv.org/abs/2501.10120
Очки:
** PASA является интеллектуальным агентом по поиску в академическом документе, который совместно запущен исследователями Bytedance и Peking University. **
** Эта система состоит из двух агентов LLM, Crawler и Selector, и может независимо выполнять сложные стратегии поиска. **
** Экспериментальные результаты показывают, что PASA-7B работает лучше, чем существующие методы поиска в многочисленных тестах, значительно повышая эффективность и точность поиска бумаги. **
Появление PASA принесло революционные изменения в академических исследованиях. В будущем стоит с нетерпением ждать дальнейшей разработки и применения PASA.