Искусственный интеллект продемонстрировал мощные возможности в различных областях, но его ограничения в решении сложных исторических проблем становятся все более заметными. Недавние исследования показывают, что даже современные крупномасштабные языковые модели имеют значительные недостатки в обработке нюансов исторических деталей. Это исследование ставит новые проблемы с надежностью и сферой применения существующих моделей ИИ, а также предоставляет ценные рекомендации для направления совершенствования будущих моделей ИИ.
Новое исследование показывает, что, хотя искусственный интеллект преуспевает в таких областях, как программирование и создание контента, он все же не справляется со сложными историческими проблемами. Недавнее исследование, опубликованное на конференции NeurIPS, показало, что даже самые продвинутые модели большого языка (LLM) с трудом достигают удовлетворительных результатов в тестах на исторические знания.
Исследовательская группа разработала тестовый тест под названием Hist-LLM для оценки трех лучших языковых моделей: GPT-4 от OpenAI, Llama от Meta и Gemini от Google. Тест проводился на глобальной исторической базе данных Seshat, и результаты оказались разочаровывающими: самый производительный GPT-4Turbo имел точность всего 46%.
Мария Дель Рио-Чанона, доцент Университетского колледжа Лондона, объяснила: «Эти модели хорошо работают, когда речь идет об основных исторических фактах, но терпят неудачу, когда дело касается углубленных исторических исследований на уровне докторской степени». что ИИ часто ошибается в деталях, например, неправильно оценивает, были ли в Древнем Египте определенные военные технологии или постоянные армии в определенные периоды.
Исследователи полагают, что такая низкая производительность связана с тенденцией моделей ИИ делать выводы на основе основных исторических повествований и трудностями в точном понимании более тонких исторических деталей. Кроме того, исследование показало, что эти модели хуже работают при решении исторических проблем в таких регионах, как Африка к югу от Сахары, что обнажает возможные проблемы предвзятости в данных обучения.
Питер Турчин, руководитель исследований Центра науки о сложности (CSH), сказал, что это открытие показывает, что в некоторых профессиональных областях ИИ пока не способен заменить экспертов-людей. Тем не менее, исследовательская группа по-прежнему с оптимизмом смотрит на перспективы применения ИИ в исторических исследованиях и совершенствует тестовые тесты, чтобы помочь в разработке лучших моделей.
Результаты этого исследования напоминают нам, что, хотя технологии искусственного интеллекта быстро развиваются, в некоторых конкретных областях знания и суждения экспертов по-прежнему незаменимы. В будущем модель ИИ необходимо будет еще больше усовершенствовать, чтобы она могла лучше обрабатывать сложную историческую информацию и предоставлять более эффективные вспомогательные инструменты для исторических исследований.