Недавно Австрийский институт науки о сложности (CSH) оценил исторические знания трех ведущих крупномасштабных языковых моделей (LLM): GPT-4, Llama и Gemini, и результаты оказались неожиданными. Исследовательская группа использовала инструмент эталонного тестирования под названием «Hist-LLM», чтобы проверить точность модели при ответе на исторические вопросы на основе глобальной исторической базы данных Seshat. Результаты исследования были объявлены на конференции по искусственному интеллекту NeurIPS, и они заставили людей задуматься о возможностях применения LLM в сложных областях.
Чтобы оценить эффективность этих моделей на исторических знаниях, исследователи разработали эталонный инструмент под названием «Hist-LLM». Этот инструмент основан на глобальной исторической базе данных Seshat и предназначен для проверки точности ответов ИИ на исторические вопросы. Результаты исследования были оглашены на известной конференции по искусственному интеллекту NeurIPS. Данные показали, что точность самого производительного GPT-4Turbo составила всего 46%. Этот результат показывает, что производительность лишь немного выше, чем при случайном угадывании.
Мария дель Рио-Чанона, доцент кафедры информатики Университетского колледжа Лондона, сказала: «Хотя большие языковые модели впечатляют, их глубина понимания исторических знаний высокого уровня недостаточна. Они хорошо справляются с простыми фактами, но с трудом справляются с ними. Например, на вопрос, существовала ли чешуйчатая броня в Древнем Египте в определенное время, GPT-4Turbo неправильно ответил «да», хотя на самом деле эта технология появилась только 1500 лет назад. Кроме того, когда исследователи спросили, была ли в Древнем Египте профессиональная постоянная армия, GPT-4 также неправильно ответил «да», хотя фактический ответ был отрицательным.
Исследование также показало, что модель плохо работает в некоторых регионах, таких как страны Африки к югу от Сахары, что позволяет предположить, что ее данные обучения могут быть необъективными. Руководитель исследования Питер Турчин отметил, что эти результаты отражают то, что в некоторых областях LLM все еще не могут заменить людей.
Выделять:
- GPT-4Turbo плохо справился с углубленным экзаменом по истории с точностью всего 46%.
- Исследования показывают, что большие языковые модели все еще недостаточны для понимания сложных исторических знаний.
- Исследовательская группа надеется улучшить потенциал применения модели в исторических исследованиях за счет совершенствования инструментов тестирования.
Этот вывод напоминает нам, что, хотя крупномасштабные языковые модели достигли значительного прогресса во многих аспектах, они все еще имеют ограничения при решении сложных проблем, требующих глубокого понимания и тщательного анализа. Будущие исследования должны быть сосредоточены на том, как улучшить обучающие данные и алгоритмы модели, чтобы расширить возможности ее применения в различных областях и в конечном итоге достичь настоящего общего искусственного интеллекта.