Большая маггловская языковая модель китайского тестового набора
https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX
С момента выпуска ChatGPT мы часто восклицаем при его использовании: «Ах, он действительно может на это ответить!» В то же время мы также рады видеть, что появляется все больше и больше крупных модельных команд и продуктов.
Нам, ранним инвесторам, часто приходится опробовать и оценить недавно выпущенные продукты диалогового ИИ. Самый распространенный способ — интуитивно сравнить их с результатами вывода культового ChatGPT с помощью некоторых подсказок. В процессе мы постепенно зафиксировали некоторые проблемы, с которыми в настоящее время не могут справиться большие языковые модели, а также множество интересных подсказок.
Итак, какие подсказки мы используем для тестирования? OpenAI продемонстрировала на своем официальном сайте 48 основных возможностей ChatGPT. В области НЛП она также широко использует такие наборы тестов, как SuperGLUE, MMLU и Google BIG-bench. В то же время, учитывая, что в больших моделях по мере увеличения параметров и масштаба данных будут появляться новые возможности, наборы тестов, связанные с этими новыми возможностями, также увеличиваются.
Однако на практике мы обнаружили, что текущий набор тестов НЛП имеет следующие проблемы:
Поэтому некоторые из нас, венчурных маглов, как активные пользователи диалогового ИИ, исходя из собственных потребностей, обобщили и запустили «Z-Bench» — инструмент для нетехнического персонала для качественного тестирования больших моделей диалоговых продуктов (ChatGPT-подобных продуктов). ). тестовый набор.
«Z-Bench v1.0» предоставляет в общей сложности 300 подсказок с трех точек зрения: базовые возможности, расширенные возможности и вертикальные возможности. Наша отправная точка — охватить как можно больше типов задач НЛП. Наша цель не в том, чтобы предоставить академически строгий и полный набор тестов, а в том, чтобы объединить существующие наборы академических тестов, некоторые интересные случаи, собираемые ежедневно, и возможности возникновения и прозрения, обнаруженные академическим сообществом после появления больших моделей, что дает большой результат. набор для проверки квалификации модели, подходящий для использования нетехническими специалистами. Однако мы неизбежно пропустим некоторые сцены или будет много любительского контента с профессиональной точки зрения. В будущем мы продолжим дополнять и улучшать его на основе собираемых нами отзывов и своевременно публиковать.
© 2023 ЖенФонд