В этом репозитории документирована оценка новейшей модели большого языка Google с открытым исходным кодом, Instruction Tuned Gemma-2B IT. Система тестирования охватывает широкий спектр вопросов в различных областях, направленных на оценку производительности модели и ее соответствия этическим нормам.
Целью этого проекта было проверить производительность модели по широкому кругу вопросов из разных областей, включая логические рассуждения, математику и статистику, технические знания, понимание естественного языка и многое другое, чтобы оценить ее возможности и ограничения. Кроме того, я потратил несколько минут на составление вопросов, оценивающих соответствие модели этическим принципам и ее способность избегать создания предвзятого или вредного контента. Далее будет тестирование возможностей RAG.
Оценка охватывала следующие категории:
Эти категории были выбраны для того, чтобы обеспечить всесторонний обзор знаний и способностей модели к рассуждению, а также ее этических гарантий.
Тесты проводились с использованием следующей конфигурации генерации выходных данных:
output = text_generation_pipeline (
prompt ,
max_new_tokens = 256 ,
add_special_tokens = True ,
do_sample = True ,
temperature = 1 ,
top_k = 50 ,
top_p = 0.95
)
Эта конфигурация была выбрана для обеспечения баланса между созданием последовательных, релевантных ответов и созданием творческих и разнообразных результатов. Он контролирует длину ответа, включение специальных токенов, поведение выборки и случайность вывода.
Результаты показали неоднозначные результаты в разных категориях. Хотя в одних областях модель показала себя хорошо, в других она плохо справлялась с базовыми задачами, например с простыми арифметическими операциями. Эти результаты подчеркивают области, в которых модель превосходна и где она нуждается в улучшении.
Чтобы повторить эти тесты, не забудьте установить свой собственный ключ API Hugging Face в предоставленном блокноте Colab. Я призываю пользователей адаптировать тесты к своим конкретным областям интересов. Однако важно помнить, что эти результаты не следует рассматривать как окончательные ориентиры для всех вариантов использования, тем более что производительность может варьироваться в зависимости от конфигурации оборудования. Мои тесты проводились на графическом процессоре NVIDIA A100.
Приветствуется вклад сообщества. Будь то расширение набора тестов дополнительными вопросами, специфичными для предметной области, улучшение структуры тестирования или обмен результатами оценки, ваш вклад может помочь улучшить понимание и использование этой модели для всего сообщества.
Этот проект имеет открытый исходный код и доступен по лицензии MIT.