Веб-сайт проекта • Основные характеристики • Как использовать • Наборы контрольных данных • Поддержка сообщества • Вклад • Миссия • Лицензия
Посетите нашу официальную страницу с пользовательской документацией и примерами: langtest.org.
LangTest поставляется с различными наборами данных для тестирования ваших моделей, охватывающими широкий спектр вариантов использования и сценариев оценки. Вы можете изучить все доступные здесь наборы эталонных данных, каждый из которых тщательно подобран для того, чтобы бросить вызов и улучшить ваши языковые модели. Независимо от того, сосредоточены ли вы на вопросах-ответах, обобщении текста и т. д., LangTest гарантирует, что у вас есть нужные данные, чтобы довести ваши модели до предела и достичь максимальной производительности в различных лингвистических задачах.
# Install langtest
!p ip install langtest [ transformers ]
# Import and create a Harness object
from langtest import Harness
h = Harness ( task = 'ner' , model = { "model" : 'dslim/bert-base-NER' , "hub" : 'huggingface' })
# Generate test cases, run them and view a report
h . generate (). run (). report ()
Примечание. Более подробные примеры использования и документацию можно найти на сайте langtest.org.
Вы можете ознакомиться со следующими статьями LangTest:
Блог | Описание |
---|---|
Автоматическое тестирование на демографическую предвзятость в планах клинического лечения, созданных с помощью больших языковых моделей | Помогает понять и проверить демографическую предвзятость в планах клинического лечения, созданных LLM. |
LangTest: выявление и исправление предубеждений с помощью сквозных конвейеров НЛП | Комплексный языковой конвейер в LangTest дает специалистам-практикам НЛП возможность устранять предвзятости в языковых моделях с помощью комплексного, основанного на данных и итеративного подхода. |
За пределами точности: тестирование устойчивости моделей распознавания именованных объектов с помощью LangTest | Хотя точность, несомненно, имеет решающее значение, тестирование надежности выводит оценку моделей обработки естественного языка (NLP) на новый уровень, гарантируя, что модели могут работать надежно и последовательно в широком спектре реальных условий. |
Улучшите свои модели НЛП с помощью автоматического увеличения данных для повышения производительности | В этой статье мы обсудим, как автоматическое увеличение данных может улучшить ваши модели НЛП и повысить их производительность, и как мы делаем это с помощью LangTest. |
Смягчение гендерно-профессиональных стереотипов в ИИ: оценка моделей с помощью теста на предвзятость Вино с помощью библиотеки Langtest | В этой статье мы обсуждаем, как мы можем проверить «предвзятость алкоголика» с помощью LangTest. В частности, он относится к тестированию предвзятости, возникающей из гендерно-профессиональных стереотипов. |
Автоматизация ответственного ИИ: интеграция Hugging Face и LangTest для более надежных моделей | В этой статье мы рассмотрели интеграцию Hugging Face, вашего основного источника самых современных моделей и наборов данных НЛП, и LangTest, секретного оружия вашего конвейера НЛП для тестирования и оптимизации. |
Обнаружение и оценка предвзятости подхалимства: анализ LLM и решений искусственного интеллекта | В этом сообщении блога мы обсуждаем распространенную проблему подхалимского поведения ИИ и проблемы, которые оно представляет в мире искусственного интеллекта. Мы исследуем, как языковые модели иногда отдают предпочтение согласию, а не аутентичности, что препятствует осмысленному и беспристрастному разговору. Кроме того, мы представляем потенциальное революционное решение этой проблемы — синтетические данные, которые обещают революционизировать способы участия ИИ-компаньонов в обсуждениях, делая их более надежными и точными в различных реальных условиях. |
Выявление чувствительности языковой модели при оценках отрицания и токсичности | В этом сообщении блога мы углубимся в чувствительность языковой модели, изучая, как модели справляются с отрицаниями и токсичностью языка. Благодаря этим тестам мы получаем представление об адаптируемости и оперативности моделей, подчеркивая постоянную необходимость совершенствования моделей НЛП. |
Выявление предвзятости в языковых моделях: гендер, раса, инвалидность и социально-экономические перспективы | В этом сообщении блога мы исследуем предвзятость в языковых моделях, уделяя особое внимание полу, расе, инвалидности и социально-экономическим факторам. Мы оцениваем эту предвзятость, используя набор данных CrowS-Pairs, предназначенный для измерения стереотипных предубеждений. Чтобы устранить эти предубеждения, мы обсуждаем важность таких инструментов, как LangTest, для обеспечения справедливости в системах НЛП. |
Разоблачение предубеждений внутри ИИ: как гендер, этническая принадлежность, религия и экономика формируют НЛП и не только | В этом сообщении блога мы рассматриваем предвзятость ИИ относительно того, как пол, этническая принадлежность, религия и экономика формируют системы НЛП. Мы обсудили стратегии уменьшения предвзятости и обеспечения справедливости в системах ИИ. |
Оценка больших языковых моделей на основе гендерно-профессиональных стереотипов с использованием теста предвзятости Вино | В этом сообщении блога мы погружаемся в тестирование набора данных WinoBias на LLM, изучаем, как языковые модели обрабатывают гендерные и профессиональные роли, метрики оценки и более широкие последствия. Давайте рассмотрим оценку языковых моделей с помощью LangTest на наборе данных WinoBias и столкнемся с проблемами устранения предвзятости в ИИ. |
Оптимизация рабочих процессов машинного обучения: интеграция отслеживания MLFlow с LangTest для расширенной оценки моделей | В этом сообщении блога мы погружаемся в растущую потребность в прозрачном, систематическом и всестороннем отслеживании моделей. Представляем MLFlow и LangTest: два инструмента, которые в сочетании создают революционный подход к разработке машинного обучения. |
Тестирование возможностей больших языковых моделей отвечать на вопросы | В этом сообщении блога мы углубляемся в расширение возможностей оценки качества с помощью библиотеки LangTest. Узнайте о различных методах оценки, которые LangTest предлагает для решения сложных задач оценки ответов на вопросы (QA). |
Оценка стереотипной предвзятости с помощью LangTest | В этом сообщении блога мы сосредоточимся на использовании набора данных StereoSet для оценки предвзятости, связанной с полом, профессией и расой. |
Проверка устойчивости моделей анализа настроений на основе LSTM | Исследуйте надежность пользовательских моделей с помощью LangTest Insights. |
LangTest Insights: глубокое погружение в надежность LLM на OpenBookQA | Изучите надежность языковых моделей (LLM) в наборе данных OpenBookQA с помощью LangTest Insights. |
LangTest: секретное оружие для повышения надежности языковых моделей трансформеров | Исследуйте надежность языковых моделей Transformers с помощью LangTest Insights. |
Освоение оценки модели: введение комплексной системы ранжирования и таблицы лидеров в LangTest | Система рейтинга моделей и таблицы лидеров от LangTest от John Snow Labs предлагает систематический подход к оценке моделей ИИ с комплексным ранжированием, историческими сравнениями и аналитической информацией по конкретным наборам данных, что дает исследователям и специалистам по данным возможность принимать решения на основе данных о производительности модели. |
Оценка длинных ответов с помощью Prometheus-Eval и Langtest | Prometheus-Eval и LangTest объединяются, чтобы предложить надежное и экономичное решение с открытым исходным кодом для оценки длинных ответов, сочетающее в себе производительность уровня GPT-4 Prometheus и надежную среду тестирования LangTest для обеспечения подробной, интерпретируемой обратной связи и высокой точности оценки. |
Обеспечение точности программ LLM в медицинской сфере: проблема обмена названиями лекарств | Точная идентификация названия лекарства имеет решающее значение для безопасности пациентов. Тестирование GPT-4o с помощью теста преобразования Drug_generic_to_brand компании LangTest выявило потенциальные ошибки в прогнозировании названий лекарств, когда названия торговых марок заменяются ингредиентами, что подчеркивает необходимость постоянного совершенствования и тщательного тестирования для обеспечения точности и надежности медицинского LLM. |
Примечание. Чтобы проверить все блоги, перейдите в раздел «Блоги».
#langtest
.Хотя много говорят о необходимости обучения моделей ИИ, которые были бы безопасными, надежными и справедливыми, ученым, работающим с данными, было предоставлено мало инструментов для достижения этих целей. В результате передовая линия моделей НЛП в производственных системах отражает плачевное положение дел.
Мы предлагаем здесь проект сообщества с открытым исходным кодом на ранней стадии, который призван восполнить этот пробел, и будем рады, если вы присоединитесь к нам в этой миссии. Мы стремимся опираться на фундамент, заложенный предыдущими исследованиями, такими как Ribeiro et al. (2020), Сонг и др. (2020), Пэрриш и др. (2021), ван Акен и др. (2021) и многие другие.
John Snow Labs имеет полную команду разработчиков, выделенную для проекта, и стремится улучшать библиотеку в течение многих лет, как и другие библиотеки с открытым исходным кодом. Ожидайте регулярного добавления новых типов тестов, задач, языков и платформ. Мы с нетерпением ждем совместной работы, чтобы сделать безопасное, надежное и ответственное НЛП повседневной реальностью.
Примечание. Для использования и документации перейдите на langtest.org.
Мы приветствуем любые виды вкладов:
Подробный обзор вклада можно найти в руководстве по вкладу .
Если вы хотите начать работу с кодовой базой LangTest, перейдите на вкладку «Проблемы» GitHub и начните просматривать интересные проблемы. Ниже перечислен ряд проблем, с которых можно начать. Или, может быть, благодаря использованию LangTest у вас появилась собственная идея или вы ищете что-то в документации и думаете: «Это можно улучшить»… вы можете что-то с этим сделать!
Не стесняйтесь задавать вопросы в обсуждениях вопросов и ответов.
Как участники и сопровождающие этого проекта, вы должны соблюдать кодекс поведения LangTest. Более подробную информацию можно найти по адресу: Кодекс поведения участника.
Мы опубликовали статью, которую вы можете цитировать для библиотеки LangTest:
@article { nazir2024langtest ,
title = { LangTest: A comprehensive evaluation library for custom LLM and NLP models } ,
author = { Arshaan Nazir, Thadaka Kalyan Chakravarthy, David Amore Cecchini, Rakshit Khajuria, Prikshit Sharma, Ali Tarik Mirik, Veysel Kocaman and David Talby } ,
journal = { Software Impacts } ,
pages = { 100619 } ,
year = { 2024 } ,
publisher = { Elsevier }
}
Мы хотели бы выразить признательность всем участникам этого проекта сообщества с открытым исходным кодом.
LangTest выпускается под лицензией Apache 2.0, которая гарантирует коммерческое использование, модификацию, распространение, использование патентов, частное использование и устанавливает ограничения на использование товарных знаков, ответственность и гарантию.