Загрузка langtest - Загрузка исходного кода langtest

langtest

AI Исходный код

1.0.0

Скачать

Веб-сайт проекта • Основные характеристики • Как использовать • Наборы контрольных данных • Поддержка сообщества • Вклад • Миссия • Лицензия

Сайт проекта

Посетите нашу официальную страницу с пользовательской документацией и примерами: langtest.org.

Ключевые особенности

Создавайте и выполняйте более 60 различных типов тестов всего с помощью одной строки кода.
Проверьте все аспекты качества модели: надежность, предвзятость, репрезентативность, справедливость и точность.
Автоматически дополнять данные обучения на основе результатов испытаний (для некоторых моделей)
Поддержка популярных фреймворков НЛП для NER, перевода и классификации текста: Spark NLP, Hugging Face и Transformers.
Поддержка тестирования LLMS (OpenAI, Cohere, AI21, Hugging Face Inference API и LLM Azure-OpenAI) для ответов на вопросы, токсичности, клинических испытаний, юридической поддержки, проверки фактов, подхалимства, обобщения и других популярных тестов.

Наборы контрольных данных

LangTest поставляется с различными наборами данных для тестирования ваших моделей, охватывающими широкий спектр вариантов использования и сценариев оценки. Вы можете изучить все доступные здесь наборы эталонных данных, каждый из которых тщательно подобран для того, чтобы бросить вызов и улучшить ваши языковые модели. Независимо от того, сосредоточены ли вы на вопросах-ответах, обобщении текста и т. д., LangTest гарантирует, что у вас есть нужные данные, чтобы довести ваши модели до предела и достичь максимальной производительности в различных лингвистических задачах.

Как использовать

 # Install langtest
!p ip install langtest [ transformers ]

# Import and create a Harness object
from langtest import Harness
h = Harness ( task = 'ner' , model = { "model" : 'dslim/bert-base-NER' , "hub" : 'huggingface' })

# Generate test cases, run them and view a report
h . generate (). run (). report ()

Примечание. Более подробные примеры использования и документацию можно найти на сайте langtest.org.

Ответственные блоги об искусственном интеллекте

Вы можете ознакомиться со следующими статьями LangTest:

Блог	Описание
Автоматическое тестирование на демографическую предвзятость в планах клинического лечения, созданных с помощью больших языковых моделей	Помогает понять и проверить демографическую предвзятость в планах клинического лечения, созданных LLM.
LangTest: выявление и исправление предубеждений с помощью сквозных конвейеров НЛП	Комплексный языковой конвейер в LangTest дает специалистам-практикам НЛП возможность устранять предвзятости в языковых моделях с помощью комплексного, основанного на данных и итеративного подхода.
За пределами точности: тестирование устойчивости моделей распознавания именованных объектов с помощью LangTest	Хотя точность, несомненно, имеет решающее значение, тестирование надежности выводит оценку моделей обработки естественного языка (NLP) на новый уровень, гарантируя, что модели могут работать надежно и последовательно в широком спектре реальных условий.
Улучшите свои модели НЛП с помощью автоматического увеличения данных для повышения производительности	В этой статье мы обсудим, как автоматическое увеличение данных может улучшить ваши модели НЛП и повысить их производительность, и как мы делаем это с помощью LangTest.
Смягчение гендерно-профессиональных стереотипов в ИИ: оценка моделей с помощью теста на предвзятость Вино с помощью библиотеки Langtest	В этой статье мы обсуждаем, как мы можем проверить «предвзятость алкоголика» с помощью LangTest. В частности, он относится к тестированию предвзятости, возникающей из гендерно-профессиональных стереотипов.
Автоматизация ответственного ИИ: интеграция Hugging Face и LangTest для более надежных моделей	В этой статье мы рассмотрели интеграцию Hugging Face, вашего основного источника самых современных моделей и наборов данных НЛП, и LangTest, секретного оружия вашего конвейера НЛП для тестирования и оптимизации.
Обнаружение и оценка предвзятости подхалимства: анализ LLM и решений искусственного интеллекта	В этом сообщении блога мы обсуждаем распространенную проблему подхалимского поведения ИИ и проблемы, которые оно представляет в мире искусственного интеллекта. Мы исследуем, как языковые модели иногда отдают предпочтение согласию, а не аутентичности, что препятствует осмысленному и беспристрастному разговору. Кроме того, мы представляем потенциальное революционное решение этой проблемы — синтетические данные, которые обещают революционизировать способы участия ИИ-компаньонов в обсуждениях, делая их более надежными и точными в различных реальных условиях.
Выявление чувствительности языковой модели при оценках отрицания и токсичности	В этом сообщении блога мы углубимся в чувствительность языковой модели, изучая, как модели справляются с отрицаниями и токсичностью языка. Благодаря этим тестам мы получаем представление об адаптируемости и оперативности моделей, подчеркивая постоянную необходимость совершенствования моделей НЛП.
Выявление предвзятости в языковых моделях: гендер, раса, инвалидность и социально-экономические перспективы	В этом сообщении блога мы исследуем предвзятость в языковых моделях, уделяя особое внимание полу, расе, инвалидности и социально-экономическим факторам. Мы оцениваем эту предвзятость, используя набор данных CrowS-Pairs, предназначенный для измерения стереотипных предубеждений. Чтобы устранить эти предубеждения, мы обсуждаем важность таких инструментов, как LangTest, для обеспечения справедливости в системах НЛП.
Разоблачение предубеждений внутри ИИ: как гендер, этническая принадлежность, религия и экономика формируют НЛП и не только	В этом сообщении блога мы рассматриваем предвзятость ИИ относительно того, как пол, этническая принадлежность, религия и экономика формируют системы НЛП. Мы обсудили стратегии уменьшения предвзятости и обеспечения справедливости в системах ИИ.
Оценка больших языковых моделей на основе гендерно-профессиональных стереотипов с использованием теста предвзятости Вино	В этом сообщении блога мы погружаемся в тестирование набора данных WinoBias на LLM, изучаем, как языковые модели обрабатывают гендерные и профессиональные роли, метрики оценки и более широкие последствия. Давайте рассмотрим оценку языковых моделей с помощью LangTest на наборе данных WinoBias и столкнемся с проблемами устранения предвзятости в ИИ.
Оптимизация рабочих процессов машинного обучения: интеграция отслеживания MLFlow с LangTest для расширенной оценки моделей	В этом сообщении блога мы погружаемся в растущую потребность в прозрачном, систематическом и всестороннем отслеживании моделей. Представляем MLFlow и LangTest: два инструмента, которые в сочетании создают революционный подход к разработке машинного обучения.
Тестирование возможностей больших языковых моделей отвечать на вопросы	В этом сообщении блога мы углубляемся в расширение возможностей оценки качества с помощью библиотеки LangTest. Узнайте о различных методах оценки, которые LangTest предлагает для решения сложных задач оценки ответов на вопросы (QA).
Оценка стереотипной предвзятости с помощью LangTest	В этом сообщении блога мы сосредоточимся на использовании набора данных StereoSet для оценки предвзятости, связанной с полом, профессией и расой.
Проверка устойчивости моделей анализа настроений на основе LSTM	Исследуйте надежность пользовательских моделей с помощью LangTest Insights.
LangTest Insights: глубокое погружение в надежность LLM на OpenBookQA	Изучите надежность языковых моделей (LLM) в наборе данных OpenBookQA с помощью LangTest Insights.
LangTest: секретное оружие для повышения надежности языковых моделей трансформеров	Исследуйте надежность языковых моделей Transformers с помощью LangTest Insights.
Освоение оценки модели: введение комплексной системы ранжирования и таблицы лидеров в LangTest	Система рейтинга моделей и таблицы лидеров от LangTest от John Snow Labs предлагает систематический подход к оценке моделей ИИ с комплексным ранжированием, историческими сравнениями и аналитической информацией по конкретным наборам данных, что дает исследователям и специалистам по данным возможность принимать решения на основе данных о производительности модели.
Оценка длинных ответов с помощью Prometheus-Eval и Langtest	Prometheus-Eval и LangTest объединяются, чтобы предложить надежное и экономичное решение с открытым исходным кодом для оценки длинных ответов, сочетающее в себе производительность уровня GPT-4 Prometheus и надежную среду тестирования LangTest для обеспечения подробной, интерпретируемой обратной связи и высокой точности оценки.
Обеспечение точности программ LLM в медицинской сфере: проблема обмена названиями лекарств	Точная идентификация названия лекарства имеет решающее значение для безопасности пациентов. Тестирование GPT-4o с помощью теста преобразования *Drug_generic_to_brand* компании LangTest выявило потенциальные ошибки в прогнозировании названий лекарств, когда названия торговых марок заменяются ингредиентами, что подчеркивает необходимость постоянного совершенствования и тщательного тестирования для обеспечения точности и надежности медицинского LLM.

Примечание. Чтобы проверить все блоги, перейдите в раздел «Блоги».

Поддержка сообщества

Slack Для живого обсуждения с сообществом LangTest присоединяйтесь к каналу #langtest .
GitHub Для отчетов об ошибках, запросов функций и предложений
Обсуждения. Чтобы общаться с другими членами сообщества, делиться идеями и демонстрировать, как вы используете LangTest!

Миссия

Хотя много говорят о необходимости обучения моделей ИИ, которые были бы безопасными, надежными и справедливыми, ученым, работающим с данными, было предоставлено мало инструментов для достижения этих целей. В результате передовая линия моделей НЛП в производственных системах отражает плачевное положение дел.

Мы предлагаем здесь проект сообщества с открытым исходным кодом на ранней стадии, который призван восполнить этот пробел, и будем рады, если вы присоединитесь к нам в этой миссии. Мы стремимся опираться на фундамент, заложенный предыдущими исследованиями, такими как Ribeiro et al. (2020), Сонг и др. (2020), Пэрриш и др. (2021), ван Акен и др. (2021) и многие другие.

John Snow Labs имеет полную команду разработчиков, выделенную для проекта, и стремится улучшать библиотеку в течение многих лет, как и другие библиотеки с открытым исходным кодом. Ожидайте регулярного добавления новых типов тестов, задач, языков и платформ. Мы с нетерпением ждем совместной работы, чтобы сделать безопасное, надежное и ответственное НЛП повседневной реальностью.

Примечание. Для использования и документации перейдите на langtest.org.

Участие в LangTest

Мы приветствуем любые виды вкладов:

Идеи
Обсуждения
Обратная связь
Документация
Отчеты об ошибках

Подробный обзор вклада можно найти в руководстве по вкладу .

Если вы хотите начать работу с кодовой базой LangTest, перейдите на вкладку «Проблемы» GitHub и начните просматривать интересные проблемы. Ниже перечислен ряд проблем, с которых можно начать. Или, может быть, благодаря использованию LangTest у вас появилась собственная идея или вы ищете что-то в документации и думаете: «Это можно улучшить»… вы можете что-то с этим сделать!

Не стесняйтесь задавать вопросы в обсуждениях вопросов и ответов.

Как участники и сопровождающие этого проекта, вы должны соблюдать кодекс поведения LangTest. Более подробную информацию можно найти по адресу: Кодекс поведения участника.

Цитирование

Мы опубликовали статью, которую вы можете цитировать для библиотеки LangTest:

 @article { nazir2024langtest ,
  title = { LangTest: A comprehensive evaluation library for custom LLM and NLP models } ,
  author = { Arshaan Nazir, Thadaka Kalyan Chakravarthy, David Amore Cecchini, Rakshit Khajuria, Prikshit Sharma, Ali Tarik Mirik, Veysel Kocaman and David Talby } ,
  journal = { Software Impacts } ,
  pages = { 100619 } ,
  year = { 2024 } ,
  publisher = { Elsevier }
}

Авторы

Мы хотели бы выразить признательность всем участникам этого проекта сообщества с открытым исходным кодом.

Лицензия

LangTest выпускается под лицензией Apache 2.0, которая гарантирует коммерческое использование, модификацию, распространение, использование патентов, частное использование и устанавливает ограничения на использование товарных знаков, ответственность и гарантию.

Расширять

Дополнительная информация