Site do projeto • Principais recursos • Como usar • Conjuntos de dados de referência • Apoio comunitário • Contribuições • Missão • Licença
Dê uma olhada em nossa página oficial para documentação do usuário e exemplos: langtest.org
LangTest vem com diferentes conjuntos de dados para testar seus modelos, cobrindo uma ampla variedade de casos de uso e cenários de avaliação. Você pode explorar todos os conjuntos de dados de benchmark disponíveis aqui, cada um meticulosamente selecionado para desafiar e aprimorar seus modelos de linguagem. Esteja você focado em respostas a perguntas, resumo de texto, etc., o LangTest garante que você tenha os dados certos para levar seus modelos ao limite e alcançar o desempenho máximo em diversas tarefas linguísticas.
# Install langtest
!p ip install langtest [ transformers ]
# Import and create a Harness object
from langtest import Harness
h = Harness ( task = 'ner' , model = { "model" : 'dslim/bert-base-NER' , "hub" : 'huggingface' })
# Generate test cases, run them and view a report
h . generate (). run (). report ()
Nota Para exemplos mais extensos de uso e documentação, acesse langtest.org
Você pode verificar os seguintes artigos do LangTest:
Blogue | Descrição |
---|---|
Teste automático de preconceito demográfico em planos de tratamento clínico gerados por grandes modelos de linguagem | Ajuda na compreensão e teste de preconceitos demográficos em planos de tratamento clínico gerados pelo LLM. |
LangTest: revelando e corrigindo preconceitos com pipelines de PNL de ponta a ponta | O pipeline de linguagem ponta a ponta no LangTest capacita os profissionais de PNL a lidar com preconceitos em modelos de linguagem com uma abordagem abrangente, baseada em dados e iterativa. |
Além da precisão: teste de robustez de modelos de reconhecimento de entidades nomeadas com LangTest | Embora a precisão seja sem dúvida crucial, os testes de robustez levam a avaliação de modelos de processamento de linguagem natural (PNL) para o próximo nível, garantindo que os modelos possam funcionar de forma confiável e consistente em uma ampla gama de condições do mundo real. |
Eleve seus modelos de PNL com aumento automatizado de dados para desempenho aprimorado | Neste artigo, discutimos como o aumento automatizado de dados pode turbinar seus modelos de PNL e melhorar seu desempenho e como fazemos isso usando LangTest. |
Mitigando estereótipos ocupacionais de gênero em IA: avaliando modelos com o teste de preconceito Wino por meio da biblioteca Langtest | Neste artigo, discutimos como podemos testar o “Wino Bias” usando LangTest. Refere-se especificamente ao teste de preconceitos decorrentes de estereótipos de gênero ocupacional. |
Automatizando IA Responsável: Integrando Hugging Face e LangTest para Modelos Mais Robustos | Neste artigo, exploramos a integração entre Hugging Face, sua fonte de referência para modelos e conjuntos de dados de PNL de última geração, e LangTest, a arma secreta do seu pipeline de PNL para testes e otimização. |
Detectando e avaliando o preconceito de bajulação: uma análise de soluções de LLM e IA | Nesta postagem do blog, discutimos a questão generalizada do comportamento bajulador da IA e os desafios que ela apresenta no mundo da inteligência artificial. Exploramos como os modelos de linguagem às vezes priorizam o acordo em detrimento da autenticidade, dificultando conversas significativas e imparciais. Além disso, revelamos uma solução potencial para mudar o jogo para este problema, os dados sintéticos, que prometem revolucionar a forma como os companheiros de IA se envolvem nas discussões, tornando-os mais fiáveis e precisos em várias condições do mundo real. |
Desmascarando a sensibilidade do modelo de linguagem em avaliações de negação e toxicidade | Nesta postagem do blog, nos aprofundamos na Sensibilidade do Modelo de Linguagem, examinando como os modelos lidam com negações e toxicidade na linguagem. Através destes testes, obtemos insights sobre a adaptabilidade e capacidade de resposta dos modelos, enfatizando a necessidade contínua de melhoria nos modelos de PNL. |
Revelando preconceitos em modelos de linguagem: gênero, raça, deficiência e perspectivas socioeconômicas | Nesta postagem do blog, exploramos preconceitos em modelos de linguagem, com foco em gênero, raça, deficiência e fatores socioeconômicos. Avaliamos esse viés usando o conjunto de dados CrowS-Pairs, projetado para medir vieses estereotipados. Para abordar esses preconceitos, discutimos a importância de ferramentas como o LangTest na promoção da justiça nos sistemas de PNL. |
Desmascarando os preconceitos na IA: como gênero, etnia, religião e economia moldam a PNL e muito mais | Nesta postagem do blog, abordamos o preconceito da IA sobre como gênero, etnia, religião e economia moldam os sistemas de PNL. Discutimos estratégias para reduzir preconceitos e promover a justiça nos sistemas de IA. |
Avaliando grandes modelos de linguagem sobre estereótipos ocupacionais de gênero usando o teste de preconceito Wino | Nesta postagem do blog, nos aprofundamos no teste do conjunto de dados WinoBias em LLMs, examinando o tratamento de papéis ocupacionais e de gênero pelos modelos de linguagem, métricas de avaliação e implicações mais amplas. Vamos explorar a avaliação de modelos de linguagem com LangTest no conjunto de dados WinoBias e enfrentar os desafios de lidar com preconceitos na IA. |
Simplificando fluxos de trabalho de ML: Integrando MLFlow Tracking com LangTest para avaliações aprimoradas de modelos | Nesta postagem do blog, abordamos a necessidade crescente de rastreamento transparente, sistemático e abrangente de modelos. Entra em cena o MLFlow e o LangTest: duas ferramentas que, quando combinadas, criam uma abordagem revolucionária para o desenvolvimento de ML. |
Testando as capacidades de resposta a perguntas de grandes modelos de linguagem | Nesta postagem do blog, abordamos o aprimoramento dos recursos de avaliação de controle de qualidade usando a biblioteca LangTest. Explore os diferentes métodos de avaliação que o LangTest oferece para lidar com as complexidades da avaliação de tarefas de resposta a perguntas (QA). |
Avaliando preconceito de estereótipo com LangTest | Nesta postagem do blog, estamos nos concentrando no uso do conjunto de dados StereoSet para avaliar preconceitos relacionados a gênero, profissão e raça. |
Testando a robustez de modelos de análise de sentimento baseados em LSTM | Explore a robustez dos modelos personalizados com LangTest Insights. |
LangTest Insights: um mergulho profundo na robustez do LLM no OpenBookQA | Explore a robustez dos modelos de linguagem (LLMs) no conjunto de dados OpenBookQA com LangTest Insights. |
LangTest: uma arma secreta para melhorar a robustez de seus modelos de linguagem de Transformers | Explore a robustez dos modelos de linguagem Transformers com LangTest Insights. |
Dominando a avaliação do modelo: apresentando o sistema abrangente de classificação e classificação no LangTest | O sistema Model Ranking & Leaderboard do LangTest da John Snow Labs oferece uma abordagem sistemática para avaliar modelos de IA com classificação abrangente, comparações históricas e insights específicos de conjuntos de dados, capacitando pesquisadores e cientistas de dados a tomar decisões baseadas em dados sobre o desempenho do modelo. |
Avaliando respostas longas com Prometheus-Eval e Langtest | Prometheus-Eval e LangTest se unem para oferecer uma solução de código aberto, confiável e econômica para avaliar respostas de formato longo, combinando o desempenho de nível GPT-4 do Prometheus e a estrutura de teste robusta do LangTest para fornecer feedback detalhado e interpretável e alta precisão em avaliações. |
Garantindo a precisão dos LLMs no domínio médico: o desafio da troca de nomes de medicamentos | A identificação precisa do nome do medicamento é crucial para a segurança do paciente. Testar o GPT-4o com o teste de conversão drug_generic_to_brand da LangTest revelou possíveis erros na previsão de nomes de medicamentos quando nomes de marcas são substituídos por ingredientes, destacando a necessidade de refinamento contínuo e testes rigorosos para garantir a precisão e confiabilidade do LLM médico. |
Nota Para verificar todos os blogs, vá para Blogs
#langtest
Embora se fale muito sobre a necessidade de treinar modelos de IA que sejam seguros, robustos e justos, poucas ferramentas foram disponibilizadas aos cientistas de dados para atingir esses objetivos. Como resultado, a linha de frente dos modelos de PNL em sistemas de produção reflete uma situação lamentável.
Propomos aqui um projeto comunitário de código aberto em estágio inicial que visa preencher essa lacuna e adoraríamos que você se juntasse a nós nesta missão. Nosso objetivo é construir sobre as bases estabelecidas por pesquisas anteriores, como Ribeiro et al. (2020), Song et al. (2020), Parrish et al. (2021), van Aken et al. (2021) e muitos outros.
John Snow Labs tem uma equipe de desenvolvimento completa alocada para o projeto e está comprometido em melhorar a biblioteca há anos, assim como fazemos com outras bibliotecas de código aberto. Espere lançamentos frequentes com novos tipos de testes, tarefas, linguagens e plataformas adicionadas regularmente. Esperamos trabalhar juntos para tornar a PNL segura, confiável e responsável uma realidade cotidiana.
Nota Para uso e documentação, acesse langtest.org
Aceitamos todos os tipos de contribuições:
Uma visão geral detalhada das contribuições pode ser encontrada no guia de contribuições .
Se você deseja começar a trabalhar com a base de código LangTest, navegue até a guia "problemas" do GitHub e comece a examinar problemas interessantes. Há uma série de questões listadas abaixo por onde você pode começar. Ou talvez através do LangTest você tenha uma ideia própria ou esteja procurando algo na documentação e pensando 'Isso pode ser melhorado'... você pode fazer algo a respeito!
Sinta-se à vontade para fazer perguntas nas discussões de perguntas e respostas.
Como contribuidores e mantenedores deste projeto, espera-se que você cumpra o código de conduta da LangTest. Mais informações podem ser encontradas em: Código de Conduta do Colaborador
Publicamos um artigo que você pode citar para a biblioteca LangTest:
@article { nazir2024langtest ,
title = { LangTest: A comprehensive evaluation library for custom LLM and NLP models } ,
author = { Arshaan Nazir, Thadaka Kalyan Chakravarthy, David Amore Cecchini, Rakshit Khajuria, Prikshit Sharma, Ali Tarik Mirik, Veysel Kocaman and David Talby } ,
journal = { Software Impacts } ,
pages = { 100619 } ,
year = { 2024 } ,
publisher = { Elsevier }
}
Gostaríamos de agradecer a todos os contribuidores deste projeto comunitário de código aberto.
LangTest é lançado sob a Licença Apache 2.0, que garante uso comercial, modificação, distribuição, uso de patente, uso privado e estabelece limitações ao uso de marca registrada, responsabilidade e garantia.