Download langtest - download do código-fonte langtest

langtest

Código-Fonte de IA

1.0.0

Baixar

Site do projeto • Principais recursos • Como usar • Conjuntos de dados de referência • Apoio comunitário • Contribuições • Missão • Licença

Site do Projeto

Dê uma olhada em nossa página oficial para documentação do usuário e exemplos: langtest.org

Principais recursos

Gere e execute mais de 60 tipos distintos de testes apenas com 1 linha de código
Teste todos os aspectos da qualidade do modelo: robustez, viés, representação, justiça e precisão.
Aumente automaticamente os dados de treinamento com base nos resultados dos testes (para modelos selecionados)
Suporte para estruturas populares de PNL para NER, Tradução e Classificação de Texto: Spark NLP, Hugging Face & Transformers.
Suporte para testes de LLMS (OpenAI, Cohere, AI21, Hugging Face Inference API e Azure-OpenAI LLMs) para resposta a perguntas, toxicidade, testes clínicos, suporte jurídico, factualidade, bajulação, resumo e outros testes populares.

Conjuntos de dados de referência

LangTest vem com diferentes conjuntos de dados para testar seus modelos, cobrindo uma ampla variedade de casos de uso e cenários de avaliação. Você pode explorar todos os conjuntos de dados de benchmark disponíveis aqui, cada um meticulosamente selecionado para desafiar e aprimorar seus modelos de linguagem. Esteja você focado em respostas a perguntas, resumo de texto, etc., o LangTest garante que você tenha os dados certos para levar seus modelos ao limite e alcançar o desempenho máximo em diversas tarefas linguísticas.

Como usar

 # Install langtest
!p ip install langtest [ transformers ]

# Import and create a Harness object
from langtest import Harness
h = Harness ( task = 'ner' , model = { "model" : 'dslim/bert-base-NER' , "hub" : 'huggingface' })

# Generate test cases, run them and view a report
h . generate (). run (). report ()

Nota Para exemplos mais extensos de uso e documentação, acesse langtest.org

Blogs de IA responsáveis

Você pode verificar os seguintes artigos do LangTest:

Blogue	Descrição
Teste automático de preconceito demográfico em planos de tratamento clínico gerados por grandes modelos de linguagem	Ajuda na compreensão e teste de preconceitos demográficos em planos de tratamento clínico gerados pelo LLM.
LangTest: revelando e corrigindo preconceitos com pipelines de PNL de ponta a ponta	O pipeline de linguagem ponta a ponta no LangTest capacita os profissionais de PNL a lidar com preconceitos em modelos de linguagem com uma abordagem abrangente, baseada em dados e iterativa.
Além da precisão: teste de robustez de modelos de reconhecimento de entidades nomeadas com LangTest	Embora a precisão seja sem dúvida crucial, os testes de robustez levam a avaliação de modelos de processamento de linguagem natural (PNL) para o próximo nível, garantindo que os modelos possam funcionar de forma confiável e consistente em uma ampla gama de condições do mundo real.
Eleve seus modelos de PNL com aumento automatizado de dados para desempenho aprimorado	Neste artigo, discutimos como o aumento automatizado de dados pode turbinar seus modelos de PNL e melhorar seu desempenho e como fazemos isso usando LangTest.
Mitigando estereótipos ocupacionais de gênero em IA: avaliando modelos com o teste de preconceito Wino por meio da biblioteca Langtest	Neste artigo, discutimos como podemos testar o “Wino Bias” usando LangTest. Refere-se especificamente ao teste de preconceitos decorrentes de estereótipos de gênero ocupacional.
Automatizando IA Responsável: Integrando Hugging Face e LangTest para Modelos Mais Robustos	Neste artigo, exploramos a integração entre Hugging Face, sua fonte de referência para modelos e conjuntos de dados de PNL de última geração, e LangTest, a arma secreta do seu pipeline de PNL para testes e otimização.
Detectando e avaliando o preconceito de bajulação: uma análise de soluções de LLM e IA	Nesta postagem do blog, discutimos a questão generalizada do comportamento bajulador da IA e os desafios que ela apresenta no mundo da inteligência artificial. Exploramos como os modelos de linguagem às vezes priorizam o acordo em detrimento da autenticidade, dificultando conversas significativas e imparciais. Além disso, revelamos uma solução potencial para mudar o jogo para este problema, os dados sintéticos, que prometem revolucionar a forma como os companheiros de IA se envolvem nas discussões, tornando-os mais fiáveis e precisos em várias condições do mundo real.
Desmascarando a sensibilidade do modelo de linguagem em avaliações de negação e toxicidade	Nesta postagem do blog, nos aprofundamos na Sensibilidade do Modelo de Linguagem, examinando como os modelos lidam com negações e toxicidade na linguagem. Através destes testes, obtemos insights sobre a adaptabilidade e capacidade de resposta dos modelos, enfatizando a necessidade contínua de melhoria nos modelos de PNL.
Revelando preconceitos em modelos de linguagem: gênero, raça, deficiência e perspectivas socioeconômicas	Nesta postagem do blog, exploramos preconceitos em modelos de linguagem, com foco em gênero, raça, deficiência e fatores socioeconômicos. Avaliamos esse viés usando o conjunto de dados CrowS-Pairs, projetado para medir vieses estereotipados. Para abordar esses preconceitos, discutimos a importância de ferramentas como o LangTest na promoção da justiça nos sistemas de PNL.
Desmascarando os preconceitos na IA: como gênero, etnia, religião e economia moldam a PNL e muito mais	Nesta postagem do blog, abordamos o preconceito da IA sobre como gênero, etnia, religião e economia moldam os sistemas de PNL. Discutimos estratégias para reduzir preconceitos e promover a justiça nos sistemas de IA.
Avaliando grandes modelos de linguagem sobre estereótipos ocupacionais de gênero usando o teste de preconceito Wino	Nesta postagem do blog, nos aprofundamos no teste do conjunto de dados WinoBias em LLMs, examinando o tratamento de papéis ocupacionais e de gênero pelos modelos de linguagem, métricas de avaliação e implicações mais amplas. Vamos explorar a avaliação de modelos de linguagem com LangTest no conjunto de dados WinoBias e enfrentar os desafios de lidar com preconceitos na IA.
Simplificando fluxos de trabalho de ML: Integrando MLFlow Tracking com LangTest para avaliações aprimoradas de modelos	Nesta postagem do blog, abordamos a necessidade crescente de rastreamento transparente, sistemático e abrangente de modelos. Entra em cena o MLFlow e o LangTest: duas ferramentas que, quando combinadas, criam uma abordagem revolucionária para o desenvolvimento de ML.
Testando as capacidades de resposta a perguntas de grandes modelos de linguagem	Nesta postagem do blog, abordamos o aprimoramento dos recursos de avaliação de controle de qualidade usando a biblioteca LangTest. Explore os diferentes métodos de avaliação que o LangTest oferece para lidar com as complexidades da avaliação de tarefas de resposta a perguntas (QA).
Avaliando preconceito de estereótipo com LangTest	Nesta postagem do blog, estamos nos concentrando no uso do conjunto de dados StereoSet para avaliar preconceitos relacionados a gênero, profissão e raça.
Testando a robustez de modelos de análise de sentimento baseados em LSTM	Explore a robustez dos modelos personalizados com LangTest Insights.
LangTest Insights: um mergulho profundo na robustez do LLM no OpenBookQA	Explore a robustez dos modelos de linguagem (LLMs) no conjunto de dados OpenBookQA com LangTest Insights.
LangTest: uma arma secreta para melhorar a robustez de seus modelos de linguagem de Transformers	Explore a robustez dos modelos de linguagem Transformers com LangTest Insights.
Dominando a avaliação do modelo: apresentando o sistema abrangente de classificação e classificação no LangTest	O sistema Model Ranking & Leaderboard do LangTest da John Snow Labs oferece uma abordagem sistemática para avaliar modelos de IA com classificação abrangente, comparações históricas e insights específicos de conjuntos de dados, capacitando pesquisadores e cientistas de dados a tomar decisões baseadas em dados sobre o desempenho do modelo.
Avaliando respostas longas com Prometheus-Eval e Langtest	Prometheus-Eval e LangTest se unem para oferecer uma solução de código aberto, confiável e econômica para avaliar respostas de formato longo, combinando o desempenho de nível GPT-4 do Prometheus e a estrutura de teste robusta do LangTest para fornecer feedback detalhado e interpretável e alta precisão em avaliações.
Garantindo a precisão dos LLMs no domínio médico: o desafio da troca de nomes de medicamentos	A identificação precisa do nome do medicamento é crucial para a segurança do paciente. Testar o GPT-4o com o teste de conversão *drug_generic_to_brand* da LangTest revelou possíveis erros na previsão de nomes de medicamentos quando nomes de marcas são substituídos por ingredientes, destacando a necessidade de refinamento contínuo e testes rigorosos para garantir a precisão e confiabilidade do LLM médico.

Nota Para verificar todos os blogs, vá para Blogs

Apoio Comunitário

Slack Para discussão ao vivo com a comunidade LangTest, junte-se ao canal #langtest
GitHub Para relatórios de bugs, solicitações de recursos e contribuições
Discussões Para interagir com outros membros da comunidade, compartilhar ideias e mostrar como você usa o LangTest!

Missão

Embora se fale muito sobre a necessidade de treinar modelos de IA que sejam seguros, robustos e justos, poucas ferramentas foram disponibilizadas aos cientistas de dados para atingir esses objetivos. Como resultado, a linha de frente dos modelos de PNL em sistemas de produção reflete uma situação lamentável.

Propomos aqui um projeto comunitário de código aberto em estágio inicial que visa preencher essa lacuna e adoraríamos que você se juntasse a nós nesta missão. Nosso objetivo é construir sobre as bases estabelecidas por pesquisas anteriores, como Ribeiro et al. (2020), Song et al. (2020), Parrish et al. (2021), van Aken et al. (2021) e muitos outros.

John Snow Labs tem uma equipe de desenvolvimento completa alocada para o projeto e está comprometido em melhorar a biblioteca há anos, assim como fazemos com outras bibliotecas de código aberto. Espere lançamentos frequentes com novos tipos de testes, tarefas, linguagens e plataformas adicionadas regularmente. Esperamos trabalhar juntos para tornar a PNL segura, confiável e responsável uma realidade cotidiana.

Nota Para uso e documentação, acesse langtest.org

Contribuindo para LangTest

Aceitamos todos os tipos de contribuições:

Ideias
Discussões
Opinião
Documentação
Relatórios de bugs

Uma visão geral detalhada das contribuições pode ser encontrada no guia de contribuições .

Se você deseja começar a trabalhar com a base de código LangTest, navegue até a guia "problemas" do GitHub e comece a examinar problemas interessantes. Há uma série de questões listadas abaixo por onde você pode começar. Ou talvez através do LangTest você tenha uma ideia própria ou esteja procurando algo na documentação e pensando 'Isso pode ser melhorado'... você pode fazer algo a respeito!

Sinta-se à vontade para fazer perguntas nas discussões de perguntas e respostas.

Como contribuidores e mantenedores deste projeto, espera-se que você cumpra o código de conduta da LangTest. Mais informações podem ser encontradas em: Código de Conduta do Colaborador

Citação

Publicamos um artigo que você pode citar para a biblioteca LangTest:

 @article { nazir2024langtest ,
  title = { LangTest: A comprehensive evaluation library for custom LLM and NLP models } ,
  author = { Arshaan Nazir, Thadaka Kalyan Chakravarthy, David Amore Cecchini, Rakshit Khajuria, Prikshit Sharma, Ali Tarik Mirik, Veysel Kocaman and David Talby } ,
  journal = { Software Impacts } ,
  pages = { 100619 } ,
  year = { 2024 } ,
  publisher = { Elsevier }
}

Colaboradores

Gostaríamos de agradecer a todos os contribuidores deste projeto comunitário de código aberto.

Licença

LangTest é lançado sob a Licença Apache 2.0, que garante uso comercial, modificação, distribuição, uso de patente, uso privado e estabelece limitações ao uso de marca registrada, responsabilidade e garantia.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-01-27
tamanho 69.92MB
Vindo de Github

Aplicativos Relacionados

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
node telegram bot api

Código-Fonte de IA

v0.50.0
typebot.io

Código-Fonte de IA

v3.1.2
python wechaty getting started

Código-Fonte de IA

1.0.0
waymo open dataset

Outro código-fonte

December 2023 Update
wp functions

Outras categorias

1.0.0
termwind

Outras categorias

v2.3.0

Informações Relacionadas Todos