Website des Projekts • Hauptfunktionen • Verwendung • Benchmark-Datensätze • Community-Unterstützung • Mitwirken • Mission • Lizenz
Schauen Sie sich unsere offizielle Seite für Benutzerdokumentation und Beispiele an: langtest.org
LangTest verfügt über verschiedene Datensätze zum Testen Ihrer Modelle und deckt ein breites Spektrum an Anwendungsfällen und Bewertungsszenarien ab. Sie können alle hier verfügbaren Benchmark-Datensätze erkunden, die jeweils sorgfältig zusammengestellt wurden, um Ihre Sprachmodelle herauszufordern und zu verbessern. Unabhängig davon, ob Sie sich auf Fragen-Antworten, Textzusammenfassung usw. konzentrieren, stellt LangTest sicher, dass Sie über die richtigen Daten verfügen, um Ihre Modelle an ihre Grenzen zu bringen und bei verschiedenen Sprachaufgaben Spitzenleistungen zu erzielen.
# Install langtest
!p ip install langtest [ transformers ]
# Import and create a Harness object
from langtest import Harness
h = Harness ( task = 'ner' , model = { "model" : 'dslim/bert-base-NER' , "hub" : 'huggingface' })
# Generate test cases, run them and view a report
h . generate (). run (). report ()
Hinweis Weitere ausführliche Anwendungsbeispiele und Dokumentation finden Sie unter langtest.org
Sie können sich die folgenden LangTest-Artikel ansehen:
Blog | Beschreibung |
---|---|
Automatisches Testen auf demografische Verzerrungen in klinischen Behandlungsplänen, die von großen Sprachmodellen generiert werden | Hilft beim Verstehen und Testen demografischer Verzerrungen in klinischen Behandlungsplänen, die von LLM erstellt werden. |
LangTest: Vorurteile mit End-to-End-NLP-Pipelines aufdecken und beheben | Die End-to-End-Sprachpipeline in LangTest ermöglicht es NLP-Praktikern, Verzerrungen in Sprachmodellen mit einem umfassenden, datengesteuerten und iterativen Ansatz zu bekämpfen. |
Über die Genauigkeit hinaus: Robustheitstests von Erkennungsmodellen benannter Entitäten mit LangTest | Während Genauigkeit zweifellos von entscheidender Bedeutung ist, heben Robustheitstests die Bewertung von NLP-Modellen (Natural Language Processing) auf die nächste Ebene, indem sie sicherstellen, dass Modelle unter einer Vielzahl realer Bedingungen zuverlässig und konsistent funktionieren. |
Erweitern Sie Ihre NLP-Modelle mit automatisierter Datenerweiterung für mehr Leistung | In diesem Artikel besprechen wir, wie die automatisierte Datenerweiterung Ihre NLP-Modelle optimieren und ihre Leistung verbessern kann und wie wir dies mit LangTest erreichen. |
Milderung geschlechtsspezifischer Stereotypen in der KI: Bewertung von Modellen mit dem Wino Bias Test durch die Langtest-Bibliothek | In diesem Artikel besprechen wir, wie wir den „Wino Bias“ mit LangTest testen können. Er bezieht sich speziell auf das Testen von Vorurteilen, die sich aus Geschlechter- und Berufsstereotypen ergeben. |
Automatisierung verantwortungsvoller KI: Integration von Hugging Face und LangTest für robustere Modelle | In diesem Artikel haben wir die Integration zwischen Hugging Face, Ihrer Anlaufstelle für hochmoderne NLP-Modelle und -Datensätze, und LangTest, der Geheimwaffe Ihrer NLP-Pipeline zum Testen und Optimieren, untersucht. |
Erkennen und Bewerten von Sykophanz-Bias: Eine Analyse von LLM- und KI-Lösungen | In diesem Blogbeitrag diskutieren wir das allgegenwärtige Problem des kriecherischen KI-Verhaltens und die Herausforderungen, die es in der Welt der künstlichen Intelligenz mit sich bringt. Wir untersuchen, wie Sprachmodelle manchmal Zustimmung über Authentizität stellen und sinnvolle und unvoreingenommene Gespräche behindern. Darüber hinaus stellen wir eine potenziell bahnbrechende Lösung für dieses Problem vor: synthetische Daten, die die Art und Weise, wie KI-Begleiter an Diskussionen teilnehmen, zu revolutionieren verspricht und sie unter verschiedenen realen Bedingungen zuverlässiger und genauer macht. |
Demaskierung der Empfindlichkeit des Sprachmodells bei Negations- und Toxizitätsbewertungen | In diesem Blogbeitrag beschäftigen wir uns mit der Sensitivität von Sprachmodellen und untersuchen, wie Modelle mit Negationen und Toxizität in der Sprache umgehen. Durch diese Tests gewinnen wir Einblicke in die Anpassungsfähigkeit und Reaktionsfähigkeit der Modelle und unterstreichen den kontinuierlichen Verbesserungsbedarf der NLP-Modelle. |
Aufdeckung von Verzerrungen in Sprachmodellen: Geschlecht, Rasse, Behinderung und sozioökonomische Perspektiven | In diesem Blogbeitrag untersuchen wir Voreingenommenheit in Sprachmodellen und konzentrieren uns dabei auf Geschlecht, Rasse, Behinderung und sozioökonomische Faktoren. Wir bewerten diese Verzerrung mithilfe des CrowS-Pairs-Datensatzes, der zur Messung stereotyper Verzerrungen entwickelt wurde. Um diesen Vorurteilen entgegenzuwirken, diskutieren wir die Bedeutung von Tools wie LangTest für die Förderung der Fairness in NLP-Systemen. |
Die Vorurteile innerhalb der KI entlarven: Wie Geschlecht, ethnische Zugehörigkeit, Religion und Wirtschaft NLP und darüber hinaus prägen | In diesem Blogbeitrag befassen wir uns mit der KI-Voreingenommenheit hinsichtlich der Art und Weise, wie Geschlecht, ethnische Zugehörigkeit, Religion und Wirtschaft NLP-Systeme beeinflussen. Wir diskutierten Strategien zur Reduzierung von Voreingenommenheit und zur Förderung von Fairness in KI-Systemen. |
Bewertung großer Sprachmodelle zu geschlechtsspezifischen Stereotypen mithilfe des Wino-Bias-Tests | In diesem Blogbeitrag beschäftigen wir uns mit dem Testen des WinoBias-Datensatzes zu LLMs und untersuchen den Umgang von Sprachmodellen mit Geschlecht und Berufsrollen, Bewertungsmetriken und die weiteren Auswirkungen. Lassen Sie uns die Bewertung von Sprachmodellen mit LangTest anhand des WinoBias-Datensatzes untersuchen und uns den Herausforderungen stellen, die sich aus der Bewältigung von Verzerrungen in der KI ergeben. |
Optimierung von ML-Workflows: Integration von MLFlow-Tracking mit LangTest für verbesserte Modellbewertungen | In diesem Blogbeitrag befassen wir uns mit dem wachsenden Bedarf an transparenter, systematischer und umfassender Nachverfolgung von Modellen. Da sind MLFlow und LangTest: zwei Tools, die in Kombination einen revolutionären Ansatz für die ML-Entwicklung schaffen. |
Testen der Fragebeantwortungsfähigkeiten großer Sprachmodelle | In diesem Blogbeitrag befassen wir uns mit der Verbesserung der QA-Bewertungsfunktionen mithilfe der LangTest-Bibliothek. Entdecken Sie die verschiedenen Bewertungsmethoden, die LangTest anbietet, um die Komplexität der Bewertung von Frage-Antwort-Aufgaben (QA) zu bewältigen. |
Bewertung der Stereotypverzerrung mit LangTest | In diesem Blogbeitrag konzentrieren wir uns auf die Verwendung des StereoSet-Datensatzes zur Bewertung von Vorurteilen in Bezug auf Geschlecht, Beruf und Rasse. |
Testen der Robustheit von LSTM-basierten Stimmungsanalysemodellen | Entdecken Sie die Robustheit benutzerdefinierter Modelle mit LangTest Insights. |
LangTest Insights: Ein tiefer Einblick in die LLM-Robustheit auf OpenBookQA | Entdecken Sie mit LangTest Insights die Robustheit von Sprachmodellen (LLMs) im OpenBookQA-Datensatz. |
LangTest: Eine Geheimwaffe zur Verbesserung der Robustheit Ihrer Transformers-Sprachmodelle | Entdecken Sie die Robustheit der Transformers-Sprachmodelle mit LangTest Insights. |
Beherrschung der Modellbewertung: Einführung des umfassenden Ranking- und Leaderboard-Systems in LangTest | Das Model Ranking & Leaderboard-System von LangTest von John Snow Labs bietet einen systematischen Ansatz zur Bewertung von KI-Modellen mit umfassendem Ranking, historischen Vergleichen und datensatzspezifischen Erkenntnissen und ermöglicht es Forschern und Datenwissenschaftlern, datengesteuerte Entscheidungen über die Modellleistung zu treffen. |
Auswerten langer Antworten mit Prometheus-Eval und Langtest | Prometheus-Eval und LangTest vereinen sich, um eine zuverlässige und kostengünstige Open-Source-Lösung für die Auswertung von Antworten in Langform anzubieten. Dabei werden die GPT-4-Level-Leistung von Prometheus und das robuste Test-Framework von LangTest kombiniert, um detailliertes, interpretierbares Feedback und hohe Genauigkeit zu liefern Einschätzungen. |
Sicherstellung der Präzision von LLMs im medizinischen Bereich: Die Herausforderung beim Austausch von Arzneimittelnamen | Die genaue Identifizierung des Arzneimittelnamens ist für die Patientensicherheit von entscheidender Bedeutung. Beim Testen von GPT-4o mit dem Umrechnungstest „drug_generic_to_brand“ von LangTest wurden potenzielle Fehler bei der Vorhersage von Medikamentennamen aufgedeckt, wenn Markennamen durch Inhaltsstoffe ersetzt werden. Dies verdeutlicht die Notwendigkeit kontinuierlicher Verfeinerung und strenger Tests, um die Genauigkeit und Zuverlässigkeit von medizinischem LLM sicherzustellen. |
Hinweis Um alle Blogs zu überprüfen, gehen Sie zu Blogs
#langtest
-Kanal beiWährend viel über die Notwendigkeit gesprochen wird, sichere, robuste und faire KI-Modelle zu trainieren, stehen Datenwissenschaftlern nur wenige Tools zur Verfügung, um diese Ziele zu erreichen. Infolgedessen spiegelt die Frontlinie der NLP-Modelle in Produktionssystemen einen traurigen Zustand wider.
Wir schlagen hier ein Open-Source-Community-Projekt im Frühstadium vor, das darauf abzielt, diese Lücke zu schließen, und würden uns freuen, wenn Sie uns bei dieser Mission begleiten. Unser Ziel ist es, auf den Grundlagen früherer Forschungen wie Ribeiro et al. aufzubauen. (2020), Song et al. (2020), Parrish et al. (2021), van Aken et al. (2021) und viele andere.
John Snow Labs verfügt über ein komplettes Entwicklungsteam für das Projekt und engagiert sich seit Jahren für die Verbesserung der Bibliothek, wie wir es auch bei anderen Open-Source-Bibliotheken tun. Erwarten Sie häufige Veröffentlichungen mit neuen Testtypen, Aufgaben, Sprachen und Plattformen, die regelmäßig hinzugefügt werden. Wir freuen uns auf die Zusammenarbeit, um sicheres, zuverlässiges und verantwortungsvolles NLP zur alltäglichen Realität zu machen.
Hinweis Informationen zur Verwendung und Dokumentation finden Sie auf langtest.org
Wir freuen uns über alle Arten von Beiträgen:
Eine detaillierte Übersicht über die Beiträge finden Sie im Beitragsleitfaden .
Wenn Sie mit der LangTest-Codebasis arbeiten möchten, navigieren Sie zur GitHub-Registerkarte „Probleme“ und beginnen Sie mit der Suche nach interessanten Problemen. Im Folgenden sind eine Reihe von Problemen aufgeführt, bei denen Sie beginnen können. Oder vielleicht haben Sie durch die Verwendung von LangTest eine eigene Idee oder suchen etwas in der Dokumentation und denken: „Das kann verbessert werden“ ... Sie können etwas dagegen tun!
Fühlen Sie sich frei, Fragen zu den Frage-und-Antwort-Diskussionen zu stellen.
Als Mitwirkende und Betreuer dieses Projekts wird von Ihnen erwartet, dass Sie sich an den Verhaltenskodex von LangTest halten. Weitere Informationen finden Sie unter: Verhaltenskodex für Mitwirkende
Wir haben einen Artikel veröffentlicht, den Sie für die LangTest-Bibliothek zitieren können:
@article { nazir2024langtest ,
title = { LangTest: A comprehensive evaluation library for custom LLM and NLP models } ,
author = { Arshaan Nazir, Thadaka Kalyan Chakravarthy, David Amore Cecchini, Rakshit Khajuria, Prikshit Sharma, Ali Tarik Mirik, Veysel Kocaman and David Talby } ,
journal = { Software Impacts } ,
pages = { 100619 } ,
year = { 2024 } ,
publisher = { Elsevier }
}
Wir möchten allen Mitwirkenden dieses Open-Source-Community-Projekts danken.
LangTest wird unter der Apache-Lizenz 2.0 veröffentlicht, die kommerzielle Nutzung, Modifikation, Verbreitung, Patentnutzung und private Nutzung garantiert und Beschränkungen für die Markennutzung, Haftung und Gewährleistung festlegt.