プロジェクトの Web サイト • 主な機能 • 使用方法 • ベンチマーク データセット • コミュニティ サポート • 貢献 • ミッション • ライセンス
ユーザードキュメントと例については、公式ページ langtest.org をご覧ください。
LangTest には、モデルをテストするためのさまざまなデータセットが付属しており、幅広いユースケースと評価シナリオをカバーしています。ここで利用可能なすべてのベンチマーク データセットを探索できます。各ベンチマーク データセットは、言語モデルに挑戦し強化するために細心の注意を払って厳選されています。質問応答、テキスト要約などに焦点を当てているかどうかにかかわらず、LangTest は、モデルを限界まで押し上げ、さまざまな言語タスクで最高のパフォーマンスを達成するための適切なデータを確実に取得します。
# Install langtest
!p ip install langtest [ transformers ]
# Import and create a Harness object
from langtest import Harness
h = Harness ( task = 'ner' , model = { "model" : 'dslim/bert-base-NER' , "hub" : 'huggingface' })
# Generate test cases, run them and view a report
h . generate (). run (). report ()
注使用法とドキュメントのさらに拡張された例については、langtest.org にアクセスしてください。
次の LangTest 記事をチェックしてください。
ブログ | 説明 |
---|---|
大規模な言語モデルによって生成された臨床治療計画における人口統計上の偏りを自動的にテストする | LLM によって生成された臨床治療計画における人口統計上の偏りを理解し、テストするのに役立ちます。 |
LangTest: エンドツーエンドの NLP パイプラインによるバイアスの解明と修正 | LangTest のエンドツーエンドの言語パイプラインにより、NLP 実践者は、包括的でデータ駆動型の反復的なアプローチで言語モデルのバイアスに対処できるようになります。 |
精度を超えて: LangTest を使用した固有表現認識モデルの堅牢性テスト | 精度は間違いなく重要ですが、堅牢性テストは、現実世界のさまざまな条件にわたってモデルが確実かつ一貫して実行できることを保証することで、自然言語処理 (NLP) モデルの評価を次のレベルに引き上げます。 |
自動データ拡張で NLP モデルを強化し、パフォーマンスを向上 | この記事では、自動化されたデータ拡張によって NLP モデルがどのように強化され、パフォーマンスが向上するのか、また LangTest を使用してそれを行う方法について説明します。 |
AI におけるジェンダーと職業の固定観念の緩和: Langtest ライブラリを使用した Wino バイアス テストによるモデルの評価 | この記事では、LangTest を使用して「Wino Bias」をテストする方法について説明します。特に、性別と職業の固定観念から生じるバイアスをテストすることを指します。 |
責任ある AI の自動化: Hugging Face と LangTest を統合してより堅牢なモデルを実現 | この記事では、最先端の NLP モデルとデータセットの頼りになるソースである Hugging Face と、テストと最適化のための NLP パイプラインの秘密兵器である LangTest との統合について説明しました。 |
おべっかバイアスの検出と評価: LLM と AI ソリューションの分析 | このブログ投稿では、AI のお世辞的な動作に関する蔓延する問題と、それが人工知能の世界にもたらす課題について説明します。私たちは、言語モデルがどのように信頼性よりも合意を優先し、有意義で公平な会話を妨げているかを調査します。さらに、この問題に対する潜在的な革新的な解決策である合成データを明らかにします。これは、AI コンパニオンが議論に参加する方法に革命をもたらし、現実世界のさまざまな状況において信頼性と正確性を高めることが期待されます。 |
否定および毒性評価における言語モデルの感度の解明 | このブログ投稿では、言語モデルの感度について詳しく説明し、モデルが言語の否定と毒性をどのように処理するかを調べます。これらのテストを通じて、モデルの適応性と応答性についての洞察が得られ、NLP モデルの継続的な改善の必要性が強調されます。 |
言語モデルにおける偏見を明らかにする: ジェンダー、人種、障害、社会経済的観点 | このブログ投稿では、性別、人種、障害、社会経済的要因に焦点を当てて、言語モデルにおけるバイアスを調査します。このバイアスは、常同的なバイアスを測定するように設計された CrowS-Pairs データセットを使用して評価します。これらのバイアスに対処するために、NLP システムの公平性を促進する上での LangTest のようなツールの重要性について説明します。 |
AI 内のバイアスを明らかにする: ジェンダー、民族、宗教、経済がどのように NLP とその先を形作るのか | このブログ投稿では、ジェンダー、民族、宗教、経済が NLP システムをどのように形成するかに関する AI のバイアスに取り組みます。 AI システムにおける偏見を軽減し、公平性を促進するための戦略について話し合いました。 |
Wino バイアス テストを使用した、ジェンダーと職業のステレオタイプに関する大規模な言語モデルの評価 | このブログ投稿では、LLM での WinoBias データセットのテストに踏み込み、言語モデルによる性別と職業的役割の処理、評価指標、およびより広範な影響について調べます。 WinoBias データセットの LangTest を使用して言語モデルの評価を調査し、AI のバイアスに対処するという課題に立ち向かいましょう。 |
ML ワークフローの合理化: MLFlow トラッキングと LangTest を統合してモデル評価を強化 | このブログ投稿では、モデルの透過的かつ体系的かつ包括的な追跡に対するニーズの高まりについて詳しく説明します。 MLFlow と LangTest を導入します。これら 2 つのツールを組み合わせると、ML 開発への革新的なアプローチが作成されます。 |
大規模言語モデルの質問応答機能のテスト | このブログ投稿では、LangTest ライブラリを使用した QA 評価機能の強化について詳しく説明します。質問応答 (QA) タスクの評価の複雑さに対処するために、LangTest が提供するさまざまな評価方法について調べてください。 |
LangTest を使用したステレオタイプ バイアスの評価 | このブログ投稿では、StereoSet データセットを使用して性別、職業、人種に関連するバイアスを評価することに焦点を当てています。 |
LSTM ベースの感情分析モデルの堅牢性のテスト | LangTest Insights を使用してカスタム モデルの堅牢性を調べます。 |
LangTest の洞察: OpenBookQA の LLM の堅牢性についての詳細 | LangTest Insights を使用して、OpenBookQA データセット上の言語モデル (LLM) の堅牢性を調べます。 |
LangTest: Transformers 言語モデルの堅牢性を向上させる秘密兵器 | LangTest Insights を使用して、Transformers 言語モデルの堅牢性を調べます。 |
マスタリング モデルの評価: LangTest の包括的なランキングおよびリーダーボード システムの導入 | John Snow Labs の LangTest によるモデル ランキング & リーダーボード システムは、包括的なランキング、履歴比較、データセット固有の洞察を使用して AI モデルを評価するための体系的なアプローチを提供し、研究者やデータ サイエンティストがモデルのパフォーマンスに関してデータに基づいた意思決定を行えるようにします。 |
Prometheus-Eval と Langtest を使用した長い形式の応答の評価 | Prometheus-Eval と LangTest は、長文応答を評価するためのオープンソースで信頼性が高く、コスト効率の高いソリューションを提供するために連携し、Prometheus の GPT-4 レベルのパフォーマンスと LangTest の堅牢なテスト フレームワークを組み合わせて、詳細で解釈可能なフィードバックと高精度を提供します。評価。 |
医療分野における LLM の精度の確保: 医薬品名交換の課題 | 正確な薬剤名の識別は患者の安全にとって非常に重要です。 LangTest のDrug_generic_to_brand変換テストで GPT-4o をテストしたところ、ブランド名が成分に置き換えられた場合に医薬品名の予測に潜在的なエラーが生じることが明らかになり、医療用 LLM の精度と信頼性を確保するために継続的な改良と厳格なテストの必要性が強調されました。 |
注すべてのブログを確認するには、「ブログ」に移動してください
#langtest
チャンネルに参加してください安全、堅牢、公平な AI モデルをトレーニングする必要性についてはよく語られていますが、これらの目標を達成するためにデータ サイエンティストが利用できるツールはほとんどありません。その結果、実稼働システムにおける NLP モデルの最前線は、悲惨な状況を反映しています。
私たちはここで、このギャップを埋めることを目的とした初期段階のオープンソース コミュニティ プロジェクトを提案します。ぜひこの使命に参加していただきたいと考えています。私たちは、Ribeiro らのような先行研究によって築かれた基礎の上に構築することを目指しています。 (2020)、Song et al. (2020)、パリッシュら。 (2021)、ヴァン・アーケン他。 』(2021)など多数。
John Snow Labs にはプロジェクトに割り当てられた完全な開発チームがあり、他のオープンソース ライブラリと同様に、長年にわたってライブラリの改善に取り組んでいます。新しいテスト タイプ、タスク、言語、プラットフォームが定期的に追加される頻繁なリリースが期待されます。私たちは、安全で信頼性があり、責任ある NLP を日常的に実現するために協力できることを楽しみにしています。
注使用法とドキュメントについては、langtest.org にアクセスしてください。
あらゆる種類の貢献を歓迎します。
貢献の詳細な概要については、貢献ガイドを参照してください。
LangTest コードベースの使用を開始したい場合は、GitHub の「問題」タブに移動して、興味深い問題を調べ始めてください。どこから始めればよいかの下に、多くの問題がリストされています。あるいは、LangTest を使用することで独自のアイデアを思いついたり、ドキュメントで何かを探して「これは改善できる」と考えている場合もあります...それについて何かを行うことができます。
Q&Aディスカッションでお気軽にご質問ください。
このプロジェクトの貢献者および保守者として、LangTest の行動規範に従うことが求められます。詳細については、「貢献者の行動規範」を参照してください。
LangTest ライブラリに関して引用できる論文を公開しました。
@article { nazir2024langtest ,
title = { LangTest: A comprehensive evaluation library for custom LLM and NLP models } ,
author = { Arshaan Nazir, Thadaka Kalyan Chakravarthy, David Amore Cecchini, Rakshit Khajuria, Prikshit Sharma, Ali Tarik Mirik, Veysel Kocaman and David Talby } ,
journal = { Software Impacts } ,
pages = { 100619 } ,
year = { 2024 } ,
publisher = { Elsevier }
}
このオープンソース コミュニティ プロジェクトの貢献者全員に感謝の意を表します。
LangTest は Apache License 2.0 に基づいてリリースされており、商用使用、変更、配布、特許使用、私的使用が保証され、商標の使用、法的責任、および保証に制限が設定されています。