langtestダウンロード - langtestソースコードのダウンロード

langtest

AI ソースコード

1.0.0

ダウンロード

プロジェクトの Web サイト • 主な機能 • 使用方法 • ベンチマークデータセット • コミュニティサポート • 貢献 • ミッション • ライセンス

プロジェクトのウェブサイト

ユーザードキュメントと例については、公式ページ langtest.org をご覧ください。

主な特長

1 行のコードだけで 60 を超える異なるタイプのテストを生成および実行
モデルの品質のすべての側面（堅牢性、バイアス、表現、公平性、正確性）をテストします。
テスト結果に基づいてトレーニングデータを自動的に強化します (選択したモデルの場合)
NER、翻訳、テキスト分類のための一般的な NLP フレームワークのサポート: Spark NLP、Hugging Face、Transformers。
質問応答、毒性、臨床検査、法的支援、事実性、お調子者、要約、その他の一般的なテストのための LLMS (OpenAI、Cohere、AI21、Hugging Face Inference API、および Azure-OpenAI LLM) のテストのサポート。

ベンチマークデータセット

LangTest には、モデルをテストするためのさまざまなデータセットが付属しており、幅広いユースケースと評価シナリオをカバーしています。ここで利用可能なすべてのベンチマークデータセットを探索できます。各ベンチマークデータセットは、言語モデルに挑戦し強化するために細心の注意を払って厳選されています。質問応答、テキスト要約などに焦点を当てているかどうかにかかわらず、LangTest は、モデルを限界まで押し上げ、さまざまな言語タスクで最高のパフォーマンスを達成するための適切なデータを確実に取得します。

使用方法

 # Install langtest
!p ip install langtest [ transformers ]

# Import and create a Harness object
from langtest import Harness
h = Harness ( task = 'ner' , model = { "model" : 'dslim/bert-base-NER' , "hub" : 'huggingface' })

# Generate test cases, run them and view a report
h . generate (). run (). report ()

注使用法とドキュメントのさらに拡張された例については、langtest.org にアクセスしてください。

責任ある Ai ブログ

次の LangTest 記事をチェックしてください。

ブログ	説明
大規模な言語モデルによって生成された臨床治療計画における人口統計上の偏りを自動的にテストする	LLM によって生成された臨床治療計画における人口統計上の偏りを理解し、テストするのに役立ちます。
LangTest: エンドツーエンドの NLP パイプラインによるバイアスの解明と修正	LangTest のエンドツーエンドの言語パイプラインにより、NLP 実践者は、包括的でデータ駆動型の反復的なアプローチで言語モデルのバイアスに対処できるようになります。
精度を超えて: LangTest を使用した固有表現認識モデルの堅牢性テスト	精度は間違いなく重要ですが、堅牢性テストは、現実世界のさまざまな条件にわたってモデルが確実かつ一貫して実行できることを保証することで、自然言語処理 (NLP) モデルの評価を次のレベルに引き上げます。
自動データ拡張で NLP モデルを強化し、パフォーマンスを向上	この記事では、自動化されたデータ拡張によって NLP モデルがどのように強化され、パフォーマンスが向上するのか、また LangTest を使用してそれを行う方法について説明します。
AI におけるジェンダーと職業の固定観念の緩和: Langtest ライブラリを使用した Wino バイアステストによるモデルの評価	この記事では、LangTest を使用して「Wino Bias」をテストする方法について説明します。特に、性別と職業の固定観念から生じるバイアスをテストすることを指します。
責任ある AI の自動化: Hugging Face と LangTest を統合してより堅牢なモデルを実現	この記事では、最先端の NLP モデルとデータセットの頼りになるソースである Hugging Face と、テストと最適化のための NLP パイプラインの秘密兵器である LangTest との統合について説明しました。
おべっかバイアスの検出と評価: LLM と AI ソリューションの分析	このブログ投稿では、AI のお世辞的な動作に関する蔓延する問題と、それが人工知能の世界にもたらす課題について説明します。私たちは、言語モデルがどのように信頼性よりも合意を優先し、有意義で公平な会話を妨げているかを調査します。さらに、この問題に対する潜在的な革新的な解決策である合成データを明らかにします。これは、AI コンパニオンが議論に参加する方法に革命をもたらし、現実世界のさまざまな状況において信頼性と正確性を高めることが期待されます。
否定および毒性評価における言語モデルの感度の解明	このブログ投稿では、言語モデルの感度について詳しく説明し、モデルが言語の否定と毒性をどのように処理するかを調べます。これらのテストを通じて、モデルの適応性と応答性についての洞察が得られ、NLP モデルの継続的な改善の必要性が強調されます。
言語モデルにおける偏見を明らかにする: ジェンダー、人種、障害、社会経済的観点	このブログ投稿では、性別、人種、障害、社会経済的要因に焦点を当てて、言語モデルにおけるバイアスを調査します。このバイアスは、常同的なバイアスを測定するように設計された CrowS-Pairs データセットを使用して評価します。これらのバイアスに対処するために、NLP システムの公平性を促進する上での LangTest のようなツールの重要性について説明します。
AI 内のバイアスを明らかにする: ジェンダー、民族、宗教、経済がどのように NLP とその先を形作るのか	このブログ投稿では、ジェンダー、民族、宗教、経済が NLP システムをどのように形成するかに関する AI のバイアスに取り組みます。 AI システムにおける偏見を軽減し、公平性を促進するための戦略について話し合いました。
Wino バイアステストを使用した、ジェンダーと職業のステレオタイプに関する大規模な言語モデルの評価	このブログ投稿では、LLM での WinoBias データセットのテストに踏み込み、言語モデルによる性別と職業的役割の処理、評価指標、およびより広範な影響について調べます。 WinoBias データセットの LangTest を使用して言語モデルの評価を調査し、AI のバイアスに対処するという課題に立ち向かいましょう。
ML ワークフローの合理化: MLFlow トラッキングと LangTest を統合してモデル評価を強化	このブログ投稿では、モデルの透過的かつ体系的かつ包括的な追跡に対するニーズの高まりについて詳しく説明します。 MLFlow と LangTest を導入します。これら 2 つのツールを組み合わせると、ML 開発への革新的なアプローチが作成されます。
大規模言語モデルの質問応答機能のテスト	このブログ投稿では、LangTest ライブラリを使用した QA 評価機能の強化について詳しく説明します。質問応答 (QA) タスクの評価の複雑さに対処するために、LangTest が提供するさまざまな評価方法について調べてください。
LangTest を使用したステレオタイプバイアスの評価	このブログ投稿では、StereoSet データセットを使用して性別、職業、人種に関連するバイアスを評価することに焦点を当てています。
LSTM ベースの感情分析モデルの堅牢性のテスト	LangTest Insights を使用してカスタムモデルの堅牢性を調べます。
LangTest の洞察: OpenBookQA の LLM の堅牢性についての詳細	LangTest Insights を使用して、OpenBookQA データセット上の言語モデル (LLM) の堅牢性を調べます。
LangTest: Transformers 言語モデルの堅牢性を向上させる秘密兵器	LangTest Insights を使用して、Transformers 言語モデルの堅牢性を調べます。
マスタリングモデルの評価: LangTest の包括的なランキングおよびリーダーボードシステムの導入	John Snow Labs の LangTest によるモデルランキング & リーダーボードシステムは、包括的なランキング、履歴比較、データセット固有の洞察を使用して AI モデルを評価するための体系的なアプローチを提供し、研究者やデータサイエンティストがモデルのパフォーマンスに関してデータに基づいた意思決定を行えるようにします。
Prometheus-Eval と Langtest を使用した長い形式の応答の評価	Prometheus-Eval と LangTest は、長文応答を評価するためのオープンソースで信頼性が高く、コスト効率の高いソリューションを提供するために連携し、Prometheus の GPT-4 レベルのパフォーマンスと LangTest の堅牢なテストフレームワークを組み合わせて、詳細で解釈可能なフィードバックと高精度を提供します。評価。
医療分野における LLM の精度の確保: 医薬品名交換の課題	正確な薬剤名の識別は患者の安全にとって非常に重要です。 LangTest の*Drug_generic_to_brand*変換テストで GPT-4o をテストしたところ、ブランド名が成分に置き換えられた場合に医薬品名の予測に潜在的なエラーが生じることが明らかになり、医療用 LLM の精度と信頼性を確保するために継続的な改良と厳格なテストの必要性が強調されました。

注すべてのブログを確認するには、「ブログ」に移動してください

コミュニティサポート

Slack LangTest コミュニティとのライブディスカッションについては、 #langtestチャンネルに参加してください
GitHub バグレポート、機能リクエスト、および貢献について
ディスカッション他のコミュニティメンバーと交流し、アイデアを共有し、LangTest の使用方法を披露します。

ミッション

安全、堅牢、公平な AI モデルをトレーニングする必要性についてはよく語られていますが、これらの目標を達成するためにデータサイエンティストが利用できるツールはほとんどありません。その結果、実稼働システムにおける NLP モデルの最前線は、悲惨な状況を反映しています。

私たちはここで、このギャップを埋めることを目的とした初期段階のオープンソースコミュニティプロジェクトを提案します。ぜひこの使命に参加していただきたいと考えています。私たちは、Ribeiro らのような先行研究によって築かれた基礎の上に構築することを目指しています。 (2020)、Song et al. (2020)、パリッシュら。 (2021)、ヴァン・アーケン他。』（2021）など多数。

John Snow Labs にはプロジェクトに割り当てられた完全な開発チームがあり、他のオープンソースライブラリと同様に、長年にわたってライブラリの改善に取り組んでいます。新しいテストタイプ、タスク、言語、プラットフォームが定期的に追加される頻繁なリリースが期待されます。私たちは、安全で信頼性があり、責任ある NLP を日常的に実現するために協力できることを楽しみにしています。

注使用法とドキュメントについては、langtest.org にアクセスしてください。

LangTest への貢献

あらゆる種類の貢献を歓迎します。

アイデア
ディスカッション
フィードバック
ドキュメント
バグレポート

貢献の詳細な概要については、貢献ガイドを参照してください。

LangTest コードベースの使用を開始したい場合は、GitHub の「問題」タブに移動して、興味深い問題を調べ始めてください。どこから始めればよいかの下に、多くの問題がリストされています。あるいは、LangTest を使用することで独自のアイデアを思いついたり、ドキュメントで何かを探して「これは改善できる」と考えている場合もあります...それについて何かを行うことができます。

Q&Aディスカッションでお気軽にご質問ください。

このプロジェクトの貢献者および保守者として、LangTest の行動規範に従うことが求められます。詳細については、「貢献者の行動規範」を参照してください。

引用

LangTest ライブラリに関して引用できる論文を公開しました。

 @article { nazir2024langtest ,
  title = { LangTest: A comprehensive evaluation library for custom LLM and NLP models } ,
  author = { Arshaan Nazir, Thadaka Kalyan Chakravarthy, David Amore Cecchini, Rakshit Khajuria, Prikshit Sharma, Ali Tarik Mirik, Veysel Kocaman and David Talby } ,
  journal = { Software Impacts } ,
  pages = { 100619 } ,
  year = { 2024 } ,
  publisher = { Elsevier }
}