專案網站 • 主要功能 • 如何使用 • 基準資料集 • 社群支援 • 貢獻 • 使命 • 許可證
請查看我們的官方頁面以取得使用者文件和範例:langtest.org
LangTest 附帶不同的資料集來測試您的模型,涵蓋廣泛的用例和評估場景。您可以探索此處提供的所有基準資料集,每個資料集都經過精心策劃,以挑戰和增強您的語言模型。無論您專注於問答、文字摘要等,LangTest 都能確保您擁有正確的數據,將您的模型推向極限,並在各種語言任務中實現最佳性能。
# Install langtest
!p ip install langtest [ transformers ]
# Import and create a Harness object
from langtest import Harness
h = Harness ( task = 'ner' , model = { "model" : 'dslim/bert-base-NER' , "hub" : 'huggingface' })
# Generate test cases, run them and view a report
h . generate (). run (). report ()
注意有關使用和文件的更多擴充範例,請造訪 langtest.org
您可以查看以下 LangTest 文章:
部落格 | 描述 |
---|---|
自動測試大型語言模型產生的臨床治療計劃中的人口統計偏差 | 幫助理解和測試法學碩士產生的臨床治療計劃中的人口統計偏差。 |
LangTest:透過端對端 NLP 管道揭示並修復偏差 | LangTest 中的端到端語言管道使 NLP 從業者能夠透過全面、資料驅動和迭代的方法解決語言模型中的偏差。 |
超越準確度:使用 LangTest 對命名實體辨識模型進行穩健性測試 | 雖然準確性無疑至關重要,但穩健性測試透過確保模型能夠在各種現實條件下可靠且一致地執行,將自然語言處理 (NLP) 模型評估提升到一個新的水平。 |
透過自動資料增強提升您的 NLP 模型以增強效能 | 在本文中,我們討論自動資料增強如何增強您的 NLP 模型並提高其效能,以及我們如何使用 LangTest 來實現這一點。 |
減輕人工智慧中的性別職業刻板印象:透過 Langtest 庫使用 Wino 偏差測試評估模型 | 在本文中,我們討論如何使用 LangTest 來測試「Wino Bias」。 |
自動化負責任的人工智慧:整合 Hugging Face 和 LangTest 以實現更穩健的模型 | 在本文中,我們探討了 Hugging Face(最先進的 NLP 模型和資料集的首選來源)與 LangTest(NLP 管道測試和優化的秘密武器)之間的整合。 |
檢測和評估阿諛奉承偏差:法學碩士和人工智慧解決方案分析 | 在這篇文章中,我們討論了普遍存在的阿諛奉承的人工智慧行為問題及其在人工智慧領域帶來的挑戰。我們探討語言模型有時如何優先考慮一致而非真實性,從而阻礙有意義和公正的對話。此外,我們針對這個問題推出了一種潛在的改變遊戲規則的解決方案,即合成數據,它有望徹底改變人工智慧同伴參與討論的方式,使它們在各種現實條件下更加可靠和準確。 |
揭示否定和毒性評估中語言模型的敏感性 | 在這篇文章中,我們深入研究了語言模型敏感性,研究模型如何處理語言中的否定和毒性。透過這些測試,我們深入了解模型的適應性和反應能力,並強調 NLP 模型需要不斷改進。 |
揭示語言模型中的偏見:性別、種族、殘疾和社會經濟視角 | 在這篇文章中,我們探討了語言模型中的偏見,並著重於性別、種族、殘疾和社會經濟因素。我們使用 CrowS-Pairs 資料集來評估這種偏差,該資料集旨在測量刻板印象偏差。為了解決這些偏見,我們討論了 LangTest 等工具在促進 NLP 系統公平性方面的重要性。 |
揭露人工智慧中的偏見:性別、種族、宗教和經濟如何塑造 NLP 及其他領域 | 在這篇文章中,我們將解決人工智慧在性別、種族、宗教和經濟如何塑造 NLP 系統方面的偏見。我們討論了減少人工智慧系統偏見和促進公平的策略。 |
使用 Wino 偏差測試評估性別職業刻板印象的大型語言模型 | 在這篇文章中,我們深入研究了法學碩士的 WinoBias 資料集,檢查語言模型對性別和職業角色的處理、評估指標以及更廣泛的影響。讓我們探索在 WinoBias 資料集上使用 LangTest 評估語言模型,並應對解決 AI 偏見的挑戰。 |
簡化 ML 工作流程:將 MLFlow 追蹤與 LangTest 整合以增強模型評估 | 在這篇文章中,我們深入探討了對透明、系統和全面的模型追蹤日益增長的需求。 MLFlow 和 LangTest:這兩個工具結合起來,創造了一種革命性的 ML 開發方法。 |
測試大型語言模型的問答能力 | 在這篇文章中,我們將深入探討使用 LangTest 函式庫來增強 QA 評估能力。探索 LangTest 提供的不同評估方法,以解決評估問答 (QA) 任務的複雜性。 |
使用 LangTest 評估刻板印象偏差 | 在這篇文章中,我們將重點放在使用 StereoSet 資料集來評估與性別、職業和種族相關的偏見。 |
測試基於 LSTM 的情緒分析模型的穩健性 | 使用 LangTest Insights 探索自訂模型的穩健性。 |
LangTest 見解:深入探討 OpenBookQA 上的 LLM 穩健性 | 使用 LangTest Insights 探索 OpenBookQA 資料集上語言模型 (LLM) 的穩健性。 |
LangTest:提升 Transformers 語言模式穩健性的秘密武器 | 使用 LangTest Insights 探索 Transformers 語言模式的穩健性。 |
掌握模型評估:引進LangTest綜合排名與排行榜系統 | John Snow Labs 的LangTest 的模型排名和排行榜系統提供了一種系統方法,透過綜合排名、歷史比較和特定於數據集的見解來評估AI 模型,使研究人員和數據科學家能夠就模型性能做出數據驅動的決策。 |
使用 Prometheus-Eval 和 Langtest 評估長格式響應 | Prometheus-Eval 和LangTest 聯合提供開源、可靠且經濟高效的解決方案,用於評估長格式響應,結合Prometheus 的GPT-4 級性能和LangTest 強大的測試框架,以提供詳細、可解釋的反饋和高精度。 |
確保醫學領域法學碩士的準確性:藥物名稱交換的挑戰 | 準確的藥品名稱識別對於病人安全至關重要。使用 LangTest 的drug_generic_to_brand轉換測試對GPT-4o 進行測試,發現當品牌名稱被成分替換時,預測藥物名稱可能會出現錯誤,這凸顯了持續改進和嚴格測試的必要性,以確保醫學LLM 的準確性和可靠性。 |
注意要檢查所有博客,請轉到博客
#langtest
頻道儘管有許多關於需要訓練安全、穩健和公平的人工智慧模型的討論,但資料科學家可以使用的工具很少來實現這些目標。因此,生產系統中 NLP 模型的前線反映了令人遺憾的狀況。
我們在此提出一個早期階段的開源社群項目,旨在填補這一空白,並希望您加入我們來完成這項使命。我們的目標是建立在 Ribeiro 等人先前的研究奠定的基礎上。 (2020),宋等人。 (2020),帕里什等人。 (2021),範阿肯等人。 (2021)和許多其他。
John Snow Labs 擁有一支完整的開發團隊分配給該項目,並致力於多年來改進該程式庫,就像我們對其他開源程式庫所做的那樣。預計頻繁發布會定期添加新的測試類型、任務、語言和平台。我們期待共同努力,使安全、可靠和負責任的 NLP 成為日常生活的現實。
注意有關使用和文檔,請造訪 langtest.org
我們歡迎各種貢獻:
貢獻的詳細概述可以在貢獻指南中找到。
如果您想開始使用 LangTest 程式碼庫,請導航至 GitHub「問題」標籤並開始尋找有趣的問題。下面列出了您可以從哪裡開始的許多問題。或者也許透過使用 LangTest,您有自己的想法,或者正在文件中尋找某些內容並認為「這可以改進」...您可以對此做一些事情!
歡迎在問答討論中提問。
作為該專案的貢獻者和維護者,您應該遵守 LangTest 的行為準則。更多資訊請參閱:貢獻者行為準則
我們已經發表了一篇論文,您可以為 LangTest 庫引用:
@article { nazir2024langtest ,
title = { LangTest: A comprehensive evaluation library for custom LLM and NLP models } ,
author = { Arshaan Nazir, Thadaka Kalyan Chakravarthy, David Amore Cecchini, Rakshit Khajuria, Prikshit Sharma, Ali Tarik Mirik, Veysel Kocaman and David Talby } ,
journal = { Software Impacts } ,
pages = { 100619 } ,
year = { 2024 } ,
publisher = { Elsevier }
}
我們要感謝這個開源社群計畫的所有貢獻者。
LangTest 是在 Apache License 2.0 下發布的,該授權保證商業使用、修改、分發、專利使用、私人使用,並對商標使用、責任和保證設定限制。