ดาวน์โหลด langtest - ดาวน์โหลดซอร์สโค้ด langtest

langtest

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

ซีไอ

เว็บไซต์ของโครงการ • คุณสมบัติที่สำคัญ • วิธีการใช้งาน • ชุดข้อมูลมาตรฐาน • การสนับสนุนชุมชน • การสนับสนุน • ภารกิจ • ใบอนุญาต

เว็บไซต์ของโครงการ

ดูหน้าอย่างเป็นทางการของเราสำหรับเอกสารและตัวอย่างผู้ใช้: langtest.org

คุณสมบัติที่สำคัญ

สร้างและดำเนินการการทดสอบที่แตกต่างกันมากกว่า 60 ประเภทด้วยโค้ดเพียง 1 บรรทัดเท่านั้น
ทดสอบคุณภาพของแบบจำลองทุกด้าน: ความคงทน อคติ การนำเสนอ ความเป็นธรรม และความแม่นยำ
เพิ่มข้อมูลการฝึกอบรมโดยอัตโนมัติตามผลการทดสอบ (สำหรับบางรุ่น)
รองรับกรอบงาน NLP ยอดนิยมสำหรับ NER, การแปลและการจัดประเภทข้อความ: Spark NLP, Hugging Face & Transformers
รองรับการทดสอบ LLMS (OpenAI, Cohere, AI21, Hugging Face Inference API และ Azure-OpenAI LLM) สำหรับการตอบคำถาม ความเป็นพิษ การทดสอบทางคลินิก การสนับสนุนทางกฎหมาย ข้อเท็จจริง ความไม่ลงรอยกัน การสรุป และการทดสอบยอดนิยมอื่นๆ

ชุดข้อมูลมาตรฐาน

LangTest มาพร้อมกับชุดข้อมูลต่างๆ เพื่อทดสอบโมเดลของคุณ ซึ่งครอบคลุมกรณีการใช้งานและสถานการณ์การประเมินที่หลากหลาย คุณสามารถสำรวจชุดข้อมูลการวัดประสิทธิภาพทั้งหมดได้ที่นี่ ซึ่งแต่ละชุดได้รับการดูแลอย่างพิถีพิถันเพื่อท้าทายและปรับปรุงโมเดลภาษาของคุณ ไม่ว่าคุณจะมุ่งเน้นไปที่การตอบคำถาม การสรุปข้อความ ฯลฯ LangTest รับรองว่าคุณมีข้อมูลที่ถูกต้องเพื่อผลักดันโมเดลของคุณให้ถึงขีดจำกัด และบรรลุประสิทธิภาพสูงสุดในงานด้านภาษาที่หลากหลาย

วิธีใช้

 # Install langtest
!p ip install langtest [ transformers ]

# Import and create a Harness object
from langtest import Harness
h = Harness ( task = 'ner' , model = { "model" : 'dslim/bert-base-NER' , "hub" : 'huggingface' })

# Generate test cases, run them and view a report
h . generate (). run (). report ()

หมายเหตุ สำหรับตัวอย่างเพิ่มเติมของการใช้งานและเอกสารประกอบ ให้ไปที่ langtest.org

บล็อก Ai ที่รับผิดชอบ

คุณสามารถตรวจสอบบทความ LangTest ต่อไปนี้:

บล็อก	คำอธิบาย
การทดสอบอคติทางประชากรศาสตร์โดยอัตโนมัติในแผนการรักษาทางคลินิกที่สร้างโดยแบบจำลองภาษาขนาดใหญ่	ช่วยในการทำความเข้าใจและทดสอบอคติทางประชากรศาสตร์ในแผนการรักษาทางคลินิกที่สร้างโดย LLM
LangTest: การเปิดเผยและแก้ไขอคติด้วยไปป์ไลน์ NLP แบบครบวงจร	ไปป์ไลน์ภาษาแบบครบวงจรใน LangTest ช่วยให้ผู้ปฏิบัติงาน NLP สามารถจัดการกับอคติในโมเดลภาษาด้วยแนวทางที่ครอบคลุม ขับเคลื่อนด้วยข้อมูล และทำซ้ำ
เหนือความแม่นยำ: การทดสอบความทนทานของโมเดลการจดจำเอนทิตีที่มีชื่อด้วย LangTest	แม้ว่าความแม่นยำจะเป็นสิ่งสำคัญอย่างไม่ต้องสงสัย การทดสอบความทนทานจะยกระดับการประเมินแบบจำลองการประมวลผลภาษาธรรมชาติ (NLP) ขึ้นไปอีกระดับด้วยการรับรองว่าแบบจำลองสามารถทำงานได้อย่างน่าเชื่อถือและสม่ำเสมอในสภาวะโลกแห่งความเป็นจริงที่หลากหลาย
ยกระดับโมเดล NLP ของคุณด้วยการเพิ่มข้อมูลอัตโนมัติเพื่อประสิทธิภาพที่เพิ่มขึ้น	ในบทความนี้ เราจะพูดถึงวิธีที่การเพิ่มข้อมูลแบบอัตโนมัติอาจเพิ่มพลังให้กับโมเดล NLP ของคุณและปรับปรุงประสิทธิภาพ และวิธีที่เราดำเนินการดังกล่าวโดยใช้ LangTest
การบรรเทาแบบแผนทางเพศและอาชีพใน AI: การประเมินแบบจำลองด้วยการทดสอบ Wino Bias ผ่านไลบรารี Langtest	ในบทความนี้ เราจะพูดถึงวิธีที่เราสามารถทดสอบ "Wino Bias" โดยใช้ LangTest โดยเจาะจงถึงการทดสอบอคติที่เกิดจากทัศนคติเหมารวมทางเพศ
การทำให้ AI ที่รับผิดชอบเป็นอัตโนมัติ: การผสานรวม Hugging Face และ LangTest สำหรับโมเดลที่แข็งแกร่งยิ่งขึ้น	ในบทความนี้ เราได้สำรวจการบูรณาการระหว่าง Hugging Face ซึ่งเป็นแหล่งที่มาของคุณสำหรับโมเดลและชุดข้อมูล NLP ที่ล้ำสมัย และ LangTest ซึ่งเป็นอาวุธลับของไปป์ไลน์ NLP ของคุณสำหรับการทดสอบและการปรับให้เหมาะสม
การตรวจจับและประเมินอคติ Sycophancy: การวิเคราะห์โซลูชัน LLM และ AI	ในบล็อกโพสต์นี้ เราจะหารือเกี่ยวกับปัญหาที่แพร่หลายของพฤติกรรม AI แบบ Sycophantic และความท้าทายที่เกิดขึ้นในโลกแห่งปัญญาประดิษฐ์ เราสำรวจว่าบางครั้งโมเดลภาษาจัดลำดับความสำคัญของข้อตกลงมากกว่าความถูกต้อง ขัดขวางการสนทนาที่มีความหมายและเป็นกลางอย่างไร นอกจากนี้ เรายังเปิดตัวโซลูชันที่เปลี่ยนแปลงเกมได้สำหรับปัญหานี้ ข้อมูลสังเคราะห์ ซึ่งสัญญาว่าจะปฏิวัติวิธีที่สหาย AI มีส่วนร่วมในการสนทนา ทำให้เชื่อถือได้และแม่นยำยิ่งขึ้นในสภาวะโลกแห่งความเป็นจริงต่างๆ
การเปิดโปงความอ่อนไหวของโมเดลภาษาในการประเมินการปฏิเสธและความเป็นพิษ	ในบล็อกโพสต์นี้ เราจะเจาะลึกเรื่องความไวของโมเดลภาษา โดยตรวจสอบว่าโมเดลจัดการกับการปฏิเสธและความเป็นพิษในภาษาอย่างไร ผ่านการทดสอบเหล่านี้ เราได้รับข้อมูลเชิงลึกเกี่ยวกับความสามารถในการปรับตัวและการตอบสนองของโมเดล โดยเน้นย้ำถึงความจำเป็นอย่างต่อเนื่องในการปรับปรุงโมเดล NLP
การเปิดเผยอคติในรูปแบบภาษา: เพศ เชื้อชาติ ความพิการ และมุมมองทางเศรษฐกิจและสังคม	ในบล็อกโพสต์นี้ เราจะสำรวจอคติในโมเดลภาษา โดยมุ่งเน้นไปที่เพศ เชื้อชาติ ความพิการ และปัจจัยทางเศรษฐกิจและสังคม เราประเมินอคตินี้โดยใช้ชุดข้อมูล CrowS-Pairs ซึ่งออกแบบมาเพื่อวัดอคติแบบเหมารวม เพื่อแก้ไขอคติเหล่านี้ เราได้พูดคุยถึงความสำคัญของเครื่องมือ เช่น LangTest ในการส่งเสริมความยุติธรรมในระบบ NLP
การเปิดโปงอคติภายใน AI: เพศ ชาติพันธุ์ ศาสนา และเศรษฐศาสตร์ กำหนดทิศทางของ NLP และอื่นๆ อย่างไร	ในบล็อกโพสต์นี้ เราจัดการกับอคติของ AI เกี่ยวกับวิธีที่เพศ ชาติพันธุ์ ศาสนา และเศรษฐศาสตร์กำหนดรูปแบบระบบ NLP เราได้หารือเกี่ยวกับกลยุทธ์ในการลดอคติและส่งเสริมความเป็นธรรมในระบบ AI
การประเมินแบบจำลองภาษาขนาดใหญ่เกี่ยวกับแบบแผนทางเพศและอาชีพโดยใช้การทดสอบอคติแบบวิโน	ในบล็อกโพสต์นี้ เราจะเจาะลึกการทดสอบชุดข้อมูล WinoBias บน LLM โดยตรวจสอบการจัดการโมเดลภาษาเกี่ยวกับเพศและบทบาททางอาชีพ ตัวชี้วัดการประเมิน และผลกระทบในวงกว้าง มาสำรวจการประเมินโมเดลภาษาด้วย LangTest บนชุดข้อมูล WinoBias และเผชิญหน้ากับความท้าทายในการจัดการกับอคติใน AI
การปรับปรุงเวิร์กโฟลว์ ML: การรวมการติดตาม MLFlow เข้ากับ LangTest เพื่อการประเมินโมเดลที่ได้รับการปรับปรุง	ในบล็อกโพสต์นี้ เราจะเจาะลึกถึงความต้องการที่เพิ่มขึ้นในการติดตามโมเดลอย่างโปร่งใส เป็นระบบ และครอบคลุม เข้าสู่ MLFlow และ LangTest: สองเครื่องมือที่เมื่อรวมกันแล้ว จะสร้างแนวทางการปฏิวัติในการพัฒนา ML
การทดสอบความสามารถในการตอบคำถามของโมเดลภาษาขนาดใหญ่	ในบล็อกโพสต์นี้ เราจะเจาะลึกในการปรับปรุงความสามารถในการประเมิน QA โดยใช้ไลบรารี LangTest สำรวจเกี่ยวกับวิธีการประเมินต่างๆ ที่ LangTest นำเสนอเพื่อจัดการกับความซับซ้อนของการประเมินงานการตอบคำถาม (QA)
การประเมินอคติแบบเหมารวมด้วย LangTest	ในโพสต์บล็อกนี้ เรากำลังมุ่งเน้นไปที่การใช้ชุดข้อมูล StereoSet เพื่อประเมินอคติที่เกี่ยวข้องกับเพศ อาชีพ และเชื้อชาติ
การทดสอบความทนทานของแบบจำลองการวิเคราะห์ความรู้สึกที่ใช้ LSTM	สำรวจความแข็งแกร่งของโมเดลแบบกำหนดเองด้วย LangTest Insights
ข้อมูลเชิงลึกของ LangTest: เจาะลึกถึงความแข็งแกร่งของ LLM บน OpenBookQA	สำรวจความแข็งแกร่งของโมเดลภาษา (LLM) บนชุดข้อมูล OpenBookQA ด้วย LangTest Insights
LangTest: อาวุธลับในการปรับปรุงความทนทานของโมเดลภาษา Transformers ของคุณ	สำรวจความแข็งแกร่งของโมเดลภาษา Transformers ด้วย LangTest Insights
การเรียนรู้การประเมินโมเดล: ขอแนะนำระบบการจัดอันดับและกระดานผู้นำที่ครอบคลุมใน LangTest	ระบบการจัดอันดับโมเดลและกระดานผู้นำโดย LangTest ของ John Snow Labs นำเสนอแนวทางที่เป็นระบบในการประเมินโมเดล AI ด้วยการจัดอันดับที่ครอบคลุม การเปรียบเทียบในอดีต และข้อมูลเชิงลึกเฉพาะชุดข้อมูล ช่วยให้นักวิจัยและนักวิทยาศาสตร์ข้อมูลสามารถตัดสินใจโดยอาศัยข้อมูลเกี่ยวกับประสิทธิภาพของโมเดล
การประเมินการตอบกลับแบบยาวด้วย Prometheus-Eval และ Langtest	Prometheus-Eval และ LangTest ผนึกกำลังเพื่อนำเสนอโซลูชันโอเพ่นซอร์ส เชื่อถือได้ และคุ้มค่าสำหรับการประเมินการตอบสนองในรูปแบบยาว ผสมผสานประสิทธิภาพระดับ GPT-4 ของ Prometheus และเฟรมเวิร์กการทดสอบที่แข็งแกร่งของ LangTest เพื่อให้ข้อเสนอแนะที่ละเอียด ตีความได้ และมีความแม่นยำสูงใน การประเมิน
การรับรองความถูกต้องแม่นยำของ LLM ในขอบเขตทางการแพทย์: ความท้าทายในการเปลี่ยนชื่อยา	การระบุชื่อยาที่ถูกต้องเป็นสิ่งสำคัญสำหรับความปลอดภัยของผู้ป่วย การทดสอบ GPT-4o ด้วยการทดสอบการแปลง *drug_generic_to_brand* ของ LangTest เผยให้เห็นข้อผิดพลาดที่อาจเกิดขึ้นในการทำนายชื่อยาเมื่อมีการแทนที่ชื่อแบรนด์ด้วยส่วนผสม โดยเน้นย้ำถึงความจำเป็นในการปรับแต่งอย่างต่อเนื่องและการทดสอบที่เข้มงวดเพื่อให้มั่นใจในความแม่นยำและความน่าเชื่อถือของ LLM ทางการแพทย์

หมายเหตุ หากต้องการตรวจสอบบล็อกทั้งหมด ให้ไปที่บล็อก

การสนับสนุนชุมชน

Slack สำหรับการสนทนาสดกับชุมชน LangTest ให้เข้าร่วมช่อง #langtest
GitHub สำหรับรายงานข้อผิดพลาด คำขอคุณลักษณะ และการสนับสนุน
การสนทนา เพื่อมีส่วนร่วมกับสมาชิกชุมชนคนอื่นๆ แบ่งปันแนวคิด และแสดงวิธีการใช้งาน LangTest!

ภารกิจ

แม้ว่าจะมีการพูดคุยกันมากมายเกี่ยวกับความจำเป็นในการฝึกอบรมโมเดล AI ที่ปลอดภัย แข็งแกร่ง และยุติธรรม แต่นักวิทยาศาสตร์ข้อมูลก็มีเครื่องมือเพียงไม่กี่ชิ้นเท่านั้นที่จะบรรลุเป้าหมายเหล่านี้ เป็นผลให้แนวหน้าของโมเดล NLP ในระบบการผลิตสะท้อนให้เห็นถึงสถานการณ์ที่น่าเสียใจ

เราขอเสนอโครงการชุมชนโอเพ่นซอร์สระยะเริ่มต้นที่มีจุดมุ่งหมายเพื่อเติมเต็มช่องว่างนี้ และยินดีเป็นอย่างยิ่งสำหรับคุณที่จะเข้าร่วมภารกิจนี้กับเรา เรามุ่งมั่นที่จะสร้างบนรากฐานที่วางไว้โดยการวิจัยก่อนหน้านี้ เช่น Ribeiro และคณะ (2020), ซอง และคณะ (2020), แพร์ริช และคณะ (2021), ฟาน เอเคน และคณะ (2021) และอื่นๆ อีกมากมาย

John Snow Labs มีทีมพัฒนาเต็มรูปแบบที่จัดสรรให้กับโปรเจ็กต์นี้ และมุ่งมั่นที่จะปรับปรุงห้องสมุดเป็นเวลาหลายปี เช่นเดียวกับที่เราทำกับห้องสมุดโอเพ่นซอร์สอื่นๆ คาดว่าจะมีการเปิดตัวบ่อยครั้งพร้อมกับประเภทการทดสอบ งาน ภาษา และแพลตฟอร์มใหม่ๆ ที่จะเพิ่มเข้ามาเป็นประจำ เราหวังว่าจะได้ทำงานร่วมกันเพื่อทำให้ NLP ที่ปลอดภัย เชื่อถือได้ และมีความรับผิดชอบกลายเป็นความจริงในทุกๆ วัน

หมายเหตุ สำหรับการใช้งานและเอกสารประกอบ ให้ไปที่ langtest.org

มีส่วนร่วมใน LangTest

เรายินดีรับการสนับสนุนทุกประเภท:

ไอเดีย
การอภิปราย
ข้อเสนอแนะ
เอกสารประกอบ
รายงานข้อผิดพลาด

ภาพรวมโดยละเอียดของการบริจาคสามารถพบได้ใน คู่มือการบริจาค

หากคุณต้องการเริ่มทำงานกับโค้ดเบส LangTest ให้ไปที่แท็บ "ปัญหา" ของ GitHub และเริ่มค้นหาปัญหาที่น่าสนใจ มีปัญหาหลายประการที่ระบุไว้ในส่วนที่คุณสามารถเริ่มต้นได้ หรือบางทีจากการใช้ LangTest คุณจะมีไอเดียเป็นของตัวเองหรือกำลังมองหาบางอย่างในเอกสารประกอบและคิดว่า 'สิ่งนี้สามารถปรับปรุงได้'...คุณสามารถทำอะไรบางอย่างกับมันได้!

อย่าลังเลที่จะถามคำถามในการสนทนาถาม & ตอบ

ในฐานะผู้สนับสนุนและผู้ดูแลโครงการนี้ คุณจะต้องปฏิบัติตามจรรยาบรรณของ LangTest ดูข้อมูลเพิ่มเติมได้ที่: หลักปฏิบัติของผู้ร่วมให้ข้อมูล

การอ้างอิง

เราได้เผยแพร่บทความที่คุณสามารถอ้างอิงสำหรับไลบรารี LangTest:

 @article { nazir2024langtest ,
  title = { LangTest: A comprehensive evaluation library for custom LLM and NLP models } ,
  author = { Arshaan Nazir, Thadaka Kalyan Chakravarthy, David Amore Cecchini, Rakshit Khajuria, Prikshit Sharma, Ali Tarik Mirik, Veysel Kocaman and David Talby } ,
  journal = { Software Impacts } ,
  pages = { 100619 } ,
  year = { 2024 } ,
  publisher = { Elsevier }
}

ผู้ร่วมให้ข้อมูล

เราขอขอบคุณผู้มีส่วนร่วมทุกคนในโครงการชุมชนโอเพ่นซอร์สนี้

ใบอนุญาต

LangTest ได้รับการเผยแพร่ภายใต้ Apache License 2.0 ซึ่งรับประกันการใช้งานเชิงพาณิชย์ การดัดแปลง การจัดจำหน่าย การใช้สิทธิบัตร การใช้งานส่วนตัว และกำหนดข้อจำกัดในการใช้เครื่องหมายการค้า ความรับผิด และการรับประกัน

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-01-27
ขนาด 69.92MB
มาจาก Github

แอปที่เกี่ยวข้อง

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
node telegram bot api

โค้ดแหล่งที่มา AI

v0.50.0
typebot.io

โค้ดแหล่งที่มา AI

v3.1.2
python wechaty getting started

โค้ดแหล่งที่มา AI

1.0.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
termwind

หมวดหมู่อื่นๆ

v2.3.0
wp functions

หมวดหมู่อื่นๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด