เว็บไซต์ของโครงการ • คุณสมบัติที่สำคัญ • วิธีการใช้งาน • ชุดข้อมูลมาตรฐาน • การสนับสนุนชุมชน • การสนับสนุน • ภารกิจ • ใบอนุญาต
ดูหน้าอย่างเป็นทางการของเราสำหรับเอกสารและตัวอย่างผู้ใช้: langtest.org
LangTest มาพร้อมกับชุดข้อมูลต่างๆ เพื่อทดสอบโมเดลของคุณ ซึ่งครอบคลุมกรณีการใช้งานและสถานการณ์การประเมินที่หลากหลาย คุณสามารถสำรวจชุดข้อมูลการวัดประสิทธิภาพทั้งหมดได้ที่นี่ ซึ่งแต่ละชุดได้รับการดูแลอย่างพิถีพิถันเพื่อท้าทายและปรับปรุงโมเดลภาษาของคุณ ไม่ว่าคุณจะมุ่งเน้นไปที่การตอบคำถาม การสรุปข้อความ ฯลฯ LangTest รับรองว่าคุณมีข้อมูลที่ถูกต้องเพื่อผลักดันโมเดลของคุณให้ถึงขีดจำกัด และบรรลุประสิทธิภาพสูงสุดในงานด้านภาษาที่หลากหลาย
# Install langtest
!p ip install langtest [ transformers ]
# Import and create a Harness object
from langtest import Harness
h = Harness ( task = 'ner' , model = { "model" : 'dslim/bert-base-NER' , "hub" : 'huggingface' })
# Generate test cases, run them and view a report
h . generate (). run (). report ()
หมายเหตุ สำหรับตัวอย่างเพิ่มเติมของการใช้งานและเอกสารประกอบ ให้ไปที่ langtest.org
คุณสามารถตรวจสอบบทความ LangTest ต่อไปนี้:
บล็อก | คำอธิบาย |
---|---|
การทดสอบอคติทางประชากรศาสตร์โดยอัตโนมัติในแผนการรักษาทางคลินิกที่สร้างโดยแบบจำลองภาษาขนาดใหญ่ | ช่วยในการทำความเข้าใจและทดสอบอคติทางประชากรศาสตร์ในแผนการรักษาทางคลินิกที่สร้างโดย LLM |
LangTest: การเปิดเผยและแก้ไขอคติด้วยไปป์ไลน์ NLP แบบครบวงจร | ไปป์ไลน์ภาษาแบบครบวงจรใน LangTest ช่วยให้ผู้ปฏิบัติงาน NLP สามารถจัดการกับอคติในโมเดลภาษาด้วยแนวทางที่ครอบคลุม ขับเคลื่อนด้วยข้อมูล และทำซ้ำ |
เหนือความแม่นยำ: การทดสอบความทนทานของโมเดลการจดจำเอนทิตีที่มีชื่อด้วย LangTest | แม้ว่าความแม่นยำจะเป็นสิ่งสำคัญอย่างไม่ต้องสงสัย การทดสอบความทนทานจะยกระดับการประเมินแบบจำลองการประมวลผลภาษาธรรมชาติ (NLP) ขึ้นไปอีกระดับด้วยการรับรองว่าแบบจำลองสามารถทำงานได้อย่างน่าเชื่อถือและสม่ำเสมอในสภาวะโลกแห่งความเป็นจริงที่หลากหลาย |
ยกระดับโมเดล NLP ของคุณด้วยการเพิ่มข้อมูลอัตโนมัติเพื่อประสิทธิภาพที่เพิ่มขึ้น | ในบทความนี้ เราจะพูดถึงวิธีที่การเพิ่มข้อมูลแบบอัตโนมัติอาจเพิ่มพลังให้กับโมเดล NLP ของคุณและปรับปรุงประสิทธิภาพ และวิธีที่เราดำเนินการดังกล่าวโดยใช้ LangTest |
การบรรเทาแบบแผนทางเพศและอาชีพใน AI: การประเมินแบบจำลองด้วยการทดสอบ Wino Bias ผ่านไลบรารี Langtest | ในบทความนี้ เราจะพูดถึงวิธีที่เราสามารถทดสอบ "Wino Bias" โดยใช้ LangTest โดยเจาะจงถึงการทดสอบอคติที่เกิดจากทัศนคติเหมารวมทางเพศ |
การทำให้ AI ที่รับผิดชอบเป็นอัตโนมัติ: การผสานรวม Hugging Face และ LangTest สำหรับโมเดลที่แข็งแกร่งยิ่งขึ้น | ในบทความนี้ เราได้สำรวจการบูรณาการระหว่าง Hugging Face ซึ่งเป็นแหล่งที่มาของคุณสำหรับโมเดลและชุดข้อมูล NLP ที่ล้ำสมัย และ LangTest ซึ่งเป็นอาวุธลับของไปป์ไลน์ NLP ของคุณสำหรับการทดสอบและการปรับให้เหมาะสม |
การตรวจจับและประเมินอคติ Sycophancy: การวิเคราะห์โซลูชัน LLM และ AI | ในบล็อกโพสต์นี้ เราจะหารือเกี่ยวกับปัญหาที่แพร่หลายของพฤติกรรม AI แบบ Sycophantic และความท้าทายที่เกิดขึ้นในโลกแห่งปัญญาประดิษฐ์ เราสำรวจว่าบางครั้งโมเดลภาษาจัดลำดับความสำคัญของข้อตกลงมากกว่าความถูกต้อง ขัดขวางการสนทนาที่มีความหมายและเป็นกลางอย่างไร นอกจากนี้ เรายังเปิดตัวโซลูชันที่เปลี่ยนแปลงเกมได้สำหรับปัญหานี้ ข้อมูลสังเคราะห์ ซึ่งสัญญาว่าจะปฏิวัติวิธีที่สหาย AI มีส่วนร่วมในการสนทนา ทำให้เชื่อถือได้และแม่นยำยิ่งขึ้นในสภาวะโลกแห่งความเป็นจริงต่างๆ |
การเปิดโปงความอ่อนไหวของโมเดลภาษาในการประเมินการปฏิเสธและความเป็นพิษ | ในบล็อกโพสต์นี้ เราจะเจาะลึกเรื่องความไวของโมเดลภาษา โดยตรวจสอบว่าโมเดลจัดการกับการปฏิเสธและความเป็นพิษในภาษาอย่างไร ผ่านการทดสอบเหล่านี้ เราได้รับข้อมูลเชิงลึกเกี่ยวกับความสามารถในการปรับตัวและการตอบสนองของโมเดล โดยเน้นย้ำถึงความจำเป็นอย่างต่อเนื่องในการปรับปรุงโมเดล NLP |
การเปิดเผยอคติในรูปแบบภาษา: เพศ เชื้อชาติ ความพิการ และมุมมองทางเศรษฐกิจและสังคม | ในบล็อกโพสต์นี้ เราจะสำรวจอคติในโมเดลภาษา โดยมุ่งเน้นไปที่เพศ เชื้อชาติ ความพิการ และปัจจัยทางเศรษฐกิจและสังคม เราประเมินอคตินี้โดยใช้ชุดข้อมูล CrowS-Pairs ซึ่งออกแบบมาเพื่อวัดอคติแบบเหมารวม เพื่อแก้ไขอคติเหล่านี้ เราได้พูดคุยถึงความสำคัญของเครื่องมือ เช่น LangTest ในการส่งเสริมความยุติธรรมในระบบ NLP |
การเปิดโปงอคติภายใน AI: เพศ ชาติพันธุ์ ศาสนา และเศรษฐศาสตร์ กำหนดทิศทางของ NLP และอื่นๆ อย่างไร | ในบล็อกโพสต์นี้ เราจัดการกับอคติของ AI เกี่ยวกับวิธีที่เพศ ชาติพันธุ์ ศาสนา และเศรษฐศาสตร์กำหนดรูปแบบระบบ NLP เราได้หารือเกี่ยวกับกลยุทธ์ในการลดอคติและส่งเสริมความเป็นธรรมในระบบ AI |
การประเมินแบบจำลองภาษาขนาดใหญ่เกี่ยวกับแบบแผนทางเพศและอาชีพโดยใช้การทดสอบอคติแบบวิโน | ในบล็อกโพสต์นี้ เราจะเจาะลึกการทดสอบชุดข้อมูล WinoBias บน LLM โดยตรวจสอบการจัดการโมเดลภาษาเกี่ยวกับเพศและบทบาททางอาชีพ ตัวชี้วัดการประเมิน และผลกระทบในวงกว้าง มาสำรวจการประเมินโมเดลภาษาด้วย LangTest บนชุดข้อมูล WinoBias และเผชิญหน้ากับความท้าทายในการจัดการกับอคติใน AI |
การปรับปรุงเวิร์กโฟลว์ ML: การรวมการติดตาม MLFlow เข้ากับ LangTest เพื่อการประเมินโมเดลที่ได้รับการปรับปรุง | ในบล็อกโพสต์นี้ เราจะเจาะลึกถึงความต้องการที่เพิ่มขึ้นในการติดตามโมเดลอย่างโปร่งใส เป็นระบบ และครอบคลุม เข้าสู่ MLFlow และ LangTest: สองเครื่องมือที่เมื่อรวมกันแล้ว จะสร้างแนวทางการปฏิวัติในการพัฒนา ML |
การทดสอบความสามารถในการตอบคำถามของโมเดลภาษาขนาดใหญ่ | ในบล็อกโพสต์นี้ เราจะเจาะลึกในการปรับปรุงความสามารถในการประเมิน QA โดยใช้ไลบรารี LangTest สำรวจเกี่ยวกับวิธีการประเมินต่างๆ ที่ LangTest นำเสนอเพื่อจัดการกับความซับซ้อนของการประเมินงานการตอบคำถาม (QA) |
การประเมินอคติแบบเหมารวมด้วย LangTest | ในโพสต์บล็อกนี้ เรากำลังมุ่งเน้นไปที่การใช้ชุดข้อมูล StereoSet เพื่อประเมินอคติที่เกี่ยวข้องกับเพศ อาชีพ และเชื้อชาติ |
การทดสอบความทนทานของแบบจำลองการวิเคราะห์ความรู้สึกที่ใช้ LSTM | สำรวจความแข็งแกร่งของโมเดลแบบกำหนดเองด้วย LangTest Insights |
ข้อมูลเชิงลึกของ LangTest: เจาะลึกถึงความแข็งแกร่งของ LLM บน OpenBookQA | สำรวจความแข็งแกร่งของโมเดลภาษา (LLM) บนชุดข้อมูล OpenBookQA ด้วย LangTest Insights |
LangTest: อาวุธลับในการปรับปรุงความทนทานของโมเดลภาษา Transformers ของคุณ | สำรวจความแข็งแกร่งของโมเดลภาษา Transformers ด้วย LangTest Insights |
การเรียนรู้การประเมินโมเดล: ขอแนะนำระบบการจัดอันดับและกระดานผู้นำที่ครอบคลุมใน LangTest | ระบบการจัดอันดับโมเดลและกระดานผู้นำโดย LangTest ของ John Snow Labs นำเสนอแนวทางที่เป็นระบบในการประเมินโมเดล AI ด้วยการจัดอันดับที่ครอบคลุม การเปรียบเทียบในอดีต และข้อมูลเชิงลึกเฉพาะชุดข้อมูล ช่วยให้นักวิจัยและนักวิทยาศาสตร์ข้อมูลสามารถตัดสินใจโดยอาศัยข้อมูลเกี่ยวกับประสิทธิภาพของโมเดล |
การประเมินการตอบกลับแบบยาวด้วย Prometheus-Eval และ Langtest | Prometheus-Eval และ LangTest ผนึกกำลังเพื่อนำเสนอโซลูชันโอเพ่นซอร์ส เชื่อถือได้ และคุ้มค่าสำหรับการประเมินการตอบสนองในรูปแบบยาว ผสมผสานประสิทธิภาพระดับ GPT-4 ของ Prometheus และเฟรมเวิร์กการทดสอบที่แข็งแกร่งของ LangTest เพื่อให้ข้อเสนอแนะที่ละเอียด ตีความได้ และมีความแม่นยำสูงใน การประเมิน |
การรับรองความถูกต้องแม่นยำของ LLM ในขอบเขตทางการแพทย์: ความท้าทายในการเปลี่ยนชื่อยา | การระบุชื่อยาที่ถูกต้องเป็นสิ่งสำคัญสำหรับความปลอดภัยของผู้ป่วย การทดสอบ GPT-4o ด้วยการทดสอบการแปลง drug_generic_to_brand ของ LangTest เผยให้เห็นข้อผิดพลาดที่อาจเกิดขึ้นในการทำนายชื่อยาเมื่อมีการแทนที่ชื่อแบรนด์ด้วยส่วนผสม โดยเน้นย้ำถึงความจำเป็นในการปรับแต่งอย่างต่อเนื่องและการทดสอบที่เข้มงวดเพื่อให้มั่นใจในความแม่นยำและความน่าเชื่อถือของ LLM ทางการแพทย์ |
หมายเหตุ หากต้องการตรวจสอบบล็อกทั้งหมด ให้ไปที่บล็อก
#langtest
แม้ว่าจะมีการพูดคุยกันมากมายเกี่ยวกับความจำเป็นในการฝึกอบรมโมเดล AI ที่ปลอดภัย แข็งแกร่ง และยุติธรรม แต่นักวิทยาศาสตร์ข้อมูลก็มีเครื่องมือเพียงไม่กี่ชิ้นเท่านั้นที่จะบรรลุเป้าหมายเหล่านี้ เป็นผลให้แนวหน้าของโมเดล NLP ในระบบการผลิตสะท้อนให้เห็นถึงสถานการณ์ที่น่าเสียใจ
เราขอเสนอโครงการชุมชนโอเพ่นซอร์สระยะเริ่มต้นที่มีจุดมุ่งหมายเพื่อเติมเต็มช่องว่างนี้ และยินดีเป็นอย่างยิ่งสำหรับคุณที่จะเข้าร่วมภารกิจนี้กับเรา เรามุ่งมั่นที่จะสร้างบนรากฐานที่วางไว้โดยการวิจัยก่อนหน้านี้ เช่น Ribeiro และคณะ (2020), ซอง และคณะ (2020), แพร์ริช และคณะ (2021), ฟาน เอเคน และคณะ (2021) และอื่นๆ อีกมากมาย
John Snow Labs มีทีมพัฒนาเต็มรูปแบบที่จัดสรรให้กับโปรเจ็กต์นี้ และมุ่งมั่นที่จะปรับปรุงห้องสมุดเป็นเวลาหลายปี เช่นเดียวกับที่เราทำกับห้องสมุดโอเพ่นซอร์สอื่นๆ คาดว่าจะมีการเปิดตัวบ่อยครั้งพร้อมกับประเภทการทดสอบ งาน ภาษา และแพลตฟอร์มใหม่ๆ ที่จะเพิ่มเข้ามาเป็นประจำ เราหวังว่าจะได้ทำงานร่วมกันเพื่อทำให้ NLP ที่ปลอดภัย เชื่อถือได้ และมีความรับผิดชอบกลายเป็นความจริงในทุกๆ วัน
หมายเหตุ สำหรับการใช้งานและเอกสารประกอบ ให้ไปที่ langtest.org
เรายินดีรับการสนับสนุนทุกประเภท:
ภาพรวมโดยละเอียดของการบริจาคสามารถพบได้ใน คู่มือการบริจาค
หากคุณต้องการเริ่มทำงานกับโค้ดเบส LangTest ให้ไปที่แท็บ "ปัญหา" ของ GitHub และเริ่มค้นหาปัญหาที่น่าสนใจ มีปัญหาหลายประการที่ระบุไว้ในส่วนที่คุณสามารถเริ่มต้นได้ หรือบางทีจากการใช้ LangTest คุณจะมีไอเดียเป็นของตัวเองหรือกำลังมองหาบางอย่างในเอกสารประกอบและคิดว่า 'สิ่งนี้สามารถปรับปรุงได้'...คุณสามารถทำอะไรบางอย่างกับมันได้!
อย่าลังเลที่จะถามคำถามในการสนทนาถาม & ตอบ
ในฐานะผู้สนับสนุนและผู้ดูแลโครงการนี้ คุณจะต้องปฏิบัติตามจรรยาบรรณของ LangTest ดูข้อมูลเพิ่มเติมได้ที่: หลักปฏิบัติของผู้ร่วมให้ข้อมูล
เราได้เผยแพร่บทความที่คุณสามารถอ้างอิงสำหรับไลบรารี LangTest:
@article { nazir2024langtest ,
title = { LangTest: A comprehensive evaluation library for custom LLM and NLP models } ,
author = { Arshaan Nazir, Thadaka Kalyan Chakravarthy, David Amore Cecchini, Rakshit Khajuria, Prikshit Sharma, Ali Tarik Mirik, Veysel Kocaman and David Talby } ,
journal = { Software Impacts } ,
pages = { 100619 } ,
year = { 2024 } ,
publisher = { Elsevier }
}
เราขอขอบคุณผู้มีส่วนร่วมทุกคนในโครงการชุมชนโอเพ่นซอร์สนี้
LangTest ได้รับการเผยแพร่ภายใต้ Apache License 2.0 ซึ่งรับประกันการใช้งานเชิงพาณิชย์ การดัดแปลง การจัดจำหน่าย การใช้สิทธิบัตร การใช้งานส่วนตัว และกำหนดข้อจำกัดในการใช้เครื่องหมายการค้า ความรับผิด และการรับประกัน