พื้นที่เก็บข้อมูลนี้บันทึกการประเมินโมเดลภาษาโอเพ่นซอร์สขนาดใหญ่ใหม่ล่าสุดของ Google ซึ่งก็คือ Instruction Tuned Gemma-2B IT กรอบการทดสอบครอบคลุมคำถามที่หลากหลายในโดเมนต่างๆ โดยมุ่งเป้าไปที่การเปรียบเทียบความสามารถด้านประสิทธิภาพของโมเดลและการยึดมั่นในแนวป้องกันด้านจริยธรรม
วัตถุประสงค์ของโครงการนี้คือเพื่อทดสอบประสิทธิภาพของแบบจำลองในคำถามที่หลากหลายจากโดเมนต่างๆ รวมถึงการใช้เหตุผลเชิงตรรกะ คณิตศาสตร์และสถิติ ความรู้ทางเทคนิค ความเข้าใจภาษาธรรมชาติ และอื่นๆ เพื่อประเมินความสามารถและข้อจำกัดของแบบจำลอง นอกจากนี้ ฉันใช้เวลาสองสามนาทีในการรวบรวมคำถามที่ประเมินการปฏิบัติตามหลักเกณฑ์ด้านจริยธรรมของโมเดลและความสามารถในการหลีกเลี่ยงการสร้างเนื้อหาที่มีอคติหรือเป็นอันตราย ต่อไปจะเป็นการทดสอบความสามารถของ RAG
การประเมินครอบคลุมหมวดหมู่ต่อไปนี้:
หมวดหมู่เหล่านี้ได้รับเลือกเพื่อให้ภาพรวมที่ครอบคลุมเกี่ยวกับความรู้และความสามารถในการให้เหตุผลของแบบจำลอง ตลอดจนการคุ้มครองทางจริยธรรม
การทดสอบดำเนินการโดยใช้การกำหนดค่าต่อไปนี้สำหรับการสร้างเอาต์พุต:
output = text_generation_pipeline (
prompt ,
max_new_tokens = 256 ,
add_special_tokens = True ,
do_sample = True ,
temperature = 1 ,
top_k = 50 ,
top_p = 0.95
)
การกำหนดค่านี้ได้รับเลือกเพื่อให้เกิดความสมดุลระหว่างการสร้างการตอบสนองที่เกี่ยวข้องและสอดคล้องกัน และการอนุญาตให้ได้ผลลัพธ์ที่สร้างสรรค์และหลากหลาย โดยจะควบคุมความยาวของการตอบสนอง การรวมโทเค็นพิเศษ ลักษณะการสุ่มตัวอย่าง และการสุ่มของเอาต์พุต
ผลการวิจัยเผยให้เห็นผลลัพธ์ที่หลากหลายในหมวดหมู่ต่างๆ แม้ว่าโมเดลนี้จะทำงานได้ดีในบางพื้นที่ แต่ก็ประสบปัญหากับงานพื้นฐานในบางพื้นที่ เช่น การดำเนินการทางคณิตศาสตร์อย่างง่าย ผลลัพธ์เหล่านี้เน้นย้ำถึงส่วนที่โมเดลมีความเป็นเลิศและจุดที่ต้องปรับปรุง
หากต้องการทำซ้ำการทดสอบเหล่านี้ โปรดอย่าลืมตั้งค่าคีย์ Hugging Face API ของคุณเองในสมุดบันทึก Colab ที่ให้มา ฉันขอแนะนำให้ผู้ใช้ปรับการทดสอบให้เหมาะกับโดเมนที่พวกเขาสนใจ อย่างไรก็ตาม สิ่งสำคัญคือต้องจำไว้ว่าผลลัพธ์เหล่านี้ไม่ควรถูกมองว่าเป็นการวัดประสิทธิภาพขั้นสุดท้ายสำหรับกรณีการใช้งานทั้งหมด โดยเฉพาะอย่างยิ่งเนื่องจากประสิทธิภาพอาจแตกต่างกันไปตามการกำหนดค่าฮาร์ดแวร์ การทดสอบของฉันดำเนินการกับ NVIDIA A100 GPU
ยินดีต้อนรับการมีส่วนร่วมจากชุมชน ไม่ว่าจะเป็นการขยายชุดการทดสอบโดยมีคำถามเฉพาะโดเมนมากขึ้น การปรับปรุงกรอบการทดสอบ หรือการแบ่งปันผลการประเมิน ข้อมูลของคุณสามารถช่วยปรับปรุงความเข้าใจและการใช้ประโยชน์จากแบบจำลองนี้สำหรับทั้งชุมชน
โครงการนี้เป็นโอเพ่นซอร์สและพร้อมใช้งานภายใต้ใบอนุญาต MIT