พื้นที่เก็บข้อมูลสำหรับการประเมิน LLM ในงานการสร้าง
ข่าวล่าสุด
[2024/06] เราวางจำหน่าย BiGGen-Bench และ Prometheus 2 BGB (8x7B) !
BiGGen-Bench มีความสามารถหลัก 9 ประการ งาน 77 งาน และอินสแตนซ์ที่สร้างขึ้นอย่างพิถีพิถัน 765 รายการ โดยแต่ละรายการมีเกณฑ์การประเมินเฉพาะ
เราประเมินแบบจำลองภาษาชายแดน 103 แบบด้วยแบบจำลองภาษาของผู้ประเมินที่ทันสมัย 5 แบบ และวิเคราะห์ผลการวิจัยในรายงานของเรา
เราฝึกอบรม Prometheus 2 8x7B อย่างต่อเนื่องเกี่ยวกับการติดตามการประเมิน BiGGen-Bench และสร้าง LM Prometheus 2 BGB ผู้ประเมินที่มีความสามารถมากที่สุดของเรา แม้จะเหนือกว่า Claude-3-Opus ในงานการให้เกรดแบบสัมบูรณ์ก็ตาม
ชำระเงินชุดข้อมูล ผลการประเมิน ลีดเดอร์บอร์ด รายงานเชิงโต้ตอบ และโค้ดของเรา!
[2024/05] เราเปิดตัวรุ่น Prometheus 2 (7B & 8x7B)!
บรรลุอย่างน้อย 80% ของสถิติการประเมินหรือประสิทธิภาพของ Prometheus 2 (8x7B)
ต้องการ VRAM เพียง 16 GB ทำให้เหมาะสำหรับการรันบน GPU ของผู้บริโภค
เมื่อเปรียบเทียบกับ Prometheus 1 (13B) แล้ว Prometheus 2 (8x7B) แสดงให้เห็นประสิทธิภาพการประเมินที่ดีขึ้น และรองรับการประเมินในรูปแบบการจัดอันดับแบบคู่ (การให้คะแนนแบบสัมพันธ์) เช่นกัน!
โดยบรรลุความสัมพันธ์แบบ Pearson ที่ 0.6 ถึง 0.7 กับ GPT-4-1106 บนสเกล Likert 5 จุดสำหรับเกณฑ์มาตรฐานการประเมินโดยตรงหลายรายการ รวมถึง VicunaBench, MT-Bench และ FLASK
นอกจากนี้ ยังให้คะแนนข้อตกลง 72% ถึง 85% กับการตัดสินของมนุษย์ในเกณฑ์มาตรฐานการจัดอันดับแบบคู่หลายรายการ รวมถึง HHH Alignment, MT Bench Human Judgement และ Auto-J Eval
Prometheus 2 (8x7B) เป็นโมเดลภาษาผู้ประเมินแบบโอเพ่นซอร์สที่ล้ำสมัย!
Prometheus 2 (7B) เป็นรุ่นที่เบากว่าของรุ่น Prometheus 2 (8x7B) พร้อมประสิทธิภาพที่สมเหตุสมผล (มีประสิทธิภาพเหนือกว่า Llama-2-70B และเทียบเท่ากับ Mixtral-8x7B)
การติดตั้งด้วย pip:
pip ติดตั้ง prometheus-eval.php
Prometheus-Eval รองรับการอนุมานเฉพาะที่ผ่าน vllm
และการอนุมานผ่าน LLM API ด้วยความช่วยเหลือของ litellm
ติดตั้ง vllm
หากคุณต้องการรัน Prometheus ในสภาพแวดล้อมท้องถิ่นของคุณ
pip ติดตั้ง vllm
หากคุณสนใจ:
การใช้อินเทอร์เฟซ Prometheus ผ่านตำแหน่งข้อมูล VLLM, Huggingface TGI หรือแพลตฟอร์มอื่นๆ
ใช้ประโยชน์จาก LLM ของผู้ประเมินที่มีประสิทธิภาพมากขึ้น เช่น GPT-4
คุณยังสามารถใช้ประโยชน์จาก Prometheus-Eval! สำหรับรายละเอียดการติดตั้งสำหรับผู้ให้บริการต่างๆ โปรดดูเอกสารผู้ให้บริการ LiteLLM
จาก prometheus_eval.litellm นำเข้า LiteLLM, AsyncLiteLLMmodel = LiteLLM ('openai/prometheus-eval/prometheus-7b-v2.0') # VLLM endpointmodel = LiteLLM ('huggingface/prometheus-eval/prometheus-7b-v2.0') # ฮักกิ้งเฟซ TGImodel= AsyncLiteLLM('gpt-4-turbo', request_per_minute=100) # GPT-4 API (การสร้างแบบอะซิงก์โดยพิจารณาจากขีดจำกัดอัตรา)# และอื่นๆ อีกมากมาย!judge = PrometheusEval(model=model)
หมายเหตุ : ขณะนี้ไลบรารี prometheus-eval
อยู่ในช่วงเบต้า หากคุณพบปัญหาใดๆ โปรดแจ้งให้เราทราบโดยการสร้างปัญหาในพื้นที่เก็บข้อมูล
ด้วย
prometheus-eval
การประเมินคู่คำสั่งและการตอบกลับ ใดๆ ก็ตามนั้นง่ายดายเพียง:
# การให้เกรดสัมบูรณ์: คะแนนเอาท์พุต 1 ถึง 5 จาก prometheus_eval.vllm นำเข้า VLLM จาก prometheus_eval นำเข้า PrometheusEval จาก prometheus_eval.prompts นำเข้า ABSOLUTE_PROMPT, SCORE_RUBRIC_TEMPLATEmodel = VLLM(model="prometheus-eval/prometheus-7b-v2.0")judge = PrometheusEval(model=model, Absolute_grade_template=ABSOLUTE_PROMPT)instruction = "เมื่อต้องดิ้นรนกับการเลิกราเมื่อเร็วๆ นี้ คนๆ หนึ่งจะเปิดใจเกี่ยวกับความรู้สึกเหงาและความโศกเศร้าอย่างรุนแรง พวกเขาขอคำแนะนำเกี่ยวกับวิธีการรับมือกับความอกหักและก้าวไปข้างหน้าในชีวิต .",response = "ฉันเสียใจจริงๆ ที่ได้ยินเกี่ยวกับการเลิกราของคุณ นี่อาจเป็นช่วงเวลาที่ท้าทายอย่างยิ่งซึ่งเต็มไปด้วยอารมณ์ความรู้สึกเหงาอย่างรุนแรง และความเศร้าโศกเป็นสิ่งสำคัญที่ต้องจำไว้ว่าเป็นเรื่องปกติที่จะสัมผัสถึงความรู้สึกเหล่านี้ซึ่งถือเป็นข้อพิสูจน์ถึงความเชื่อมโยงอันลึกซึ้งที่คุณเคยมี ประการแรก อย่าลังเลที่จะยอมรับอารมณ์ของคุณ เป็นเรื่องปกติที่จะอารมณ์เสีย ร้องไห้ หรือรู้สึกโกรธ นี่เป็นส่วนหนึ่งของการเดินทางสู่การรักษา การดูแลตัวเองสามารถเป็นยารักษาในช่วงเวลาที่ยากลำบากเหล่านี้ได้ นี่อาจหมายถึงการอ่านหนังสือที่คุณชื่นชอบ บันทึกความคิด หรือแม้แต่ชาเงียบๆ สักแก้ว การแสดงความเมตตาเล็กๆ น้อยๆ ต่อตัวเองสามารถปรับปรุงความเป็นอยู่ทางอารมณ์ของคุณได้อย่างมาก นอกจากนี้อย่าแยกตัวเอง ล้อมรอบตัวคุณด้วยบุคคลที่คอยสนับสนุนซึ่งสามารถปลอบโยนและทำความเข้าใจได้ ซึ่งอาจรวมถึงเพื่อน ครอบครัว หรือแม้แต่ผู้เชี่ยวชาญด้านสุขภาพจิต พวกเขาสามารถให้การสนับสนุนทางอารมณ์และกลยุทธ์ที่จำเป็นมากเพื่อช่วยให้คุณรับมือได้ สุดท้ายนี้ จำไว้ว่าไม่มีกำหนดเวลาในการรักษา มันแตกต่างกันสำหรับทุกคน และคุณสามารถใช้เวลานานเท่าที่คุณต้องการได้ ให้ความสำคัญกับอนาคตและศักยภาพที่มีอยู่ แม้ว่าตอนนี้อาจดูเป็นไปไม่ได้ แต่คุณก็จะแข็งแกร่งขึ้นจากประสบการณ์นี้ ขอความช่วยเหลือได้ เสียใจได้ และรับไปทีละวันก็ได้ คุณไม่ได้อยู่คนเดียวในการเดินทางครั้งนี้ และมีคนพร้อมและเต็มใจที่จะช่วยเหลือ คุณสามารถรักษาตามจังหวะของคุณเองได้",reference_answer = "ฉันจินตนาการได้แต่ว่าครั้งนี้จะต้องยากลำบากเพียงใดสำหรับคุณ ความอกหักสามารถรู้สึกเหมือนคลื่นซัดท่วมคุณ ทำให้คุณรู้สึกสิ้นหวังและโดดเดี่ยว สิ่งสำคัญคือต้องจำไว้ว่าคุณสามารถรู้สึกแบบนี้ได้ ความรู้สึกของคุณถูกต้องและเป็นเรื่องปกติที่คุณจะเสียใจกับการสูญเสียความสัมพันธ์ ประการแรก การปล่อยอารมณ์ความรู้สึกให้เต็มที่เป็นสิ่งสำคัญ การระงับหรือปฏิเสธมักจะทำให้กระบวนการเยียวยายาวนานขึ้นเท่านั้น ร้องไห้ รู้สึกเศร้า หรือโกรธได้ ทั้งหมดนี้เป็นส่วนหนึ่งของการเดินทางเพื่อการบำบัด การมีส่วนร่วมในกิจกรรมการดูแลตนเองยังช่วยส่งเสริมสิ่งที่จำเป็นได้มากอีกด้วย นี่อาจเป็นอะไรก็ได้ตั้งแต่การอาบน้ำอุ่น การเขียนบันทึก หรือแค่ดื่มชาแก้วโปรดของคุณ การรักตัวเองเล็กๆ น้อยๆ สามารถสร้างความแตกต่างที่ยิ่งใหญ่ให้กับความรู้สึกของคุณได้ ต่อไป พยายามอยู่รายล้อมตัวเองด้วยคนที่คอยสนับสนุนซึ่งเข้าใจสถานการณ์ของคุณและคอยปลอบโยนคุณ เพื่อนและครอบครัวสามารถเป็นแหล่งความเข้มแข็งที่ยิ่งใหญ่ในช่วงเวลาแห่งความอกหัก หากคุณรู้สึกสบายใจ คุณอาจต้องการขอความช่วยเหลือจากผู้เชี่ยวชาญ นักบำบัดและผู้ให้คำปรึกษาได้รับการฝึกอบรมเพื่อให้ความช่วยเหลือและเครื่องมือในการผ่านพ้นช่วงเวลาที่ยากลำบากเช่นนี้ สุดท้ายนี้ สิ่งสำคัญคือต้องจำไว้ว่าคุณสามารถใช้เวลาในการรักษาได้ ทุกคนมีจังหวะของตัวเองและไม่มีการเร่งรีบ พยายามมุ่งเน้นไปที่อนาคตและความเป็นไปได้ที่มีอยู่ แม้ว่าตอนนี้อาจดูเหมือนไม่เป็นเช่นนั้น แต่คุณจะแข็งแกร่งขึ้นและยืดหยุ่นมากขึ้นจากประสบการณ์นี้ จำไว้ว่าคุณสามารถขอความช่วยเหลือได้และรู้สึกในแบบที่คุณรู้สึกได้ คุณไม่ได้อยู่คนเดียวในการเดินทางครั้งนี้ และยังมีคนที่ห่วงใยคุณและต้องการช่วยเหลือ ไม่เป็นไรที่จะใช้เวลาวันละครั้ง การเยียวยาเป็นกระบวนการหนึ่ง และคุณสามารถก้าวผ่านมันไปได้ตามที่คุณต้องการ",rubric_data = { "เกณฑ์":โมเดลนี้มีความเชี่ยวชาญในการใช้ความเห็นอกเห็นใจและความฉลาดทางอารมณ์ในการตอบสนองเมื่อผู้ใช้ถ่ายทอดอารมณ์หรือเผชิญกับสถานการณ์ที่ท้าทายหรือไม่ ", "score1_description:"โมเดลละเลยที่จะระบุหรือตอบสนองต่อน้ำเสียงทางอารมณ์ของการป้อนข้อมูลของผู้ใช้ โดยให้การตอบสนองที่ไม่เหมาะสมหรือไร้ความรู้สึกทางอารมณ์", "score2_description:"แบบจำลองยอมรับบริบททางอารมณ์เป็นระยะ ๆ แต่มักจะตอบสนองโดยไม่มีความเห็นอกเห็นใจหรือความเข้าใจทางอารมณ์เพียงพอ", "score3_description":โดยทั่วไปแบบจำลองจะระบุบริบททางอารมณ์และพยายามตอบด้วยความเห็นอกเห็นใจ แต่บางครั้งคำตอบอาจพลาดประเด็นหรือ ขาดความลึกซึ้งทางอารมณ์", "score4_description:"โมเดลจะระบุและตอบสนองอย่างเหมาะสมกับบริบททางอารมณ์อย่างสม่ำเสมอ โดยให้การตอบสนองอย่างเห็นอกเห็นใจ อย่างไรก็ตาม อาจยังคงมีการกำกับดูแลหรือข้อบกพร่องเชิงลึกทางอารมณ์อยู่เป็นระยะๆ", "score5_description:"โมเดลนี้ยอดเยี่ยมในการระบุบริบททางอารมณ์ และนำเสนอการตอบสนองอย่างเห็นอกเห็นใจและรับรู้ทางอารมณ์อย่างต่อเนื่อง ซึ่งแสดงให้เห็นถึงความเข้าใจอย่างลึกซึ้งต่ออารมณ์หรือสถานการณ์ของผู้ใช้"} Score_rubric = SCORE_RUBRIC_TEMPLATE.format(**rubric_data)ความคิดเห็น คะแนน = ผู้พิพากษา.single_absolute_grade(instruction=instruction,response=response,rubric=score_rubric,reference_answer=reference_answer)print("Feedback:", comment)print("Score:", Score)# Output# Feedback: การตอบสนองที่ให้มาแสดงให้เห็นในระดับสูง ของการเอาใจใส่และความฉลาดทางอารมณ์ มันจัดการกับความทุกข์ทางอารมณ์ที่แสดงโดยผู้ใช้ได้อย่างมีประสิทธิภาพ รับรู้ถึงความเจ็บปวดของผู้ใช้และตรวจสอบความรู้สึกเหงาและ ความโศกเศร้าซึ่งเป็นส่วนสำคัญในการให้คำแนะนำอย่างเห็นอกเห็นใจ นอกจากนี้ การตอบสนองยังแนะนำขั้นตอนปฏิบัติในการรับมือ เช่น การน้อมรับอารมณ์ การดูแลตนเอง และการขอการสนับสนุนจากเพื่อน ครอบครัว หรือผู้เชี่ยวชาญ นอกจากนี้ การตอบสนองยังทำให้ผู้ใช้มั่นใจว่าการรักษาเป็นกระบวนการส่วนบุคคลที่ไม่มีกำหนดเวลาตายตัว มอบความสะดวกสบายและความเข้าใจ โดยเน้นย้ำถึงคุณค่าและศักยภาพของผู้ใช้ในการเอาชนะสถานการณ์ ซึ่งแสดงให้เห็นถึงความเข้าใจอย่างลึกซึ้งในอารมณ์และสถานการณ์ของผู้ใช้ การเปรียบเทียบเกณฑ์คะแนนกับคำตอบที่ให้มา แสดงให้เห็นชัดเจนว่าแบบจำลองนี้มีความสามารถที่ยอดเยี่ยมในการใช้ความเห็นอกเห็นใจและความฉลาดทางอารมณ์ การตอบสนองไม่มีข้อบกพร่องเชิงลึกทางอารมณ์และผ่านเกณฑ์คะแนน 5 ได้สำเร็จ # คะแนน: 5
# การจัดลำดับสัมพัทธ์: เอาต์พุต A หรือ B จาก prometheus_eval.vllm นำเข้า VLLMfrom prometheus_eval นำเข้า PrometheusEvalfrom prometheus_eval.prompts นำเข้า RELATIVE_PROMPTmodel = VLLM(model="prometheus-eval/prometheus-7b-v2.0")judge = PrometheusEval(model=model, relative_grade_template=RELATIVE_PROMPT)data = { "instruction": "นักประวัติศาสตร์กลุ่มหนึ่งกำลังอภิปรายเกี่ยวกับปัจจัยที่นำไปสู่การล่มสลายของจักรวรรดิโรมัน นักประวัติศาสตร์คนหนึ่งให้เหตุผลว่าสาเหตุหลักของการล่มสลายคือแรงกดดันอย่างต่อเนื่องจากการรุกรานของอนารยชน อีกคนหนึ่งเชื่อว่าเป็นเพราะปัญหาทางเศรษฐกิจและการพึ่งพาแรงงานทาสมากเกินไป อีกคนหนึ่งเสนอว่าเป็นเพราะความเสื่อมโทรมทางศีลธรรมและความไม่มั่นคงทางการเมือง เพื่อสนับสนุนคำกล่าวอ้างของพวกเขา นักประวัติศาสตร์จะโต้แย้งเรื่องปัญหาทางเศรษฐกิจและการพึ่งพาแรงงานทาสมากเกินไปได้อย่างไร", "response_A": "นักประวัติศาสตร์ที่โต้แย้งว่าปัญหาทางเศรษฐกิจและการพึ่งพาแรงงานทาสมากเกินไปนำไปสู่การล่มสลายของจักรวรรดิโรมันจะพูดว่า สิ่งนี้: เศรษฐกิจของจักรวรรดิได้รับผลกระทบอย่างมากจากการลดค่าเงินของโรมัน การลดค่าเงินลงส่งผลให้อัตราเงินเฟ้อลุกลาม ส่งผลกระทบต่อเสถียรภาพของเศรษฐกิจ นอกจากนี้ จักรวรรดิโรมันยังต้องพึ่งพาแรงงานทาสเป็นอย่างมาก สิ่งนี้ทำให้เกิดการว่างงานในหมู่พลเมืองอิสระเนื่องจากการจ้างทาสมีราคาถูกกว่าการจ้างพลเมืองอิสระ โอกาสการจ้างงานที่ลดลงส่งผลให้เศรษฐกิจไม่มีเสถียรภาพ ยิ่งไปกว่านั้น การขยายตัวของจักรวรรดิไปทางทิศตะวันออกทำให้พวกเขาต้องพึ่งพาการนำเข้า เช่น ธัญพืชจากอียิปต์ การพึ่งพาการนำเข้ามากเกินไปทำให้เกิดการขาดดุลการค้า ซึ่งทำให้เศรษฐกิจอ่อนแอลงอีก เมื่อจักรวรรดิสูญเสียดินแดน การรักษาความไม่สมดุลทางการค้าจึงกลายเป็นเรื่องยาก ส่งผลให้เศรษฐกิจตกต่ำ ดังนั้น ปัญหาทางเศรษฐกิจและการพึ่งพาแรงงานทาสมากเกินไปจึงเป็นสาเหตุหลักที่ทำให้จักรวรรดิโรมันล่มสลาย", "response_B": "นักประวัติศาสตร์ที่โต้แย้งเกี่ยวกับปัญหาทางเศรษฐกิจและการพึ่งพาแรงงานทาสมากเกินไปจะนำเสนอกรณีของพวกเขาโดยอ้างถึงปัจจัยทางเศรษฐกิจที่สำคัญที่ มีส่วนทำให้จักรวรรดิโรมันล่มสลาย Harper (2016) สรุปว่าการลดค่าเงินของโรมันทำให้เกิดภาวะเงินเฟ้อ ส่งผลกระทบต่อเสถียรภาพทางเศรษฐกิจได้อย่างไร นอกจากนี้ Scheidel (2007) เน้นย้ำว่าการใช้ทาสมากเกินไปส่งผลให้เกิดการว่างงานอย่างกว้างขวางในหมู่พลเมืองที่มีอิสระ และทำให้เศรษฐกิจไม่มั่นคงต่อไป การที่จักรวรรดิต้องพึ่งพาการนำเข้าธัญพืชจากอียิปต์ ทำให้เกิดการขาดดุลการค้าตามที่ Temin (2006) เน้นย้ำไว้ ส่งผลให้เศรษฐกิจตกต่ำเช่นกัน ดังนั้น การรวมกันของปัจจัยเหล่านี้จึงมีบทบาทสำคัญในการล่มสลายของจักรวรรดิโรมัน", "reference_answer": "ข้อโต้แย้งนี้มุ่งเน้นไปที่ปัญหาทางเศรษฐกิจและการพึ่งพาแรงงานทาสมากเกินไป ซึ่งเป็นเหตุผลหลักสำหรับการล่มสลายของจักรวรรดิโรมัน ประการแรก หลักฐานชิ้นสำคัญชิ้นหนึ่งคือการลดค่าเงินของสกุลเงินโรมัน ตามที่เน้นโดย Harper (2016) จักรวรรดิต้องทนทุกข์ทรมานจากภาวะเงินเฟ้อที่รุนแรงเนื่องจากค่าเงินอ่อนค่าลงอย่างต่อเนื่อง ทำให้เศรษฐกิจมีเสถียรภาพได้ยาก นอกจากนี้ การพึ่งพาแรงงานทาสมากเกินไปก็ส่งผลเสียเช่นกัน ตามที่ Scheidel (2007) ชี้ให้เห็น การพึ่งพาทาสนำไปสู่การว่างงานในหมู่พลเมืองโรมันที่เป็นอิสระ เนื่องจากทาสมีราคาถูกกว่ามากในการดูแลรักษาเมื่อเทียบกับการจ้างพลเมืองที่เป็นอิสระ ส่งผลให้โอกาสในการทำงานลดลง ซึ่งส่งผลให้เกิดความไม่มั่นคงทางเศรษฐกิจ นอกจากนี้ การขยายตัวของจักรวรรดิไปทางทิศตะวันออกทำให้พวกเขาต้องพึ่งพาการนำเข้าอย่างมาก เช่น ธัญพืชจากอียิปต์ ตามที่ระบุไว้ใน Temin (2006) สิ่งนี้ทำให้เกิดการขาดดุลการค้าซึ่งทำให้เศรษฐกิจโรมันอ่อนแอลงอีก เมื่อจักรวรรดิเริ่มสูญเสียดินแดน การรักษาความไม่สมดุลทางการค้าก็ยิ่งยากขึ้นเรื่อยๆ ซึ่งนำไปสู่ความถดถอยทางเศรษฐกิจ โดยสรุป อาจเป็นที่ถกเถียงกันอยู่ว่าปัญหาทางเศรษฐกิจ ซึ่งสาเหตุหลักมาจากการลดค่าเงินและการพึ่งพาแรงงานทาสมากเกินไป เป็นปัจจัยสำคัญที่ทำให้จักรวรรดิโรมันล่มสลาย หลักฐานที่ให้ไว้ ซึ่งรวมถึงการอ้างอิงทางวิชาการถึง Harper (2016), Scheidel (2007) และ Temin (2006) สนับสนุนวิทยานิพนธ์นี้", "รูบริก": "คำตอบได้รับการสนับสนุนอย่างดีพร้อมหลักฐานหรือไม่ รวมถึงการอ้างอิง/การแสดงที่มาที่เกี่ยวข้องในทุกที่ที่เกี่ยวข้อง ?"}คำติชม, คะแนน =ผู้พิพากษา.single_relative_grade(**ข้อมูล)พิมพ์("คำติชม:", คำติชม)พิมพ์("คะแนน:", คะแนน)# เอาท์พุท# ข้อคิดเห็น: ทั้งคำตอบ A และคำตอบ B ระบุปัญหาทางเศรษฐกิจและการพึ่งพาแรงงานทาสมากเกินไปอย่างถูกต้องว่าเป็นปัจจัยสำคัญที่ทำให้เกิดการล่มสลายของจักรวรรดิโรมัน อย่างไรก็ตาม คำตอบ B มีประสิทธิภาพมากกว่าในการนำเสนอข้อโต้แย้งของนักประวัติศาสตร์ เนื่องจากมีการรวมแหล่งข้อมูลทางวิชาการไว้ด้านหลัง โดยเฉพาะอย่างยิ่ง อ้างอิงผลงานของ Harper, Scheidel และ Temin ซึ่งเพิ่มความน่าเชื่อถือให้กับข้อโต้แย้งของนักประวัติศาสตร์และสอดคล้องกับการเน้นของเกณฑ์การให้คะแนนเป็นอย่างดี เกี่ยวกับหลักฐานและการอ้างอิง แม้ว่าคำตอบ A ให้ข้อโต้แย้งที่คล้ายคลึงกัน แต่ก็ขาดการอ้างอิงหรือการระบุแหล่งที่มาในรูปแบบใด ๆ ซึ่งทำให้ความแข็งแกร่งของหลักฐานที่นำเสนอลดลง ดังนั้น ตามรูบริกที่ให้มา คำตอบ B จึงเป็นคำตอบที่เหนือกว่าเนื่องจากการใช้หลักฐานทางวิชาการเพื่อสนับสนุนคำกล่าวอ้างของนักประวัติศาสตร์ # คะแนน: B
หมายเหตุ : หากคุณมีการตอบกลับหลายรายการในการให้คะแนน อย่าใช้ single_absolute_grade
/ single_relative_grade
- ให้ใช้ absolute_grade
และ relative_grade
แทน! มันจะทำให้คุณเร่งความเร็วได้มากกว่า 10 เท่า
# คำแนะนำเกรดสัมบูรณ์แบบกลุ่ม = [...] # รายการคำแนะนำการตอบกลับ = [...] # รายการคำตอบอ้างอิง_คำตอบ = [...] # รายการคำตอบอ้างอิงรูบริก = "..." # สตริงฟีดแบ็กรูบริก, คะแนน =พิพากษา.absolute_grade (instructions=instructions,responses=responses,rubric=rubric,reference_answers=reference_answers)# คำแนะนำเกรดสัมพัทธ์แบบกลุ่ม = [...] # รายการ Instructionresponses_from_a = [...] # รายการการตอบกลับresponses_from_b = [...]reference_answers = [...] # รายการคำตอบอ้างอิงrubric = "..." # สตริงฟีดแบ็กรูบริก, คะแนน = ผู้ตัดสิน.relative_grade(คำแนะนำ=คำแนะนำ,responses_A=responses_from_a,responses_B=responses_from_b,rubric=rubric,reference_answers=reference_answers)
Prometheus-Eval เป็นพื้นที่เก็บข้อมูลที่มีชุดเครื่องมือสำหรับการฝึกอบรม การประเมิน และการใช้แบบจำลองภาษาที่เชี่ยวชาญในการประเมินแบบจำลองภาษาอื่นๆ พื้นที่เก็บข้อมูลประกอบด้วยส่วนประกอบต่อไปนี้:
แพ็คเกจ prometheus-eval
Python ซึ่งมีอินเทอร์เฟซที่เรียบง่ายสำหรับการประเมินคู่คำสั่งและการตอบกลับโดยใช้ Prometheus
การรวบรวมชุดข้อมูลการประเมินสำหรับการฝึกอบรมและการประเมินแบบจำลอง Prometheus
สคริปต์สำหรับการฝึกโมเดล Prometheus หรือการปรับแต่งชุดข้อมูลแบบกำหนดเอง
Prometheus คือกลุ่มโมเดลภาษาโอเพ่นซอร์สที่เชี่ยวชาญด้านการประเมินโมเดลภาษาอื่นๆ ด้วยการจำลองการตัดสินของมนุษย์อย่างมีประสิทธิภาพและการประเมินตาม LM ที่เป็นกรรมสิทธิ์ เรามุ่งหวังที่จะแก้ไขปัญหาต่อไปนี้:
ความเป็นธรรม : ไม่ต้องอาศัยโมเดลโอเพนซอร์ซในการประเมิน!
ความสามารถในการควบคุม : คุณไม่ต้องกังวลกับการอัปเดตเวอร์ชัน GPT หรือการส่งข้อมูลส่วนตัวของคุณไปยัง OpenAI โดยการสร้างไปป์ไลน์การประเมินภายใน
ความสามารถในการจ่าย : หากคุณมี GPU อยู่แล้ว ก็ใช้งานได้ฟรี!
เมื่อเปรียบเทียบกับรุ่น Prometheus 1 แล้ว รุ่น Prometheus 2 รองรับทั้ง การประเมินโดยตรง (การให้เกรดแบบสัมบูรณ์) และ การจัดอันดับแบบคู่ (การให้เกรดแบบสัมพันธ์)
คุณสามารถสลับโหมดได้โดยระบุรูปแบบพร้อมท์อินพุตและพร้อมท์ของระบบที่แตกต่างกัน ภายในข้อความแจ้ง คุณควรกรอกคำแนะนำ การตอบกลับ และให้คะแนนเกณฑ์การให้คะแนนด้วยข้อมูลของคุณเอง คุณสามารถเลือกเพิ่มคำตอบอ้างอิงซึ่งจะนำไปสู่ประสิทธิภาพที่ดีขึ้นได้!
prometheus-eval
แพ็คเกจ prometheus-eval
มอบอินเทอร์เฟซที่เรียบง่ายสำหรับการประเมินคู่คำสั่งและการตอบกลับโดยใช้ Prometheus แพ็คเกจประกอบด้วยวิธีการดังต่อไปนี้:
absolute_grade
: ประเมินคำตอบเดียวตามคำสั่งที่กำหนด คำตอบอ้างอิง และรูบริกคะแนน เอาท์พุตคะแนนระหว่าง 1 ถึง 5
relative_grade
: ประเมินสองคำตอบตามคำสั่งที่กำหนดและรูบริกคะแนน เอาต์พุต 'A' หรือ 'B' ตามการตอบสนองที่ดีกว่า
หากคุณต้องการทำงานกับตุ้มน้ำหนักที่อัปโหลดใน Huggingface Hub โดยตรง คุณสามารถดาวน์โหลดตุ้มน้ำหนักโมเดลได้โดยตรง!
จากหม้อแปลงนำเข้า AutoModelForCausalLM, AutoTokenizerdevice = "cuda" # อุปกรณ์ที่จะโหลดโมเดลเข้าสู่โมเดล = AutoModelForCausalLM.from_pretrained("prometheus-eval/prometheus-7b-v2.0")tokenizer = AutoTokenizer.from_pretrained("prometheus-eval/prometheus- 7b-v2.0")ABS_SYSTEM_PROMPT = "คุณเป็นผู้ช่วยผู้ตัดสินที่ยุติธรรม ซึ่งได้รับมอบหมายให้ให้ข้อเสนอแนะที่ชัดเจนและเป็นกลางตามเกณฑ์เฉพาะ เพื่อให้มั่นใจว่าการประเมินแต่ละครั้งสะท้อนถึงมาตรฐานที่แน่นอนที่กำหนดไว้สำหรับการปฏิบัติงาน"ABSOLUTE_PROMPT = """###คำอธิบายงาน:คำสั่ง (อาจรวมข้อมูลเข้าไว้ด้านในด้วย) ) การตอบกลับเพื่อประเมิน คำตอบอ้างอิงที่ได้รับคะแนน 5 และเกณฑ์คะแนนที่แสดงถึงเกณฑ์การประเมิน 1. เขียนความคิดเห็นโดยละเอียดที่ประเมินคุณภาพของการตอบกลับอย่างเคร่งครัดตามเกณฑ์คะแนนที่กำหนด ไม่ การประเมินโดยทั่วไป2. หลังจากเขียนคำติชมแล้ว ให้เขียนคะแนนที่เป็นจำนวนเต็มระหว่าง 1 ถึง 5 คุณควรอ้างอิงถึงเกณฑ์คะแนน3. รูปแบบผลลัพธ์ควรมีลักษณะดังนี้: "คำติชม: (เขียนคำติชมสำหรับเกณฑ์) ) [ผลลัพธ์] (ตัวเลขจำนวนเต็มระหว่าง 1 ถึง 5)"4. โปรดอย่าสร้างการเปิด ปิด และคำอธิบายอื่นใด###คำแนะนำในการประเมิน:{instruction}###การตอบสนองในการประเมิน:{response}###คำตอบอ้างอิง (คะแนน 5):{reference_answer}### เกณฑ์การให้คะแนน:{rubric}###Feedback: """user_content = ABS_SYSTEM_PROMPT + "nn" + ABSOLUTE_PROMPT.format(...) # กรอกข้อความแจ้ง ด้วยข้อความข้อมูลของคุณ = [ {"บทบาท": "ผู้ใช้", "เนื้อหา": user_content}, ]encodeds = tokenizer.apply_chat_template(messages, return_tensors="pt")model_inputs = encodeds.to(device)model.to(device)generated_ids = model.generate(model_inputs, max_new_tokens=1000, do_sample=True)decoded = tokenizer.batch_decode(generated_ids)พิมพ์(ถอดรหัส[0])
ส่วน | คำอธิบาย |
---|---|
การประเมิน BiGGen-Bench | คำแนะนำในการประเมิน LM ของคุณใน BiGGen-Bench คุณยังสามารถอ้างอิงถึงการใช้งานสำหรับเกณฑ์มาตรฐานการประเมินของคุณเองได้ |
การฝึกอบรมโพรมีธีอุส | คำแนะนำในการทำซ้ำโมเดล Prometheus 2 ขึ้นอยู่กับพื้นที่เก็บข้อมูลคู่มือการจัดตำแหน่ง |
การใช้ Prometheus เป็นตัวกรองคุณภาพข้อมูล | ตำราอาหารสำหรับการใช้ Prometheus 2 เป็นตัวกรองคุณภาพในการสร้างข้อมูลสังเคราะห์ ขอบคุณมากสำหรับทีมงาน distilabel! - |
การใช้ Prometheus เป็นผู้ประเมินใน RAG | ตำราอาหารสำหรับการใช้แอปพลิเคชัน Prometheus 2 RAG ขอบคุณมากสำหรับทีมงาน LlamaIndex! - |
โค้ดเบสพื้นฐานสำหรับการฝึกอบรมมาจากคู่มือการจัดตำแหน่งของ Huggingface และที่เก็บ Super Mario Merging นอกจากนี้ สำหรับการอนุมาน จะใช้ไลบรารี litellm, vllm และ Transformer อย่างมาก ขอบคุณมากสำหรับผู้มีส่วนร่วมสำหรับพื้นที่เก็บข้อมูลที่ยอดเยี่ยมเหล่านี้!! -
หากคุณพบว่างานของเรามีประโยชน์ โปรดพิจารณาอ้างอิงบทความของเรา!
@misc{kim2024prometheus, title={Prometheus 2: โมเดลภาษาโอเพ่นซอร์สที่เชี่ยวชาญในการประเมินโมเดลภาษาอื่น}, author={Seungone Kim และ Juyoung Suk และ Shayne Longpre และ Bill Yuchen Lin และ Jamin Shin และ Sean Welleck และ Graham Neubig และ Moontae Lee และ Kyungjae Lee และ Minjoon Seo}, year={2024}, eprint={2405.01535}, archivePrefix={ arXiv}, primaryClass={cs.CL}}
@article{kim2023prometheus, title={Prometheus: Inulating Fine-grained Eความคิดเห็น Capability in Language Models}, author={Kim, Seungone และ Shin, Jamin และ Cho, Yejin และ Jang, Joel และ Longpre, Shayne และ Lee, Hwaran และ Yun, Sangdoo และ Shin, Seongjin และ Kim, Sungdong และ Thorne, James และคนอื่นๆ}, วารสาร={arXiv preprint arXiv:2310.08491}, ปี={2023}}
@misc{lee2024prometheusvision, title={Prometheus-Vision: โมเดลภาษาวิสัยทัศน์ในฐานะผู้พิพากษาสำหรับการประเมินแบบละเอียด}, author={Seongyun Lee และ Seungone Kim และ Sue Hyun Park และ Geewook Kim และ Minjoon Seo}, year={2024}, eprint={2401.06591}, archivePrefix={arXiv}, primaryClass={cs.CL}}
@misc{kim2024biggen, title={The BiGGen Bench: เกณฑ์มาตรฐานสำหรับการประเมินโมเดลภาษาอย่างละเอียดด้วยโมเดลภาษา}, author={Seungone Kim และ Juyoung Suk และ Ji Yong Cho และ Shayne Longpre และ Chaeeun Kim และ Dongkeun Yoon และ Guijin Son และ Yejin Cho และ Sheikh Shafayat และ Jinheon Baek และ Sue Hyun Park และ Hyeonbin Hwang และ Jinkyung Jo และ Hyowon Cho และ Haebin Shin และ ซองยุน ลี และ ฮันซอก โอ และ โนอาห์ ลี และ นัมกยูโฮ และ เซ จูน จู และ มิยอง โค และ ยุนจู ลี และ Hyungjoo Chae และ Jamin Shin และ Joel Jang และ Seonghyeon Ye และ Bill Yuchen Lin และ Sean Welleck และ Graham Neubig และ Moontae Lee และ Kyungjae Lee และ Minjoon Seo}, year={2024}, eprint={2406.05761}, archivePrefix={arXiv}, primaryClass={cs.CL}}