Generative AI กำลังประสบกับการเติบโตอย่างรวดเร็ว และพื้นที่เก็บข้อมูลนี้ทำหน้าที่เป็นศูนย์กลางที่ครอบคลุมสำหรับการอัปเดตเกี่ยวกับการวิจัย Generative AI เอกสารการสัมภาษณ์ สมุดบันทึก และอื่นๆ อีกมากมาย!
สำรวจแหล่งข้อมูลต่อไปนี้:
เราจะอัปเดตพื้นที่เก็บข้อมูลนี้เป็นประจำ ดังนั้นโปรดคอยติดตามสิ่งเพิ่มเติมล่าสุด!
มีความสุขในการเรียนรู้!
*อัพเดททุกสิ้นเดือน
วันที่ | ชื่อ | เชิงนามธรรม |
---|---|---|
30 กันยายน 2024 | MM1.5: วิธีการ การวิเคราะห์ และข้อมูลเชิงลึกจากการปรับแบบละเอียดของ LLM แบบต่อเนื่องหลายรูปแบบ | เรานำเสนอ MM1.5 ซึ่งเป็นตระกูลใหม่ของโมเดลภาษาขนาดใหญ่หลายรูปแบบ (MLLM) ที่ได้รับการออกแบบมาเพื่อเพิ่มความสามารถในการทำความเข้าใจรูปภาพที่มีข้อความมากมาย การอ้างอิงและการต่อสายดินด้วยภาพ และการใช้เหตุผลหลายรูปภาพ จากสถาปัตยกรรม MM1 นั้น MM1.5 ใช้แนวทางที่เน้นข้อมูลเป็นศูนย์กลางในการฝึกโมเดล โดยสำรวจผลกระทบของการผสมผสานข้อมูลที่หลากหลายอย่างเป็นระบบตลอดวงจรชีวิตของการฝึกโมเดลทั้งหมด ซึ่งรวมถึงข้อมูล OCR คุณภาพสูงและคำบรรยายสังเคราะห์สำหรับการฝึกอบรมล่วงหน้าอย่างต่อเนื่อง ตลอดจนการผสมผสานข้อมูลการปรับแต่งคำแนะนำด้วยภาพที่ได้รับการปรับปรุงเพื่อการปรับแต่งอย่างละเอียดภายใต้การดูแล แบบจำลองของเรามีพารามิเตอร์ตั้งแต่ 1B ถึง 30B ซึ่งครอบคลุมทั้งตัวแปรแบบหนาแน่นและแบบผสมของผู้เชี่ยวชาญ (MoE) และแสดงให้เห็นว่าการจัดการข้อมูลอย่างรอบคอบและกลยุทธ์การฝึกอบรมสามารถให้ประสิทธิภาพที่แข็งแกร่งแม้ในระดับขนาดเล็ก (1B และ 3B) นอกจากนี้ เรายังแนะนำสองรูปแบบพิเศษ: MM1.5-วิดีโอ ออกแบบมาเพื่อความเข้าใจวิดีโอ และ MM1.5-UI ออกแบบมาเพื่อความเข้าใจ UI มือถือ ด้วยการศึกษาเชิงประจักษ์และการระเหยที่ครอบคลุม เราได้ให้ข้อมูลเชิงลึกโดยละเอียดเกี่ยวกับกระบวนการฝึกอบรมและการตัดสินใจที่แจ้งการออกแบบขั้นสุดท้ายของเรา โดยนำเสนอคำแนะนำที่มีคุณค่าสำหรับการวิจัยในอนาคตในการพัฒนา MLLM |
26 กันยายน 2024 | MIO: แบบจำลองพื้นฐานเกี่ยวกับโทเค็นต่อเนื่องหลายรูปแบบ | ในบทความนี้ เราขอแนะนำ MIO ซึ่งเป็นโมเดลพื้นฐานใหม่ที่สร้างขึ้นบนโทเค็นหลายรูปแบบ ซึ่งสามารถทำความเข้าใจและสร้างคำพูด ข้อความ รูปภาพ และวิดีโอในลักษณะแบบ end-to-end และ autoregressive แม้ว่าการเกิดขึ้นของโมเดลภาษาขนาดใหญ่ (LLM) และโมเดลภาษาขนาดใหญ่หลายรูปแบบ (MM-LLM) จะช่วยขับเคลื่อนความก้าวหน้าในด้านปัญญาประดิษฐ์ทั่วไปผ่านความสามารถที่หลากหลาย แต่โมเดลเหล่านี้ยังคงขาดความเข้าใจและการสร้างแบบตัวต่อตัวอย่างแท้จริง เมื่อเร็วๆ นี้ การเปิดตัว GPT-4o ได้แสดงให้เห็นถึงศักยภาพอันน่าทึ่งของ LLM แบบใดก็ได้สำหรับงานที่ซับซ้อนในโลกแห่งความเป็นจริง โดยสามารถป้อนข้อมูลและเอาท์พุตได้รอบทิศทางทั้งรูปภาพ คำพูด และข้อความ อย่างไรก็ตาม เป็นระบบปิดและไม่รองรับการสร้างลำดับอินเทอร์ลีฟหลายรูปแบบ เพื่อแก้ไขช่องว่างนี้ เราขอนำเสนอ MIO ซึ่งได้รับการฝึกฝนเกี่ยวกับการผสมผสานของโทเค็นที่แยกจากกันในรูปแบบสี่รูปแบบโดยใช้การสร้างแบบจำลองหลายรูปแบบเชิงสาเหตุ MIO ผ่านกระบวนการฝึกอบรมสี่ขั้นตอน: (1) การฝึกอบรมล่วงหน้าสำหรับการจัดตำแหน่ง (2) การฝึกอบรมล่วงหน้าแบบแทรกสลับ (3) การฝึกอบรมล่วงหน้าที่ปรับปรุงคำพูด และ (4) การปรับแต่งแบบละเอียดภายใต้การดูแลที่ครอบคลุมในด้านข้อความ ภาพ และงานการพูด ผลการทดลองของเราระบุว่า MIO แสดงให้เห็นถึงประสิทธิภาพที่แข่งขันได้ และในบางกรณีก็เหนือกว่า เมื่อเปรียบเทียบกับเส้นฐานแบบ dual-modal ก่อนหน้า เส้นพื้นฐานแบบใดๆ ต่อใดๆ และแม้กระทั่งเส้นพื้นฐานเฉพาะของ modality นอกจากนี้ MIO ยังแสดงให้เห็นถึงความสามารถขั้นสูงที่มีอยู่ในฟีเจอร์แบบใดก็ได้ เช่น การสร้างข้อความวิดีโอแบบแทรก การให้เหตุผลแบบลูกโซ่ของภาพ การสร้างแนวทางด้วยภาพ การแก้ไขภาพเพื่อการเรียนการสอน เป็นต้น |
26 กันยายน 2024 | MaskLLM: ความกระจัดกระจายกึ่งโครงสร้างที่เรียนรู้ได้สำหรับโมเดลภาษาขนาดใหญ่ | โมเดลภาษาขนาดใหญ่ (LLM) มีความโดดเด่นด้วยการนับพารามิเตอร์จำนวนมาก ซึ่งโดยทั่วไปจะส่งผลให้เกิดความซ้ำซ้อนอย่างมีนัยสำคัญ งานนี้แนะนำ MaskLLM ซึ่งเป็นวิธีการตัดแต่งกิ่งที่เรียนรู้ได้ซึ่งสร้างการกระจายแบบกึ่งโครงสร้าง (หรือ ``N:M'') ใน LLM โดยมีเป้าหมายเพื่อลดค่าใช้จ่ายในการคำนวณในระหว่างการอนุมาน แทนที่จะพัฒนาเกณฑ์ความสำคัญใหม่ MaskLLM จำลองรูปแบบ N:M อย่างชัดเจนเป็นการแจกแจงที่เรียนรู้ได้ผ่านการสุ่มตัวอย่าง Gumbel Softmax แนวทางนี้อำนวยความสะดวกในการฝึกอบรมแบบ end-to-end บนชุดข้อมูลขนาดใหญ่ และมีข้อดีที่โดดเด่นสองประการ: 1) มาสก์คุณภาพสูง - วิธีการของเราจะปรับขนาดเป็นชุดข้อมูลขนาดใหญ่ได้อย่างมีประสิทธิภาพ และเรียนรู้มาสก์ที่แม่นยำ; 2) ความสามารถในการถ่ายโอน - การสร้างแบบจำลองความน่าจะเป็นของการกระจายมาสก์ช่วยให้สามารถถ่ายโอนการเรียนรู้เกี่ยวกับความกระจัดกระจายข้ามโดเมนหรืองานต่างๆ เราประเมิน MaskLLM โดยใช้ความกระจัดกระจาย 2:4 บน LLM ต่างๆ รวมถึง LLaMA-2, Nemotron-4 และ GPT-3 ด้วยขนาดตั้งแต่พารามิเตอร์ 843M ถึง 15B และผลลัพธ์เชิงประจักษ์ของเราแสดงให้เห็นถึงการปรับปรุงที่สำคัญเหนือความล้ำสมัย วิธีการ ตัวอย่างเช่น วิธีการนำทำให้เกิดความฉงนสนเท่ห์ (PPL) ที่ 10 หรือมากกว่าบน Wikitext เมื่อเทียบกับ 5.12 PPL ของโมเดลหนาแน่น แต่ MaskLLM บรรลุความฉงนสนเท่ห์ที่ต่ำกว่า 6.72 PPL เพียงอย่างเดียวโดยการเรียนรู้มาสก์ที่มีน้ำหนักเยือกแข็ง นอกจากนี้ ลักษณะการเรียนรู้ของ MaskLLM ยังช่วยให้มาสก์ที่ปรับแต่งได้สำหรับการประยุกต์ใช้ความกระจัดกระจาย 2:4 แบบไม่สูญเสียกับงานหรือโดเมนดาวน์สตรีม ดูโค้ดได้ที่ url{https://github.com/NVlabs/MaskLLM} |
25 กันยายน 2024 | Molmo และ PixMo: เปิดตุ้มน้ำหนักและข้อมูลแบบเปิดสำหรับโมเดลต่อเนื่องหลายรูปแบบที่ล้ำสมัย | โมเดลมัลติโมดัลที่ล้ำสมัยที่สุดในปัจจุบันยังคงเป็นกรรมสิทธิ์ โมเดลน้ำหนักเปิดที่แข็งแกร่งที่สุดอาศัยข้อมูลสังเคราะห์จาก VLM ที่เป็นกรรมสิทธิ์อย่างมากเพื่อให้ได้ประสิทธิภาพที่ดี โดยกลั่นกรองโมเดลปิดเหล่านี้ให้เป็นโมเดลเปิดอย่างมีประสิทธิภาพ เป็นผลให้ชุมชนยังคงขาดความรู้พื้นฐานเกี่ยวกับวิธีการสร้าง VLM ที่มีประสิทธิภาพตั้งแต่เริ่มต้น เรานำเสนอ Molmo ซึ่งเป็นกลุ่ม VLM ใหม่ที่มีความทันสมัยในระดับที่เปิดกว้าง นวัตกรรมหลักของเราคือชุดข้อมูลคำบรรยายภาพที่มีรายละเอียดสูงที่แปลกใหม่ซึ่งรวบรวมทั้งหมดจากผู้อธิบายประกอบที่เป็นมนุษย์โดยใช้คำอธิบายตามคำพูด เพื่อให้เกิดการโต้ตอบกับผู้ใช้ในวงกว้าง เรายังแนะนำชุดข้อมูลที่หลากหลายสำหรับการปรับแต่งอย่างละเอียด ซึ่งรวมถึงคำถามและคำตอบแบบอินเทอร์แอ็กทีฟและข้อมูลการชี้ 2D ที่เป็นนวัตกรรมใหม่ ความสำเร็จของแนวทางของเราขึ้นอยู่กับการเลือกอย่างรอบคอบสำหรับรายละเอียดสถาปัตยกรรมแบบจำลอง ไปป์ไลน์การฝึกอบรมที่ได้รับการปรับแต่งมาอย่างดี และที่สำคัญที่สุดคือคุณภาพของชุดข้อมูลที่รวบรวมใหม่ของเรา ซึ่งทั้งหมดจะถูกเผยแพร่ รุ่น 72B ที่ดีที่สุดในกลุ่มผลิตภัณฑ์ Molmo ไม่เพียงแต่มีประสิทธิภาพเหนือกว่ารุ่นอื่นๆ ในประเภทน้ำหนักและข้อมูลแบบเปิดเท่านั้น แต่ยังเปรียบเทียบได้ดีกับระบบที่เป็นกรรมสิทธิ์ เช่น GPT-4o, Claude 3.5 และ Gemini 1.5 ทั้งในด้านเกณฑ์มาตรฐานทางวิชาการและการประเมินโดยมนุษย์ . เราจะเผยแพร่น้ำหนักโมเดล ข้อมูลคำบรรยายและการปรับแต่ง และซอร์สโค้ดทั้งหมดของเราในอนาคตอันใกล้นี้ เลือกน้ำหนักแบบจำลอง รหัสอนุมาน และการสาธิตได้ที่ https://molmo.allenai.org |
25 กันยายน 2024 | VPTQ: การหาปริมาณหลังการฝึกเวกเตอร์บิตต่ำมากสำหรับโมเดลภาษาขนาดใหญ่ | การปรับขนาดโมเดลท้าทายอย่างมากต่อการปรับใช้และการอนุมานของโมเดลภาษาขนาดใหญ่ (LLM) เนื่องจากน้ำหนัก LLM ซ้ำซ้อน การวิจัยเมื่อเร็วๆ นี้จึงมุ่งเน้นไปที่การผลักดันการวัดปริมาณเฉพาะน้ำหนักให้เป็นบิตที่ต่ำมาก (แม้แต่ลงไปที่ 2 บิต) ช่วยลดความต้องการหน่วยความจำ ปรับต้นทุนพื้นที่จัดเก็บข้อมูลให้เหมาะสม และลดความต้องการแบนด์วิธหน่วยความจำในระหว่างการอนุมาน อย่างไรก็ตาม เนื่องจากข้อจำกัดในการแสดงตัวเลข การหาปริมาณน้ำหนักตามสเกลาร์แบบดั้งเดิมจึงต้องดิ้นรนเพื่อให้ได้บิตที่ต่ำมากเช่นนี้ การวิจัยล่าสุดเกี่ยวกับ Vector Quantization (VQ) สำหรับ LLM ได้แสดงให้เห็นถึงศักยภาพของการจำลองปริมาณบิตที่ต่ำมากโดยการบีบอัดเวกเตอร์ให้เป็นดัชนีโดยใช้ตารางการค้นหา ในบทความนี้ เราขอแนะนำ Vector Post-Training Quantization (VPTQ) สำหรับการหาปริมาณ LLM ที่บิตต่ำมาก เราใช้การเพิ่มประสิทธิภาพลำดับที่สองเพื่อกำหนดปัญหา LLM VQ และแนะนำการออกแบบอัลกอริทึมการหาปริมาณของเราโดยการแก้ปัญหาการปรับให้เหมาะสม เราปรับแต่งตุ้มน้ำหนักเพิ่มเติมโดยใช้ Channel-Independent Second-Order Optimization สำหรับ VQ แบบละเอียด นอกจากนี้ โดยการแจกแจงปัญหาการปรับให้เหมาะสม เราเสนออัลกอริธึมการเริ่มต้น codebook ที่สั้นและมีประสิทธิภาพ นอกจากนี้เรายังขยาย VPTQ เพื่อรองรับปริมาณคงเหลือและค่าผิดปกติ ซึ่งช่วยเพิ่มความแม่นยำของแบบจำลองและบีบอัดแบบจำลองเพิ่มเติม ผลการทดลองของเราแสดงให้เห็นว่า VPTQ ลดความซับซ้อนของการหาปริมาณแบบจำลองลง |
24 กันยายน 2024 | Time-MoE: โมเดลพื้นฐานอนุกรมเวลาพันล้านสเกลที่ผสมผสานผู้เชี่ยวชาญ | การเรียนรู้เชิงลึกสำหรับการพยากรณ์อนุกรมเวลามีความก้าวหน้าที่สำคัญในช่วงหลายทศวรรษที่ผ่านมา อย่างไรก็ตาม แม้ว่าการฝึกอบรมล่วงหน้าขนาดใหญ่ในด้านภาษาและการมองเห็นจะประสบความสำเร็จ แต่แบบจำลองอนุกรมเวลาก่อนการฝึกอบรมยังคงมีขนาดจำกัดและดำเนินการด้วยต้นทุนสูง ซึ่งเป็นอุปสรรคต่อการพัฒนาแบบจำลองการคาดการณ์ที่มีความสามารถขนาดใหญ่ขึ้นในการใช้งานในโลกแห่งความเป็นจริง เพื่อเป็นการตอบสนอง เราจึงเปิดตัว Time-MoE ซึ่งเป็นสถาปัตยกรรมแบบครบวงจรที่ปรับขนาดได้ ซึ่งออกแบบมาเพื่อฝึกโมเดลพื้นฐานการคาดการณ์ที่ใหญ่ขึ้นและมีความสามารถมากขึ้นล่วงหน้า พร้อมทั้งลดต้นทุนการอนุมาน ด้วยการใช้ประโยชน์จากการออกแบบแบบผสมผสานของผู้เชี่ยวชาญ (MoE) แบบกระจัดกระจาย Time-MoE ช่วยเพิ่มประสิทธิภาพในการคำนวณโดยการเปิดใช้งานเฉพาะเครือข่ายย่อยสำหรับการคาดการณ์แต่ละครั้ง ซึ่งช่วยลดภาระในการคำนวณในขณะที่ยังคงรักษาความจุของโมเดลไว้ในระดับสูง ซึ่งช่วยให้ Time-MoE สามารถปรับขนาดได้อย่างมีประสิทธิภาพโดยไม่ต้องเพิ่มต้นทุนการอนุมานที่สอดคล้องกัน Time-MoE ประกอบด้วยตระกูลหม้อแปลงรุ่นเฉพาะตัวถอดรหัสที่ทำงานในลักษณะถดถอยอัตโนมัติ และรองรับขอบเขตการคาดการณ์ที่ยืดหยุ่นโดยมีความยาวบริบทอินพุตที่แตกต่างกัน เราได้ฝึกอบรมโมเดลเหล่านี้ล่วงหน้ากับข้อมูลขนาดใหญ่ Time-300B ที่เพิ่งเปิดตัว ซึ่งครอบคลุมมากกว่า 9 โดเมนและครอบคลุมจุดเวลามากกว่า 3 แสนล้านจุด นับเป็นครั้งแรกที่เราปรับขนาดแบบจำลองพื้นฐานอนุกรมเวลาได้สูงสุดถึง 2.4 พันล้านพารามิเตอร์ ซึ่งทำให้ได้รับความแม่นยำในการคาดการณ์ที่ดีขึ้นอย่างมาก ผลลัพธ์ของเราตรวจสอบการบังคับใช้กฎหมายมาตราส่วนสำหรับโทเค็นการฝึกอบรมและขนาดแบบจำลองในบริบทของการคาดการณ์อนุกรมเวลา เมื่อเปรียบเทียบกับโมเดลที่มีความหนาแน่นซึ่งมีพารามิเตอร์ที่เปิดใช้งานจำนวนเท่ากันหรืองบประมาณในการคำนวณที่เท่ากัน โมเดลของเรามีประสิทธิภาพเหนือกว่าโมเดลเหล่านั้นอย่างต่อเนื่องด้วยอัตรากำไรขั้นต้นที่มาก ความก้าวหน้าเหล่านี้ทำให้ Time-MoE เป็นโซลูชันที่ล้ำสมัยสำหรับจัดการกับความท้าทายในการพยากรณ์อนุกรมเวลาในโลกแห่งความเป็นจริงด้วยความสามารถ ประสิทธิภาพ และความยืดหยุ่นที่เหนือกว่า |
23 กันยายน 2024 | การศึกษาเบื้องต้นเกี่ยวกับ o1 ในด้านการแพทย์: เราใกล้ชิดกับแพทย์ด้าน AI มากขึ้นหรือไม่? | โมเดลภาษาขนาดใหญ่ (LLM) ได้แสดงความสามารถที่โดดเด่นในโดเมนและงานต่างๆ ซึ่งผลักดันขอบเขตความรู้ของเราในการเรียนรู้และการรับรู้ o1 รุ่นล่าสุดของ OpenAI โดดเด่นในฐานะ LLM แรกที่มีเทคนิคห่วงโซ่แห่งความคิดภายในโดยใช้กลยุทธ์การเรียนรู้แบบเสริมกำลัง แม้ว่าจะแสดงให้เห็นถึงความสามารถที่แข็งแกร่งอย่างน่าประหลาดใจในงานด้านภาษาทั่วไปต่างๆ แต่ประสิทธิภาพในสาขาเฉพาะทาง เช่น การแพทย์ ยังคงไม่เป็นที่ทราบแน่ชัด ด้วยเหตุนี้ รายงานนี้จึงมีการสำรวจ o1 ในสถานการณ์ทางการแพทย์ที่แตกต่างกันอย่างครอบคลุม โดยพิจารณาประเด็นหลัก 3 ประการ ได้แก่ ความเข้าใจ การใช้เหตุผล และการพูดได้หลายภาษา โดยเฉพาะอย่างยิ่ง การประเมินของเราครอบคลุมงาน 6 งานโดยใช้ข้อมูลจากชุดข้อมูลทางการแพทย์ 37 ชุด รวมถึงงานตอบคำถาม (QA) ที่สร้างขึ้นใหม่และท้าทายมากขึ้นสองงานโดยอิงจากแบบทดสอบทางการแพทย์ระดับมืออาชีพจาก New England Journal of Medicine (NEJM) และ The Lancet ชุดข้อมูลเหล่านี้มีความเกี่ยวข้องทางคลินิกมากกว่าเมื่อเปรียบเทียบกับการวัดประสิทธิภาพ QA ทางการแพทย์มาตรฐาน เช่น MedQA ซึ่งแปลได้อย่างมีประสิทธิภาพมากขึ้นสู่ประโยชน์ทางคลินิกในโลกแห่งความเป็นจริง การวิเคราะห์ o1 ของเราชี้ให้เห็นว่าความสามารถในการให้เหตุผลที่เพิ่มขึ้นของ LLM อาจ (อย่างมีนัยสำคัญ) เป็นประโยชน์ต่อความสามารถในการเข้าใจคำแนะนำทางการแพทย์และเหตุผลต่างๆ ผ่านสถานการณ์ทางคลินิกที่ซับซ้อน โดยเฉพาะอย่างยิ่ง o1 มีความแม่นยำเหนือกว่า GPT-4 รุ่นก่อนหน้าโดยเฉลี่ย 6.2% และ 6.6% ในชุดข้อมูล 19 ชุด และสถานการณ์ QA ที่ซับซ้อนที่สร้างขึ้นใหม่ 2 รายการ แต่ในขณะเดียวกัน เราได้ระบุจุดอ่อนหลายประการทั้งในความสามารถของโมเดลและโปรโตคอลการประเมินที่มีอยู่ รวมถึงอาการประสาทหลอน ความสามารถหลายภาษาที่ไม่สอดคล้องกัน และหน่วยวัดที่ไม่สอดคล้องกันสำหรับการประเมิน เราเผยแพร่ข้อมูลดิบและผลลัพธ์แบบจำลองของเราที่ https://ucsc-vlaa.github.io/o1_medicine/ สำหรับการวิจัยในอนาคต |
21 กันยายน 2024 | การปฏิบัติตามคำสั่งโดยไม่ต้องปรับคำสั่ง | การปรับแต่งคำสั่งโดยทั่วไปหมายถึงการปรับแต่งโมเดลภาษาในคู่การตอบสนองของคำสั่ง เราค้นพบการปรับตัว (การปรับ) สองรูปแบบที่บกพร่องเมื่อเปรียบเทียบกับการปรับคำสั่ง แต่ยังคงให้ผลตามคำสั่ง เราเรียกสิ่งนี้ว่าการปรับคำสั่งโดยนัย อันดับแรก เราพบว่าคู่คำสั่ง-การตอบสนองนั้นไม่จำเป็น การฝึกอบรมเฉพาะการตอบสนองเท่านั้น โดยไม่มีคำสั่งที่เกี่ยวข้องใดๆ จะทำให้ได้คำสั่งดังต่อไปนี้ สิ่งนี้ชี้ให้เห็นว่าแบบจำลองที่ได้รับการฝึกล่วงหน้ามีการแม็ปการตอบสนองคำสั่งซึ่งเปิดเผยโดยการสอนแบบจำลองถึงการกระจายการตอบสนองที่ต้องการ อย่างไรก็ตาม เราพบว่าไม่จำเป็นต้องสอนการกระจายคำตอบที่ต้องการ การฝึกอบรมการตอบสนองต่อการสอนเกี่ยวกับข้อมูลในขอบเขตแคบ เช่น บทกวี ยังคงนำไปสู่พฤติกรรมการปฏิบัติตามคำสั่งในวงกว้าง เช่น การสร้างสูตรอาหาร โดยเฉพาะอย่างยิ่ง เมื่อคำสั่งแตกต่างอย่างมากจากคำสั่งในโดเมนการปรับแต่งที่แคบ การตอบสนองของโมเดลจะไม่ยึดตามสไตล์ของโดเมนการปรับแต่ง เพื่อเริ่มอธิบายการปรับแต่งคำสั่งโดยนัย เราตั้งสมมติฐานว่าการเปลี่ยนแปลงคำสั่งผลตอบแทนการแจกแจงของโมเดลภาษาอย่างง่ายดายดังต่อไปนี้ เราสนับสนุนสิ่งนี้ด้วยการเขียนโมเดลภาษาตามกฎด้วยมือซึ่งให้ผลคำสั่งตามผลิตภัณฑ์ของผู้เชี่ยวชาญด้วยโมเดลที่ได้รับการฝึกอบรมล่วงหน้า กฎคือให้ค่อยๆ เพิ่มความเป็นไปได้ในการจบลำดับ ลงโทษการทำซ้ำ และเปลี่ยนความน่าจะเป็นของคำ 15 คำให้สม่ำเสมอ โดยสรุป การปรับเปลี่ยนที่ทำโดยไม่ได้ออกแบบให้ปฏิบัติตามคำสั่งสามารถทำได้โดยปริยาย |
20 กันยายน 2024 | ลองนึกภาพตัวคุณเอง: การสร้างภาพส่วนบุคคลที่ปรับแต่งได้ฟรี | โมเดลการแพร่กระจายได้แสดงให้เห็นถึงประสิทธิภาพที่น่าทึ่งในงานต่างๆ จากภาพสู่ภาพ ในการวิจัยนี้ เราแนะนำ Imagine Yours ซึ่งเป็นโมเดลล้ำสมัยที่ออกแบบมาเพื่อการสร้างภาพลักษณ์ส่วนบุคคล แตกต่างจากเทคนิคการปรับแต่งส่วนบุคคลตามแบบทั่วไป ลองนึกภาพตัวคุณเองทำงานในรูปแบบที่ไม่ต้องปรับแต่ง ช่วยให้ผู้ใช้ทุกคนสามารถใช้ประโยชน์จากกรอบงานที่ใช้ร่วมกันโดยไม่ต้องปรับแต่งเป็นรายบุคคล นอกจากนี้ งานก่อนหน้านี้ยังพบกับความท้าทายในการรักษาสมดุลในการรักษาเอกลักษณ์ โดยปฏิบัติตามคำแนะนำที่ซับซ้อนและรักษาคุณภาพของภาพที่ดี ส่งผลให้แบบจำลองมีผลการคัดลอกและวางที่แข็งแกร่งของภาพอ้างอิง ดังนั้นพวกเขาจึงแทบจะไม่สามารถสร้างภาพตามคำแนะนำที่จำเป็นต้องเปลี่ยนแปลงอย่างมีนัยสำคัญกับภาพอ้างอิง eg การเปลี่ยนการแสดงออกทางสีหน้า ท่าทางของศีรษะและลำตัว และความหลากหลายของภาพที่สร้างขึ้นนั้นต่ำ เพื่อแก้ไขข้อจำกัดเหล่านี้ วิธีการที่เราเสนอนำเสนอ 1) กลไกการสร้างข้อมูลคู่สังเคราะห์แบบใหม่เพื่อส่งเสริมความหลากหลายของภาพ 2) สถาปัตยกรรมความสนใจแบบคู่ขนานอย่างสมบูรณ์พร้อมตัวเข้ารหัสข้อความสามตัวและตัวเข้ารหัสการมองเห็นที่ฝึกได้อย่างสมบูรณ์เพื่อปรับปรุงความซื่อสัตย์ของข้อความ และ 3) วิธีการปรับละเอียดแบบหลายขั้นตอนแบบหยาบถึงละเอียดแบบใหม่ ซึ่งจะค่อยๆ ขยายขอบเขตของคุณภาพของภาพ การศึกษาของเราแสดงให้เห็นว่า ลองนึกภาพตัวคุณเองให้เหนือกว่ารูปแบบการกำหนดส่วนบุคคลที่ล้ำสมัย โดยแสดงความสามารถที่เหนือกว่าในการรักษาเอกลักษณ์ คุณภาพของภาพ และการจัดแนวข้อความ โมเดลนี้สร้างรากฐานที่แข็งแกร่งสำหรับแอปพลิเคชันส่วนบุคคลต่างๆ ผลการประเมินโดยมนุษย์จะตรวจสอบความเหนือกว่าของ SOTA ของโมเดลในทุกด้าน (การรักษาตัวตน ความเที่ยงตรงของข้อความ และรูปลักษณ์ที่ดึงดูดใจ) เมื่อเทียบกับโมเดลการกำหนดค่าส่วนบุคคลก่อนหน้านี้ |
19 กันยายน 2024 | การฝึกอบรมแบบจำลองภาษาเพื่อแก้ไขตนเองผ่านการเรียนรู้แบบเสริมกำลัง | การแก้ไขตัวเองเป็นความสามารถที่เป็นที่ต้องการอย่างมากของโมเดลภาษาขนาดใหญ่ (LLM) แต่ก็พบว่าไม่มีประสิทธิภาพอย่างมากใน LLM สมัยใหม่อย่างต่อเนื่อง วิธีการฝึกอบรมการแก้ไขตนเองในปัจจุบันจะขึ้นอยู่กับแบบจำลองหลายแบบ แบบจำลองขั้นสูงกว่า หรือรูปแบบการควบคุมดูแลเพิ่มเติม เพื่อแก้ไขข้อบกพร่องเหล่านี้ เราได้พัฒนา SCoRe ซึ่งเป็นแนวทางการเรียนรู้การเสริมกำลังแบบออนไลน์แบบหลายรอบ ซึ่งปรับปรุงความสามารถในการแก้ไขตนเองของ LLM ได้อย่างมากโดยใช้ข้อมูลที่สร้างขึ้นเองทั้งหมด ในการสร้าง SCoRe ก่อนอื่นเราจะแสดงให้เห็นว่าตัวแปรต่างๆ ของการปรับแต่งแบบละเอียดภายใต้การดูแล (SFT) บนการติดตามการแก้ไขที่สร้างโดยโมเดลออฟไลน์มักจะไม่เพียงพอสำหรับการปลูกฝังพฤติกรรมการแก้ไขตนเอง โดยเฉพาะอย่างยิ่ง เราสังเกตเห็นว่าการฝึกอบรมผ่าน SFT ตกเป็นเหยื่อของการกระจายที่ไม่ตรงกันระหว่างข้อผิดพลาดที่เกิดจากนโยบายการรวบรวมข้อมูลและการตอบสนองของโมเดลเอง หรือพฤติกรรมล่มสลาย โดยที่การเรียนรู้โดยปริยายชอบเพียงพฤติกรรมการแก้ไขบางโหมดที่มักจะ ไม่มีประสิทธิภาพในการแก้ไขปัญหาการทดสอบด้วยตนเอง SCoRe จัดการกับความท้าทายเหล่านี้ด้วยการฝึกอบรมภายใต้การกระจายร่องรอยการแก้ไขที่สร้างขึ้นเองของแบบจำลอง และใช้การทำให้เป็นมาตรฐานที่เหมาะสมเพื่อนำทางกระบวนการเรียนรู้ไปสู่การเรียนรู้พฤติกรรมการแก้ไขตนเองซึ่งมีประสิทธิผลในเวลาทดสอบ ตรงข้ามกับการปรับการตอบสนองที่ให้รางวัลสูงตามที่กำหนด พร้อมท์ กระบวนการทำให้เป็นมาตรฐานนี้รวมถึงระยะเริ่มต้นของ RL หลายรอบบนโมเดลพื้นฐานเพื่อสร้างการเริ่มต้นนโยบายที่เสี่ยงต่อการล่มสลายน้อยกว่า ตามด้วยการใช้โบนัสรางวัลเพื่อขยายการแก้ไขตนเอง ด้วยโมเดล Gemini 1.0 Pro และ 1.5 Flash เราพบว่า SCoRe บรรลุประสิทธิภาพการแก้ไขตัวเองที่ล้ำสมัย โดยปรับปรุงการแก้ไขตัวเองของโมเดลพื้นฐานได้ 15.6% และ 9.1% ตามลำดับใน MATH และ HumanEval |
19 กันยายน 2024 | Scaling Smart: การเร่งการฝึกอบรมล่วงหน้าโมเดลภาษาขนาดใหญ่ด้วยการเริ่มต้นโมเดลขนาดเล็ก | ขั้นตอนก่อนการฝึกอบรมของโมเดลภาษามักจะเริ่มต้นด้วยพารามิเตอร์เริ่มต้นแบบสุ่ม ด้วยแนวโน้มปัจจุบันของโมเดลการปรับขนาด การฝึกพารามิเตอร์จำนวนมากอาจทำได้ช้ามากและมีค่าใช้จ่ายสูง ในทางตรงกันข้าม โมเดลภาษาขนาดเล็กจะมีราคาถูกกว่าในการฝึก แต่มักจะไม่สามารถบรรลุความแม่นยำของโมเดลขนาดใหญ่ได้ ในบทความนี้ เราสำรวจแนวคิดที่น่าสนใจในการเชื่อมโยงระบบการปกครองที่แตกต่างกันทั้งสองนี้: เราสามารถพัฒนาวิธีการเริ่มต้นแบบจำลองภาษาขนาดใหญ่โดยใช้แบบจำลองที่ได้รับการฝึกอบรมล่วงหน้าที่มีขนาดเล็กกว่าได้หรือไม่ การเริ่มต้นดังกล่าวจะก่อให้เกิดประโยชน์ในแง่ของเวลาการฝึกอบรมและความแม่นยำขั้นสุดท้ายหรือไม่ ในบทความนี้ เราขอแนะนำ HyperCloning ซึ่งเป็นวิธีการที่สามารถขยายพารามิเตอร์ของโมเดลภาษาที่ได้รับการฝึกล่วงหน้าไปเป็นโมเดลที่ใหญ่กว่าซึ่งมีมิติที่ซ่อนอยู่เพิ่มขึ้น วิธีการของเราทำให้มั่นใจได้ว่ารุ่นใหญ่ยังคงรักษาฟังก์ชันการทำงานของรุ่นเล็กไว้ได้ ด้วยเหตุนี้ โมเดลที่ใหญ่กว่าจึงสืบทอดพลังในการคาดการณ์และความแม่นยำของโมเดลที่เล็กกว่าก่อนที่การฝึกจะเริ่มขึ้น เราแสดงให้เห็นว่าการฝึกอบรมโมเดลเริ่มต้นดังกล่าวส่งผลให้ประหยัดได้มากในแง่ของชั่วโมง GPU ที่จำเป็นสำหรับการฝึกอบรมโมเดลภาษาขนาดใหญ่ล่วงหน้า |
18 กันยายน 2024 | รายงานทางเทคนิค Qwen2.5-Coder | ในรายงานนี้ เราขอแนะนำซีรีส์ Qwen2.5-Coder ซึ่งเป็นการอัปเกรดที่สำคัญจาก CodeQwen1.5 รุ่นก่อน ซีรี่ส์นี้ประกอบด้วยสองรุ่น: Qwen2.5-Coder-1.5B และ Qwen2.5-Coder-7B เนื่องจากเป็นโมเดลเฉพาะโค้ด Qwen2.5-Coder จึงถูกสร้างขึ้นบนสถาปัตยกรรม Qwen2.5 และยังคงได้รับการฝึกอบรมล่วงหน้าบนคลังข้อมูลอันกว้างใหญ่ที่มีโทเค็นมากกว่า 5.5 ล้านล้านโทเค็น ด้วยการล้างข้อมูลอย่างพิถีพิถัน การสร้างข้อมูลสังเคราะห์ที่ปรับขนาดได้ และการผสมข้อมูลที่สมดุล Qwen2.5-Coder แสดงให้เห็นถึงความสามารถในการสร้างโค้ดที่น่าประทับใจในขณะที่ยังคงความอเนกประสงค์ทั่วไปไว้ แบบจำลองนี้ได้รับการประเมินในงานที่เกี่ยวข้องกับโค้ดที่หลากหลาย โดยบรรลุประสิทธิภาพที่ล้ำสมัย (SOTA) ในการวัดประสิทธิภาพมากกว่า 10 รายการ รวมถึงการสร้างโค้ด ความสมบูรณ์ การให้เหตุผล และการซ่อมแซม ซึ่งมีประสิทธิภาพเหนือกว่าโมเดลขนาดใหญ่กว่าของ ขนาดรุ่นเดียวกัน เราเชื่อว่าการเปิดตัวซีรีส์ Qwen2.5-Coder ไม่เพียงแต่จะขยายขอบเขตของการวิจัยในด้านโค้ดอัจฉริยะเท่านั้น แต่ยังส่งเสริมให้นักพัฒนานำไปใช้ในแอปพลิเคชันในโลกแห่งความเป็นจริงผ่านการอนุญาตให้ใช้สิทธิ์ |
18 กันยายน 2024 | การศึกษาแบบควบคุมเกี่ยวกับการขยายบริบทแบบยาวและลักษณะทั่วไปใน LLM | ความเข้าใจในข้อความกว้างๆ และการเรียนรู้ในบริบทจำเป็นต้องมีแบบจำลองภาษาที่ใช้บริบทเอกสารฉบับเต็ม เนื่องจากความท้าทายในการนำไปใช้ที่เกี่ยวข้องกับการฝึกอบรมโมเดลบริบทแบบยาวโดยตรง จึงมีการนำเสนอวิธีการมากมายสำหรับการขยายโมเดลเพื่อจัดการกับบริบทแบบยาว อย่างไรก็ตาม เนื่องจากความแตกต่างในด้านข้อมูลและคลาสโมเดล การเปรียบเทียบแนวทางเหล่านี้จึงเป็นเรื่องที่ท้าทาย ซึ่งนำไปสู่ความไม่แน่นอนเกี่ยวกับวิธีการประเมินประสิทธิภาพตามบริบทแบบยาว และจะแตกต่างจากการประเมินมาตรฐานหรือไม่ เราใช้โปรโตคอลที่ได้รับการควบคุมสำหรับวิธีการขยายด้วยการประเมินที่เป็นมาตรฐาน โดยใช้แบบจำลองพื้นฐานและข้อมูลส่วนขยายที่สอดคล้องกัน การศึกษาของเราให้ข้อมูลเชิงลึกหลายประการเกี่ยวกับพฤติกรรมที่มีเนื้อหายาว ประการแรก เรายืนยันอีกครั้งถึงบทบาทที่สำคัญของความฉงนสนเท่ห์ในฐานะตัวบ่งชี้ประสิทธิภาพตามวัตถุประสงค์ทั่วไป แม้ในงานที่มีบริบทยาวนานกว่า ประการที่สอง เราพบว่าวิธีการให้ความสนใจโดยประมาณในปัจจุบันมีประสิทธิภาพต่ำกว่างานที่มีบริบทยาวอย่างเป็นระบบ สุดท้ายนี้ เราขอยืนยันว่าวิธีการปรับแต่งอย่างละเอียดโดยทั่วไปนั้นมีประสิทธิภาพภายในช่วงของการขยาย ในขณะที่การประมาณค่ายังคงมีความท้าทาย โค้ดเบส โมเดล และจุดตรวจสอบทั้งหมดจะพร้อมใช้งานแบบโอเพ่นซอร์ส ส่งเสริมความโปร่งใส และอำนวยความสะดวกในการวิจัยเพิ่มเติมในด้านที่สำคัญของการพัฒนา AI |
18 กันยายน 2024 | LLM + Persona-Plug = LLM ส่วนบุคคล | การปรับเปลี่ยนในแบบของคุณมีบทบาทสำคัญในงานและแอปพลิเคชันในภาษาต่างๆ มากมาย เนื่องจากผู้ใช้ที่มีข้อกำหนดเดียวกันอาจต้องการผลลัพธ์ที่หลากหลายตามความสนใจของแต่ละบุคคล สิ่งนี้ได้นำไปสู่การพัฒนาแนวทางส่วนบุคคลต่างๆ ที่มุ่งเป้าไปที่การปรับโมเดลภาษาขนาดใหญ่ (LLM) เพื่อสร้างผลลัพธ์ที่ปรับแต่งให้สอดคล้องกับความต้องการของผู้ใช้ บางส่วนเกี่ยวข้องกับการปรับแต่ง LLM ส่วนบุคคลที่ไม่ซ้ำใครอย่างละเอียดสำหรับผู้ใช้แต่ละราย ซึ่งแพงเกินไปสำหรับแอปพลิเคชันที่แพร่หลาย แนวทางอื่นแนะนำข้อมูลส่วนบุคคลในลักษณะ Plug-and-Play โดยการดึงข้อความประวัติที่เกี่ยวข้องของผู้ใช้เป็นการสาธิต อย่างไรก็ตาม กลยุทธ์ที่ยึดตามการดึงข้อมูลนี้อาจทำลายความต่อเนื่องของประวัติผู้ใช้ และไม่สามารถบันทึกสไตล์และรูปแบบโดยรวมของผู้ใช้ได้ ดังนั้นจึงนำไปสู่ประสิทธิภาพที่ต่ำกว่ามาตรฐาน เพื่อจัดการกับความท้าทายเหล่านี้ เราขอเสนอโมเดล LLM ส่วนบุคคลแบบใหม่ ของเรา{} โดยสร้างการฝังเฉพาะผู้ใช้สำหรับแต่ละบุคคลโดยการสร้างแบบจำลองบริบทในอดีตทั้งหมดของเธอผ่านโมดูลการฝังผู้ใช้ปลั๊กอินขนาดเล็ก ด้วยการแนบการฝังนี้เข้ากับอินพุตงาน LLM สามารถเข้าใจและบันทึกพฤติกรรมและความชอบของผู้ใช้ได้ดีขึ้น ดังนั้นจึงสร้างเอาต์พุตที่เป็นส่วนตัวมากขึ้นโดยไม่ต้องปรับพารามิเตอร์ของตนเอง การทดลองที่ครอบคลุมในงานต่างๆ ในเกณฑ์มาตรฐานการกำหนดโมเดลภาษา (LaMP) แสดงให้เห็นว่าแบบจำลองที่นำเสนอมีประสิทธิภาพเหนือกว่าแนวทาง LLM ส่วนบุคคลที่มีอยู่อย่างมาก |
17 กันยายน 2024 | NVLM: LLM ต่อเนื่องหลายรูปแบบระดับแนวชายแดนแบบเปิด | เราขอแนะนำ NVLM 1.0 ซึ่งเป็นตระกูลของโมเดลภาษาขนาดใหญ่หลายรูปแบบ (LLM) ระดับแนวชายแดนที่ให้ผลลัพธ์ที่ล้ำสมัยในงานด้านภาษาที่มีการมองเห็น ซึ่งทัดเทียมกับโมเดลที่เป็นกรรมสิทธิ์ชั้นนำ (เช่น GPT-4o) และการเข้าถึงแบบเปิด รุ่นต่างๆ (เช่น Llama 3-V 405B และ InternVL 2) เป็นที่น่าสังเกตว่า NVLM 1.0 แสดงประสิทธิภาพแบบข้อความอย่างเดียวที่ได้รับการปรับปรุงให้ดีขึ้นเหนือแกนหลัก LLM หลังจากการฝึกอบรมหลายรูปแบบ ในแง่ของการออกแบบโมเดล เราทำการเปรียบเทียบที่ครอบคลุมระหว่าง LLM มัลติโมดัลแบบถอดรหัสเท่านั้น (เช่น LLaVA) และโมเดลที่เน้นความสนใจข้ามสาย (เช่น Flamingo) จากจุดแข็งและจุดอ่อนของทั้งสองแนวทาง เราเสนอสถาปัตยกรรมใหม่ที่ปรับปรุงทั้งประสิทธิภาพการฝึกอบรมและความสามารถในการใช้เหตุผลหลายรูปแบบ นอกจากนี้ เรายังแนะนำการออกแบบการแท็กไทล์ 1 มิติสำหรับรูปภาพความละเอียดสูงไดนามิกแบบไทล์ ซึ่งช่วยเพิ่มประสิทธิภาพในการให้เหตุผลหลายรูปแบบและงานที่เกี่ยวข้องกับ OCR ได้อย่างมาก ในส่วนของข้อมูลการฝึกอบรม เราดูแลจัดการอย่างพิถีพิถันและให้ข้อมูลโดยละเอียดเกี่ยวกับชุดข้อมูลการฝึกอบรมล่วงหน้าหลายรูปแบบและชุดข้อมูลการปรับแต่งโดยละเอียดที่ได้รับการดูแล การค้นพบของเราระบุว่าคุณภาพของชุดข้อมูลและความหลากหลายของงานมีความสำคัญมากกว่าขนาด แม้แต่ในระหว่างขั้นตอนการฝึกอบรมล่วงหน้าในสถาปัตยกรรมทั้งหมด โดยเฉพาะอย่างยิ่ง เราพัฒนาความสามารถหลากหลายระดับการผลิตสำหรับรุ่น NVLM-1.0 ซึ่งช่วยให้โมเดลเหล่านี้มีความเป็นเลิศในงานภาษาที่มีการมองเห็น ในขณะเดียวกันก็รักษาและปรับปรุงประสิทธิภาพแบบข้อความเท่านั้นเมื่อเทียบกับแกนหลัก LLM เพื่อให้บรรลุเป้าหมายนี้ เราจึงสร้างสรรค์และบูรณาการชุดข้อมูลแบบข้อความคุณภาพสูงเพียงอย่างเดียวเข้ากับการฝึกอบรมหลายรูปแบบ ควบคู่ไปกับข้อมูลทางคณิตศาสตร์และการใช้เหตุผลหลายรูปแบบจำนวนมาก ซึ่งนำไปสู่ความสามารถด้านคณิตศาสตร์และการเขียนโค้ดที่ได้รับการปรับปรุงในรูปแบบต่างๆ เพื่อพัฒนาการวิจัยในสาขานี้ เรากำลังเปิดตัวน้ำหนักโมเดลและจะเปิดซอร์สโค้ดสำหรับชุมชน: https://nvlm-project.github.io/ |
17 กันยายน 2024 | Promptriever: สามารถแจ้งเตือนผู้ดึงข้อมูลที่ได้รับการฝึกอบรมตามคำสั่งได้เหมือนกับโมเดลภาษา | โมเดลภาษาที่ปรับแต่งตามคำสั่ง (LM) สามารถตอบสนองคำสั่งที่จำเป็นได้ โดยให้อินเทอร์เฟซผู้ใช้ที่เป็นธรรมชาติมากกว่าเมื่อเปรียบเทียบกับโมเดลพื้นฐาน ในงานนี้ เรานำเสนอ Promptriever ซึ่งเป็นโมเดลการดึงข้อมูลตัวแรกที่สามารถได้รับพร้อมท์เหมือนกับ LM ในการฝึกอบรม Promptriever เราดูแลและเผยแพร่ชุดการฝึกอบรมคำสั่งระดับอินสแตนซ์ใหม่จาก MS MARCO ซึ่งครอบคลุมอินสแตนซ์เกือบ 500,000 รายการ Promptriever ไม่เพียงแต่ให้ประสิทธิภาพที่แข็งแกร่งในงานดึงข้อมูลมาตรฐานเท่านั้น แต่ยังปฏิบัติตามคำแนะนำอีกด้วย เราสังเกตเห็น: (1) เพิ่มขึ้นอย่างมาก (ถึง SoTA) จากคำแนะนำที่เกี่ยวข้องโดยละเอียด (+14.3 p-MRR / +3.1 nDCG บน FollowIR) (2) เพิ่มความแข็งแกร่งอย่างมากให้กับตัวเลือกคำศัพท์/การใช้ถ้อยคำในแบบสอบถาม+คำสั่ง (+12.9 Robustness@10 บน InstructIR) และ (3) ความสามารถในการค้นหาไฮเปอร์พารามิเตอร์ผ่านการแจ้งให้ปรับปรุงประสิทธิภาพการดึงข้อมูลอย่างน่าเชื่อถือ (เพิ่มขึ้นเฉลี่ย +1.4 ใน เบียร์) Promptriever แสดงให้เห็นว่าแบบจำลองการดึงข้อมูลสามารถควบคุมได้ด้วยพร้อมท์ตามการสืบค้น ซึ่งเป็นการกำหนดขั้นตอนสำหรับการทำงานในอนาคตที่สอดคล้องกับเทคนิคการแจ้ง LM กับการดึงข้อมูล |
17 กันยายน 2024 | การประเมินที่ครอบคลุมของแบบจำลองภาษาขนาดใหญ่ที่ปรับตามคำสั่งเชิงปริมาณ: การวิเคราะห์เชิงทดลองสูงถึง 405B | งานวิจัยก่อนหน้านี้ได้ประเมิน LLM เชิงปริมาณโดยใช้ตัวชี้วัดที่จำกัด เช่น ความฉงนสนเท่ห์หรืองานความรู้พื้นฐานบางอย่างและชุดข้อมูลเก่า นอกจากนี้ โมเดลขนาดใหญ่ล่าสุด เช่น Llama 3.1 ที่มีมากถึง 405B ยังไม่ได้รับการตรวจสอบอย่างละเอียด เอกสารนี้จะประเมินประสิทธิภาพของ LLM ที่ปรับแต่งตามคำแนะนำในวิธีการหาปริมาณต่างๆ (GPTQ, AWQ, SmoothQuant และ FP8) ในรุ่นตั้งแต่ 7B ถึง 405B เราประเมินประสิทธิภาพการทำงานในหกประเภทโดยใช้เกณฑ์มาตรฐาน 13 รายการ ได้แก่ คำถามและคำตอบทั่วไป ความรู้และความเข้าใจภาษา การปฏิบัติตามคำแนะนำ การตรวจจับภาพหลอน คณิตศาสตร์ และบทสนทนา การค้นพบที่สำคัญของเราเผยให้เห็นว่า (1) การหาปริมาณ LLM ที่ใหญ่กว่าให้มีขนาดใกล้เคียงกันกับ FP16 LLM ที่เล็กกว่า โดยทั่วไปแล้วจะทำงานได้ดีกว่าในการวัดประสิทธิภาพส่วนใหญ่ ยกเว้นการตรวจจับอาการประสาทหลอนและการปฏิบัติตามคำแนะนำ; (2) ประสิทธิภาพจะแตกต่างกันอย่างมีนัยสำคัญด้วยวิธีการหาปริมาณ ขนาดแบบจำลอง และความกว้างบิตที่แตกต่างกัน โดยวิธีการแบบน้ำหนักอย่างเดียวมักจะให้ผลลัพธ์ที่ดีกว่าในแบบจำลองที่ใหญ่กว่า (3) ความยากของงานไม่ส่งผลกระทบอย่างมีนัยสำคัญต่อการลดความแม่นยำเนื่องจากการหาปริมาณ และ (4) วิธีการประเมิน MT-Bench มีอำนาจในการเลือกปฏิบัติอย่างจำกัดในหมู่ LLM ที่มีประสิทธิภาพสูงเมื่อเร็วๆ นี้ |
16 กันยายน 2024 | การเรียกความสนใจ: การเร่งการอนุมาน LLM ในบริบทแบบยาวผ่านการเรียกค้นเวกเตอร์ | โมเดลภาษาขนาดใหญ่ (LLM) ที่ใช้ Transformer มีความสำคัญมากขึ้น อย่างไรก็ตาม เนื่องจากความซับซ้อนของเวลากำลังสองของการคำนวณความสนใจ การปรับขยาย LLM ไปยังบริบทที่ยาวขึ้นทำให้เกิดเวลาแฝงในการอนุมานที่ช้ามาก และการใช้หน่วยความจำ GPU สูงสำหรับการแคชเวกเตอร์คีย์-ค่า (KV) บทความนี้เสนอ RetreatalAttention ซึ่งเป็นแนวทางที่ไม่ต้องฝึกอบรมเพื่อเร่งการคำนวณความสนใจและลดการใช้หน่วยความจำ GPU ด้วยการใช้ประโยชน์จากกลไกการกระจายความสนใจแบบไดนามิก RetreatalAttention เสนอให้ใช้ดัชนีการค้นหาเพื่อนบ้านที่ใกล้ที่สุด (ANNS) โดยประมาณสำหรับเวกเตอร์ KV ในหน่วยความจำ CPU และดึงข้อมูลที่เกี่ยวข้องมากที่สุดด้วยการค้นหาเวกเตอร์ในระหว่างการสร้าง น่าเสียดายที่เราสังเกตเห็นว่าดัชนี ANNS ที่มีจำหน่ายทั่วไปมักจะไม่มีประสิทธิภาพสำหรับงานดึงข้อมูลดังกล่าว เนื่องจากการกระจายไม่อยู่ (OOD) ระหว่างเวกเตอร์คิวรีและเวกเตอร์คีย์ในกลไกความสนใจ RetrievalAttention จัดการกับความท้าทาย OOD โดยการออกแบบอัลกอริธึมการค้นหาเวกเตอร์ที่คำนึงถึงความสนใจ ซึ่งสามารถปรับให้เข้ากับการกระจายของเวกเตอร์การสืบค้น การประเมินของเราแสดงให้เห็นว่า RetreatalAttention ต้องการเข้าถึงข้อมูลเพียง 1--3% ในขณะที่ยังคงความแม่นยำของโมเดลไว้ในระดับสูง สิ่งนี้นำไปสู่การลดต้นทุนการอนุมานของ LLM ที่มีบริบทยาวลงอย่างมากพร้อมพื้นที่หน่วยความจำ GPU ที่ต่ำกว่ามาก โดยเฉพาะอย่างยิ่ง RetreatalAttention ต้องการ NVIDIA RTX4090 (24GB) เพียงตัวเดียวสำหรับการให้บริการโทเค็น 128K ใน LLM ด้วยพารามิเตอร์ 8B ซึ่งสามารถสร้างโทเค็นได้หนึ่งรายการใน 0.188 วินาที |
16 กันยายน 2024 | โคลโมโกรอฟ-อาร์โนลด์ ทรานส์ฟอร์มเมอร์ | Transformers ถือเป็นรากฐานสำคัญของการเรียนรู้เชิงลึกที่ทันสมัย โดยทั่วไป โมเดลเหล่านี้อาศัยเลเยอร์ Perceptron หลายชั้น (MLP) เพื่อผสมข้อมูลระหว่างช่องสัญญาณ ในบทความนี้ เราขอแนะนำ Kolmogorov-Arnold Transformer (KAT) ซึ่งเป็นสถาปัตยกรรมใหม่ที่แทนที่เลเยอร์ MLP ด้วยเลเยอร์ Kolmogorov-Arnold Network (KAN) เพื่อเพิ่มความหมายและประสิทธิภาพของแบบจำลอง อย่างไรก็ตาม การรวม KAN เข้ากับหม้อแปลงไฟฟ้าไม่ใช่เรื่องง่าย โดยเฉพาะอย่างยิ่งเมื่อขยายขนาด โดยเฉพาะอย่างยิ่ง เราระบุความท้าทายหลักสามประการ: (C1) ฟังก์ชันพื้นฐาน ฟังก์ชัน B-spline มาตรฐานที่ใช้ใน KAN ไม่ได้รับการปรับให้เหมาะสมสำหรับการประมวลผลแบบขนานบนฮาร์ดแวร์สมัยใหม่ ส่งผลให้ความเร็วในการอนุมานช้าลง (C2) พารามิเตอร์และความไม่มีประสิทธิภาพในการคำนวณ KAN ต้องการฟังก์ชันเฉพาะสำหรับคู่อินพุต-เอาต์พุตแต่ละคู่ ทำให้การคำนวณมีขนาดใหญ่มาก (C3) การเริ่มต้นน้ำหนัก การเริ่มต้นตุ้มน้ำหนักใน KAN เป็นเรื่องที่ท้าทายอย่างยิ่งเนื่องจากมีฟังก์ชันการเปิดใช้งานที่เรียนรู้ได้ ซึ่งมีความสำคัญอย่างยิ่งต่อการบรรลุการบรรจบกันในโครงข่ายประสาทเชิงลึก เพื่อเอาชนะความท้าทายข้างต้น เราเสนอวิธีแก้ปัญหาหลักสามประการ: (S1) พื้นฐานที่มีเหตุผล เราแทนที่ฟังก์ชัน B-spline ด้วยฟังก์ชันที่มีเหตุผลเพื่อปรับปรุงความเข้ากันได้กับ GPU สมัยใหม่ ด้วยการปรับใช้สิ่งนี้ใน CUDA เราจึงสามารถคำนวณได้เร็วขึ้น (S2) กลุ่ม ก.ล. เราแบ่งปันน้ำหนักการเปิดใช้งานผ่านกลุ่มเซลล์ประสาท เพื่อลดภาระในการคำนวณโดยไม่ทำให้ประสิทธิภาพลดลง (S3) การเริ่มต้นการรักษาความแปรปรวน เราเริ่มต้นการเปิดใช้งานน้ำหนักการเปิดใช้งานอย่างรอบคอบเพื่อให้แน่ใจว่าความแปรปรวนการเปิดใช้งานนั้นได้รับการบำรุงรักษาผ่านเลเยอร์ ด้วยการออกแบบเหล่านี้ KAT จะปรับขนาดได้อย่างมีประสิทธิภาพและมีประสิทธิภาพสูงกว่าหม้อแปลง MLP แบบดั้งเดิม |
16 กันยายน 2567 | ในแผนภาพความคิด | เราแนะนำไดอะแกรมของความคิด (DOT) ซึ่งเป็นเฟรมเวิร์กที่จำลองการใช้เหตุผลซ้ำ ๆ ในรูปแบบภาษาขนาดใหญ่ (LLMS) เป็นการสร้างกราฟอะซิลิค (DAG) โดยตรงภายในรุ่นเดียว ซึ่งแตกต่างจากวิธีการดั้งเดิมที่แสดงถึงการใช้เหตุผลเป็นโซ่เชิงเส้นหรือต้นไม้จุดจัดระเบียบข้อเสนอการวิพากษ์วิจารณ์การปรับแต่งและการตรวจสอบในโครงสร้าง DAG ที่เหนียวแน่นช่วยให้แบบจำลองสำรวจเส้นทางการให้เหตุผลที่ซับซ้อนในขณะที่รักษาความสอดคล้องเชิงตรรกะ แต่ละโหนดในไดอะแกรมสอดคล้องกับข้อเสนอที่ได้รับการเสนอ, วิพากษ์วิจารณ์, การกลั่น, การปรับปรุงหรือตรวจสอบทำให้ LLM สามารถปรับปรุงการใช้เหตุผลซ้ำ ๆ ผ่านข้อเสนอแนะภาษาธรรมชาติ ด้วยการใช้ประโยชน์จากการทำนายการคาดการณ์ล่วงหน้าโดยอัตโนมัติด้วยโทเค็นเฉพาะบทบาท DOT อำนวยความสะดวกในการเปลี่ยนผ่านอย่างราบรื่นระหว่างการเสนอความคิดและการประเมินอย่างยิ่ง นอกจากนี้เรายังทำให้เฟรมเวิร์ก DOT เป็นทางการโดยใช้ทฤษฎี Topos ซึ่งเป็นรากฐานทางคณิตศาสตร์ที่ทำให้มั่นใจได้ถึงความสอดคล้องเชิงตรรกะและความสมบูรณ์ในกระบวนการให้เหตุผล วิธีการนี้ช่วยเพิ่มทั้งกระบวนการฝึกอบรมและการอนุมานภายใน LLM เดียวไม่จำเป็นต้องใช้หลายรุ่นหรือกลไกการควบคุมภายนอก DOT นำเสนอกรอบแนวคิดสำหรับการออกแบบแบบจำลองการใช้เหตุผลรุ่นต่อไปโดยเน้นประสิทธิภาพการฝึกอบรมความสามารถในการใช้เหตุผลที่แข็งแกร่งและการต่อสายดินเชิงทฤษฎี รหัสนี้มีอยู่ที่ https://github.com/diagram-of-thought/diagram-of-thought |
12 กันยายน 2567 | DSBENCH: ตัวแทนวิทยาศาสตร์ข้อมูลอยู่ไกลแค่ไหนในการเป็นผู้เชี่ยวชาญด้านวิทยาศาสตร์ข้อมูล? | โมเดลภาษาขนาดใหญ่ (LLMS) และแบบจำลองภาษาวิสัยทัศน์ขนาดใหญ่ (LVLMS) ได้แสดงให้เห็นถึงความสามารถในการใช้เหตุผล/การมองเห็นที่น่าประทับใจโดยจุดไฟล่าสุดของตัวแทนอาคารสำหรับแอพพลิเคชั่นเป้าหมายเช่นผู้ช่วยช็อปปิ้งหรือวิศวกรซอฟต์แวร์ AI เมื่อเร็ว ๆ นี้มีการเสนอมาตรฐานวิทยาศาสตร์ข้อมูลจำนวนมากเพื่อตรวจสอบประสิทธิภาพของพวกเขาในโดเมนวิทยาศาสตร์ข้อมูล อย่างไรก็ตามเกณฑ์มาตรฐานวิทยาศาสตร์ข้อมูลที่มีอยู่ยังคงสั้นเมื่อเทียบกับแอพพลิเคชั่นวิทยาศาสตร์ข้อมูลในโลกแห่งความเป็นจริงเนื่องจากการตั้งค่าที่ง่ายขึ้น ในการเชื่อมช่องว่างนี้เราแนะนำ Dsbench ซึ่งเป็นเกณฑ์มาตรฐานที่ครอบคลุมซึ่งออกแบบมาเพื่อประเมินตัวแทนวิทยาศาสตร์ข้อมูลด้วยงานที่สมจริง เกณฑ์มาตรฐานนี้รวมถึงงานวิเคราะห์ข้อมูล 466 รายการและงานสร้างแบบจำลองข้อมูล 74 รายการที่มาจากการแข่งขันที่มีคารมคมคายและ Kaggle DSBench นำเสนอการตั้งค่าที่เป็นจริงโดยครอบคลุมบริบทที่ยาวนานพื้นหลังงานหลายรูปแบบการให้เหตุผลกับไฟล์ข้อมูลขนาดใหญ่และโครงสร้างหลายตารางและดำเนินการสร้างแบบจำลองข้อมูลแบบ end-to-end การประเมินผล LLMS, LVLMS และตัวแทนที่ทันสมัยของเราแสดงให้เห็นว่าพวกเขาต่อสู้กับงานส่วนใหญ่ด้วยตัวแทนที่ดีที่สุดในการแก้ปัญหาเพียง 34.12% ของงานวิเคราะห์ข้อมูลและบรรลุช่องว่างประสิทธิภาพสัมพัทธ์ 34.74% (RPG) การค้นพบเหล่านี้เน้นย้ำถึงความจำเป็นในการพัฒนาเพิ่มเติมในการพัฒนาตัวแทนวิทยาศาสตร์ข้อมูลที่เป็นประโยชน์ฉลาดและเป็นอิสระมากขึ้น |
10 กันยายน 2567 | PINGPONG: มาตรฐานสำหรับแบบจำลองภาษาที่สวมบทบาทพร้อมการจำลองผู้ใช้และการประเมินแบบหลายรูปแบบ | เราแนะนำมาตรฐานใหม่สำหรับการประเมินความสามารถในการสวมบทบาทของแบบจำลองภาษา วิธีการของเราใช้ประโยชน์จากแบบจำลองภาษาเพื่อเลียนแบบผู้ใช้ในการสนทนาแบบไดนามิกหลายครั้งและเพื่อประเมินบทสนทนาที่เกิดขึ้น เฟรมเวิร์กประกอบด้วยสามองค์ประกอบหลัก: โมเดลผู้เล่นที่สมมติว่าบทบาทของตัวละครเฉพาะ, โมเดลผู้สอบสวนจำลองพฤติกรรมผู้ใช้และโมเดลผู้ตัดสินประเมินคุณภาพการสนทนา เราทำการทดลองเปรียบเทียบการประเมินอัตโนมัติกับคำอธิบายประกอบของมนุษย์เพื่อตรวจสอบวิธีการของเราแสดงให้เห็นถึงความสัมพันธ์ที่แข็งแกร่งในหลายเกณฑ์ งานนี้เป็นรากฐานสำหรับการประเมินความสามารถของแบบจำลองที่แข็งแกร่งและไดนามิกในสถานการณ์แบบโต้ตอบ |
10 กันยายน 2567 | llama-omni: การโต้ตอบการพูดไร้รอยต่อกับโมเดลภาษาขนาดใหญ่ | แบบจำลองเช่น GPT-4O เปิดใช้งานการโต้ตอบแบบเรียลไทม์กับโมเดลภาษาขนาดใหญ่ (LLMS) ผ่านการพูดเพิ่มประสบการณ์ผู้ใช้อย่างมีนัยสำคัญเมื่อเทียบกับการโต้ตอบแบบข้อความแบบดั้งเดิม อย่างไรก็ตามยังมีการขาดการสำรวจเกี่ยวกับวิธีการสร้างแบบจำลองการโต้ตอบคำพูดตาม LLM โอเพนซอร์ส เพื่อแก้ไขปัญหานี้เราเสนอ Llama-Omni ซึ่งเป็นสถาปัตยกรรมแบบจำลองนวนิยายที่ออกแบบมาสำหรับการโต้ตอบแบบความหน่วงต่ำและการพูดคุยที่มีคุณภาพสูงกับ LLMS Llama-Omni รวมตัวเข้ารหัสคำพูดที่ผ่านการฝึกฝนไว้, อะแดปเตอร์คำพูด, LLM และตัวถอดรหัสการพูดสตรีมมิ่ง มันไม่จำเป็นต้องถอดความคำพูดและสามารถสร้างการตอบสนองข้อความและคำพูดได้โดยตรงจากคำแนะนำการพูดด้วยเวลาแฝงต่ำมาก เราสร้างแบบจำลองของเราตามรูปแบบ LLAMA-3.1-8B-Instruct ล่าสุด ในการจัดรูปแบบให้สอดคล้องกับสถานการณ์การโต้ตอบคำพูดเราสร้างชุดข้อมูลที่ชื่อว่า Instructs2S-200K ซึ่งรวมถึงคำแนะนำการพูด 200k และการตอบสนองคำพูดที่สอดคล้องกัน ผลการทดลองแสดงให้เห็นว่าเมื่อเปรียบเทียบกับโมเดลภาษาพูดก่อนหน้านี้ Llama-OMNI ให้การตอบสนองที่ดีขึ้นทั้งในเนื้อหาและสไตล์โดยมีการตอบสนองต่อการตอบสนองต่ำถึง 226ms นอกจากนี้การฝึกอบรม Llama-Omni ใช้เวลาน้อยกว่า 3 วันในเวลาเพียง 4 GPUs ปูทางไปสู่การพัฒนาแบบจำลองภาษาพูดที่มีประสิทธิภาพในอนาคต |
10 กันยายน 2567 | แบบจำลองภาษาขนาดใหญ่สามารถปลดล็อคแนวคิดการวิจัยทางวิทยาศาสตร์ที่แปลกใหม่ได้หรือไม่? | "ความคิดคือไม่มีอะไรมากไปกว่าการผสมผสานระหว่างองค์ประกอบเก่าใหม่" (Young, JW) การยอมรับอย่างกว้างขวางของแบบจำลองภาษาขนาดใหญ่ (LLMs) และ ChatGPT ที่เปิดเผยต่อสาธารณะได้ทำเครื่องหมายจุดเปลี่ยนที่สำคัญในการบูรณาการปัญญาประดิษฐ์ (AI) เข้ากับชีวิตประจำวันของผู้คน การศึกษาครั้งนี้สำรวจความสามารถของ LLM ในการสร้างแนวคิดการวิจัยใหม่ตามข้อมูลจากงานวิจัย เราทำการตรวจสอบอย่างละเอียด 4 LLM ในห้าโดเมน (เช่นเคมีคอมพิวเตอร์เศรษฐศาสตร์การแพทย์และฟิสิกส์) เราพบว่าแนวคิดการวิจัยในอนาคตที่สร้างขึ้นโดย Claude-2 และ GPT-4 นั้นสอดคล้องกับมุมมองของผู้เขียนมากกว่า GPT-3.5 และราศีเมถุน นอกจากนี้เรายังพบว่า Claude-2 สร้างแนวคิดการวิจัยในอนาคตที่หลากหลายมากกว่า GPT-4, GPT-3.5 และ Gemini 1.0 เราทำการประเมินความแปลกใหม่ความเกี่ยวข้องและความเป็นไปได้ของแนวคิดการวิจัยในอนาคตที่สร้างขึ้นต่อไป การสอบสวนนี้นำเสนอข้อมูลเชิงลึกเกี่ยวกับบทบาทการพัฒนาของ LLM ในการสร้างความคิดโดยเน้นทั้งความสามารถและข้อ จำกัด งานของเรามีส่วนช่วยอย่างต่อเนื่องในการประเมินและใช้แบบจำลองภาษาสำหรับการสร้างแนวคิดการวิจัยในอนาคต เราทำให้ชุดข้อมูลและรหัสของเราเปิดเผยต่อสาธารณะ |
9 กันยายน 2567 | SongCreator: Universal Song Generation | ดนตรีเป็นส่วนสำคัญของวัฒนธรรมของมนุษย์รวบรวมความฉลาดและความคิดสร้างสรรค์ของมนุษย์ซึ่งเพลงประกอบด้วยส่วนสำคัญ ในขณะที่แง่มุมต่าง ๆ ของการสร้างเพลงได้รับการสำรวจโดยผลงานก่อนหน้านี้เช่นเสียงร้องเพลงการแต่งเพลงและการจัดเรียงที่เป็นเครื่องมือ ฯลฯ การสร้างเพลงที่มีทั้งเสียงร้องและการประกอบเนื้อเพลงยังคงเป็นความท้าทายที่สำคัญ โลกแห่งความเป็นจริง ในแง่นี้เราเสนอ SongCreator ซึ่งเป็นระบบรุ่นเพลงที่ออกแบบมาเพื่อจัดการกับความท้าทายนี้ โมเดลมีการออกแบบนวนิยายสองแบบ: โมเดลภาษาคู่ที่ออกแบบอย่างพิถีพิถัน (DSLM) เพื่อรวบรวมข้อมูลของเสียงร้องและการประกอบสำหรับการสร้างเพลงและกลยุทธ์หน้ากากความสนใจเพิ่มเติมสำหรับ DSLM ซึ่งช่วยให้โมเดลของเราเข้าใจสร้างและแก้ไขเพลงและแก้ไขเพลง ทำให้เหมาะสำหรับงานรุ่นที่เกี่ยวข้องกับเพลงต่างๆ การทดลองอย่างกว้างขวางแสดงให้เห็นถึงประสิทธิภาพของ songcreator โดยการบรรลุการแสดงที่ล้ำสมัยหรือการแข่งขันในงานทั้งแปด โดยเฉพาะอย่างยิ่งมันเกินกว่าผลงานก่อนหน้านี้ด้วยอัตรากำไรขั้นต้นขนาดใหญ่ในเนื้อเพลงถึงเพลงและเนื้อเพลงไปยัง vocals นอกจากนี้ยังสามารถควบคุมเงื่อนไขอะคูสติกของเสียงร้องและการประกอบในเพลงที่สร้างขึ้นได้อย่างอิสระผ่านการแจ้งเตือนที่แตกต่างกันแสดงให้เห็นถึงการบังคับใช้ที่อาจเกิดขึ้น ตัวอย่างของเรามีอยู่ที่ https://songcreator.github.io/ |
9 กันยายน 2567 | Hyperagent: ตัวแทนวิศวกรรมซอฟต์แวร์ทั่วไปเพื่อแก้ปัญหาการเขียนโค้ดในระดับ | แบบจำลองภาษาขนาดใหญ่ (LLMS) ได้ปฏิวัติวิศวกรรมซอฟต์แวร์ (SE) แสดงให้เห็นถึงความสามารถที่น่าทึ่งในงานการเข้ารหัสต่างๆ ในขณะที่ความพยายามล่าสุดได้ผลิตตัวแทนซอฟต์แวร์อัตโนมัติตาม LLMs สำหรับงานการพัฒนาแบบครบวงจร แต่ระบบเหล่านี้มักจะออกแบบมาสำหรับงาน SE ที่เฉพาะเจาะจง เราแนะนำ Hyperagent ซึ่งเป็นระบบหลายตัวแทนทั่วไปที่ออกแบบมาเพื่อจัดการกับงาน SE ที่หลากหลายในภาษาการเขียนโปรแกรมที่แตกต่างกันโดยการเลียนแบบเวิร์กโฟลว์ของนักพัฒนามนุษย์ ประกอบด้วยตัวแทนเฉพาะสี่คน - Planner, Navigator, Code Editor และ Executor Hyperagent จัดการวงจรชีวิตเต็มรูปแบบของงาน SE ตั้งแต่แนวคิดเริ่มต้นไปจนถึงการตรวจสอบขั้นสุดท้าย ผ่านการประเมินอย่างกว้างขวาง hyperagent บรรลุประสิทธิภาพที่ล้ำสมัยในงาน SE ที่หลากหลาย: มันบรรลุอัตราความสำเร็จ 25.01% สำหรับ Swe-Bench-Lite และ 31.40% สำหรับการตรวจสอบ SWE-bench สำหรับการแก้ปัญหาปัญหา GitHub นอกจากนี้ hyperagent ยังแสดงให้เห็นถึงประสิทธิภาพของ SOTA ในการสร้างรหัสระดับที่เก็บ (repoExec) และในการแปลความผิดและการซ่อมแซมโปรแกรม (ข้อบกพร่อง 4J) มักจะมีประสิทธิภาพสูงกว่าระบบพิเศษ งานนี้แสดงให้เห็นถึงความก้าวหน้าที่สำคัญต่อตัวแทนอิสระที่สามารถจัดการงานที่ซับซ้อนได้หลายขั้นตอนในโดเมนและภาษาต่างๆ |
9 กันยายน 2567 | Memorag: ย้ายไปสู่ผ้าขี้ริ้วรุ่นต่อไปผ่านการค้นพบความรู้ที่ได้รับแรงบันดาลใจจากหน่วยความจำ | Retrieval-Augmented Generation (RAG) ใช้ประโยชน์จากเครื่องมือดึงข้อมูลเพื่อเข้าถึงฐานข้อมูลภายนอกซึ่งจะช่วยเพิ่มคุณภาพการสร้างของแบบจำลองภาษาขนาดใหญ่ (LLMs) ผ่านบริบทที่ดีที่สุด อย่างไรก็ตามวิธีการดึงข้อมูลที่มีอยู่นั้นถูก จำกัด โดยเนื้อแท้เนื่องจากพวกเขาสามารถทำการจับคู่ที่เกี่ยวข้องระหว่างการสืบค้นที่ระบุไว้อย่างชัดเจนและความรู้ที่มีรูปแบบที่ดี แต่ไม่สามารถจัดการงานที่เกี่ยวข้องกับความต้องการข้อมูลที่ไม่ชัดเจนหรือความรู้ที่ไม่มีโครงสร้าง ดังนั้นระบบ RAG ที่มีอยู่นั้นมีประสิทธิภาพเป็นหลักสำหรับงานตอบคำถามที่ตรงไปตรงมา ในงานนี้เราเสนอ Memorag ซึ่งเป็นกระบวนทัศน์รุ่นใหม่ที่ถูกดึงกลับมาใช้ใหม่ได้รับอำนาจจากความทรงจำระยะยาว Memorag ใช้สถาปัตยกรรมระบบคู่ ในอีกด้านหนึ่งมันใช้ LLM ที่มีน้ำหนักเบา แต่ระยะยาวเพื่อสร้างหน่วยความจำทั่วโลกของฐานข้อมูล เมื่อมีการนำเสนองานแล้วจะสร้างคำตอบแบบร่างโดยรวมเครื่องมือดึงข้อมูลเพื่อค้นหาข้อมูลที่เป็นประโยชน์ภายในฐานข้อมูล ในทางกลับกันมันใช้ประโยชน์จาก LLM ที่มีราคาแพง แต่แสดงออกซึ่งสร้างคำตอบที่ดีที่สุดตามข้อมูลที่ดึงมา จากกรอบทั่วไปนี้เราจะเพิ่มประสิทธิภาพการทำงานของ Memorag โดยเพิ่มกลไกการ cluing และความสามารถในการท่องจำ ในการทดลองของเรา Memorag ได้รับประสิทธิภาพที่เหนือกว่าในงานการประเมินที่หลากหลายรวมถึงงานที่ซับซ้อนซึ่งผ้าขี้ริ้วทั่วไปล้มเหลวและตรงไปตรงมาที่ใช้ RAG โดยทั่วไป |
8 กันยายน 2567 | OneGen: ENEFITED ONEIFIED GENERANT และการดึงข้อมูลสำหรับ LLMS | แม้จะมีความก้าวหน้าเมื่อเร็ว ๆ นี้ในรูปแบบภาษาขนาดใหญ่ (LLMS) ซึ่งได้ปรับปรุงความสามารถในการกำเนิดสำหรับงาน NLP ต่างๆอย่างมีนัยสำคัญ LLM ยังคงเผชิญกับข้อ จำกัด ในการจัดการงานดึงโดยตรง อย่างไรก็ตามแอพพลิเคชั่นที่ใช้งานได้จริงจำนวนมากต้องการการรวมกันอย่างราบรื่นของทั้งการดึงและการสร้าง บทความนี้แนะนำการสร้างหนึ่งครั้งและการเรียกคืนหนึ่งครั้งและการดึงข้อมูลใหม่ (OneGen) ซึ่งออกแบบมาเพื่อปรับปรุงประสิทธิภาพของ LLMS ในงานที่ต้องใช้ทั้งรุ่นและการดึงข้อมูล เฟรมเวิร์กที่เสนอเชื่อมโยงแนวทางการฝึกอบรมแบบแยกต่างหากสำหรับรุ่นและการดึงข้อมูลโดยการรวมโทเค็นการดึงข้อมูลที่สร้างขึ้นโดยอัตโนมัติ สิ่งนี้ช่วยให้ LLM เดียวสามารถจัดการงานทั้งสองพร้อมกันได้ในการส่งต่อแบบครบวงจร เราทำการทดลองเกี่ยวกับงานคอมโพสิตสองประเภทที่แตกต่างกันการเชื่อมโยงผ้าขี้ริ้วและเอนทิตีเพื่อตรวจสอบความสามารถในการต่อสู้ประสิทธิภาพและประสิทธิภาพของ OneGen ในการฝึกอบรมและการอนุมาน นอกจากนี้ผลลัพธ์ของเราแสดงให้เห็นว่าการรวมการสร้างและการดึงข้อมูลภายในบริบทเดียวกันยังคงรักษาความสามารถในการกำเนิดของ LLM ในขณะที่ปรับปรุงประสิทธิภาพการดึงข้อมูล เพื่อความรู้ที่ดีที่สุดของเรา OneGen เป็นคนแรกที่เปิดใช้งาน LLMS เพื่อดำเนินการดึงเวกเตอร์ในระหว่างรุ่น |
6 กันยายน 2567 | Paper Copilot: ระบบ LLM ที่มีประสิทธิภาพและมีประสิทธิภาพสำหรับความช่วยเหลือด้านวิชาการส่วนบุคคล | ในฐานะที่เป็นงานวิจัยทางวิทยาศาสตร์ที่เพิ่มขึ้นนักวิจัยต้องเผชิญกับงานที่น่ากลัวในการนำทางและอ่านวรรณกรรมจำนวนมาก โซลูชันที่มีอยู่เช่นเอกสาร QA ไม่สามารถให้ข้อมูลส่วนบุคคลและทันสมัยได้อย่างมีประสิทธิภาพ เรานำเสนอ Paper Copilot ซึ่งเป็นระบบ LLM ที่มีประสิทธิภาพการพัฒนาตนเองที่ออกแบบมาเพื่อช่วยเหลือนักวิจัยโดยอิงจากความคิดการแก้ไขโปรไฟล์ผู้ใช้และการเพิ่มประสิทธิภาพประสิทธิภาพสูง โดยเฉพาะ Copilot กระดาษสามารถให้บริการการวิจัยส่วนบุคคลรักษาฐานข้อมูลที่ได้รับการปรับปรุงแบบเรียลไทม์ การประเมินเชิงปริมาณแสดงให้เห็นว่า Copilot กระดาษช่วยประหยัดเวลาได้ 69.92% หลังจากการปรับใช้อย่างมีประสิทธิภาพ บทความนี้ให้รายละเอียดเกี่ยวกับการออกแบบและการใช้งานของ Copilot กระดาษโดยเน้นการมีส่วนร่วมในการสนับสนุนทางวิชาการส่วนบุคคลและศักยภาพในการปรับปรุงกระบวนการวิจัย |
5 กันยายน 2567 | หัวความสนใจของแบบจำลองภาษาขนาดใหญ่: การสำรวจ | ตั้งแต่การถือกำเนิดของ CHATGPT โมเดลภาษาขนาดใหญ่ (LLM) ได้เก่งในงานต่าง ๆ แต่ยังคงเป็นระบบกล่องดำ ดังนั้นคอขวดที่ให้เหตุผลของ LLMs ส่วนใหญ่ได้รับอิทธิพลจากสถาปัตยกรรมภายในของพวกเขา เป็นผลให้นักวิจัยหลายคนเริ่มสำรวจกลไกภายในที่อาจเกิดขึ้นของ LLM โดยการศึกษาส่วนใหญ่มุ่งเน้นไปที่หัวความสนใจ การสำรวจของเรามีจุดมุ่งหมายเพื่อให้ความกระจ่างเกี่ยวกับกระบวนการให้เหตุผลภายในของ LLM โดยมุ่งเน้นไปที่กลไกพื้นฐานของหัวความสนใจ ก่อนอื่นเราจะกลั่นกระบวนการคิดของมนุษย์ลงในกรอบสี่ขั้นตอน: การเรียกคืนความรู้การระบุในบริบทการใช้เหตุผลแฝงและการเตรียมการแสดงออก การใช้เฟรมเวิร์กนี้เราจะตรวจสอบการวิจัยที่มีอยู่อย่างเป็นระบบเพื่อระบุและจัดหมวดหมู่ฟังก์ชั่นของหัวความสนใจเฉพาะ นอกจากนี้เราสรุปวิธีการทดลองที่ใช้ในการค้นพบหัวพิเศษเหล่านี้แบ่งออกเป็นสองประเภท: วิธีการสร้างแบบจำลองฟรีและวิธีการที่ต้องการการสร้างแบบจำลอง นอกจากนี้เรายังร่างวิธีการประเมินและมาตรฐานที่เกี่ยวข้อง ในที่สุดเราจะหารือเกี่ยวกับข้อ จำกัด ของการวิจัยในปัจจุบันและเสนอทิศทางที่เป็นไปได้หลายทิศทางในอนาคต |
5 กันยายน 2567 | รหัส LLM ของคุณทำงานอย่างไร? เพิ่มขีดความสามารถในการปรับแต่งรหัสการปรับแต่งด้วยข้อมูลคุณภาพสูง | เมื่อเร็ว ๆ นี้มีความสนใจเพิ่มขึ้นในการศึกษาวิธีการสร้างข้อมูลการปรับแต่งโค้ดที่ดีขึ้น อย่างไรก็ตามเราสังเกตโมเดลรหัสที่ได้รับการฝึกฝนด้วยชุดข้อมูลเหล่านี้แสดงประสิทธิภาพสูงใน HumanEval แต่ทำงานได้แย่ลงในการวัดประสิทธิภาพอื่น ๆ เช่น LiveCodeBench จากการตรวจสอบเพิ่มเติมเราพบว่าชุดข้อมูลจำนวนมากประสบกับการรั่วไหลของข้อมูลอย่างรุนแรง หลังจากทำความสะอาดข้อมูลที่รั่วไหลออกมาส่วนใหญ่ชุดข้อมูลคุณภาพสูงที่รู้จักกันดีบางชุดทำงานได้ไม่ดี การค้นพบนี้แสดงให้เห็นถึงความท้าทายใหม่: การระบุชุดข้อมูลใดที่มีคุณสมบัติอย่างแท้จริงว่าเป็นข้อมูลคำสั่งรหัสคุณภาพสูง ในการแก้ไขปัญหานี้เราเสนอกลยุทธ์การตัดแต่งข้อมูลรหัสที่มีประสิทธิภาพสำหรับการเลือกตัวอย่างที่ดี วิธีการของเราขึ้นอยู่กับสามมิติ: ความซับซ้อนในการสอนคุณภาพการตอบสนองและความหลากหลายของการเรียนการสอน จากข้อมูลที่เราเลือกเรานำเสนอ Xcoder ซึ่งเป็นตระกูลของนางแบบที่ได้รับจาก Llama3 การทดลองของเราแสดงให้เห็นว่า Xcoder บรรลุประสิทธิภาพที่ทันสมัยใหม่โดยใช้ข้อมูลการฝึกอบรมที่น้อยลงซึ่งตรวจสอบประสิทธิภาพของกลยุทธ์ข้อมูลของเรา ยิ่งไปกว่านั้นเราทำการวิเคราะห์ที่ครอบคลุมเกี่ยวกับองค์ประกอบข้อมูลและค้นหาชุดข้อมูลรหัสที่มีอยู่มีลักษณะที่แตกต่างกันตามวิธีการก่อสร้างซึ่งให้ข้อมูลเชิงลึกใหม่สำหรับรหัสในอนาคต LLMS โมเดลและชุดข้อมูลของเราได้รับการเผยแพร่ใน https://github.com/banksy23/xcoder |
5 กันยายน 2567 | จาก MOOC ถึง MAIC: ปรับเปลี่ยนการสอนออนไลน์และการเรียนรู้ผ่านตัวแทนที่ขับเคลื่อนด้วย LLM | ตั้งแต่อินสแตนซ์แรกของการศึกษาออนไลน์ที่มีการอัปโหลดหลักสูตรไปยังแพลตฟอร์มออนไลน์ที่เข้าถึงได้และแบ่งปันรูปแบบการขยายการเผยแพร่ความรู้ของมนุษย์เพื่อเข้าถึงผู้ชมที่กว้างขึ้นได้จุดประกายการอภิปรายอย่างกว้างขวางและการยอมรับอย่างกว้างขวาง ตระหนักว่าการเรียนรู้ส่วนบุคคลยังคงมีศักยภาพที่สำคัญสำหรับการปรับปรุงเทคโนโลยี AI ใหม่ได้รับการบูรณาการอย่างต่อเนื่องในรูปแบบการเรียนรู้นี้ส่งผลให้แอพพลิเคชั่น AI การศึกษาที่หลากหลายเช่นคำแนะนำทางการศึกษาและการสอนอัจฉริยะ การเกิดขึ้นของความฉลาดในแบบจำลองภาษาขนาดใหญ่ (LLMS) ได้รับอนุญาตให้การปรับปรุงการศึกษาเหล่านี้สร้างขึ้นบนแบบจำลองพื้นฐานแบบครบวงจรทำให้การรวมเข้าด้วยกันอย่างลึกซึ้งยิ่งขึ้น ในบริบทนี้เราเสนอ MAIC (หลักสูตร AI ที่มีอำนาจมาก) ซึ่งเป็นรูปแบบใหม่ของการศึกษาออนไลน์ที่ใช้ประโยชน์จากระบบหลายตัวแทนที่ขับเคลื่อนด้วย LLM เพื่อสร้างห้องเรียน AI-Augmented สร้างสมดุลให้กับการปรับขนาดด้วยการปรับตัว นอกเหนือจากการสำรวจกรอบแนวคิดและนวัตกรรมทางเทคนิคแล้วเรายังทำการทดลองเบื้องต้นที่มหาวิทยาลัย Tsinghua ซึ่งเป็นหนึ่งในมหาวิทยาลัยชั้นนำของจีน จากบันทึกการเรียนรู้มากกว่า 100,000 รายการของนักเรียนมากกว่า 500 คนเราได้รับการสังเกตที่มีค่าและการวิเคราะห์เบื้องต้น โครงการนี้จะยังคงพัฒนาต่อไปโดยมีจุดประสงค์เพื่อสร้างแพลตฟอร์มแบบเปิดที่ครอบคลุมซึ่งสนับสนุนและรวมการวิจัยเทคโนโลยีและแอพพลิเคชั่นในการสำรวจความเป็นไปได้ของการศึกษาออนไลน์ในยุคของโมเดล AI ขนาดใหญ่ เราจินตนาการถึงแพลตฟอร์มนี้ในฐานะศูนย์กลางการทำงานร่วมกันรวบรวมนักการศึกษานักวิจัยและนักประดิษฐ์เพื่อสำรวจอนาคตของการศึกษาออนไลน์ที่ขับเคลื่อนด้วย AI |
4 กันยายน 2567 | Longcite: เปิดใช้งาน LLMS เพื่อสร้างการอ้างอิงที่ละเอียดใน QA บริบทยาว | แม้ว่าโมเดลภาษาขนาดใหญ่ที่มีบริบทยาว (LLMs) ปัจจุบันได้แสดงให้เห็นถึงความสามารถที่น่าประทับใจในการตอบคำถามผู้ใช้ตามข้อความที่กว้างขวาง แต่การขาดการอ้างอิงในการตอบสนองทำให้การตรวจสอบของผู้ใช้เป็นเรื่องยากซึ่งนำไปสู่ความกังวลเกี่ยวกับความน่าเชื่อถือของพวกเขาเนื่องจากภาพหลอนที่อาจเกิดขึ้น ในงานนี้เรามุ่งมั่นที่จะเปิดใช้งาน LLMS บริบทยาวเพื่อสร้างคำตอบด้วยการอ้างอิงระดับประโยคที่ดีปรับปรุงความซื่อสัตย์และการตรวจสอบความสามารถ ก่อนอื่นเราแนะนำ Longbench-Cite ซึ่งเป็นเกณฑ์มาตรฐานอัตโนมัติสำหรับการประเมินประสิทธิภาพของ LLMS ในปัจจุบันในการตอบคำถามบริบทยาว ๆ ด้วยการอ้างอิง (LQAC) ซึ่งเผยให้เห็นพื้นที่มากมายสำหรับการปรับปรุง ด้วยเหตุนี้เราจึงเสนอ COF (หยาบถึง Fine) ไปป์ไลน์นวนิยายที่ใช้ LLMs นอกชั้นวางเพื่อสร้างอินสแตนซ์ QA บริบทยาวโดยอัตโนมัติด้วยการอ้างอิงระดับประโยคที่แม่นยำและใช้ประโยชน์จากท่อนี้เพื่อสร้าง Longcite-45K ชุดข้อมูล SFT ขนาดใหญ่สำหรับ LQAC ในที่สุดเราฝึกฝน Longcite-8b และ Longcite-9b โดยใช้ชุดข้อมูล Longcite-45K ทำให้สามารถสร้างการตอบสนองที่แม่นยำและการอ้างอิงระดับประโยคที่ดีในเอาต์พุตเดียว ผลการประเมินผลของ Longbench-Cite แสดงให้เห็นว่าแบบจำลองที่ผ่านการฝึกอบรมของเราบรรลุคุณภาพการอ้างอิงที่ล้ำสมัยซึ่งเหนือกว่าโมเดลที่เป็นกรรมสิทธิ์ขั้นสูงรวมถึง GPT-4O |
4 กันยายน 2567 | Longllava: การปรับขนาด LLM แบบหลายรูปแบบเป็น 1,000 ภาพอย่างมีประสิทธิภาพผ่านสถาปัตยกรรมไฮบริด | การขยายขีดความสามารถในการบริบทยาวของแบบจำลองภาษาขนาดใหญ่หลายรูปแบบ ~ (MLLMS) เป็นสิ่งสำคัญสำหรับการทำความเข้าใจวิดีโอความเข้าใจภาพความละเอียดสูงและตัวแทนหลายโหมด สิ่งนี้เกี่ยวข้องกับชุดของการปรับให้เหมาะสมอย่างเป็นระบบรวมถึงสถาปัตยกรรมแบบจำลองการสร้างข้อมูลและกลยุทธ์การฝึกอบรมโดยเฉพาะอย่างยิ่งการจัดการกับความท้าทายเช่น textit {ประสิทธิภาพที่เสื่อมโทรมด้วยรูปภาพเพิ่มเติม} และ textit {ค่าใช้จ่ายในการคำนวณสูง} ในบทความนี้เราปรับสถาปัตยกรรมแบบจำลองให้เข้ากับไฮบริดของ Mamba และบล็อกหม้อแปลงวิธีการสร้างข้อมูลด้วยการพึ่งพาทั้งทางโลกและเชิงพื้นที่ระหว่างภาพหลายภาพและใช้กลยุทธ์การฝึกอบรมแบบก้าวหน้า รุ่นที่ปล่อยออกมา textbf {longllava} ~ ( textbf {long} -context textbf {l} arge textbf {l} anguage textbf {a} nd textbf {v} ision textbf {a} ssistant) MLLM ลูกผสมครั้งแรกซึ่งมีความสมดุลที่ดีขึ้นระหว่างประสิทธิภาพและประสิทธิผล Longllava ไม่เพียง แต่จะได้รับผลลัพธ์ที่แข่งขันได้ในมาตรฐานที่หลากหลายเท่านั้น แต่ยังรักษาปริมาณงานที่สูงและการใช้หน่วยความจำต่ำ โดยเฉพาะอย่างยิ่งมันสามารถประมวลผลภาพเกือบหนึ่งพันภาพใน GPU A100 80GB เดียวซึ่งแสดงโอกาสในการใช้งานที่มีแนวโน้มสำหรับงานที่หลากหลาย |
4 กันยายน 2567 | สู่มุมมองแบบครบวงจรของการเรียนรู้การตั้งค่าสำหรับแบบจำลองภาษาขนาดใหญ่: การสำรวจ | โมเดลภาษาขนาดใหญ่ (LLMS) แสดงความสามารถที่ทรงพลังอย่างน่าทึ่ง หนึ่งในปัจจัยสำคัญในการบรรลุความสำเร็จคือการจัดเอาท์พุทของ LLM กับความชอบของมนุษย์ กระบวนการจัดตำแหน่งนี้มักจะต้องใช้ข้อมูลเพียงเล็กน้อยเพื่อเพิ่มประสิทธิภาพของ LLM ได้อย่างมีประสิทธิภาพ ในขณะที่มีประสิทธิภาพการวิจัยในพื้นที่นี้ครอบคลุมหลายโดเมนและวิธีการที่เกี่ยวข้องนั้นค่อนข้างซับซ้อนที่จะเข้าใจ ความสัมพันธ์ระหว่างวิธีการที่แตกต่างกันได้รับการสำรวจโดย จำกัด การพัฒนาของการจัดตำแหน่งการตั้งค่า ด้วยเหตุนี้เราจึงแบ่งกลยุทธ์การจัดตำแหน่งที่เป็นที่นิยมออกมาเป็นส่วนประกอบที่แตกต่างกันและจัดทำกรอบการทำงานแบบครบวงจรเพื่อศึกษากลยุทธ์การจัดตำแหน่งในปัจจุบันซึ่งจะสร้างการเชื่อมต่อระหว่างพวกเขา ในการสำรวจนี้เราย่อยสลายกลยุทธ์ทั้งหมดในการเรียนรู้การตั้งค่าเป็นสี่องค์ประกอบ: โมเดลข้อมูลข้อเสนอแนะและอัลกอริทึม มุมมองแบบครบวงจรนี้นำเสนอความเข้าใจในเชิงลึกเกี่ยวกับอัลกอริทึมการจัดตำแหน่งที่มีอยู่และยังเปิดโอกาสในการประสานความแข็งแกร่งของกลยุทธ์ที่แตกต่างกัน นอกจากนี้เรายังนำเสนอตัวอย่างการทำงานโดยละเอียดของอัลกอริทึมที่มีอยู่แพร่หลายเพื่ออำนวยความสะดวกในการทำความเข้าใจที่ครอบคลุมสำหรับผู้อ่าน ในที่สุดจากมุมมองที่เป็นเอกภาพของเราเราสำรวจความท้าทายและทิศทางการวิจัยในอนาคตเพื่อจัดรูปแบบภาษาขนาดใหญ่ตามความชอบของมนุษย์ |
4 กันยายน 2567 | การสร้างตัวแทนคณิตศาสตร์ด้วยการเรียนรู้การตั้งค่าซ้ำหลายครั้ง | การศึกษาล่าสุดแสดงให้เห็นว่าความสามารถในการแก้ปัญหาทางคณิตศาสตร์ของแบบจำลองภาษาขนาดใหญ่ (LLMS) สามารถปรับปรุงได้โดยการรวมเครื่องมือภายนอกเช่นล่ามโค้ดและใช้การใช้เหตุผลหลายครั้ง ในขณะที่วิธีการในปัจจุบันมุ่งเน้นไปที่การสร้างข้อมูลสังเคราะห์และการปรับแต่งการปรับแต่ง (SFT) บทความนี้ศึกษาวิธีการเรียนรู้การตั้งค่าโดยตรงเสริมเพื่อปรับปรุงประสิทธิภาพของแบบจำลองต่อไป อย่างไรก็ตามอัลกอริทึมการเรียนรู้การตั้งค่าโดยตรงที่มีอยู่เดิมได้รับการออกแบบมาสำหรับงานแชทแบบเทิร์นเดี่ยวและไม่ได้จัดการกับความซับซ้อนของการใช้เหตุผลหลายครั้งและการรวมเครื่องมือภายนอกที่จำเป็นสำหรับงานด้านการใช้เหตุผลทางคณิตศาสตร์แบบรวมเครื่องมือ ในการเติมเต็มช่องว่างนี้เราแนะนำกรอบการเรียนรู้การตั้งค่าโดยตรงแบบหลายครั้งที่เหมาะสำหรับบริบทนี้ซึ่งใช้ประโยชน์จากการตอบรับจากล่ามโค้ดและปรับการตั้งค่าระดับวิถี เฟรมเวิร์กนี้รวมถึง DPO แบบหลายเทิร์นและ KTO หลายเลี้ยวเป็นการนำไปใช้งานเฉพาะ ประสิทธิภาพของกรอบการทำงานของเราได้รับการตรวจสอบผ่านการฝึกอบรมแบบจำลองภาษาต่าง ๆ โดยใช้ชุดพรอมต์ที่เพิ่มขึ้นจากชุดข้อมูล GSM8K และคณิตศาสตร์ ผลลัพธ์ของเราแสดงให้เห็นถึงการปรับปรุงที่สำคัญ: ประสิทธิภาพของรุ่น Gemma-1.1-It-7B ที่ได้รับการปรับแต่งอย่างละเอียดเพิ่มขึ้นจาก 77.5% เป็น 83.9% สำหรับ GSM8K และจาก 46.1% เป็น 51.2% ทางคณิตศาสตร์ ในทำนองเดียวกันรุ่น Gemma-2-IT-9B ได้รับการปรับปรุงจาก 84.1% เป็น 86.3% สำหรับ GSM8K และจาก 51.0% เป็น 54.5% สำหรับคณิตศาสตร์ |
3 กันยายน 2567 | Olmoe: เปิดแบบจำลองภาษาผสมของ Experts | เราแนะนำ Olmoe ซึ่งเป็นรูปแบบภาษาที่เปิดกว้างและล้ำสมัยที่ใช้ประโยชน์จากส่วนผสมของ Experts (MOE) OLMOE-1B-7B มีพารามิเตอร์ 7 พันล้าน (b) แต่ใช้เพียง 1b ต่อโทเค็นอินพุต เราตั้งค่าโทเค็น 5 ล้านล้านและปรับให้เข้ากับมันเพื่อสร้าง Olmoe-1b-7b-Instruct โมเดลของเรามีประสิทธิภาพสูงกว่ารุ่นที่มีอยู่ทั้งหมดที่มีพารามิเตอร์ที่ใช้งานอยู่ใกล้เคียงกับรุ่นที่ใหญ่กว่าเช่น LLAMA2-13B-Chat และ DeepSeekMoe-16B เรานำเสนอการทดลองต่าง ๆ เกี่ยวกับการฝึกอบรม MOE วิเคราะห์การกำหนดเส้นทางในแบบจำลองของเราแสดงความเชี่ยวชาญสูงและโอเพนซอร์ซทุกด้านของงานของเรา: น้ำหนักแบบจำลองข้อมูลการฝึกอบรมรหัสและบันทึก |
2 กันยายน 2567 | Genagent: สร้างระบบ AI ที่ทำงานร่วมกันด้วยการสร้างเวิร์กโฟลว์อัตโนมัติ - กรณีศึกษาเกี่ยวกับ comfyui | การวิจัย AI ก่อนหน้านี้มากได้มุ่งเน้นไปที่การพัฒนาแบบจำลองเสาหินเพื่อเพิ่มความฉลาดและความสามารถสูงสุดโดยมีเป้าหมายหลักในการเพิ่มประสิทธิภาพในงานที่เฉพาะเจาะจง ในทางตรงกันข้ามบทความนี้สำรวจวิธีการทางเลือก: ระบบ AI ที่ทำงานร่วมกันที่ใช้เวิร์กโฟลว์เพื่อรวมโมเดลแหล่งข้อมูลและท่อเพื่อแก้ปัญหาที่ซับซ้อนและหลากหลาย เราแนะนำ GenAgent ซึ่งเป็นเฟรมเวิร์กที่ใช้ LLM ซึ่งสร้างเวิร์กโฟลว์ที่ซับซ้อนโดยอัตโนมัติให้ความยืดหยุ่นและความยืดหยุ่นมากขึ้นเมื่อเทียบกับรุ่นเสาหิน นวัตกรรมหลักของ Genagent อยู่ในการเป็นตัวแทนของเวิร์กโฟลว์ด้วยรหัสควบคู่ไปกับการสร้างเวิร์กโฟลว์กับตัวแทนการทำงานร่วมกันในลักษณะทีละขั้นตอน เราใช้ GenAgent บนแพลตฟอร์ม Comfyui และเสนอเกณฑ์มาตรฐานใหม่ OpenComfy ผลการวิจัยพบว่า genagent มีประสิทธิภาพสูงกว่าวิธีพื้นฐานในการประเมินทั้งระดับการทำงานและระดับงานแสดงให้เห็นถึงความสามารถในการสร้างเวิร์กโฟลว์ที่ซับซ้อนด้วยประสิทธิผลและความมั่นคงที่เหนือกว่า |
2 กันยายน 2567 | Videollamb: ความเข้าใจวิดีโอบริบทยาวด้วยสะพานหน่วยความจำที่เกิดขึ้นอีก | ความก้าวหน้าล่าสุดในรุ่นวิดีโอขนาดใหญ่ได้แสดงให้เห็นถึงศักยภาพที่สำคัญสำหรับการวางแผนแบบเรียลไทม์และการโต้ตอบอย่างละเอียด อย่างไรก็ตามความต้องการการคำนวณที่สูงของพวกเขาและความขาดแคลนของชุดข้อมูลที่มีคำอธิบายประกอบ จำกัด การปฏิบัติจริงสำหรับนักวิจัยทางวิชาการ ในงานนี้เราแนะนำ Videollamb ซึ่งเป็นกรอบนวนิยายที่ใช้โทเค็นหน่วยความจำชั่วคราวภายในเลเยอร์บริดจ์เพื่อให้สามารถเข้ารหัสลำดับวิดีโอทั้งหมดควบคู่ไปกับข้อมูลภาพประวัติศาสตร์ได้อย่างมีประสิทธิภาพรักษาความต่อเนื่องทางความหมายและเพิ่มประสิทธิภาพของโมเดลในงานต่างๆ วิธีการนี้รวมถึงโทเค็นหน่วยความจำที่เกิดขึ้นอีกและอัลกอริทึม SCENETILLING ซึ่งเซ็กเมนต์วิดีโอเป็นหน่วยความหมายอิสระเพื่อรักษาความสมบูรณ์ของความหมาย เชิงประจักษ์ VideOllamb เหนือกว่ารุ่นวิดีโอภาษาที่มีอยู่อย่างมีนัยสำคัญแสดงให้เห็นถึงการปรับปรุง 5.5 คะแนนเหนือคู่แข่งในการวัดภาพวิดีโอสามครั้งและ 2.06 คะแนนในการวางแผน Egocentric ผลลัพธ์ที่ครอบคลุมเกี่ยวกับ MVBench แสดงให้เห็นว่า VideOllamb-7B ได้ผลลัพธ์ที่ดีกว่ารุ่น 7B รุ่นก่อนหน้าของ LLM ก่อนหน้านี้ อย่างน่าทึ่งมันยังคงมีประสิทธิภาพที่แข็งแกร่งเช่นเดียวกับ PLLAVA แม้ว่าความยาววิดีโอจะเพิ่มขึ้นถึง 8 เท่า นอกจากนี้ผลการดึงเฟรมบนเข็มพิเศษของเราในเกณฑ์มาตรฐานของ Haystack (NIAVH), ตรวจสอบความกล้าหาญของ Videollamb เพิ่มเติมในการระบุเฟรมเฉพาะภายในวิดีโอที่มีความยาว อัลกอริทึม SCENETILLING ของเรายังช่วยให้การสร้างคำอธิบายภาพวิดีโอสตรีมมิ่งโดยตรงโดยไม่จำเป็นต้องมีการฝึกอบรมเพิ่มเติม ในแง่ของประสิทธิภาพ Videollamb ได้รับการฝึกฝนใน 16 เฟรมรองรับได้ถึง 320 เฟรมใน Nvidia A100 GPU เดียวพร้อมการปรับขนาดหน่วยความจำ GPU เชิงเส้นเพื่อให้มั่นใจได้ทั้งประสิทธิภาพสูงและประสิทธิภาพที่คุ้มค่า แบบจำลองในการใช้งานทั้งทางวิชาการและภาคปฏิบัติ |
1 กันยายน 2567 | Contextcite: การสร้างโมเดลการสร้างบริบท | แบบจำลองภาษาใช้ข้อมูลที่ให้เป็นบริบทอย่างไรเมื่อสร้างการตอบกลับได้อย่างไร เราสามารถอนุมานได้ว่าคำสั่งที่สร้างขึ้นโดยเฉพาะนั้นมีพื้นฐานมาจากบริบทการตีความที่ผิดหรือประดิษฐ์หรือไม่? เพื่อช่วยตอบคำถามเหล่านี้เราแนะนำปัญหาของการระบุแหล่งที่มาของบริบท: การระบุส่วนต่าง ๆ ของบริบท (ถ้ามี) ที่นำแบบจำลองเพื่อสร้างคำสั่งเฉพาะ จากนั้นเราจะนำเสนอ contextcite ซึ่งเป็นวิธีที่ง่ายและปรับขนาดได้สำหรับการระบุแหล่งที่มาบริบทที่สามารถนำไปใช้กับโมเดลภาษาที่มีอยู่ใด ๆ ในที่สุดเราจะแสดงยูทิลิตี้ของบริบทผ่านสามแอปพลิเคชัน: (1) ช่วยตรวจสอบข้อความที่สร้างขึ้น (2) ปรับปรุงคุณภาพการตอบสนองโดยการตัดแต่งบริบทและ (3) ตรวจจับการโจมตีพิษ เราให้รหัสสำหรับ contextcite ที่ https://github.com/madrylab/context-cite |
31 สิงหาคม 2567 | Longrecipe: สูตรสำหรับการวางนัยทั่วไปของบริบทที่มีประสิทธิภาพในแบบจำลองภาษาขนาดใหญ่ | โมเดลภาษาขนาดใหญ่ (LLMS) เผชิญกับความท้าทายที่สำคัญในการจัดการงานบริบทยาวเนื่องจากขนาดหน้าต่างบริบทที่มีประสิทธิภาพ จำกัด ในระหว่างการเตรียมการซึ่งจำกัดความสามารถในการสรุปลำดับที่ขยายออกไป ในขณะเดียวกันการขยายหน้าต่างบริบทใน LLMS ผ่านการโพสต์การฝึกอบรมนั้นใช้ทรัพยากรอย่างมาก เพื่อแก้ไขปัญหานี้เราแนะนำ Longrecipe ซึ่งเป็นกลยุทธ์การฝึกอบรมที่มีประสิทธิภาพสำหรับการขยายหน้าต่างบริบทของ LLMs รวมถึงการวิเคราะห์โทเค็นที่มีผลกระทบการเปลี่ยนแปลงดัชนีตำแหน่งและกลยุทธ์การเพิ่มประสิทธิภาพการฝึกอบรม มันจำลองอินพุตตามลำดับระยะยาวในขณะที่ยังคงรักษาประสิทธิภาพการฝึกอบรมและปรับปรุงความเข้าใจของแบบจำลองของการพึ่งพาระยะยาวอย่างมีนัยสำคัญ การทดลองเกี่ยวกับ LLM สามประเภทแสดงให้เห็นว่า Longrecipe สามารถใช้ลำดับที่ยาวนานในขณะที่ต้องการเพียง 30% ของขนาดบริบทเป้าหมายของหน้าต่างและลดทรัพยากรการฝึกอบรมการคำนวณมากกว่า 85% เมื่อเทียบกับการฝึกอบรมแบบเต็มลำดับ นอกจากนี้ Longrecipe ยังรักษาความสามารถของ LLM ดั้งเดิมไว้ในงานทั่วไป ในที่สุดเราสามารถขยายหน้าต่างบริบทที่มีประสิทธิภาพของ LLM แบบโอเพนซอร์ซจาก 8K ถึง 128K โดยบรรลุประสิทธิภาพใกล้กับ GPT-4 ด้วยการฝึกอบรมเฉพาะวันเดียวโดยใช้ GPU เดียวที่มีหน่วยความจำ 80G รหัสของเราเปิดตัวที่ https://github.com/zhiyuanhubj/longrecipe |
29 สิงหาคม 2567 | MINI-OMNI: แบบจำลองภาษาสามารถได้ยินพูดคุยขณะคิดเรื่องสตรีมมิ่ง | ความก้าวหน้าล่าสุดในรูปแบบภาษาได้บรรลุความก้าวหน้าที่สำคัญ GPT-4O เป็นเหตุการณ์สำคัญใหม่ได้เปิดใช้งานการสนทนาแบบเรียลไทม์กับมนุษย์แสดงให้เห็นถึงความคล่องแคล่วทางธรรมชาติที่อยู่ใกล้มนุษย์ การโต้ตอบกับคอมพิวเตอร์ของมนุษย์เช่นนี้จำเป็นต้องมีแบบจำลองที่มีความสามารถในการให้เหตุผลโดยตรงกับการปรับเสียงและสร้างเอาต์พุตในการสตรีม อย่างไรก็ตามสิ่งนี้ยังคงอยู่ไกลเกินเอื้อมของแบบจำลองทางวิชาการในปัจจุบันเนื่องจากพวกเขามักจะขึ้นอยู่กับระบบ TTS พิเศษสำหรับการสังเคราะห์เสียงพูดส่งผลให้เกิดความล่าช้าที่ไม่พึงประสงค์ บทความนี้แนะนำ Mini-OMNI ซึ่งเป็นรูปแบบการสนทนาแบบ end-end-end-end-end-end-end-end-end ซึ่งมีความสามารถในการโต้ตอบการพูดแบบเรียลไทม์ เพื่อให้บรรลุความสามารถนี้เราจึงเสนอวิธีการสร้างคำพูดที่ใช้ข้อความแบบข้อความพร้อมกับกลยุทธ์แบบขนานแบทช์ในระหว่างการอนุมานเพื่อเพิ่มประสิทธิภาพ วิธีการของเรายังช่วยรักษาความสามารถทางภาษาของโมเดลดั้งเดิมด้วยการย่อยสลายน้อยที่สุดทำให้งานอื่น ๆ สามารถสร้างความสามารถในการโต้ตอบแบบเรียลไทม์ เราเรียกวิธีการฝึกอบรมนี้ "รุ่นใด ๆ สามารถ t
ขยาย
ข้อมูลเพิ่มเติม
แอปที่เกี่ยวข้อง
แนะนำสำหรับคุณ
ข้อมูลที่เกี่ยวข้อง
ทั้งหมด
|