Generative AI กำลังประสบกับการเติบโตอย่างรวดเร็ว และพื้นที่เก็บข้อมูลนี้ทำหน้าที่เป็นศูนย์กลางที่ครอบคลุมสำหรับการอัปเดตเกี่ยวกับการวิจัย Generative AI เอกสารการสัมภาษณ์ สมุดบันทึก และอื่นๆ อีกมากมาย!
สำรวจแหล่งข้อมูลต่อไปนี้:
เราจะอัปเดตพื้นที่เก็บข้อมูลนี้เป็นประจำ ดังนั้นโปรดคอยติดตามสิ่งเพิ่มเติมล่าสุด!
มีความสุขในการเรียนรู้!
*อัพเดททุกสิ้นเดือน
วันที่ | ชื่อ | เชิงนามธรรม | หัวข้อ |
---|---|---|---|
31 พฤษภาคม 2567 | LLM บรรลุสมรรถนะของมนุษย์ในผู้ใหญ่ตามทฤษฎีงานทางจิตที่มีลำดับสูงกว่า | บทความนี้จะตรวจสอบขอบเขตที่แบบจำลองภาษาขนาดใหญ่ (LLM) ได้พัฒนาทฤษฎีจิตใจที่มีลำดับสูงกว่า (ToM) ความสามารถของมนุษย์ในการให้เหตุผลเกี่ยวกับสภาวะทางจิตและอารมณ์หลายอย่างในลักษณะที่เกิดซ้ำ (เช่น ฉันคิดว่าคุณเชื่อว่าเธอรู้) บทความนี้ต่อยอดจากงานก่อนหน้านี้โดยแนะนำชุดทดสอบที่เขียนด้วยลายมือ - คำถามและคำตอบเกี่ยวกับทฤษฎีหลายลำดับของจิตใจ และใช้เพื่อเปรียบเทียบประสิทธิภาพของ LLM ห้ารายการกับเกณฑ์มาตรฐานของมนุษย์ที่เป็นผู้ใหญ่ที่เพิ่งรวบรวมใหม่ เราพบว่า GPT-4 และ Flan-PaLM เข้าถึงประสิทธิภาพระดับผู้ใหญ่และใกล้ระดับผู้ใหญ่ในงาน ToM โดยรวม และ GPT-4 นั้นเหนือกว่าประสิทธิภาพของผู้ใหญ่ในการอนุมานลำดับที่ 6 ผลลัพธ์ของเราแนะนำว่ามีขนาดแบบจำลองและการปรับแต่งอย่างละเอียดเพื่อให้บรรลุถึงความสามารถของ ToM และ LLM ที่มีประสิทธิภาพดีที่สุดได้พัฒนาความสามารถทั่วไปสำหรับ ToM เมื่อพิจารณาถึงบทบาทของ ToM ที่มีลำดับสูงกว่าในพฤติกรรมมนุษย์ที่ให้ความร่วมมือและการแข่งขันที่หลากหลาย การค้นพบนี้มีผลกระทบอย่างมีนัยสำคัญต่อแอปพลิเคชัน LLM ที่ต้องเผชิญกับผู้ใช้ | ทฤษฎีแห่งจิตใจ |
30 พฤษภาคม 2567 | JINA CLIP: โมเดล CLIP ของคุณก็เป็นโปรแกรมดึงข้อความของคุณด้วย | Contrastive Language-Image Pretraining (CLIP) ถูกนำมาใช้กันอย่างแพร่หลายในการฝึกแบบจำลองเพื่อจัดแนวรูปภาพและข้อความในพื้นที่ฝังทั่วไปโดยการแมปพวกมันกับเวกเตอร์ที่มีขนาดคงที่ โมเดลเหล่านี้เป็นกุญแจสำคัญในการเรียกค้นข้อมูลหลายรูปแบบและงานที่เกี่ยวข้อง อย่างไรก็ตาม โมเดล CLIP โดยทั่วไปมีประสิทธิภาพต่ำกว่าในงานข้อความอย่างเดียว เมื่อเทียบกับโมเดลข้อความพิเศษ สิ่งนี้สร้างความไร้ประสิทธิภาพให้กับระบบเรียกค้นข้อมูลที่แยกการฝังและแบบจำลองสำหรับงานข้อความเท่านั้นและงานต่อเนื่องหลายรูปแบบ เราเสนอวิธีการฝึกอบรมแบบเปรียบเทียบแบบหลายงานแบบใหม่เพื่อแก้ไขปัญหานี้ ซึ่งเราใช้ในการฝึกโมเดล jina-clip-v1 เพื่อให้บรรลุประสิทธิภาพที่ล้ำสมัยทั้งงานการดึงข้อความรูปภาพและข้อความ . | โมเดลต่อเนื่องหลายรูปแบบ |
30 พฤษภาคม 2567 | Parrot: การให้บริการแอพพลิเคชั่นที่ใช้ LLM อย่างมีประสิทธิภาพพร้อมตัวแปรความหมาย | การเพิ่มขึ้นของโมเดลภาษาขนาดใหญ่ (LLM) ได้เปิดใช้งานแอปพลิเคชันที่ใช้ LLM (หรือที่เรียกว่า AI agent หรือ co-pilots) ซึ่งเป็นกระบวนทัศน์ซอฟต์แวร์ใหม่ที่ผสมผสานความแข็งแกร่งของ LLM และซอฟต์แวร์ทั่วไป แอปพลิเคชัน LLM ที่หลากหลายจากผู้เช่าที่แตกต่างกันสามารถออกแบบเวิร์กโฟลว์ที่ซับซ้อนโดยใช้คำขอ LLM หลายรายการเพื่อทำงานเดียวให้สำเร็จ อย่างไรก็ตาม พวกเขาต้องใช้ API ระดับคำขอที่เรียบง่ายเกินไปซึ่งให้บริการโดยบริการ LLM สาธารณะในปัจจุบัน ทำให้สูญเสียข้อมูลระดับแอปพลิเคชันที่สำคัญไป บริการ LLM สาธารณะต้องปรับคำขอ LLM แต่ละรายการให้เหมาะสมแบบสุ่มสี่สุ่มห้า ส่งผลให้แอปพลิเคชัน LLM มีประสิทธิภาพตั้งแต่ต้นทางถึงปลายทางต่ำกว่าปกติ บทความนี้จะแนะนำ Parrot ซึ่งเป็นระบบบริการ LLM ที่เน้นประสบการณ์แบบ end-to-end ของแอปพลิเคชันที่ใช้ LLM Parrot เสนอ Semantic Variable ซึ่งเป็นนามธรรมแบบครบวงจรเพื่อเปิดเผยความรู้ระดับแอปพลิเคชันแก่บริการ LLM สาธารณะ ตัวแปรความหมายจะอธิบายตัวแปรอินพุต/เอาท์พุตในพร้อมต์ของคำขอ และสร้างไปป์ไลน์ข้อมูลเมื่อเชื่อมต่อคำขอ LLM หลายรายการ ซึ่งเป็นวิธีธรรมชาติในการเขียนโปรแกรมแอปพลิเคชัน LLM การเปิดเผยตัวแปรความหมายไปยังบริการ LLM สาธารณะช่วยให้สามารถทำการวิเคราะห์กระแสข้อมูลแบบเดิมๆ เพื่อค้นหาความสัมพันธ์ระหว่างคำขอ LLM หลายรายการ ความสัมพันธ์นี้เปิดพื้นที่เพิ่มประสิทธิภาพใหม่ล่าสุดสำหรับประสิทธิภาพแบบ end-to-end ของแอปพลิเคชันที่ใช้ LLM การประเมินอย่างกว้างขวางแสดงให้เห็นว่า Parrot สามารถบรรลุการปรับปรุงตามลำดับขนาดสำหรับกรณีการใช้งาน LLM ที่ได้รับความนิยมและใช้งานได้จริง | ตัวแทน LLM |
30 พฤษภาคม 2567 | สับสนโดยความฉงนสนเท่ห์: การตัดข้อมูลตามความฉงนสนเท่ห์ด้วยแบบจำลองอ้างอิงขนาดเล็ก | ในงานนี้ เราตรวจสอบว่าโมเดลภาษาขนาดเล็กสามารถกำหนดชุดย่อยคุณภาพสูงของชุดข้อมูลข้อความขนาดใหญ่ที่ปรับปรุงประสิทธิภาพของโมเดลภาษาขนาดใหญ่ได้หรือไม่ ในขณะที่งานที่มีอยู่แสดงให้เห็นว่าการตัดแต่งกิ่งตามความงุนงงของแบบจำลองขนาดใหญ่สามารถให้ข้อมูลคุณภาพสูงได้ เราจะตรวจสอบว่าแบบจำลองขนาดเล็กสามารถใช้สำหรับการตัดแต่งกิ่งตามความงุนงงได้หรือไม่ และการตัดแต่งกิ่งจะได้รับผลกระทบจากองค์ประกอบโดเมนของข้อมูลที่ถูกตัดอย่างไร เราแสดงให้เห็นว่าสำหรับองค์ประกอบของชุดข้อมูลหลายชุด การตัดแต่งข้อมูลการฝึกล่วงหน้าตามความงุนงงสามารถปรับปรุงประสิทธิภาพงานดาวน์สตรีมได้อย่างมาก: การตัดแต่งตามความงุนงงที่คำนวณด้วยแบบจำลองพารามิเตอร์ 125 ล้านตัวช่วยปรับปรุงประสิทธิภาพโดยเฉลี่ยในงานดาวน์สตรีมของแบบจำลองพารามิเตอร์ 3 พันล้านตัวได้มากถึง 2.04 และสามารถลดขั้นตอนการฝึกล่วงหน้าได้ถึง 1.45 เท่า เพื่อให้ได้ประสิทธิภาพพื้นฐานที่สมน้ำสมเนื้อ นอกจากนี้ เรายังแสดงให้เห็นว่าการตัดข้อมูลตามความฉงนสนเท่ห์ดังกล่าวยังทำให้ประสิทธิภาพดาวน์สตรีมเพิ่มขึ้นในระบบการปกครองที่ได้รับการฝึกอบรมมากเกินไปและมีข้อจำกัดด้านข้อมูล | โมเดลภาษาขนาดเล็ก |
30 พฤษภาคม 2567 | GNN-RAG: การเรียกค้นกราฟประสาทสำหรับการให้เหตุผลแบบจำลองภาษาขนาดใหญ่ | กราฟความรู้ (KG) เป็นตัวแทนความรู้ข้อเท็จจริงที่มนุษย์สร้างขึ้นในรูปแบบของแฝดสาม (หัว ความสัมพันธ์ หาง) ซึ่งรวมกันเป็นกราฟ การตอบคำถามผ่าน KG (KGQA) เป็นหน้าที่ในการตอบคำถามทั่วไปโดยอาศัยเหตุผลจากข้อมูลที่ KG ให้ไว้ Large Language Models (LLM) เป็นโมเดลที่ล้ำสมัยสำหรับงาน QA เนื่องจากความสามารถที่โดดเด่นในการเข้าใจภาษาธรรมชาติ ในทางกลับกัน Graph Neural Networks (GNN) ถูกนำมาใช้กันอย่างแพร่หลายสำหรับ KGQA เนื่องจากสามารถจัดการข้อมูลกราฟที่ซับซ้อนที่จัดเก็บไว้ใน KG ได้ ในงานนี้ เราแนะนำ GNN-RAG ซึ่งเป็นวิธีการใหม่ในการผสมผสานความสามารถในการเข้าใจภาษาของ LLM เข้ากับความสามารถในการให้เหตุผลของ GNN ในรูปแบบการเรียกค้นข้อมูลเสริม (RAG) ประการแรก GNN ให้เหตุผลกับกราฟย่อย KG ที่หนาแน่นเพื่อดึงข้อมูลผู้สมัครคำตอบสำหรับคำถามที่กำหนด ประการที่สอง เส้นทางที่สั้นที่สุดใน KG ที่เชื่อมโยงเอนทิตีคำถามและผู้ตอบคำถามจะถูกแยกออกมาเพื่อแสดงเส้นทางการใช้เหตุผลของ KG เส้นทางที่แยกออกมาจะถูกพูดและกำหนดให้เป็นอินพุตสำหรับการให้เหตุผล LLM ด้วย RAG ในกรอบงาน GNN-RAG ของเรา GNN ทำหน้าที่เป็นตัวให้เหตุผลกราฟย่อยหนาแน่นเพื่อดึงข้อมูลกราฟที่เป็นประโยชน์ ในขณะที่ LLM ใช้ประโยชน์จากความสามารถในการประมวลผลภาษาธรรมชาติเพื่อ KGQA ขั้นสูงสุด นอกจากนี้ เรายังพัฒนาเทคนิคการดึงข้อมูลเสริม (RA) เพื่อเพิ่มประสิทธิภาพ KGQA ด้วย GNN-RAG อีกด้วย ผลการทดลองแสดงให้เห็นว่า GNN-RAG บรรลุประสิทธิภาพที่ล้ำสมัยในเกณฑ์มาตรฐาน KGQA สองรายการที่ใช้กันอย่างแพร่หลาย (WebQSP และ CWQ) ซึ่งมีประสิทธิภาพเหนือกว่าหรือจับคู่ประสิทธิภาพ GPT-4 กับ LLM ที่ปรับจูน 7B นอกจากนี้ GNN-RAG ยังเก่งในเรื่องคำถามแบบ multi-hop และ multi-entity ที่มีประสิทธิภาพเหนือกว่าแนวทางการแข่งขัน 8.9–15.5% ที่คำตอบ F1 เราจัดเตรียมโค้ดและผลลัพธ์ KGQA ไว้ที่ https://github.com/cmavro/GNN-RAG | RAG บนกราฟความรู้ |
29 พฤษภาคม 2567 | โมเดลภาษาที่สำรวจตนเอง: การกระตุ้นการตั้งค่าแบบแอคทีฟสำหรับการจัดตำแหน่งแบบออนไลน์ | การเพิ่มประสิทธิภาพการตั้งค่า โดยเฉพาะอย่างยิ่งผ่านการเรียนรู้เสริมจากผลตอบรับของมนุษย์ (RLHF) ประสบความสำเร็จอย่างมากในการปรับโมเดลภาษาขนาดใหญ่ (LLM) ให้เป็นไปตามความตั้งใจของมนุษย์ ต่างจากการจัดตำแหน่งออฟไลน์ด้วยชุดข้อมูลที่ตายตัว การรวบรวมผลตอบรับออนไลน์จากมนุษย์หรือ AI เกี่ยวกับการสร้างแบบจำลองมักจะนำไปสู่โมเดลรางวัลที่มีความสามารถมากขึ้นและ LLM ที่ปรับแนวได้ดีขึ้นผ่านกระบวนการวนซ้ำ อย่างไรก็ตาม การบรรลุรูปแบบการให้รางวัลที่แม่นยำทั่วโลกนั้นจำเป็นต้องมีการสำรวจอย่างเป็นระบบเพื่อสร้างการตอบสนองที่หลากหลายซึ่งครอบคลุมพื้นที่อันกว้างใหญ่ของภาษาธรรมชาติ การสุ่มตัวอย่างจาก LLM ที่ให้รางวัลสูงสุดตามมาตรฐานเพียงอย่างเดียวไม่เพียงพอที่จะปฏิบัติตามข้อกำหนดนี้ เพื่อแก้ไขปัญหานี้ เราเสนอวัตถุประสงค์สองระดับซึ่งมีอคติในแง่ดีต่อการตอบสนองที่อาจให้ผลตอบแทนสูงเพื่อสำรวจภูมิภาคที่ไม่จำหน่ายอย่างแข็งขัน ด้วยการแก้ปัญหาระดับภายในด้วยฟังก์ชันการให้รางวัลที่ปรับพารามิเตอร์ใหม่ อัลกอริธึมผลลัพธ์ที่มีชื่อว่า Self-Exploring Language Models (SELM) ช่วยลดความจำเป็นใน RM ที่แยกต่างหาก และอัปเดต LLM ซ้ำๆ โดยมีวัตถุประสงค์ตรงไปตรงมา เมื่อเปรียบเทียบกับ Direct Preference Optimization (DPO) วัตถุประสงค์ของ SELM จะช่วยลดความโปรดปรานของการประมาณค่าที่มองไม่เห็นและเพิ่มประสิทธิภาพการสำรวจ ผลการทดลองของเราแสดงให้เห็นว่าเมื่อปรับแต่งโมเดล Zephyr-7B-SFT และ Llama-3- 8B-Instruct แล้ว SELM จะช่วยเพิ่มประสิทธิภาพในการสอนได้อย่างมากตามเกณฑ์มาตรฐาน เช่น MT-Bench และ AlpacaEval 2.0 ตลอดจนเกณฑ์มาตรฐานทางวิชาการต่างๆ ในสภาพแวดล้อมที่แตกต่างกัน . รหัสและรุ่นของเรามีอยู่ที่ https://github.com/shenao-zhang/SELM | การจัดตำแหน่ง การเพิ่มประสิทธิภาพการตั้งค่า |
28 พฤษภาคม 2567 | OpenRLHF: กรอบงาน RLHF ที่ใช้งานง่าย ปรับขนาดได้ และมีประสิทธิภาพสูง | เนื่องจากโมเดลภาษาขนาดใหญ่ (LLM) ยังคงเติบโตต่อไปตามกฎการปรับขนาด การเรียนรู้แบบเสริมกำลังจากผลตอบรับของมนุษย์ (RLHF) จึงได้รับความสนใจอย่างมากเนื่องจากประสิทธิภาพที่โดดเด่น อย่างไรก็ตาม ต่างจากการฝึกอบรมล่วงหน้าหรือการปรับแต่งโมเดลเดี่ยว การขยายขนาดการเรียนรู้เสริมจากผลตอบรับของมนุษย์ (RLHF) สำหรับการฝึกอบรมโมเดลภาษาขนาดใหญ่ทำให้เกิดความท้าทายในการประสานงานในโมเดลทั้งสี่ เรานำเสนอ OpenRLHF ซึ่งเป็นเฟรมเวิร์กโอเพ่นซอร์สที่ช่วยให้ปรับขนาด RLHF ได้อย่างมีประสิทธิภาพ แตกต่างจากเฟรมเวิร์ก RLHF ที่มีอยู่ซึ่งวางโมเดลสี่โมเดลไว้บน GPU เดียวกัน OpenRLHF ออกแบบกำหนดเวลาใหม่สำหรับโมเดลที่เกินพารามิเตอร์ 70B โดยใช้ Ray, vLLM และ DeepSpeed โดยใช้ประโยชน์จากการใช้ทรัพยากรที่ได้รับการปรับปรุงและวิธีการฝึกอบรมที่หลากหลาย ด้วยการผสานรวมเข้ากับ Hugging Face ได้อย่างราบรื่น OpenRLHF มอบโซลูชันที่พร้อมใช้งานทันทีพร้อมอัลกอริธึมที่ได้รับการปรับปรุงและสคริปต์เรียกใช้งาน ซึ่งช่วยให้มั่นใจถึงความเป็นมิตรต่อผู้ใช้ OpenRLHF ใช้ RLHF, DPO, การสุ่มตัวอย่างการปฏิเสธ และเทคนิคการจัดตำแหน่งอื่นๆ โค้ดของ OpenRLHF ช่วยเพิ่มศักยภาพให้กับการพัฒนา LLM ที่ล้ำสมัย โดยสามารถดูได้ที่ https://github.com/OpenLLMAI/OpenRLHF | RLHF, ชุดเครื่องมือ |
28 พฤษภาคม 2567 | LLAMA-NAS: ค้นหาสถาปัตยกรรมประสาทที่มีประสิทธิภาพสำหรับโมเดลภาษาขนาดใหญ่ | ความสามารถของโมเดลภาษาขนาดใหญ่สมัยใหม่ (LLM) ในการแก้ปัญหาการประมวลผลภาษาธรรมชาติ การใช้เหตุผลที่ซับซ้อน การวิเคราะห์ความรู้สึก และงานอื่นๆ เป็นสิ่งที่พิเศษมาก ซึ่งกระตุ้นให้มีการนำไปใช้อย่างกว้างขวาง น่าเสียดายที่ความสามารถเหล่านี้มาพร้อมกับหน่วยความจำและต้นทุนการคำนวณที่สูงมาก ซึ่งทำให้ไม่สามารถใช้ LLM บนแพลตฟอร์มฮาร์ดแวร์ส่วนใหญ่ได้ เพื่อบรรเทาปัญหานี้ เราขอเสนอวิธีการที่มีประสิทธิภาพในการค้นหาสถาปัตยกรรมเครือข่ายที่เหมาะสมที่สุดแบบ Pareto โดยใช้ LLaMA2-7B โดยใช้ NAS แบบช็อตเดียว โดยเฉพาะอย่างยิ่ง เราปรับแต่ง LLaMA2-7B เพียงครั้งเดียว จากนั้นใช้การค้นหาตามอัลกอริทึมทางพันธุกรรมเพื่อค้นหาสถาปัตยกรรมเครือข่ายที่มีขนาดเล็กลงและซับซ้อนน้อยกว่า เราแสดงให้เห็นว่าสำหรับงานวัดประสิทธิภาพมาตรฐานบางงาน เครือข่าย LLaMA2-7B ที่ได้รับการฝึกอบรมล่วงหน้านั้นมีขนาดใหญ่และซับซ้อนโดยไม่จำเป็น โดยเฉพาะอย่างยิ่ง เราสาธิตขนาดโมเดลที่ลดลง 1.5 เท่า และความเร็วการประมวลผลที่เร็วขึ้น 1.3 เท่า สำหรับงานบางอย่างโดยมีความแม่นยำลดลงเล็กน้อย นอกเหนือจากการค้นหาสถาปัตยกรรมเครือข่ายที่มีขนาดเล็กกว่าและมีประสิทธิภาพสูงกว่าแล้ว วิธีการของเรายังมีประสิทธิภาพและประสิทธิผลมากกว่าเทคนิคการตัดหรือกระจายสัญญาณบางอย่าง สุดท้ายนี้ เราแสดงให้เห็นว่าการหาปริมาณเป็นส่วนเสริมกับวิธีการของเราอย่างไร และขนาดและความซับซ้อนของเครือข่ายที่เราพบสามารถลดลงได้อีกโดยใช้การหาปริมาณ เราเชื่อว่างานของเรามอบวิธีการสร้าง LLM โดยอัตโนมัติซึ่งสามารถใช้กับแพลตฟอร์มฮาร์ดแวร์ที่มีราคาถูกกว่าและพร้อมใช้งานมากกว่า | การค้นหาสถาปัตยกรรมประสาท การลดขนาดโมเดล |
28 พฤษภาคม 2567 | อย่าลืมเชื่อมต่อ! การปรับปรุง RAG ด้วยการจัดอันดับใหม่ตามกราฟ | การเรียกข้อมูล Augmented Generation (RAG) ได้ปรับปรุงประสิทธิภาพของการตอบสนองของโมเดลภาษาขนาดใหญ่ (LLM) อย่างมาก โดยการสร้างพื้นฐานพร้อมบริบทจากเอกสารที่มีอยู่ ระบบเหล่านี้จะทำงานได้ดีเมื่อเอกสารเกี่ยวข้องกับบริบทของคำถามอย่างชัดเจน แต่แล้วเมื่อเอกสารมีข้อมูลบางส่วน หรือมีการเชื่อมโยงกับบริบทที่ชัดเจนน้อยลงล่ะ และเราควรให้เหตุผลเกี่ยวกับความเชื่อมโยงระหว่างเอกสารอย่างไร? ในงานนี้ เราพยายามที่จะตอบคำถามหลักสองข้อนี้เกี่ยวกับการสร้าง RAG เราขอแนะนำ G-RAG ซึ่งเป็นตัวจัดอันดับใหม่โดยอิงตามโครงข่ายประสาทเทียมแบบกราฟ (GNN) ระหว่างตัวดึงข้อมูลและเครื่องอ่านใน RAG วิธีการของเราผสมผสานทั้งการเชื่อมต่อระหว่างเอกสารและข้อมูลเชิงความหมาย (ผ่านกราฟการแสดงความหมายเชิงนามธรรม) เพื่อให้มีอันดับตามบริบทสำหรับ RAG G-RAG มีประสิทธิภาพเหนือกว่าแนวทางที่ล้ำสมัยในขณะที่มีพื้นที่ในการคำนวณน้อยกว่า นอกจากนี้ เรายังประเมินประสิทธิภาพของ PaLM 2 ในฐานะผู้จัดอันดับใหม่และพบว่ามีประสิทธิภาพต่ำกว่า G-RAG อย่างมาก ผลลัพธ์นี้เน้นถึงความสำคัญของการจัดอันดับใหม่สำหรับ RAG แม้ว่าจะใช้โมเดลภาษาขนาดใหญ่ก็ตาม | RAG เพื่อการให้เหตุผล |
27 พฤษภาคม 2567 | Meteor: การข้ามผ่านเหตุผลโดยใช้ Mamba สำหรับโมเดลภาษาขนาดใหญ่และโมเดลการมองเห็น | การพัฒนาอย่างรวดเร็วของโมเดลภาษาและการมองเห็นขนาดใหญ่ (LLVM) ได้รับแรงผลักดันจากความก้าวหน้าในการปรับแต่งการสอนด้วยภาพ เมื่อเร็วๆ นี้ LLVM แบบโอเพ่นซอร์สได้รวบรวมชุดข้อมูลการปรับแต่งคำสั่งด้วยภาพคุณภาพสูง และใช้ตัวเข้ารหัสการมองเห็นเพิ่มเติมหรือโมเดลคอมพิวเตอร์วิทัศน์หลายรุ่น เพื่อลดช่องว่างด้านประสิทธิภาพด้วย LLVM แหล่งปิดที่ทรงพลัง ความก้าวหน้าเหล่านี้เป็นผลมาจากข้อมูลหลายแง่มุมที่จำเป็นสำหรับความสามารถที่หลากหลาย รวมถึงความเข้าใจภาพขั้นพื้นฐาน ความรู้ในโลกแห่งความเป็นจริงเกี่ยวกับแนวคิดสามัญสำนึกและไม่ใช่วัตถุ (เช่น แผนภูมิ แผนภาพ สัญลักษณ์ เครื่องหมาย และปัญหาทางคณิตศาสตร์) และทีละขั้นตอน - ขั้นตอนในการแก้คำถามที่ซับซ้อน จากข้อมูลที่มีหลายแง่มุม เรานำเสนอ LLVM ที่มีประสิทธิภาพใหม่ ซึ่งเป็นการข้ามผ่านเหตุผลโดยใช้ Mamba (Meteor) ซึ่งใช้ประโยชน์จากเหตุผลที่มีหลายแง่มุมเพื่อเพิ่มความเข้าใจและความสามารถในการตอบ ในการฝังเหตุผลยาวๆ ที่มีข้อมูลมากมาย เราใช้สถาปัตยกรรม Mamba ซึ่งสามารถประมวลผลข้อมูลตามลำดับด้วยความซับซ้อนของเวลาเชิงเส้น เราแนะนำแนวคิดใหม่ของการข้ามผ่านเหตุผลซึ่งเอื้อต่อการฝังเหตุผลอย่างมีประสิทธิภาพ ต่อจากนั้น แบบจำลองภาษากระดูกสันหลังหลายรูปแบบ (MLM) ได้รับการฝึกอบรมเพื่อสร้างคำตอบโดยอาศัยเหตุผล จากขั้นตอนเหล่านี้ Meteor ประสบความสำเร็จในการปรับปรุงอย่างมีนัยสำคัญในด้านประสิทธิภาพภาษาการมองเห็นในเกณฑ์การประเมินหลายเกณฑ์ ซึ่งต้องการความสามารถที่หลากหลาย โดยไม่ต้องขยายขนาดของแบบจำลองหรือใช้ตัวเข้ารหัสการมองเห็นและแบบจำลองคอมพิวเตอร์วิทัศน์เพิ่มเติม รหัสมีอยู่ใน https://github.com/ByungKwanLee/Meteor | แบบจำลองอวกาศของรัฐ แบบจำลองต่อเนื่องหลายรูปแบบ |
27 พฤษภาคม 2567 | ความรู้เบื้องต้นเกี่ยวกับการสร้างแบบจำลองภาษาวิสัยทัศน์ | หลังจากความนิยมของ Large Language Models (LLM) เมื่อเร็ว ๆ นี้ ได้มีการพยายามหลายครั้งในการขยายขอบเขตไปสู่โดเมนภาพ จากการมีผู้ช่วยภาพที่สามารถนำทางเราผ่านสภาพแวดล้อมที่ไม่คุ้นเคยไปจนถึงแบบจำลองที่สร้างภาพโดยใช้คำอธิบายข้อความระดับสูงเท่านั้น แอปพลิเคชัน Vision-Language Model (VLM) จะส่งผลกระทบต่อความสัมพันธ์ของเรากับเทคโนโลยีอย่างมาก อย่างไรก็ตาม มีความท้าทายมากมายที่ต้องแก้ไขเพื่อปรับปรุงความน่าเชื่อถือของโมเดลเหล่านั้น แม้ว่าภาษาจะไม่ต่อเนื่องกัน การมองเห็นจะพัฒนาไปในพื้นที่มิติที่สูงกว่ามาก ซึ่งแนวคิดไม่สามารถแยกแยะได้ง่ายเสมอไป เพื่อให้เข้าใจกลไกเบื้องหลังการทำแผนที่วิสัยทัศน์กับภาษาได้ดีขึ้น เราขอนำเสนอ VLM เบื้องต้นนี้ ซึ่งเราหวังว่าจะช่วยเหลือใครก็ตามที่ต้องการเข้าสู่วงการนี้ อันดับแรก เราจะมาแนะนำ VLM คืออะไร วิธีการทำงาน และวิธีฝึกอบรม VLM จากนั้น เราจะนำเสนอและหารือเกี่ยวกับแนวทางในการประเมิน VLM แม้ว่างานนี้มุ่งเน้นไปที่การจับคู่รูปภาพเป็นภาษาเป็นหลัก แต่เรายังหารือเกี่ยวกับการขยาย VLM ไปยังวิดีโออีกด้วย | แบบจำลองต่อเนื่องหลายรูปแบบ แบบสำรวจ |
27 พฤษภาคม 2567 | Matryoshka Multimodal Models | โมเดลหลายรูปแบบขนาดใหญ่ (LMM) เช่น LLaVA ได้แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมในการให้เหตุผลทางภาพและภาษา ขั้นแรกโมเดลเหล่านี้จะฝังรูปภาพลงในโทเค็นภาพจำนวนมากคงที่ จากนั้นจึงป้อนลงใน Large Language Model (LLM) อย่างไรก็ตาม การออกแบบนี้ทำให้เกิดโทเค็นจำนวนมากเกินไปสำหรับสถานการณ์ภาพที่มีความหนาแน่นสูง เช่น รูปภาพและวิดีโอที่มีความละเอียดสูง ซึ่งนำไปสู่ความไร้ประสิทธิภาพอย่างมาก แม้ว่าวิธีการตัดโทเค็นและการรวมโทเค็นจะมีอยู่ แต่วิธีการเหล่านี้จะสร้างเอาต์พุตความยาวเดียวสำหรับแต่ละภาพ และไม่สามารถให้ความยืดหยุ่นในการแลกเปลี่ยนความหนาแน่นของข้อมูลกับประสิทธิภาพได้ ด้วยแรงบันดาลใจจากแนวคิดของ Matryoshka Dolls เราขอเสนอ M3 : Matryoshka Multimodal Models ซึ่งเรียนรู้ที่จะแสดงเนื้อหาที่เป็นภาพเป็นชุดโทเค็นภาพที่ซ้อนกัน ซึ่งรวบรวมข้อมูลจากรายละเอียดที่หยาบถึงละเอียดหลายรายการ แนวทางของเรานำเสนอคุณประโยชน์ที่เป็นเอกลักษณ์หลายประการสำหรับ LMM: (1) สามารถควบคุมความละเอียดของภาพต่ออินสแตนซ์การทดสอบได้อย่างชัดเจนในระหว่างการอนุมาน เช่น การปรับจำนวนโทเค็นที่ใช้เพื่อแสดงรูปภาพตามความซับซ้อนหรือความเรียบง่ายที่คาดการณ์ไว้ของเนื้อหา (2) M3 จัดเตรียมกรอบงานสำหรับการวิเคราะห์รายละเอียดที่จำเป็นสำหรับชุดข้อมูลที่มีอยู่ โดยที่เราพบว่าการวัดประสิทธิภาพแบบ COCO ต้องการโทเค็นภาพประมาณ 9 รายการเท่านั้น เพื่อให้ได้ความแม่นยำใกล้เคียงกับการใช้โทเค็นทั้งหมด 576 รายการ (3) วิธีการของเราเป็นรากฐานในการสำรวจการแลกเปลี่ยนที่ดีที่สุดระหว่างประสิทธิภาพและความยาวโทเค็นภาพในระดับตัวอย่าง โดยที่การตรวจสอบของเราเผยให้เห็นว่ามีช่องว่างขนาดใหญ่อยู่ระหว่างขอบเขตบนของ oracle และการแสดงขนาดคงที่ในปัจจุบัน | โมเดลต่อเนื่องหลายรูปแบบ |
27 พฤษภาคม 2567 | Trans-LoRA: ไปสู่การปรับแต่งพารามิเตอร์ที่ถ่ายโอนได้อย่างมีประสิทธิภาพโดยปราศจากข้อมูล | อะแดปเตอร์ระดับต่ำ (LoRA) และเวอร์ชันต่างๆ เป็นเทคนิคการปรับแต่งแบบละเอียดที่มีประสิทธิภาพด้วยพารามิเตอร์ (PEFT) ที่ได้รับความนิยม ซึ่งเข้ากันได้ดีกับประสิทธิภาพการปรับแต่งแบบละเอียดของโมเดลเต็มรูปแบบ ในขณะที่ต้องการพารามิเตอร์เพิ่มเติมเพียงเล็กน้อยเท่านั้น พารามิเตอร์ LoRA เพิ่มเติมเหล่านี้มีไว้สำหรับโมเดลพื้นฐานที่กำลังปรับเปลี่ยนโดยเฉพาะ เมื่อโมเดลพื้นฐานจำเป็นต้องเลิกใช้งานและแทนที่ด้วยโมเดลใหม่ โมดูล LoRA ที่เกี่ยวข้องทั้งหมดจำเป็นต้องได้รับการฝึกอบรมใหม่ การฝึกอบรมใหม่ดังกล่าวจำเป็นต้องเข้าถึงข้อมูลที่ใช้ในการฝึก LoRA สำหรับโมเดลพื้นฐานดั้งเดิม นี่เป็นปัญหาอย่างยิ่งสำหรับแอปพลิเคชันคลาวด์เชิงพาณิชย์ที่โมดูล LoRA และโมเดลพื้นฐานโฮสต์โดยผู้ให้บริการที่อาจไม่ได้รับอนุญาตให้โฮสต์ข้อมูลงานไคลเอ็นต์ที่เป็นกรรมสิทธิ์ เพื่อจัดการกับความท้าทายนี้ เราขอเสนอ Trans-LoRA ซึ่งเป็นวิธีการใหม่สำหรับการถ่ายโอน LoRA ข้ามโมเดลพื้นฐานโดยไม่สูญเสียข้อมูลและแทบไม่มีข้อมูล แนวทางของเราอาศัยข้อมูลสังเคราะห์ในการถ่ายโอนโมดูล LoRA ด้วยการใช้แบบจำลองภาษาขนาดใหญ่ เราออกแบบตัวสร้างข้อมูลสังเคราะห์เพื่อประมาณกระบวนการสร้างข้อมูลของชุดย่อยของข้อมูลที่สังเกตได้ การฝึกอบรมเกี่ยวกับชุดข้อมูลสังเคราะห์ที่ได้จะถ่ายโอนโมดูล LoRA ไปยังโมเดลใหม่ เราแสดงประสิทธิผลของแนวทางของเราโดยใช้ทั้งตระกูลโมเดล LLama และ Gemma แนวทางของเราทำให้สามารถถ่ายโอน LoRA แบบไม่สูญเสียข้อมูล (ปรับปรุงเป็นส่วนใหญ่) ระหว่างโมเดลภายในและระหว่างตระกูลโมเดลพื้นฐานที่แตกต่างกัน และแม้แต่ระหว่างวิธี PEFT ที่แตกต่างกันในงานที่หลากหลาย | วิธีการ PEFT การปรับแต่งแบบละเอียด |
26 พฤษภาคม 2567 | การเพิ่มประสิทธิภาพการตั้งค่าการเล่นด้วยตนเองสำหรับการจัดตำแหน่งโมเดลภาษา | การเรียนรู้การเสริมกำลังแบบดั้งเดิมจากแนวทางตอบรับของมนุษย์ (RLHF) ซึ่งอาศัยแบบจำลองพาราเมตริก เช่น โมเดลแบรดลีย์-เทอร์รี่ ไม่สามารถจับความไม่ผ่านผ่านและความไร้เหตุผลในความชอบของมนุษย์ได้ ความก้าวหน้าล่าสุดชี้ให้เห็นว่าการทำงานโดยตรงกับความน่าจะเป็นของการตั้งค่าสามารถให้ผลสะท้อนการตั้งค่าของมนุษย์ได้แม่นยำยิ่งขึ้น ช่วยให้การจัดตำแหน่งโมเดลภาษามีความยืดหยุ่นและแม่นยำยิ่งขึ้น ในบทความนี้ เราเสนอวิธีการเล่นด้วยตนเองสำหรับการจัดตำแหน่งโมเดลภาษา ซึ่งถือว่าปัญหาเหมือนกับเกมที่มีผู้เล่นสองคนที่ผลรวมคงที่ซึ่งมีจุดมุ่งหมายเพื่อระบุนโยบายสมดุลของแนช แนวทางของเราซึ่งมีชื่อว่า Self-Play Preference Optimization (SPPO) จะประมาณความสมดุลของ Nash ผ่านการอัปเดตนโยบายแบบวนซ้ำ และเพลิดเพลินกับการรับประกันการลู่เข้าทางทฤษฎี วิธีการของเราสามารถเพิ่มโอกาสในการบันทึกของการตอบสนองที่เลือกได้อย่างมีประสิทธิภาพ และลดโอกาสของการตอบสนองที่ถูกปฏิเสธ ซึ่งไม่สามารถทำได้โดยการสูญเสียแบบคู่แบบสมมาตร เช่น Direct Preference Optimization (DPO) และ Identity Preference Optimization (IPO) ในการทดลองของเรา การใช้พรอมต์เพียง 60,000 รายการ (ไม่มีการตอบกลับ) จากชุดข้อมูล UltraFeedback และไม่มีการเสริมพร้อมต์ใดๆ โดยการใช้ประโยชน์จากโมเดลการกำหนดค่าตามความชอบที่ได้รับการฝึกไว้ล่วงหน้า PairRM ด้วยพารามิเตอร์เพียง 0.4B เท่านั้น SPPO สามารถรับโมเดลจากการปรับแต่ง Mistral-7B- Instruct-v0.2 ที่ได้รับอัตราการชนะที่ควบคุมความยาวได้ล้ำสมัยที่ 28.53% เทียบกับ GPT-4-Turbo บน อัลปาก้าEval 2.0. นอกจากนี้ยังมีประสิทธิภาพเหนือกว่า DPO และ IPO (แบบวนซ้ำ) บน MT-Bench และ Open LLM Leaderboard โดยเฉพาะอย่างยิ่ง ประสิทธิภาพที่แข็งแกร่งของ SPPO เกิดขึ้นได้โดยไม่ต้องมีการควบคุมดูแลจากภายนอกเพิ่มเติม (เช่น การตอบสนอง การกำหนดค่าตามความชอบ ฯลฯ) จาก GPT-4 หรือโมเดลภาษาที่เข้มกว่าอื่นๆ | การจัดตำแหน่งการเพิ่มประสิทธิภาพ |
23 พฤษภาคม 2567 | คุณสมบัติโมเดลภาษาบางอันไม่ได้เป็นแบบเชิงเส้น | งานล่าสุดได้เสนอสมมติฐานการเป็นตัวแทนเชิงเส้น: แบบจำลองภาษาดำเนินการคำนวณโดยการจัดการการเป็นตัวแทนแนวคิดในมิติเดียว (“คุณลักษณะ”) ในพื้นที่การเปิดใช้งาน ในทางตรงกันข้าม เราสำรวจว่าการนำเสนอโมเดลภาษาบางอย่างอาจมีหลายมิติโดยเนื้อแท้หรือไม่ เราเริ่มต้นด้วยการพัฒนาคำจำกัดความที่เข้มงวดของคุณสมบัติหลายมิติที่ลดไม่ได้ โดยขึ้นอยู่กับว่าคุณสมบัติเหล่านั้นสามารถแบ่งออกเป็นคุณสมบัติมิติล่างที่เป็นอิสระหรือไม่เกิดขึ้นร่วมกัน ด้วยแรงบันดาลใจจากคำจำกัดความเหล่านี้ เราจึงออกแบบวิธีการปรับขนาดได้ซึ่งใช้ตัวเข้ารหัสอัตโนมัติแบบกระจายเพื่อค้นหาคุณลักษณะหลายมิติใน GPT-2 และ Mistral 7B โดยอัตโนมัติ คุณลักษณะที่ค้นพบโดยอัตโนมัติเหล่านี้ประกอบด้วยตัวอย่างที่สามารถตีความได้อย่างชัดเจน เช่น คุณลักษณะแบบวงกลมที่แสดงวันในสัปดาห์และเดือนของปี เราระบุงานที่ใช้วงกลมที่แน่นอนเหล่านี้เพื่อแก้ปัญหาการคำนวณที่เกี่ยวข้องกับเลขคณิตแบบโมดูลาร์ในวันในสัปดาห์และเดือนของปี สุดท้ายนี้ เราได้แสดงหลักฐานว่าคุณลักษณะแบบวงกลมเหล่านี้เป็นหน่วยพื้นฐานของการคำนวณในงานเหล่านี้ด้วยการทดลองแทรกแซงบน Mistral 7B และ Llama 3 8B และเราพบการนำเสนอแบบวงกลมเพิ่มเติมโดยแจกแจงสถานะที่ซ่อนอยู่สำหรับงานเหล่านี้ให้เป็นองค์ประกอบที่ตีความได้ | การวิเคราะห์การเป็นตัวแทนเชิงเส้น |
23 พฤษภาคม 2567 | AlignGPT: โมเดลภาษาขนาดใหญ่แบบหลายกิริยาพร้อมความสามารถในการจัดตำแหน่งแบบปรับเปลี่ยนได้ | โมเดลภาษาขนาดใหญ่หลายรูปแบบ (MLLM) ได้รับการยอมรับอย่างกว้างขวางว่ามีความสำคัญอย่างยิ่งในการสำรวจปัญญาประดิษฐ์ทั่วไป (AGI) หัวใจหลักของ MLLM อยู่ที่ความสามารถในการบรรลุการจัดตำแหน่งแบบข้ามโมดัล เพื่อให้บรรลุเป้าหมายนี้ MLLM ในปัจจุบันมักจะปฏิบัติตามกระบวนทัศน์การฝึกอบรมสองระยะ: ระยะก่อนการฝึกอบรมและระยะการปรับแต่งการสอน แม้จะประสบความสำเร็จ แต่ก็มีข้อบกพร่องในการสร้างแบบจำลองความสามารถในการจัดตำแหน่งภายในโมเดลเหล่านี้ ประการแรก ในระหว่างขั้นตอนก่อนการฝึกอบรม แบบจำลองมักจะถือว่าคู่ข้อความรูปภาพทั้งหมดมีการจัดตำแหน่งที่สม่ำเสมอ แต่ในความเป็นจริงแล้ว ระดับของการจัดตำแหน่งระหว่างคู่ข้อความรูปภาพที่ต่างกันนั้นไม่สอดคล้องกัน ประการที่สอง คำแนะนำที่ใช้ในปัจจุบันสำหรับการปรับแต่งอย่างละเอียดนั้นรวมเอางานที่หลากหลาย โดยทั่วไปคำสั่งของงานที่แตกต่างกันมักจะต้องการความสามารถในการจัดตำแหน่งในระดับที่แตกต่างกัน แต่ MLLM ก่อนหน้านี้มองข้ามความต้องการในการจัดตำแหน่งที่แตกต่างกันเหล่านี้ เพื่อแก้ไขปัญหาเหล่านี้ เราขอเสนอโมเดลภาษาขนาดใหญ่หลายรูปแบบใหม่ AlignGPT ในขั้นตอนก่อนการฝึกอบรม แทนที่จะปฏิบัติต่อคู่ข้อความรูปภาพทั้งหมดอย่างเท่าเทียมกัน เราจะกำหนดระดับความสามารถในการจัดตำแหน่งที่แตกต่างกันให้กับคู่ข้อความรูปภาพที่แตกต่างกัน จากนั้น ในขั้นตอนการปรับแต่งคำสั่ง เราจะรวมความสามารถในการจัดตำแหน่งในระดับต่างๆ เหล่านี้เข้าด้วยกัน เพื่อตอบสนองความต้องการการจัดตำแหน่งแบบไดนามิกของคำสั่งต่างๆ ผลการทดลองที่ครอบคลุมแสดงให้เห็นว่าแบบจำลองของเรามีประสิทธิภาพในการแข่งขันด้วยเกณฑ์มาตรฐาน 12 รายการ | การจัดตำแหน่งแบบจำลองหลายรูปแบบ |
23 พฤษภาคม 2567 | HippoRAG: หน่วยความจำระยะยาวที่ได้รับแรงบันดาลใจจากระบบประสาทสำหรับโมเดลภาษาขนาดใหญ่ | เพื่อที่จะเจริญเติบโตในสภาพแวดล้อมทางธรรมชาติที่ไม่เป็นมิตรและเปลี่ยนแปลงตลอดเวลา สมองของสัตว์เลี้ยงลูกด้วยนมได้พัฒนาเพื่อกักเก็บความรู้จำนวนมหาศาลเกี่ยวกับโลก และบูรณาการข้อมูลใหม่ ๆ อย่างต่อเนื่อง ในขณะเดียวกันก็หลีกเลี่ยงการลืมอันเป็นหายนะ แม้จะมีความสำเร็จที่น่าประทับใจ แต่โมเดลภาษาขนาดใหญ่ (LLM) แม้จะดึงข้อมูลรุ่นเสริม (RAG) ก็ยังคงดิ้นรนเพื่อบูรณาการประสบการณ์ใหม่จำนวนมากอย่างมีประสิทธิภาพและประสิทธิผลหลังการฝึกอบรมล่วงหน้า ในงานนี้ เราขอแนะนำ HippoRAG ซึ่งเป็นเฟรมเวิร์กการดึงข้อมูลแบบใหม่ที่ได้รับแรงบันดาลใจจากทฤษฎีการจัดทำดัชนีฮิปโปแคมปัสของความจำระยะยาวของมนุษย์ เพื่อให้สามารถบูรณาการความรู้ที่ลึกซึ้งและมีประสิทธิภาพยิ่งขึ้นผ่านประสบการณ์ใหม่ ๆ HippoRAG ประสาน LLM กราฟความรู้ และอัลกอริธึม PageRank ส่วนบุคคลเพื่อเลียนแบบบทบาทที่แตกต่างกันของนีโอคอร์เทกซ์และฮิบโปแคมปัสในความทรงจำของมนุษย์ เราเปรียบเทียบ HippoRAG กับวิธี RAG ที่มีอยู่ในการตอบคำถามแบบมัลติฮอป และแสดงให้เห็นว่าวิธีการของเรามีประสิทธิภาพเหนือกว่าวิธีการที่ทันสมัยอย่างน่าทึ่งถึง 20% การดึงข้อมูลแบบขั้นตอนเดียวด้วย HippoRAG ให้ประสิทธิภาพที่เทียบเคียงหรือดีกว่าการดึงข้อมูลแบบวนซ้ำเช่น IRCoT โดยมีราคาถูกกว่า 10-30 เท่าและเร็วกว่า 6-13 เท่า และการบูรณาการ HippoRAG เข้ากับ IRCoT จะนำมาซึ่งผลกำไรมหาศาลยิ่งขึ้น สุดท้ายนี้ เราแสดงให้เห็นว่าวิธีการของเราสามารถรับมือกับสถานการณ์รูปแบบใหม่ๆ ที่ไม่สามารถเข้าถึงได้จากวิธีการที่มีอยู่ | การเพิ่มประสิทธิภาพ RAG |
21 พฤษภาคม 2024 | OmniGlue: การจับคู่คุณสมบัติทั่วไปกับคำแนะนำแบบจำลองพื้นฐาน | ฟิลด์การจับคู่รูปภาพได้เห็นถึงการเกิดขึ้นอย่างต่อเนื่องของเทคนิคการจับคู่คุณลักษณะที่สามารถเรียนรู้ได้แบบใหม่ พร้อมด้วยประสิทธิภาพที่ปรับปรุงตลอดเวลาในเกณฑ์มาตรฐานทั่วไป อย่างไรก็ตาม การตรวจสอบของเราแสดงให้เห็นว่าแม้จะได้รับผลประโยชน์เหล่านี้ แต่ศักยภาพในการใช้งานในโลกแห่งความเป็นจริงนั้นถูกจำกัดโดยความสามารถทั่วไปที่จำกัดในโดเมนรูปภาพใหม่ ในบทความนี้ เราขอแนะนำ OmniGlue ซึ่งเป็นเครื่องมือจับคู่รูปภาพที่สามารถเรียนรู้ได้ตัวแรกที่ได้รับการออกแบบโดยยึดหลักทั่วไปเป็นหลัก OmniGlue ใช้ประโยชน์จากความรู้ในวงกว้างจากแบบจำลองรากฐานการมองเห็นเพื่อเป็นแนวทางในกระบวนการจับคู่คุณสมบัติ ส่งเสริมลักษณะทั่วไปไปยังโดเมนที่ไม่เห็นในเวลาการฝึกอบรม นอกจากนี้เรายังเสนอกลไกความสนใจตามตำแหน่งจุดสำคัญใหม่ ซึ่งแยกข้อมูลเชิงพื้นที่และรูปลักษณ์ออก ซึ่งนำไปสู่การอธิบายการจับคู่ที่ได้รับการปรับปรุง เราทำการทดลองที่ครอบคลุมกับชุดข้อมูล 7 ชุดที่มีโดเมนรูปภาพที่หลากหลาย รวมถึงรูปภาพระดับฉาก วัตถุเป็นศูนย์กลาง และภาพถ่ายทางอากาศ ส่วนประกอบใหม่ของ OmniGlue นำไปสู่การได้รับผลประโยชน์สัมพัทธ์จากโดเมนที่มองไม่เห็นถึง 20.9% เมื่อเทียบกับโมเดลอ้างอิงที่เปรียบเทียบได้โดยตรง ขณะเดียวกันก็มีประสิทธิภาพเหนือกว่าวิธี LightGlue ล่าสุดถึง 9.5% เมื่อเทียบกับ รหัสและรุ่นสามารถดูได้ที่ https: //hwjiang1510.github.io/OmniGlue | โมเดลต่อเนื่องหลายรูปแบบ |
20 พฤษภาคม 2024 | MoRA: การอัปเดตระดับสูงเพื่อการปรับแต่งพารามิเตอร์อย่างมีประสิทธิภาพ | การปรับตัวระดับต่ำ (LoRA) เป็นวิธีการปรับแต่งแบบละเอียดที่มีประสิทธิภาพตามพารามิเตอร์ (PEFT) ที่ได้รับความนิยมสำหรับโมเดลภาษาขนาดใหญ่ (LLM) ในบทความนี้ เราวิเคราะห์ผลกระทบของการอัปเดตระดับต่ำตามที่นำมาใช้ใน LoRA การค้นพบของเราชี้ให้เห็นว่ากลไกการอัปเดตระดับต่ำอาจจำกัดความสามารถของ LLM ในการเรียนรู้และจดจำความรู้ใหม่อย่างมีประสิทธิภาพ ด้วยแรงบันดาลใจจากข้อสังเกตนี้ เราเสนอวิธีการใหม่ที่เรียกว่า MoRA ซึ่งใช้เมทริกซ์จตุรัสเพื่อให้ได้การอัปเดตระดับสูงในขณะที่ยังคงรักษาพารามิเตอร์ที่ฝึกได้จำนวนเท่าเดิม เพื่อให้บรรลุเป้าหมายนี้ เราแนะนำตัวดำเนินการที่ไม่ใช่พารามิเตอร์ที่เกี่ยวข้องเพื่อลดขนาดอินพุตและเพิ่มขนาดเอาต์พุตสำหรับเมทริกซ์จัตุรัส นอกจากนี้ เจ้าหน้าที่ปฏิบัติงานเหล่านี้ยังช่วยให้มั่นใจได้ว่าน้ำหนักสามารถรวมกลับเข้าไปใน LLM ได้ ซึ่งทำให้วิธีการของเราสามารถใช้งานได้เหมือนกับ LoRA เราทำการประเมินวิธีการของเราอย่างครอบคลุมใน 5 งาน ได้แก่ การปรับคำสั่ง การใช้เหตุผลทางคณิตศาสตร์ การฝึกล่วงหน้าอย่างต่อเนื่อง การฝึกความจำ และการฝึกล่วงหน้า วิธีการของเรามีประสิทธิภาพเหนือกว่า LoRA ในงานที่ใช้หน่วยความจำมาก และบรรลุประสิทธิภาพที่เทียบเคียงได้กับงานอื่นๆ รหัสของเราจะมีอยู่ที่ https://github.com/kongds/MoRA | แนวทาง PEFT การปรับแต่งอย่างละเอียด |
19 พฤษภาคม 2567 | หม้อแปลงไฟฟ้าของคุณเป็นแบบเชิงเส้นอย่างลับๆ | บทความนี้เผยให้เห็นคุณลักษณะเชิงเส้นแบบใหม่ที่มีเฉพาะตัวถอดรหัสหม้อแปลง รวมถึงรุ่นต่างๆ เช่น GPT, LLaMA, OPT, BLOOM และอื่นๆ เราวิเคราะห์การเปลี่ยนแปลงการฝังระหว่างเลเยอร์ตามลำดับ เผยให้เห็นความสัมพันธ์เชิงเส้นที่ใกล้จะสมบูรณ์แบบ (คะแนนความคล้ายคลึงกันของ Procrustes ที่ 0.99) อย่างไรก็ตาม ความเป็นเส้นตรงจะลดลงเมื่อส่วนประกอบที่เหลือถูกเอาออก เนื่องจากบรรทัดฐานเอาต์พุตต่ำของชั้นหม้อแปลงอย่างสม่ำเสมอ การทดลองของเราแสดงให้เห็นว่าการถอดหรือประมาณเส้นตรงของบล็อกหม้อแปลงเชิงเส้นบางส่วนส่วนใหญ่ไม่ส่งผลกระทบอย่างมีนัยสำคัญต่อการสูญเสียหรือประสิทธิภาพของแบบจำลอง ยิ่งไปกว่านั้น ในการทดลองฝึกล่วงหน้ากับโมเดลขนาดเล็ก เราได้แนะนำการทำให้เป็นมาตรฐานโดยใช้โคไซน์คล้ายคลึงกัน โดยมีเป้าหมายเพื่อลดความเป็นเส้นตรงของเลเยอร์ การทำให้เป็นมาตรฐานนี้ปรับปรุงตัววัดประสิทธิภาพบนเกณฑ์มาตรฐาน เช่น Tiny Stories และ SuperGLUE และยังช่วยลดความเป็นเชิงเส้นของโมเดลได้สำเร็จอีกด้วย การศึกษาครั้งนี้ท้าทายความเข้าใจที่มีอยู่เกี่ยวกับสถาปัตยกรรมหม้อแปลงไฟฟ้า โดยแนะนำว่าการดำเนินงานอาจเป็นเส้นตรงมากกว่าที่คิดไว้ก่อนหน้านี้ | การวิเคราะห์หม้อแปลงไฟฟ้า |
18 พฤษภาคม 2567 | มุ่งสู่ Modular LLM โดยการสร้างและนำไลบรารีของ LoRA กลับมาใช้ใหม่ | จำนวนที่เพิ่มขึ้นของการปรับใช้พารามิเตอร์ที่มีประสิทธิภาพของโมเดลภาษาขนาดใหญ่พื้นฐาน (LLM) เรียกร้องให้มีการศึกษาว่าเราสามารถนำอะแดปเตอร์ที่ผ่านการฝึกอบรมดังกล่าวกลับมาใช้ใหม่เพื่อปรับปรุงประสิทธิภาพสำหรับงานใหม่ได้หรือไม่ เราศึกษาวิธีการสร้างไลบรารีของอะแดปเตอร์ที่ดีที่สุดโดยอาศัยข้อมูลแบบหลายงานและเทคนิคการออกแบบสำหรับภาพรวมของงานแบบศูนย์ช็อตและแบบมีการดูแลผ่านการกำหนดเส้นทางในไลบรารีดังกล่าว เราเปรียบเทียบแนวทางที่มีอยู่ในการสร้างไลบรารีนี้ และแนะนำการทำคลัสเตอร์ตามแบบจำลอง MBC ซึ่งเป็นวิธีการที่จัดกลุ่มงานตามความคล้ายคลึงกันของพารามิเตอร์อะแดปเตอร์ การปรับให้เหมาะสมทางอ้อมสำหรับการถ่ายโอนข้ามชุดข้อมูลแบบหลายงาน หากต้องการนำไลบรารีกลับมาใช้ใหม่ เรานำเสนอกลไกการกำหนดเส้นทางแบบ Zero-shot ใหม่อย่าง Arrow ซึ่งช่วยให้สามารถเลือกอะแดปเตอร์ที่เกี่ยวข้องมากที่สุดแบบไดนามิกสำหรับอินพุตใหม่โดยไม่จำเป็นต้องฝึกอบรมใหม่ เราทดลองกับ LLM หลายตัว เช่น Phi-2 และ Mistral ในงานที่ค้างอยู่มากมาย เพื่อตรวจสอบว่าอะแดปเตอร์ที่ใช้ MBC และการกำหนดเส้นทาง Arrow นำไปสู่ลักษณะทั่วไปที่เหนือกว่าสำหรับงานใหม่ เราก้าวไปสู่การสร้าง LLM แบบโมดูลาร์ที่ปรับเปลี่ยนได้ ซึ่งสามารถจับคู่หรือเหนือกว่าการฝึกร่วมแบบเดิมๆ | แนวทาง PEFT, การปรับแต่ง, ชุดเครื่องมือ |
16 พฤษภาคม 2567 | Chameleon: โมเดลรากฐานฟิวชั่นแบบผสม Modal Early-Fusion | เรานำเสนอ Chameleon ซึ่งเป็นกลุ่มโมเดลมิกซ์โมดอลที่ใช้โทเค็นฟิวชั่นในช่วงต้น ซึ่งสามารถทำความเข้าใจและสร้างรูปภาพและข้อความในลำดับใดก็ได้ตามต้องการ เราร่างแนวทางการฝึกอบรมที่มั่นคงตั้งแต่เริ่มต้น สูตรการจัดตำแหน่ง และการกำหนดพารามิเตอร์ทางสถาปัตยกรรมที่ปรับแต่งสำหรับการตั้งค่าแบบผสมตั้งแต่ต้น ใช้โทเค็น และแบบผสม แบบจำลองได้รับการประเมินในงานที่หลากหลาย รวมถึงการตอบคำถามด้วยภาพ คำบรรยายภาพ การสร้างข้อความ การสร้างภาพ และการสร้างกิริยาช่วยแบบผสมรูปแบบยาว Chameleon แสดงให้เห็นถึงความสามารถทั่วไปและกว้างๆ รวมถึงประสิทธิภาพที่ล้ำสมัยในงานคำบรรยายภาพ เหนือกว่า Llama-2 ในงานข้อความอย่างเดียว ในขณะที่สามารถแข่งขันกับรุ่นต่างๆ เช่น Mixtral 8x7B และ Gemini-Pro และแสดงภาพที่ไม่สำคัญ เจเนอเรชันใหม่ทั้งหมดในรูปแบบเดียว นอกจากนี้ยังจับคู่หรือเหนือกว่าประสิทธิภาพของรุ่นที่มีขนาดใหญ่กว่ามาก รวมถึง Gemini Pro และ GPT-4V จากการตัดสินของมนุษย์ในการประเมินการสร้างรูปแบบผสมในรูปแบบยาวแบบใหม่ โดยที่พรอมต์หรือเอาต์พุตมีลำดับผสมของทั้งรูปภาพและข้อความ . Chameleon ถือเป็นก้าวสำคัญในการสร้างแบบจำลองเอกสารหลายรูปแบบแบบครบวงจร | โมเดลหลายรูปแบบรุ่นรองพื้น |
16 พฤษภาคม 2024 | การเรียนรู้ในบริบทหลายครั้งในรูปแบบพื้นฐานหลายรูปแบบ | แบบจำลองภาษาขนาดใหญ่เป็นที่รู้จักกันดีว่ามีประสิทธิภาพในการเรียนรู้ไม่กี่ครั้งในบริบท (ICL) ความก้าวหน้าล่าสุดในโมเดลรากฐานหลายรูปแบบได้เปิดใช้งานหน้าต่างบริบทที่ยาวนานอย่างไม่เคยมีมาก่อนนำเสนอโอกาสในการสำรวจความสามารถในการดำเนินการ ICL ด้วยตัวอย่างที่แสดงให้เห็นอีกมากมาย ในงานนี้เราประเมินประสิทธิภาพของโมเดลพื้นฐานหลายรูปแบบที่ปรับขนาดตั้งแต่ไม่กี่นัดไปจนถึง ICL หลายนัด เราเกณฑ์มาตรฐาน GPT-4O และ Gemini 1.5 Pro ในชุดข้อมูล 10 ชุดซึ่งครอบคลุมหลายโดเมน (ภาพธรรมชาติภาพทางการแพทย์การตรวจจับระยะไกลและภาพโมเลกุล) และงาน (การจำแนกประเภทหลายชั้นและการจำแนกประเภทที่ละเอียด) เราสังเกตว่า ICL จำนวนมากรวมถึงตัวอย่างการสาธิตหลายรูปแบบเกือบ 2,000 ตัวอย่างนำไปสู่การปรับปรุงที่สำคัญเมื่อเทียบกับ ICL สองสามครั้ง (<100 ตัวอย่าง) ICL ในชุดข้อมูลทั้งหมด นอกจากนี้ประสิทธิภาพของ Gemini 1.5 Pro ยังคงปรับปรุงการบันทึกอย่างต่อเนื่องถึงจำนวนตัวอย่างที่ทดสอบสูงสุดในชุดข้อมูลจำนวนมาก ด้วยค่าใช้จ่ายในการอนุมานที่สูงที่เกี่ยวข้องกับการแจ้งเตือนระยะยาวที่จำเป็นสำหรับ ICL หลายนัดเรายังสำรวจผลกระทบของการแบตช์หลายการสืบค้นในการโทร API ครั้งเดียว เราแสดงให้เห็นว่าการแบตช์มากถึง 50 ข้อความค้นหาสามารถนำไปสู่การปรับปรุงประสิทธิภาพภายใต้การยิงแบบศูนย์และ ICL จำนวนมากโดยมีการเพิ่มขึ้นอย่างมากในการตั้งค่า zero-shot ในชุดข้อมูลหลายชุดในขณะที่ลดต้นทุนต่อคำถามและความล่าช้าอย่างมาก ในที่สุดเราวัดประสิทธิภาพของข้อมูล ICL ของแบบจำลองหรืออัตราที่โมเดลเรียนรู้จากตัวอย่างที่แสดงให้เห็นมากขึ้น เราพบว่าในขณะที่ GPT-4O และ Gemini 1.5 Pro ได้รับประสิทธิภาพการยิงแบบศูนย์ที่คล้ายกันในชุดข้อมูล Gemini 1.5 Pro แสดงประสิทธิภาพของข้อมูล ICL สูงกว่า GPT-4O ในชุดข้อมูลส่วนใหญ่ ผลลัพธ์ของเราแนะนำว่า ICL-shot จำนวนมากสามารถช่วยให้ผู้ใช้สามารถปรับรุ่นพื้นฐานหลายรูปแบบให้เข้ากับแอพพลิเคชั่นและโดเมนใหม่ได้อย่างมีประสิทธิภาพ Codebase ของเรามีให้บริการในที่สาธารณะที่ https://github.com/stanfordmlgroup/manyicl | ICL, Multimodal Models |
15 พฤษภาคม 2567 | Lora เรียนรู้น้อยลงและลืมน้อยลง | การปรับตัวระดับต่ำ (LORA) เป็นวิธีการปรับพารามิเตอร์ที่ใช้กันอย่างแพร่หลายสำหรับแบบจำลองภาษาขนาดใหญ่ LORA บันทึกหน่วยความจำโดยการฝึกซ้อมการก่อกวนอันดับต่ำไปยังเมทริกซ์น้ำหนักที่เลือก ในงานนี้เราเปรียบเทียบประสิทธิภาพของ LORA และ FINETUNING เต็มรูปแบบในสองโดเมนเป้าหมายคือการเขียนโปรแกรมและคณิตศาสตร์ เราพิจารณาทั้งคู่การเรียนการสอน finetuning (≈100kการตอบสนองต่อการตอบสนอง) และต่อเนื่อง (≈10bโทเค็นโครงสร้างโทเค็น) ผลลัพธ์ของเราแสดงให้เห็นว่าในการตั้งค่าส่วนใหญ่ LORA มีประสิทธิภาพต่ำกว่าการปรับแต่งเต็มรูปแบบอย่างมีนัยสำคัญ อย่างไรก็ตาม LORA จัดแสดงรูปแบบการทำให้เป็นมาตรฐานที่ต้องการ: มันรักษาประสิทธิภาพของโมเดลพื้นฐานได้ดีกว่าในงานนอกโดเมนเป้าหมาย เราแสดงให้เห็นว่า LORA ให้การทำให้เป็นมาตรฐานมากขึ้นเมื่อเทียบกับเทคนิคทั่วไปเช่นการสลายตัวของน้ำหนักและการออกกลางคัน นอกจากนี้ยังช่วยรักษารุ่นที่หลากหลายมากขึ้น เราแสดงให้เห็นว่า Finetuning เต็มรูปแบบเรียนรู้การก่อกวนด้วยอันดับที่สูงกว่าการกำหนดค่า LORA ทั่วไป 10-100x ซึ่งอาจอธิบายช่องว่างที่รายงานได้ เราสรุปโดยเสนอแนวทางปฏิบัติที่ดีที่สุดสำหรับการ finetuning กับ Lora | แนวทาง Peft การปรับแต่ง |
14 พฤษภาคม 2567 | การทำความเข้าใจช่องว่างประสิทธิภาพระหว่างอัลกอริทึมการจัดตำแหน่งออนไลน์และออฟไลน์ | การเรียนรู้การเสริมแรงจากข้อเสนอแนะของมนุษย์ (RLHF) เป็นกรอบการทำงานที่เป็นที่ยอมรับสำหรับการจัดตำแหน่งแบบจำลองภาษาขนาดใหญ่ อย่างไรก็ตามความนิยมที่เพิ่มขึ้นในอัลกอริทึมการจัดตำแหน่งออฟไลน์ท้าทายความต้องการการสุ่มตัวอย่างตามนโยบายใน RLHF ภายในบริบทของการให้รางวัลมากเกินไปเราเริ่มต้นด้วยชุดเปิดของการทดลองที่แสดงให้เห็นถึงข้อได้เปรียบที่ชัดเจนของวิธีการออนไลน์ผ่านวิธีการออฟไลน์ สิ่งนี้ทำให้เราสามารถตรวจสอบสาเหตุของความคลาดเคลื่อนด้านประสิทธิภาพผ่านชุดของการทดลองที่ออกแบบมาอย่างระมัดระวัง เราแสดงให้เห็นว่าสมมติฐานเช่นการครอบคลุมข้อมูลออฟไลน์และคุณภาพข้อมูลด้วยตัวเองไม่สามารถอธิบายความแตกต่างของประสิทธิภาพได้อย่างน่าเชื่อถือ นอกจากนี้เรายังพบว่าในขณะที่อัลกอริทึมแบบออฟไลน์ฝึกอบรมนโยบายให้ดีในการจำแนกประเภทคู่มันแย่ลงในรุ่น ในระหว่างนี้นโยบายที่ได้รับการฝึกฝนโดยอัลกอริทึมออนไลน์นั้นดีในรุ่นที่แย่กว่านั้นในการจำแนกประเภทคู่ สิ่งนี้บอกเป็นนัยถึงความสามารถในการทำงานร่วมกันที่ไม่เหมือนใครระหว่างความสามารถในการเลือกปฏิบัติและการกำเนิดซึ่งได้รับผลกระทบอย่างมากจากกระบวนการสุ่มตัวอย่าง สุดท้ายเราสังเกตว่าความแตกต่างของประสิทธิภาพยังคงมีอยู่สำหรับฟังก์ชั่นการสูญเสียทั้งแบบตรงกันข้ามและไม่แปรปรวนและดูเหมือนว่าจะไม่ได้รับการแก้ไขเพียงแค่ปรับขนาดเครือข่ายนโยบาย เมื่อนำมารวมกันการศึกษาของเราแสดงให้เห็นถึงบทบาทสำคัญของการสุ่มตัวอย่างตามนโยบายในการจัดตำแหน่ง AI และคำแนะนำในความท้าทายพื้นฐานบางประการของอัลกอริทึมการจัดตำแหน่งออฟไลน์ | การจัดตำแหน่ง |
13 พฤษภาคม 2024 | เวิร์กโฟลว์ RLHF: จากการสร้างแบบจำลองรางวัลไปจนถึง RLHF ออนไลน์ | เรานำเสนอเวิร์กโฟลว์ของการเรียนรู้การเสริมแรงซ้ำ ๆ ออนไลน์จากข้อเสนอแนะของมนุษย์ (RLHF) ในรายงานทางเทคนิคนี้ซึ่งมีการรายงานอย่างกว้างขวางเพื่อให้ได้ผลดีกว่าคู่ออฟไลน์โดยมีอัตรากำไรขั้นต้นขนาดใหญ่ในวรรณคดีภาษาขนาดใหญ่ (LLM) ล่าสุด อย่างไรก็ตามโครงการ RLHF โอเพ่นซอร์สที่มีอยู่ยังคงถูก จำกัด อยู่ที่การตั้งค่าการเรียนรู้ออฟไลน์เป็นส่วนใหญ่ ในรายงานทางเทคนิคนี้เราตั้งเป้าหมายที่จะเติมเต็มช่องว่างนี้และจัดทำสูตรรายละเอียดที่ง่ายต่อการทำซ้ำสำหรับ RLHF ซ้ำออนไลน์ โดยเฉพาะอย่างยิ่งเนื่องจากข้อเสนอแนะของมนุษย์ออนไลน์มักจะไม่สามารถทำได้สำหรับชุมชนโอเพนซอร์ซที่มีทรัพยากร จำกัด เราเริ่มต้นด้วยการสร้างแบบจำลองการตั้งค่าโดยใช้ชุดข้อมูลโอเพนซอร์ซที่หลากหลายและใช้แบบจำลองการตั้งค่าพร็อกซีที่สร้างขึ้นเพื่อการตอบรับของมนุษย์โดยประมาณ จากนั้นเราจะหารือเกี่ยวกับข้อมูลเชิงลึกเชิงทฤษฎีและหลักการอัลกอริทึมที่อยู่เบื้องหลัง RLHF ซ้ำออนไลน์ตามด้วยการใช้งานจริง LLM ที่ผ่านการฝึกอบรมของเรา SFR-TITERATIVE-DPO-LLAMA-LLAMA-3-8B-R ได้รับการแสดงที่น่าประทับใจในการวัดประสิทธิภาพ LLM Chatbot รวมถึง Alpacaeval-2, Arena-Hard และ Mt-Bench รวมถึงเกณฑ์มาตรฐานทางวิชาการอื่น ๆ Trustfulqa. เราได้แสดงให้เห็นว่าการปรับแต่งการปรับแต่ง (SFT) และ RLHF ซ้ำ ๆ สามารถรับประสิทธิภาพที่ล้ำสมัยด้วยชุดข้อมูลโอเพนซอร์ซอย่างสมบูรณ์ นอกจากนี้เราได้จัดทำแบบจำลองชุดข้อมูลที่ดูแลและคู่มือรหัสแบบทีละขั้นตอนที่ครอบคลุม โปรดดูที่ https://github.com/rlhflow/rlhf-reward-modeling และ https://github.com/rlhflow/online-rlhf สำหรับข้อมูลรายละเอียดเพิ่มเติม | การเพิ่มประสิทธิภาพการตั้งค่า RLHF |
2 พฤษภาคม 2024 | โพร 2: โมเดลภาษาโอเพนซอร์สที่เชี่ยวชาญในการประเมินรูปแบบภาษาอื่น ๆ | LMS ที่เป็นกรรมสิทธิ์เช่น GPT-4 มักใช้เพื่อประเมินคุณภาพของการตอบสนองจาก LMS ต่างๆ อย่างไรก็ตามความกังวลรวมถึงความโปร่งใสความสามารถในการควบคุมและความสามารถในการจ่ายได้กระตุ้นการพัฒนาของ OpenSource LMS ที่เชี่ยวชาญในการประเมิน ในทางกลับกัน LMS ผู้ประเมินแบบเปิดที่มีอยู่แสดงข้อบกพร่องที่สำคัญ: 1) พวกเขาออกคะแนนที่แตกต่างอย่างมีนัยสำคัญจากที่ได้รับมอบหมายจากมนุษย์และ 2) พวกเขาขาดความยืดหยุ่นในการดำเนินการประเมินโดยตรงและการจัดอันดับคู่ทั้งสองรูปแบบการประเมินที่แพร่หลายมากที่สุด . นอกจากนี้พวกเขาไม่ได้มีความสามารถในการประเมินตามเกณฑ์การประเมินที่กำหนดเองโดยมุ่งเน้นไปที่คุณลักษณะทั่วไปเช่นความช่วยเหลือและความไม่เป็นอันตราย เพื่อแก้ไขปัญหาเหล่านี้เราแนะนำ Prometheus 2 ซึ่งเป็น LM ผู้ประเมินที่ทรงพลังมากกว่ารุ่นก่อนที่สะท้อนการตัดสินของมนุษย์และ GPT-4 อย่างใกล้ชิด ยิ่งไปกว่านั้นยังมีความสามารถในการประมวลผลทั้งรูปแบบการประเมินโดยตรงและรูปแบบการจัดอันดับคู่ที่จัดกลุ่มด้วยเกณฑ์การประเมินที่ผู้ใช้กำหนด ในการประเมินโดยตรงสี่มาตรฐานและมาตรฐานการจัดอันดับสี่คู่ Prometheus 2 ให้คะแนนความสัมพันธ์สูงสุดและข้อตกลงกับมนุษย์และผู้พิพากษา LM ที่เป็นกรรมสิทธิ์ในการทดสอบ LMS แบบเปิดทั้งหมดที่ผ่านการทดสอบ โมเดลรหัสและข้อมูลของเรามีให้บริการแบบสาธารณะ 1 | การประเมินผลตัวแทน |
2 พฤษภาคม 2024 | WildChat: 1M chatgpt การโต้ตอบบันทึกในป่า | Chatbots เช่น GPT-4 และ Chatgpt กำลังให้บริการผู้ใช้หลายล้านคน แม้จะมีการใช้อย่างแพร่หลาย แต่ก็ยังขาดชุดข้อมูลสาธารณะที่แสดงให้เห็นว่าเครื่องมือเหล่านี้ใช้เครื่องมือเหล่านี้ในทางปฏิบัติอย่างไร ในการเชื่อมช่องว่างนี้เราเสนอการเข้าถึง ChatGPT ฟรีสำหรับผู้ใช้ออนไลน์เพื่อแลกกับการเลือกที่ได้รับการยืนยันโดยไม่ระบุตัวตนเพื่อรวบรวมการแชททรานสคริปต์และขอส่วนหัวขอ จากนี้เราได้รวบรวม WildChat ซึ่งเป็นคลังการสนทนาผู้ใช้ 1 ล้านคนซึ่งประกอบด้วยการโต้ตอบมากกว่า 2.5 ล้านครั้ง เราเปรียบเทียบ WildChat กับชุดข้อมูลการโต้ตอบกับผู้ใช้แชทบ็อตที่เป็นที่นิยมอื่น ๆ และพบว่าชุดข้อมูลของเรามีพรอมต์ผู้ใช้ที่มีความหลากหลายมากที่สุดมีจำนวนภาษาที่ใหญ่ที่สุดและนำเสนอกรณีการใช้ที่เป็นพิษที่หลากหลายที่สุดสำหรับนักวิจัยเพื่อศึกษา นอกเหนือจากการถอดเสียงแชทที่มีการประทับเวลาแล้วเรายังเพิ่มชุดข้อมูลด้วยข้อมูลทางประชากรศาสตร์รวมถึงที่อยู่ของรัฐประเทศและที่อยู่ IP ที่แฮชพร้อมกับส่วนหัวคำขอ การเสริมนี้ช่วยให้สามารถวิเคราะห์พฤติกรรมผู้ใช้โดยละเอียดเพิ่มเติมในภูมิภาคทางภูมิศาสตร์ที่แตกต่างกันและมิติชั่วคราว ในที่สุดเนื่องจากมันจับกรณีการใช้งานที่หลากหลายเราจึงแสดงให้เห็นถึงยูทิลิตี้ที่มีศักยภาพของชุดข้อมูลในแบบจำลองการเรียนการสอนแบบปรับแต่งการปรับแต่ง Wildchat เปิดตัวที่ https://wildchat.allen.ai ภายใต้ใบอนุญาตผลกระทบ AI2 1 | เกณฑ์มาตรฐานการประเมินผล |
2 พฤษภาคม 2024 | StoryDiffusion: การตั้งใจด้วยตนเองอย่างสม่ำเสมอสำหรับการสร้างภาพและวิดีโอระยะยาว | สำหรับแบบจำลองการแพร่กระจายที่ใช้การแพร่กระจายเมื่อเร็ว ๆ นี้การรักษาเนื้อหาที่สอดคล้องกันในชุดภาพที่สร้างขึ้นโดยเฉพาะอย่างยิ่งผู้ที่มีวิชาและรายละเอียดที่ซับซ้อนนำเสนอความท้าทายที่สำคัญ ในบทความนี้เราเสนอวิธีการคำนวณด้วยตนเองใหม่เรียกว่าการแทรกแซงตนเองที่สอดคล้องกันซึ่งช่วยเพิ่มความสอดคล้องระหว่างภาพที่สร้างขึ้นและเพิ่มโมเดลข้อความไปสู่ภาพการแพร่กระจายที่แพร่หลายในลักษณะศูนย์ เพื่อขยายวิธีการของเราไปสู่การสร้างวิดีโอระยะยาวเรายังแนะนำโมดูลการทำนายการเคลื่อนไหวของอวกาศทางความหมายในนวนิยายใหม่ชื่อตัวทำนายการเคลื่อนไหวแบบความหมาย ได้รับการฝึกฝนให้ประเมินเงื่อนไขการเคลื่อนไหวระหว่างสองภาพที่ให้ไว้ในพื้นที่ความหมาย โมดูลนี้แปลงลำดับของภาพที่สร้างขึ้นเป็นวิดีโอที่มีการเปลี่ยนผ่านที่ราบรื่นและวิชาที่สอดคล้องกันซึ่งมีความเสถียรมากกว่าโมดูลอย่างมีนัยสำคัญตามพื้นที่แฝงเท่านั้นโดยเฉพาะอย่างยิ่งในบริบทของการสร้างวิดีโอที่ยาวนาน ด้วยการรวมองค์ประกอบนวนิยายทั้งสองนี้เฟรมเวิร์กของเราเรียกว่า StoryDiffusion สามารถอธิบายเรื่องราวที่ใช้ข้อความด้วยภาพหรือวิดีโอที่สอดคล้องกันซึ่งครอบคลุมเนื้อหาที่หลากหลาย StoryDiffusion ที่เสนอนั้นครอบคลุมการสำรวจการสำรวจในการสร้างเรื่องราวด้วยภาพด้วยการนำเสนอภาพและวิดีโอซึ่งเราหวังว่าจะสร้างแรงบันดาลใจให้กับการวิจัยเพิ่มเติมจากแง่มุมของการปรับเปลี่ยนสถาปัตยกรรม | แบบจำลองหลายรูปแบบการแพร่กระจาย |
2 พฤษภาคม 2024 | เปลวไฟ: การจัดแนวที่รู้จริงสำหรับแบบจำลองภาษาขนาดใหญ่ | การจัดตำแหน่งเป็นขั้นตอนมาตรฐานในการปรับแต่งแบบจำลองภาษาขนาดใหญ่ที่ผ่านการฝึกอบรมมาล่วงหน้า (LLMs) เพื่อทำตามคำแนะนำภาษาธรรมชาติและทำหน้าที่เป็นผู้ช่วย AI ที่เป็นประโยชน์ อย่างไรก็ตามเราได้สังเกตว่ากระบวนการจัดตำแหน่งทั่วไปล้มเหลวในการเพิ่มความถูกต้องตามข้อเท็จจริงของ LLMs และมักจะนำไปสู่การสร้างข้อเท็จจริงที่ผิดพลาดมากขึ้น (เช่นภาพหลอน) ในบทความนี้เราศึกษาวิธีการทำให้กระบวนการจัดตำแหน่ง LLM มากขึ้นโดยการระบุปัจจัยแรกที่นำไปสู่ภาพหลอนในขั้นตอนการจัดตำแหน่งทั้งสอง: การปรับแต่งการปรับแต่ง (SFT) และการเรียนรู้เสริมแรง (RL) โดยเฉพาะอย่างยิ่งเราพบว่าการฝึกอบรม LLM เกี่ยวกับความรู้ใหม่หรือตำราที่ไม่คุ้นเคยสามารถกระตุ้นให้เกิดภาพหลอน สิ่งนี้ทำให้ SFT มีความเป็นจริงน้อยลงเนื่องจากการฝึกฝนข้อมูลที่ติดฉลากของมนุษย์ซึ่งอาจเป็นนวนิยายของ LLM นอกจากนี้ฟังก์ชั่นการให้รางวัลที่ใช้ใน RL มาตรฐานยังสามารถกระตุ้นให้เกิดภาพหลอนได้เนื่องจากเป็นแนวทางให้ LLM เพื่อให้การตอบสนองที่เป็นประโยชน์มากขึ้นเกี่ยวกับชุดคำแนะนำที่หลากหลายมักจะเลือกคำตอบที่ยาวนานขึ้นและมีรายละเอียดมากขึ้น จากการสังเกตเหล่านี้เราเสนอการจัดตำแหน่งที่ตระหนักถึงความเป็นจริง (FLAME) ซึ่งประกอบด้วย SFT ที่รับรู้ถึงความเป็นจริงและ RL ที่รับรู้ถึงความเป็นจริงผ่านการเพิ่มประสิทธิภาพการตั้งค่าโดยตรง การทดลองแสดงให้เห็นว่าการจัดตำแหน่งการจัดตำแหน่งที่เป็นข้อเท็จจริงที่เราเสนอให้กับเรา LLM เพื่อส่งออกการตอบสนองที่เป็นข้อเท็จจริงมากขึ้นในขณะที่ยังคงความสามารถในการติดตามคำสั่ง | การจัดตำแหน่งข้อเท็จจริง |
2 พฤษภาคม 2024 | NEMO-ALIGNER: ชุดเครื่องมือที่ปรับขนาดได้สำหรับการจัดตำแหน่งแบบจำลองที่มีประสิทธิภาพ | การจัดรูปแบบภาษาขนาดใหญ่ (LLMs) กับค่านิยมและความชอบของมนุษย์เป็นสิ่งจำเป็นสำหรับการทำให้เป็นประโยชน์และปลอดภัย อย่างไรก็ตามการสร้างเครื่องมือที่มีประสิทธิภาพในการจัดตำแหน่งอาจเป็นเรื่องที่ท้าทายโดยเฉพาะอย่างยิ่งสำหรับ LLM ที่ใหญ่ที่สุดและมีความสามารถมากที่สุดซึ่งมักจะมีพารามิเตอร์หลายสิบหรือหลายร้อยพันล้านพารามิเตอร์ เราสร้าง NEMO-ALIGNER ซึ่งเป็นชุดเครื่องมือสำหรับการจัดตำแหน่งแบบจำลองที่สามารถปรับขนาดได้อย่างมีประสิทธิภาพในการใช้ GPU หลายร้อยสำหรับการฝึกอบรม NEMO-ALIGNER มาพร้อมกับการใช้งานที่ปรับให้เหมาะสมและปรับขนาดได้สูงสำหรับกระบวนทัศน์ที่สำคัญของการจัดตำแหน่งแบบจำลองเช่น: การเรียนรู้การเสริมแรงจากข้อเสนอแนะของมนุษย์ (RLHF), การเพิ่มประสิทธิภาพการตั้งค่าโดยตรง (DPO), Steerlm และการปรับแต่งตนเอง (SPIN) นอกจากนี้ชุดเครื่องมือของเรายังรองรับการใช้เทคนิคการจัดตำแหน่งส่วนใหญ่ในการตั้งค่าการปรับแต่ง (PEFT) ที่มีประสิทธิภาพ (PEFT) NEMO-ALIGNER ได้รับการออกแบบมาเพื่อการขยายความสามารถในการสนับสนุนเทคนิคการจัดตำแหน่งอื่น ๆ ด้วยความพยายามน้อยที่สุด มันเปิดโล่งด้วยใบอนุญาต Apache 2.0 และเราขอเชิญชวนให้ชุมชนมีส่วนร่วมที่ https://github.com/nvidia/Nemo-Aligner | การจัดตำแหน่งเครื่องมือเครื่องมือ |
1 พฤษภาคม 2567 | ขนาดแบทช์ที่ใหญ่กว่าจะดีกว่าเสมอหรือไม่? - การศึกษาเชิงประจักษ์เกี่ยวกับการแก้ไขแบบจำลองด้วย LLAMA-3 | การศึกษาครั้งนี้นำเสนอการวิเคราะห์การแก้ไขแบบจำลองเป้าหมายมุ่งเน้นไปที่รูปแบบภาษาขนาดใหญ่ล่าสุดคือ LLAMA-3 เราสำรวจประสิทธิภาพของเทคนิคการแก้ไขโมเดลยอดนิยม - โรม, Memit และ Emmet ซึ่งออกแบบมาสำหรับการแทรกแซงเลเยอร์ที่แม่นยำ เราระบุเลเยอร์ที่มีประสิทธิภาพมากที่สุดสำหรับการแก้ไขเป้าหมายผ่านการประเมินผลที่ครอบคลุมถึง 4096 การแก้ไขในสามกลยุทธ์ที่แตกต่างกัน: การแก้ไขตามลำดับการแก้ไขแบบแบตช์และวิธีการไฮบริดที่เราเรียกว่าเป็นการแก้ไขแบบลำดับ การค้นพบของเราบ่งชี้ว่าการเพิ่มขนาดแบทช์อาจทำให้ประสิทธิภาพของโมเดลลดลงอย่างมีนัยสำคัญมากกว่าการใช้แบทช์แก้ไขขนาดเล็กตามลำดับสำหรับการแก้ไขจำนวนเท่ากัน ด้วยสิ่งนี้เรายืนยันว่าการแก้ไขแบบจำลองตามลำดับเป็นองค์ประกอบสำคัญสำหรับการปรับขนาดวิธีการแก้ไขแบบจำลองและการวิจัยในอนาคตควรมุ่งเน้นไปที่วิธีการที่รวมการแก้ไขทั้งแบบแบตช์และแบบต่อเนื่อง การสังเกตนี้แสดงให้เห็นถึงข้อ จำกัด ที่อาจเกิดขึ้นในวิธีการแก้ไขแบบจำลองปัจจุบันซึ่งผลักดันให้มีขนาดแบทช์แก้ไขที่ใหญ่กว่าและเราหวังว่ามันจะปูทางสำหรับการตรวจสอบในอนาคตเพื่อเพิ่มประสิทธิภาพชุดแบทช์และประสิทธิภาพการแก้ไขแบบจำลอง | การแก้ไขโมเดล |
1 พฤษภาคม 2567 | LORA LAND: 310 LLMS ที่ปรับจูนซึ่งเป็นคู่แข่ง GPT-4 รายงานทางเทคนิค | การปรับระดับต่ำ (LORA) ได้กลายเป็นหนึ่งในวิธีการที่นำมาใช้อย่างกว้างขวางที่สุดสำหรับพารามิเตอร์การปรับจูนที่มีประสิทธิภาพ (PEFT) ของแบบจำลองภาษาขนาดใหญ่ (LLMS) LORA ลดจำนวนพารามิเตอร์ที่สามารถฝึกอบรมได้และการใช้หน่วยความจำในขณะที่บรรลุประสิทธิภาพที่เทียบเท่ากับการปรับแต่งอย่างเต็มที่ เราตั้งเป้าหมายที่จะประเมินความเป็นไปได้ของการฝึกอบรมและการให้บริการ LLMs ที่ปรับด้วย LORA ในแอปพลิเคชันในโลกแห่งความเป็นจริง อันดับแรกเราวัดคุณภาพของ LLMs ที่ปรับแต่งด้วยอะแดปเตอร์อันดับต่ำเชิงปริมาณใน 10 รุ่นฐานและ 31 งานรวม 310 รุ่น เราพบว่าโมเดล LORA แบบปรับ 4 บิตนั้นมีประสิทธิภาพสูงกว่ารุ่นฐานโดยเฉลี่ย 34 คะแนนและ GPT-4 โดยเฉลี่ย 10 คะแนน ประการที่สองเราตรวจสอบแบบจำลองฐานที่มีประสิทธิภาพมากที่สุดสำหรับการปรับแต่งและประเมินความสามารถที่สัมพันธ์กันและการทำนายของการวิเคราะห์พฤติกรรมที่ซับซ้อนของงานในการพยากรณ์ผลลัพธ์ของการปรับจูน ในที่สุดเราประเมินความสามารถในการแฝงและความสามารถพร้อมกันของ Lorax ซึ่งเป็นเซิร์ฟเวอร์การอนุมานหลายแหล่งโอเพ่นซอร์สที่อำนวยความสะดวกในการปรับใช้โมเดล LORA ที่ปรับจูนหลายรุ่นบน GPU เดียวโดยใช้น้ำหนักพื้นฐานที่ใช้ร่วมกันและการโหลดอะแดปเตอร์แบบไดนามิก Lorax Powers Lora Land, เว็บแอปพลิเคชันที่โฮสต์ 25 Lora ปรับแต่ง Mistral-7b LLMs บน Nvidia A100 GPU เดียวกับหน่วยความจำ 80GB Lora Land เน้นคุณภาพและความคุ้มค่าของการใช้ LLMs พิเศษหลายรายการใน LLM แบบอเนกประสงค์ทั่วไป | แนวทาง Peft การปรับแต่ง |
เข้าร่วมนักเรียนมากกว่า 1,000 คนในการผจญภัย 10 สัปดาห์นี้ในขณะที่เราเจาะลึกการประยุกต์ใช้ LLMs ในกรณีการใช้งานที่หลากหลาย
? ️ *สัปดาห์ที่ 1 [15 ม.ค. 2024] *: การแนะนำ LLMS ในทางปฏิบัติ
? ️ *สัปดาห์ที่ 2 [22 ม.ค. 2024] *: วิศวกรรมการแจ้งเตือนและพร้อมทางวิศวกรรม
? ️ *สัปดาห์ที่ 3 [29 ม.ค. 2024] *: การปรับแต่ง LLM
? ️ *สัปดาห์ที่ 4 [5 ก.พ. 2024] *: ผ้าขี้ริ้ว
? ️ *สัปดาห์ที่ 5 [12 ก.พ. 2024] *: เครื่องมือสำหรับการสร้างแอพ LLM
? ️ *สัปดาห์ที่ 6 [19 ก.พ. 2024] *: เทคนิคการประเมินผล
? ️ *สัปดาห์ที่ 7 [26 ก.พ. 2024] *: การสร้างแอปพลิเคชัน LLM ของคุณเอง
? ️ *สัปดาห์ที่ 8 [4 มีนาคม 2024] *: คุณสมบัติขั้นสูงและการปรับใช้
? ️ *สัปดาห์ที่ 9 [11 มีนาคม 2024] *: ความท้าทายกับ LLMS
? ️ *สัปดาห์ที่ 10 [18 มีนาคม 2024] *: แนวโน้มการวิจัยที่เกิดขึ้นใหม่
? ️ *สัปดาห์ที่ 11 *โบนัส *[25 มีนาคม 2024] *: ฐานราก
แบบจำลองภาษาขนาดใหญ่โดย Eth Zurich
ทำความเข้าใจแบบจำลองภาษาขนาดใหญ่โดยพรินซ์ตัน
หลักสูตร Transformers โดย HuggingFace
หลักสูตร NLP โดย HuggingFace
CS324 - โมเดลภาษาขนาดใหญ่โดย Stanford
AI Generative พร้อมรูปแบบภาษาขนาดใหญ่โดย Coursera
รู้เบื้องต้นเกี่ยวกับการกำเนิด AI โดย Coursera
พื้นฐานการกำเนิด AI โดย Google Cloud
รู้เบื้องต้นเกี่ยวกับรูปแบบภาษาขนาดใหญ่โดย Google Cloud
รู้เบื้องต้นเกี่ยวกับการกำเนิด AI โดย Google Cloud
แนวคิด AI Generative โดย Datacamp (Daniel Tedesco Data lead @ google)
1 ชั่วโมงแนะนำ LLM (โมเดลภาษาขนาดใหญ่) โดย weclouddata
LLM Foundation Models ตั้งแต่พื้นดินขึ้น ไพรเมอร์โดย Databricks
AI Generative อธิบายโดย Nvidia
รุ่นหม้อแปลงและรุ่นเบิร์ตโดย Google Cloud
แผนการเรียนรู้ AI Generative สำหรับผู้มีอำนาจตัดสินใจโดย AWS
รู้เบื้องต้นเกี่ยวกับ AI ที่รับผิดชอบโดย Google Cloud
พื้นฐานของ Generative AI โดย Microsoft Azure
AI Generative สำหรับผู้เริ่มต้นโดย Microsoft
CHATGPT สำหรับผู้เริ่มต้น: กรณีการใช้งานที่ดีที่สุดสำหรับทุกคนโดย Udemy
[1HR TALK] บทนำในรูปแบบภาษาขนาดใหญ่โดย Andrej Karpathy
CHATGPT สำหรับทุกคนโดยเรียนรู้การแจ้งเตือน
รูปแบบภาษาขนาดใหญ่ (LLMS) (เป็นภาษาอังกฤษ) โดย Kshitiz Verma (JK Lakshmipat University, Jaipur, อินเดีย)
LLMOPS: การสร้างแอปพลิเคชันในโลกแห่งความเป็นจริงด้วยแบบจำลองภาษาขนาดใหญ่โดย Udacity
Full Stack LLM bootcamp โดย FSDL
AI Generative สำหรับผู้เริ่มต้นโดย Microsoft
แบบจำลองภาษาขนาดใหญ่: แอปพลิเคชันผ่านการผลิตโดย Databricks
ฐานราก AI กำเนิดโดย AWS
รู้เบื้องต้นเกี่ยวกับหลักสูตรชุมชน AI ที่กำเนิดโดย Ineuron
LLM University โดย Cohere
LLM Learning Lab โดย Lightning AI
langchain สำหรับการพัฒนาแอปพลิเคชัน LLM โดย deeplearning.ai
llmops โดย deeplearning.ai
การทดสอบอัตโนมัติสำหรับ LLMOPS โดย deeplearning.ai
การสร้างแอพพลิเคชั่น AI Generative โดยใช้ AMAMON BETROCK โดย AWS
ให้บริการ LLM อย่างมีประสิทธิภาพโดย deeplearning.ai
การสร้างระบบด้วย chatgpt api โดย deeplearning.ai
แอพ LLM ที่ไม่มีเซิร์ฟเวอร์พร้อม Bedrock Amazon โดย deeplearning.ai
การสร้างแอปพลิเคชันพร้อมฐานข้อมูลเวกเตอร์โดย deeplearning.ai
การทดสอบอัตโนมัติสำหรับ LLMOPS โดย deeplearning.ai
llmops โดย deeplearning.ai
สร้างแอพ LLM ด้วย langchain.js โดย deeplearning.ai
การดึงข้อมูลขั้นสูงสำหรับ AI ด้วย chroma โดย deeplearning.ai
การดำเนินงาน LLMs บน Azure โดย Coursera
Generative AI Full Course - Gemini Pro, Openai, Llama, Langchain, Pinecone, ฐานข้อมูลเวกเตอร์และอื่น ๆ โดย freecodecamp.org
การฝึกอบรมและการปรับแต่ง LLMs สำหรับการผลิตโดย Activeloop
ฐานข้อมูล Langchain & Vector ในการผลิตโดย Activeloop
การเรียนรู้การเสริมแรงจากข้อเสนอแนะของมนุษย์โดย deeplearning.ai
การสร้างแอปพลิเคชันพร้อมฐานข้อมูลเวกเตอร์โดย deeplearning.ai
Finetuning รุ่นภาษาขนาดใหญ่โดย deeplearning.ai
Langchain: แชทกับข้อมูลของคุณโดย deeplearning.ai
การสร้างระบบด้วย chatgpt api โดย deeplearning.ai
วิศวกรรมพร้อมด้วย llama 2 โดย deeplearning.ai
การสร้างแอปพลิเคชันพร้อมฐานข้อมูลเวกเตอร์โดย deeplearning.ai
chatgpt วิศวกรรมพรอมต์สำหรับนักพัฒนาโดย deeplearning.ai
ชุด orchestration ขั้นสูงโดย llamaidex
ความเชี่ยวชาญด้านวิศวกรรมที่รวดเร็วโดย Coursera
เพิ่ม LLM ของคุณโดยใช้การเพิ่มการเรียกคืนโดย Nvidia
กราฟความรู้สำหรับผ้าขี้ริ้วโดย deeplearning.ai
โมเดลโอเพ่นซอร์สพร้อมกอดหน้าโดย deeplearning.ai
ฐานข้อมูลเวกเตอร์: จากการฝังตัวไปจนถึงแอปพลิเคชันโดย deeplearning.ai
การทำความเข้าใจและใช้การฝังข้อความโดย deeplearning.ai
JavaScript Rag Web Apps กับ Llamaidex โดย deeplearning.ai
ปัจจัยพื้นฐานเชิงปริมาณที่มีใบหน้ากอดโดย deeplearning.ai
การประมวลผลข้อมูลที่ไม่มีโครงสร้างล่วงหน้าสำหรับแอปพลิเคชัน LLM โดย deeplearning.ai
Generation Augmented Retrieval สำหรับการผลิตกับ Langchain & Llamaidex โดย Activeloop
ปริมาณเชิงลึกโดย deeplearning.ai
หากคุณต้องการเพิ่มลงในที่เก็บหรือค้นหาปัญหาใด ๆ โปรดอย่าลังเลที่จะเพิ่มการประชาสัมพันธ์และตรวจสอบให้แน่ใจว่าตำแหน่งที่ถูกต้องภายในส่วนหรือหมวดหมู่ที่เกี่ยวข้อง
ในการอ้างอิงคู่มือนี้ให้ใช้รูปแบบด้านล่าง:
@article{areganti_generative_ai_guide,
author = {Reganti, Aishwarya Naresh},
journal = {https://github.com/aishwaryanr/awesome-generative-ai-resources},
month = {01},
title = {{Generative AI Guide}},
year = {2024}
}
[ใบอนุญาต MIT]