รายการบทความนี้มุ่งเน้นไปที่ การวิเคราะห์เชิงทฤษฎีและเชิงประจักษ์ ของแบบจำลองภาษา โดยเฉพาะ แบบจำลองภาษาขนาดใหญ่ (LLM) บทความในรายการนี้ตรวจสอบพฤติกรรมการเรียนรู้ ความสามารถในการวางลักษณะทั่วไป และคุณสมบัติอื่นๆ ของแบบจำลองภาษาผ่านการวิเคราะห์ทางทฤษฎี การวิเคราะห์เชิงประจักษ์ หรือทั้งสองอย่างรวมกัน
ขอบเขตของรายการนี้:
ข้อจำกัดของรายการนี้:
สถิติของรายการบทความนี้:
หากคุณมีข้อเสนอแนะหรือต้องการมีส่วนร่วม โปรดอย่าลังเลที่จะเปิดประเด็นหรือดึงคำขอ
สำหรับรายละเอียดเกี่ยวกับวิธีการมีส่วนร่วม โปรดดูหลักเกณฑ์การบริจาค
คุณยังสามารถแบ่งปันความคิดของคุณและพูดคุยกับผู้อื่นในการสนทนาได้
บันทึก
สำหรับเวอร์ชันที่ไม่มีหมวดหมู่ โปรดดูที่นี่
^ back to top ^
หมวดหมู่ที่มุ่งเน้นไปที่ปรากฏการณ์ คุณสมบัติ และพฤติกรรมต่างๆ ที่พบในแบบจำลองภาษาขนาดใหญ่ (LLM) และแบบจำลองที่ใช้หม้อแปลงไฟฟ้า
^ back to top ^
เอกสารที่เน้นการวิเคราะห์เชิงทฤษฎีและเชิงประจักษ์ของการเรียนรู้ในบริบทในแบบจำลองภาษาขนาดใหญ่
การเรียนรู้ในบริบทที่พิสูจน์ได้ด้วย Transformers: กรณีศึกษาเกี่ยวกับการถดถอยเชิงเส้น [ลิงก์กระดาษ] 2024-11-04
เดคบู; เหว่ยหวง; อันดี ฮาน; อัตสึชิ นิทันดะ; ไทจิ ซูซูกิ; จางชิงฟู่; เฮาซาน หว่อง
หม้อแปลงที่ผ่านการฝึกอบรมมาแล้วจะเรียนรู้ฟังก์ชันเป้าหมายมิติต่ำในบริบทได้อย่างมีประสิทธิภาพ [ลิงก์กระดาษ] 2024-11-04
คาซึซาโตะ โอโกะ; ยูจินซอง; ไทจิ ซูซูกิ; เดนนี่ หวู่
สู่การทำความเข้าใจในบริบทและการเรียนรู้ตามน้ำหนัก [ลิงก์กระดาษ] 30-10-2024
ไบรอันชาน; ซินยี่ เฉิน; อันดราส กีเยอร์กี้; เดล ชูร์แมนส์
ในบทบาทของความลึกและการวนซ้ำสำหรับการเรียนรู้ในบริบทด้วยความหลากหลายของงาน [ลิงก์กระดาษ] 2024-10-29
คาชายาร์ กัตมิรี; นิคุนจ์ ซอนชิ; ซาแชงค์ เจ. เรดดี; สเตฟานี เจเกลก้า; ซันจิฟ กุมาร์
กลไกการประมวลผลสัญลักษณ์สำหรับการเรียนรู้ในบริบทในเครือข่ายหม้อแปลงไฟฟ้า [ลิงก์กระดาษ] 2024-10-23
พอล สโมเลนสกี้; โรแลนด์ เฟอร์นันเดซ; เจิ้งห่าว เฮอร์เบิร์ต โจว; แมทเทีย ออปเปอร์; เจี้ยนเฟิง เกา
Transformers ในบริบทสามารถเรียนรู้พฤติกรรมของระบบไดนามิกเชิงเส้นได้หรือไม่ [ลิงค์กระดาษ] 21-10-2024
อุสมาน อัครม; ฮาริส วิคาโล
กฎมาตราส่วนแบบเบย์สำหรับการเรียนรู้ในบริบท [ลิงก์กระดาษ] 2024-10-21
อารยามาน อโรรา; แดน จูราฟสกี้; คริสโตเฟอร์ พอตส์; โนอาห์ ดี. กู๊ดแมน
การเรียนรู้ในบริบทที่พิสูจน์ได้สำหรับการผสมผสานของการถดถอยเชิงเส้นโดยใช้ Transformers [ลิงก์กระดาษ] 2024-10-18
หยานห่าวจิน; กฤษณกุมาร์ บาลาสุบรามาเนียน; ลี่เฟิงลาย
การเรียนรู้ในบริบทและมีดโกนของ Occam [ลิงก์กระดาษ] 17-10-2024
เอริค เอลมอซนิโน; ทอม มาร์ตี้; เตจัส เกษตรติ; ลีโอ แก็กนอน; ซาร์ทัค มิททัล; มาฮาน ฟาธี; ธันยา ศรีธาร์; กิโยม ลาฌอย
การปรับขนาดบริบทเทียบกับการปรับขนาดงานในการเรียนรู้ในบริบท [ลิงก์กระดาษ] 2024-10-16
อามีร์เฮซัม อาเบดโซลตัน; อทิตยานารายานันท์ ราธากฤษนัน; จิงเฟิง วู; มิคาอิล เบลคิน
การข้ามการพึ่งพาแบบเอกซ์โปเนนเชียล: หม้อแปลงแบบวนซ้ำอย่างมีประสิทธิภาพเรียนรู้ในบริบทโดยการไล่ระดับสีแบบหลายขั้นตอน [ลิงก์กระดาษ] 2024-10-15
โบเฉิน; เสี่ยวหยูลี่; หยิงหยู่เหลียง; เจิ้นเหม่ยชิ; จ้าวซ่ง
วิธีที่ Transformers นำหัวเหนี่ยวนำไปใช้: การประมาณค่าและการวิเคราะห์การหาค่าเหมาะที่สุด [ลิงก์กระดาษ] 2024-10-15
หมิงเจ๋อ หวัง; รัวซี หยู; เว่ยหนานอี; เล่ยหวู่
เรื่องการฝึกอบรมการลู่เข้าของหม้อแปลงไฟฟ้าเพื่อการจำแนกประเภทในบริบท [ลิงก์กระดาษ] 2024-10-15
เว่ยเซิน; รุยต้าโจว; จิงหยาง; คงเซิน
Transformers เรียนรู้ห่วงโซ่ Markov แบบเรียงลำดับตัวแปรในบริบท [ลิงก์กระดาษ] 2024-10-07
รุยต้าโจว; เฉาเทียน; สุหัส ดิคคาวี
ทบทวนวงจรอนุมานการเรียนรู้ในบริบทในแบบจำลองภาษาขนาดใหญ่ [ลิงก์กระดาษ] 2024-10-06
ฮากาเซะ โช; มาริโกะ คาโตะ; โยชิฮิโระ ซากาอิ; นาโอยะ อิโนะอุเอะ
ตัวแยกประเภทหม้อแปลงที่ผ่านการฝึกอบรมทำให้เป็นภาพรวมและจัดแสดงในบริบทที่ไม่เหมาะสมมากเกินไป [ลิงก์กระดาษ] 2024-10-02
สเปนเซอร์ ไฟร; กัล วาร์ดี
Transformers จัดการกับ Endogeneity ในการถดถอยเชิงเส้นในบริบท [ลิงก์กระดาษ] 2024-10-02
ห่าวตงเหลียง; กฤษณกุมาร์ บาลาสุบรามาเนียน; ลี่เฟิงลาย
เปิดตัวหัวเหนี่ยวนำ: พลวัตการฝึกอบรมที่พิสูจน์ได้และการเรียนรู้คุณลักษณะใน Transformers [ลิงก์กระดาษ] 2024-09-10
ซือหยูเฉิน; ฮีจุน ชีน; เถียนห่าวหวาง; จูหรานหยาง
การเรียนรู้กับการดึงข้อมูล: บทบาทของตัวอย่างในบริบทในการถดถอยด้วย LLM [ลิงก์กระดาษ] 2024-09-06
อลิอักบาร์ นาฟาร์; คริสเตน เบรนต์ เวนาเบิล; ปาริสา คอร์ดจามชิดี
Transformers เป็นผู้เรียนในบริบทแบบไม่มีพารามิเตอร์ที่เหมาะสมที่สุดขั้นต่ำ [ลิงก์กระดาษ] 2024-08-22
จูโนคิม; ไท นากามากิ; ทาอิจิ ซูซูกิ
การท่องจำในการเรียนรู้ในบริบท [ลิงก์กระดาษ] 21-08-2024
ชาห์เรียร์ โกลชิน; มิไฮ เซอร์เดียนู; สตีเว่น เบธาร์ด; เอดูอาร์โด้ บลังโก; เอลเลน ริลอฟ
การเรียนรู้ในบริบทด้วยการเป็นตัวแทน: การวางนัยทั่วไปตามบริบทของหม้อแปลงไฟฟ้าที่ผ่านการฝึกอบรม [ลิงก์กระดาษ] 19-08-2024
ตงหยาง; หยูหวง; หยิงปินเหลียง; เยว่เจี๋ยฉี
การระบุแหล่งที่มาของชุดข้อมูลการฝึกอบรมอย่างรวดเร็วผ่านการเรียนรู้ในบริบท [ลิงก์กระดาษ] 14-08-2024
มิลาด โฟตูฮี; โมฮัมหมัด ทาฮา บาฮาโดริ; โอลูวาเซย์ เฟย์เซตัน; เพย์มาน อาหรับชาฮี; เดวิด เฮคเกอร์แมน
Transformers ใช้ความสนใจแบบหลายหัวในการเรียนรู้ในบริบทอย่างไร กรณีศึกษาเกี่ยวกับการถดถอยเชิงเส้นกระจัดกระจาย [ลิงก์กระดาษ] 08-08-2024
ซิงหวู่ เฉิน; เล่ยจ้าว; ดิฟาน ซู
Transformers เป็นผู้เรียนในบริบทสากล [ลิงก์กระดาษ] 2024-08-02
ทาคาชิ ฟุรุยะ; มาร์เทน วี. เดอ ฮูป; กาเบรียล เปเร่
การถดถอยพหุนามเป็นงานสำหรับการทำความเข้าใจการเรียนรู้ในบริบทผ่านการปรับแต่งและการจัดตำแหน่ง [ลิงก์กระดาษ] 2024-07-27
แม็กซ์ วิลคอกซ์สัน; มอร์เทน สเวนการ์ด; เรีย โดชิ; ดีแลน เดวิส; เรยา วีร์; อนันต์ สหาย
เปิดตัวการเรียนรู้ในบริบท: ระบบประสานงานเพื่อทำความเข้าใจกลไกการทำงานของมัน [paper link] 2024-07-24
อันเฮา จ้าว; ฟางฮวาเย่; จินหลานฟู่; เสี่ยวหยู่ เซิน
หม้อแปลงไฟฟ้าชั้นเดียวเรียนรู้เพื่อนบ้านที่ใกล้ที่สุดเพียงคนเดียวในบริบท [ลิงก์กระดาษ] 2024-07-24
จือห่าวลี่; หยวนเฉา; เฉิงเกา; ยีฮันเหอ; ฮั่นหลิว; เจสัน เอ็ม. คลูซอฟสกี้; เจียนชิงฟาน; เหมิงตี้ หวัง
เมื่อใดที่หม้อแปลงสามารถสรุปองค์ประกอบในบริบทได้? [ลิงค์กระดาษ] 17-07-2024
เซจิน โคบายาชิ; ไซมอน ชุก; ยัสซีร์ อัครา; ฟลอเรียน เรดฮาร์ด; โยฮันเนส ฟอน ออสวอลด์; ราซวาน ปาสคานู; กิโยม ลาฌอย; เจา ซาคราเมนโต
การเรียนรู้ในบริบทในบริบทด้วยกระบวนการประสาทของหม้อแปลง [ลิงก์กระดาษ] 19-06-2024
แมทธิว แอชแมน; คริสเตียน่า ดิอาโคนู; เอเดรียน เวลเลอร์; ริชาร์ด อี. เทิร์นเนอร์
การพิสูจน์ขอบเขตการตัดสินใจของการเรียนรู้ในบริบทในแบบจำลองภาษาขนาดใหญ่ [ลิงก์กระดาษ] 2024-06-17
ซือหยานจ้าว; ตุงเหงียน; อาทิตยา โกรเวอร์
State Soup: การเรียนรู้ทักษะในบริบท การดึงข้อมูล และการผสม [ลิงก์กระดาษ] 2024-06-12
มาเซียจ ปิโอโร่; มาเซียจ โวลซิค; ราซวาน ปาสคานู; โยฮันเนส ฟอน ออสวอลด์; เจา ซาคราเมนโต
การประมาณอัตราการเกิดอาการประสาทหลอนของ Generative AI [ลิงก์กระดาษ] 2024-06-11
แอนดรูว์ เจสสัน; นิโคลัส เบลตรัน-เบเลซ; เควนติน ชู; สเวตา คาร์เลการ์; ยานนิค โคสเซ่น; ญาริน กัล; จอห์น พี. คันนิงแฮม; เดวิด บลาย
BERT เป็นผู้เรียนเชิงสร้างสรรค์ในบริบท [ลิงก์กระดาษ] 2024-06-07
เดวิด ซามูเอล
การเพิ่มประสิทธิภาพการเรียนรู้ในบริบทด้วยการตัดน้ำหนักตาม SVD: มุมมองทางทฤษฎี [ลิงก์กระดาษ] 2024-06-06
ซินห่าวเหยา; เซียวหลินหู; เซินจือ หยาง; หยง หลิว
โมเดลภาษาเรียนรู้อะไรในบริบท? สมมติฐานงานที่มีโครงสร้าง [ลิงก์กระดาษ] 06-06-2024
เจียวต้าหลี่; อี้ฟานโหว; มรินมายา ซาจาน; ไรอัน คอตเทเรลล์
การแปลงการเรียนรู้ในบริบทอย่างแม่นยำเป็นโมเดลตุ้มน้ำหนักในหม้อแปลงแบบสนใจเชิงเส้น [ลิงก์กระดาษ] 2024-06-05
ไบรอัน เค เฉิน; เทียนหยางหู; ฮุยจิน; ฮวี ควน ลี; เคนจิ คาวากุจิ
การเรียนรู้ที่จะเรียนรู้: การเกิดขึ้นของการเรียนรู้ในบริบทและการจัดองค์ประกอบทักษะในงานเลขคณิตแบบแยกส่วน [ลิงก์กระดาษ] 2024-06-04
เทียนหยู่เหอ; ดาร์ชิล โดชิ; อาริตรา ดาส; อันเดรย์ กรอมอฟ
เหตุใดโมเดลภาษาขนาดใหญ่จึงเรียนรู้ในบริบทแตกต่างออกไป [ลิงค์กระดาษ] 30-05-2024
เจิ้นเหม่ยชิ; จุนอี้เว่ย; จัวหยาน ซู่; หยิงหยู เหลียง
การเรียนรู้ในบริบทเพียงพอสำหรับการสอนตาม LLM หรือไม่? [ลิงค์กระดาษ] 30-05-2024
ห่าวจ้าว; มักซิม อันดริวเชนโก; ฟรานเชสโก โครเช; นิโคลัส ฟลามมาริออน
การเรียนรู้ตัวแปรแฝงที่เหมาะสมจำเป็นต้องปรับปรุงการเรียนรู้ในบริบทหรือไม่? [ลิงค์กระดาษ] 29-05-2024
ซาร์ทัค มิททัล; เอริค เอลมอซนิโน; ลีโอ แก็กนอน; ซังนี่ บาร์ดวาจ; ธันยา ศรีธาร์; กิโยม ลาฌอย
ทฤษฎีการเรียนรู้ในบริบทใน Transformers [ลิงก์กระดาษ] 29-05-2024
อี้เฟยหวาง; หยูหยางหวู่; เซหมิงเว่ย; สเตฟานี เจเกลก้า; อี้เซิน หวาง
เรื่องการเพิ่มประสิทธิภาพ Mesa ในหม้อแปลงที่ผ่านการฝึกอบรมแบบถอยหลังอัตโนมัติ: การเกิดขึ้นและความสามารถ [ลิงก์กระดาษ] 2024-05-27
เจิ้งเฉินหยู่; เหว่ยหวง; หรงเจิ้นหวาง; กั๋วเฉียงหวู่; จุนจู้; ชงซวน ลี่
การเรียนรู้ในบริบทของ Transformer สำหรับข้อมูลหมวดหมู่ [ลิงก์กระดาษ] 27-05-2024
แอรอน ที. วัง; ริคาร์โด้ เฮเนา; ลอว์เรนซ์ คาริน
การปรับโดเมนอัตโนมัติโดย Transformers ในการเรียนรู้ในบริบท [ลิงก์กระดาษ] 2024-05-27
ริวอิจิโระ ฮาทายะ; โคตะ มัตสึอิ; มาซาอากิ อิมาอิซึมิ
การรวมการเลือกการสาธิตและการบีบอัดเพื่อการเรียนรู้ในบริบท [ลิงก์กระดาษ] 2024-05-27
จุนเกา
เรื่องความคงทนทางเสียงรบกวนของการเรียนรู้ในบริบทสำหรับการสร้างข้อความ [ลิงก์กระดาษ] 2024-05-27
หงฟู่ เกา; เฟยเผิง จาง; เหวินหยู่เจียง; จุนชู; เฟิงเจิ้ง; หงซิน เว่ย
MLP เรียนรู้ในบริบท [ลิงก์กระดาษ] 24-05-2024
วิลเลียม แอล. ตง; เซนกิซ เพห์เลวาน
สู่ความเข้าใจที่ดีขึ้นเกี่ยวกับความสามารถในการเรียนรู้ในบริบทจากการวัดปริมาณความไม่แน่นอนในบริบท [ลิงก์กระดาษ] 2024-05-24
ซางหลิว; จงเจ๋อไฉ; กวนถิงเฉิน; เสี่ยวเฉิง ลี่
Looped Transformers สามารถเรียนรู้การใช้การไล่ระดับสีแบบหลายขั้นตอนสำหรับการเรียนรู้ในบริบทได้หรือไม่ [ลิงค์กระดาษ] 2024-05-02
คาชายาร์ กัตมิรี; นิคุนจ์ ซอนชิ; ซาแชงค์ เจ. เรดดี; สเตฟานี เจเกลก้า; ซันจิฟ กุมาร์
การเรียนรู้ในบริบทในคลาสฟังก์ชันที่เปิดตัวสำหรับ Transformers [ลิงก์กระดาษ] 2024-05-02
จื่อเจี๋ยหวาง; โบเจียง; ซวย ลี่
การเรียนรู้ในบริบทด้วยโมเดลบริบทแบบยาว: การสำรวจเชิงลึก [ลิงก์กระดาษ] 30-04-2024
อแมนดา เบิร์ตช; มอร์อิฟกี; อูริ อลอน; โจนาธาน เบแรนท์; แมทธิว อาร์. กอร์มลีย์; เกรแฮม นอยบิก
หัวเหนี่ยวนำต้องทำอย่างไร? การศึกษากลไกของวงจรการเรียนรู้ในบริบทและการก่อตัวของมัน [ลิงก์กระดาษ] 2024-04-10
อาดิตยา เค. ซิงห์; เท็ด มอสโควิทซ์; เฟลิกซ์ฮิลล์; สเตฟานี CY ชาน; แอนดรูว์ เอ็ม. แซกส์
จำเป็นต้องให้ความสนใจกับ ICL หรือไม่? การสำรวจความสัมพันธ์ระหว่างสถาปัตยกรรมแบบจำลองและความสามารถในการเรียนรู้ในบริบท [ลิงก์กระดาษ] 2024-04-01
อีวานลี; หนานเจียง; เทย์เลอร์ เบิร์ก-เคิร์กแพทริค
พลวัตการฝึกอบรมของความสนใจ Softmax แบบหลายหัวสำหรับการเรียนรู้ในบริบท: การเกิดขึ้น การบรรจบกัน และการเพิ่มประสิทธิภาพ [ลิงก์กระดาษ] 2024-02-29
ซือหยูเฉิน; ฮีจุน ชีน; เถียนห่าวหวาง; จูหรานหยาง
Transformers เรียนรู้โครงสร้างเชิงสาเหตุด้วยการไล่ระดับสีอย่างไร [ลิงก์กระดาษ] 2024-02-22
เอชาน นิชานี; อเล็กซ์ ดาเมียน; เจสัน ดี. ลี
การเรียนรู้ในบริบทของบล็อก Linear Transformer: ประโยชน์ขององค์ประกอบ MLP และการเริ่มต้น GD แบบขั้นตอนเดียว [ลิงก์กระดาษ] 2024-02-22
รุยฉี จาง; จิงเฟิง วู; ปีเตอร์ แอล. บาร์ตเลตต์
การระบุหัวการเหนี่ยวนำความหมายเพื่อทำความเข้าใจการเรียนรู้ในบริบท [ลิงก์กระดาษ] 2024-02-20
เจียเหริน; ชีเผิง กัว; ฮังหยาน; ตงรุย หลิว; ซีเผิงชิว; ดาฮัว ลิน
Transformers ทำการเรียนรู้แบบถอยหลังอัตโนมัติในบริบทอย่างไร [ลิงค์กระดาษ] 2024-02-08
ไมเคิล อี. แซนเดอร์; ราชา กิริเยส; ไทจิ ซูซูกิ; มาติเยอ บลอนเดล; กาเบรียล เปเร่
Mamba สามารถเรียนรู้วิธีการเรียนรู้ได้หรือไม่? การศึกษาเปรียบเทียบงานการเรียนรู้ในบริบท [ลิงก์กระดาษ] 2024-02-06
จงโฮ ปาร์ค; แจซึงปาร์ค; เจ้อหยางสยง; นายอง ลี; แจอุง โช; เสม็ด ออยมาก; คังวุค ลี; ดิมิทริส ปาปาอิลิโอปูลอส
การวิเคราะห์ข้อมูล-ทฤษฎีของการเรียนรู้ในบริบท [ลิงก์กระดาษ] 2024-01-28
ฮง จุนจอน; เจสัน ดี. ลี; ฉีเล่ย; เบนจามิน แวน รอย
ลักษณะชั่วคราวของการเรียนรู้ในบริบทที่เกิดขึ้นใหม่ใน Transformers [ลิงก์กระดาษ] 11-12-2023
อาดิตยา เค. ซิงห์; สเตฟานี CY ชาน; เท็ด มอสโควิทซ์; เอริน แกรนท์; แอนดรูว์ เอ็ม. แซ็กซ์; เฟลิกซ์ ฮิลล์
ฟังก์ชั่นการเรียนรู้ในบริบทที่มีจำนวนขั้นต่ำต่างกัน [ลิงก์กระดาษ] 2023-11-21
เดวิด โอเนียนี; หยานซาน หวาง
การสำรวจความสัมพันธ์ระหว่างการเรียนรู้ในบริบทและการปรับแต่งคำสั่ง [ลิงก์กระดาษ] 2023-11-17
ฮันยู่ต้วน; ยี่ซวนถัง; ยี่หยาง; อาเหม็ด อับบาซี; การ์ ยัน ตั้ม
การเรียนรู้ในบริบทจะขาดตอนเมื่อใดและเพราะเหตุใด การศึกษาเกี่ยวกับงานที่มีข้อกำหนดเฉพาะ-หนัก [ลิงก์กระดาษ] 15-11-2023
ห่าวเป็ง; เสี่ยวจือ หวาง; เจี้ยนฮุยเฉิน; เหวยไคลี่; หยุนเจียฉี; ซีมู่ หวัง; จือลี่หวู่; ไคเฉิงเจิ้ง; บินซู; เล่ยโฮว; ฮวนซี่ ลี่
การเรียนรู้ในบริบทเป็นแบบทั่วไป แต่ไม่มั่นคงเสมอไป: กรณีของไวยากรณ์ [ลิงก์กระดาษ] 2023-11-13
อารอน มุลเลอร์; อัลเบิร์ต เว็บสัน; แจ็คสัน เพตตี้; ทาล ลินเซน
Transformers เรียนรู้การใช้การไล่ระดับแบบปรับสภาพล่วงหน้าสำหรับการเรียนรู้ในบริบท [ลิงก์กระดาษ] 2023-11-09
กวางจุน อัน; เซียงเฉิง; ฮาดี ดาเนชมานด์; สุวฤทธิ์ สระ
Transformers เรียนรู้วิธีเพิ่มประสิทธิภาพขั้นสูงสำหรับการเรียนรู้ในบริบท: การศึกษาด้วยแบบจำลองเชิงเส้น [ลิงก์กระดาษ] 2023-10-26
เต๋อชิงฟู; เทียนฉีเฉิน; โรบินเจีย; วัตซัล ชารัน
การเรียนรู้ในบริบทสร้างเวกเตอร์งาน [ลิงก์กระดาษ] 24-10-2023
โรอี เฮนเดล; มอร์เกวา; อาเมียร์ โกลเบอร์สัน
เวกเตอร์ฟังก์ชันในโมเดลภาษาขนาดใหญ่ [ลิงก์กระดาษ] 2023-10-23
เอริค ท็อดด์; มิลลิเซนต์ แอล. ลี; อาร์นับ เซน ชาร์มา; อารอน มุลเลอร์; ไบรอน ซี. วอลเลซ; เดวิด เบา
การเรียนรู้ในบริบทด้วย Transformer เทียบเท่ากับรูปแบบการเรียนรู้ที่ตรงกันข้ามจริงๆ [ลิงก์กระดาษ] 2023-10-19
รุ่ยเฟิง เหริน; หยง หลิว
Transformers ที่ผ่านการฝึกอบรมเรียนรู้โมเดลเชิงเส้นในบริบท [ลิงก์กระดาษ] 19-10-2023
รุยฉี จาง; สเปนเซอร์ ไฟร; ปีเตอร์ แอล. บาร์ตเลตต์
Transformers เรียนรู้ในบริบทนอกเหนือจากฟังก์ชันง่ายๆ ได้อย่างไร กรณีศึกษาการเรียนรู้ด้วยการนำเสนอ [ลิงก์กระดาษ] 2023-10-16
เทียนหยู่ กัว; เว่ยหู; ซ่งเหม่ย; เฮือนหวาง; ไคหมิง สยง; ซิลวิโอ ซาวาเรเซ; หยูไป๋
ทำความเข้าใจการเรียนรู้ในบริบทใน Transformers และ LLM โดยการเรียนรู้เพื่อเรียนรู้ฟังก์ชันที่ไม่ต่อเนื่อง [ลิงก์กระดาษ] 2023-10-13
สัตวิก ภัตตามิชรา; อาร์คิล พาเทล; ฟิล บลันซัม; วรุณ คานาเดะ
จำเป็นต้องมีงานฝึกอบรมล่วงหน้าจำนวนเท่าใดสำหรับการเรียนรู้การถดถอยเชิงเส้นในบริบท [ลิงค์กระดาษ] 13-10-2023
จิงเฟิง วู; ดิฟาน ซู; ซีเซียงเฉิน; วลาดิมีร์ เบรเวอร์แมน; ฉวนฉวนกู่; ปีเตอร์ บาร์ตเลตต์
การเรียนรู้ในบริบทเรียนรู้ความสัมพันธ์ของป้ายกำกับ แต่ไม่ใช่การเรียนรู้แบบทั่วไป [ลิงก์กระดาษ] 2023-10-13
ยานนิค โคสเซ่น; ญาริน กัล; ทอม เรนฟอร์ธ
การบรรจบกันในบริบทของ Transformers [ลิงก์กระดาษ] 13-10-2023
หยูหวง; หยวนเฉิง; หยิงปิน เหลียง
การเรียนรู้ในบริบทผ่านปริซึมแบบเบย์ [ลิงก์กระดาษ] 2023-10-13
มาธุร์ ปันวาร์; กาบีร์ อาฮูจา; นาวิน โกยัล
Transformers ที่ผ่านการฝึกอบรมมาแล้วเรียนรู้ในบริบทด้วยการไล่ระดับ Descent จริงหรือ [ลิงค์กระดาษ] 10-10-2023
หลิงเฟิงเซิน; อายูช มิชรา; ดาเนียล คาชาบี
การเรียนรู้ในบริบทเรียนรู้อะไรและอย่างไร การหาค่าเฉลี่ยแบบจำลองแบบเบย์ การกำหนดพารามิเตอร์ และการวางนัยทั่วไป [ลิงก์กระดาษ] 10-10-2023
หยูเฟิง จาง; เฟิ่งโจว จาง; จูหรานหยาง; จ้าวหราน หวาง
การอธิบายการเรียนรู้ในบริบทที่เกิดขึ้นใหม่เป็นการถดถอยเคอร์เนล [ลิงก์กระดาษ] 2023-10-05
ชีฮัน; จื่อฉีหวาง; หานจ้าว; เฮงจี้
CausalLM ไม่เหมาะสำหรับการเรียนรู้ในบริบท [ลิงก์กระดาษ] 2023-09-02
หนานติง; โทเมอร์ เลวินโบอิม; เจียหลินหวู่; เซบาสเตียน กู๊ดแมน; ราดู โสริคัท
ขั้นตอนเดียวของการไล่ระดับแบบไล่ระดับคือผู้เรียนในบริบทที่เหมาะสมที่สุดโดยมีการเอาใจใส่ตนเองเป็นเส้นตรงชั้นเดียว [ลิงก์กระดาษ] 2023-07-07
อาร์วินด์ มาฮันกาลี; ทัตสึโนริ บี. ฮาชิโมโตะ; เต็งหยูหม่า
Transformers ในฐานะนักสถิติ: การเรียนรู้ในบริบทที่พิสูจน์ได้พร้อมการเลือกอัลกอริทึมในบริบท [ลิงก์กระดาษ] 2023-07-06
หยูไป๋; ฟานเฉิน; เฮือนหวาง; ไคหมิง สยง; ซ่งเมย์
Transformers เรียนรู้ในบริบทโดย Gradient Descent [ลิงก์กระดาษ] 15-06-2023
โยฮันเนส ฟอน ออสวอลด์; เอวินด์ นิคลาสสัน; เอตโตเร รันดัซโซ; เจา ซาคราเมนโต; อเล็กซานเดอร์ มอร์ดวินต์เซฟ; อันเดรย์ ซโมกีนอฟ; แม็กซ์ วลาดีมีรอฟ
ความใกล้ชิดของการเรียนรู้ในบริบทและการขยับน้ำหนักสำหรับการถดถอย Softmax [ลิงก์กระดาษ] 2023-04-26
ช่วยลี่; จ้าวซ่ง; หยูเซีย; ตงหยู; เทียนยี่ โจว
ทฤษฎีการเรียนรู้ในบริบทที่เกิดขึ้นใหม่เป็นการเหนี่ยวนำโครงสร้างโดยนัย [ลิงก์กระดาษ] 2023-03-14
ไมเคิล ฮาห์น; นาวิน โกยัล
ความสามารถในการเรียนรู้ของการเรียนรู้ในบริบท [ลิงก์กระดาษ] 14-03-2023
นอม วีส; โยอาฟ เลวีน; อัมโนน ชาชู
Transformers สามารถเรียนรู้อะไรในบริบทได้บ้าง กรณีศึกษาคลาสฟังก์ชันอย่างง่าย [ลิงก์กระดาษ] 2023-01-14
ศิวัมการ์ก; ดิมิทริส ซิปราส; เพอร์ซี่เหลียง; เกรกอรี วาเลียนท์
หม้อแปลงไฟฟ้ามีลักษณะทั่วไปแตกต่างจากข้อมูลที่เก็บไว้ในบริบทเทียบกับน้ำหนัก [ลิงก์กระดาษ] 2022-10-13
สเตฟานี CY ชาน; อิชิตะ ดาสกุปตะ; จุนคยองคิม; ดาร์ชาน กุมารัน; แอนดรูว์ เค. แลมพิเนน; เฟลิกซ์ ฮิลล์
การเรียนรู้และการปฐมนิเทศในบริบท [ลิงก์กระดาษ] 24-09-2022
แคทเธอรีน โอลส์สัน; เนลสัน เอลฮาจ; นีล นันดา; นิโคลัส โจเซฟ; โนวา ดาสซาร์มา; ทอม เฮนิแกน; เบน มานน์; อแมนดา แอสเคลล์; หยุนเทาไป่; แอนนา เฉิน; ทอม คอนเนอร์ลี; รุ่งอรุณท่อระบายน้ำ; ปงกูลีลึก; แซค แฮตฟิลด์-ดอดส์; แดนนี่ เฮอร์นันเดซ; สกอตต์ จอห์นสตัน; แอนดี้ โจนส์; แจ็คสัน เคอร์เนียน; ลีแอน โลวิตต์; คามาล เอ็นดูสเซ่; ดาริโอ อาโมเด; ทอมบราวน์; แจ็คคลาร์ก; จาเร็ด แคปแลน; แซม แมคแคนดิช; คริส โอลาห์
^ back to top ^
เอกสารวิเคราะห์ปรากฏการณ์ลูกโซ่แห่งความคิดในแบบจำลองภาษาขนาดใหญ่ สำรวจมุมมองทางทฤษฎีและเชิงประจักษ์
เกิดอะไรขึ้นในเลเยอร์ LLM เมื่อได้รับการฝึกฝนเพื่อการคิดเร็วและการคิดช้า: มุมมองแบบไล่ระดับ [ลิงก์กระดาษ] 31-10-2024
หมิงหลี่; หยานหงหลี่; เทียนยี่ โจว
ความเข้าใจทางทฤษฎีของห่วงโซ่แห่งความคิด: การใช้เหตุผลที่สอดคล้องกันและการสาธิตการรับรู้ถึงข้อผิดพลาด [ลิงก์กระดาษ] 2024-10-21
หยิงเชียนชุย; เผิงเฟยเหอ; เซียนเฟิงถัง; ฉีเหอ; เฉินหลัว; จี้เหลียงถัง; เยว่ซิง
จากการพึ่งพาแบบเบาบางไปจนถึงความสนใจแบบเบาบาง: การเปิดเผยวิธีที่ห่วงโซ่แห่งความคิดช่วยเพิ่มประสิทธิภาพตัวอย่างหม้อแปลงได้อย่างไร [ลิงก์กระดาษ] 2024-10-07
ไคเยว่เหวิน; หัวชิงจาง; หงโจวหลิน; จิงจ้าว จาง
การฝึกอบรมหม้อแปลงไม่เชิงเส้นสำหรับการอนุมานแบบลูกโซ่แห่งความคิด: การวิเคราะห์ลักษณะทั่วไปทางทฤษฎี [ลิงก์กระดาษ] 2024-10-03
หงคังหลี่; เม้งหวาง; ซงเตาหลู; เสี่ยวตงชุย; ผิ่น-ยู เฉิน
Autoregressive + Chain of Thought (CoT) ≃ Recurrent: บทบาทของการเกิดซ้ำในแบบจำลองภาษาและการทบทวน Transformer ที่เกิดซ้ำ [ลิงก์กระดาษ] 2024-09-14
เซียงจาง; มูฮัมหมัด อับดุล-มาเกด; ลัคส์ VS ลักษมนันท์
เปิดตัวรากฐานทางสถิติของวิธีการเตือนลูกโซ่แห่งความคิด [ลิงก์กระดาษ] 25-08-2024
ซินหยางหู; เฟิ่งโจว จาง; ซือหยูเฉิน; จูหรานหยาง
การถอดรหัสปัจจัยที่มีอิทธิพลต่อประสิทธิภาพของห่วงโซ่แห่งความคิด: ความน่าจะเป็น การท่องจำ และการใช้เหตุผลที่มีเสียงดัง [ลิงก์กระดาษ] 2024-07-01
อักษรา ประภาการ์; โธมัส แอล. กริฟฟิธส์; อาร์. โธมัส แม็กคอย
ในความสามารถในการเป็นตัวแทนของแบบจำลองภาษาประสาทพร้อมการใช้เหตุผลแบบลูกโซ่แห่งความคิด [ลิงก์กระดาษ] 2024-06-20
ฟรานซ์ โนวัก; อเนจ์ สเวเต้; อเล็กซานดรา บูโตอิ; ไรอัน คอตเทเรลล์
หัวหน้าการวนซ้ำ: การศึกษากลไกของห่วงโซ่แห่งความคิด [ลิงก์กระดาษ] 2024-06-04
วิเวียน คาบันเนส; ชาร์ลส์ อาร์นัล; วัสซิม บูอาซิซ; อลิซหยาง; ฟรองซัวส์ ชาร์ตัน; จูเลีย เคมเป
Let's Think Dot by Dot: การคำนวณที่ซ่อนอยู่ในโมเดลภาษา Transformer [ลิงก์กระดาษ] 2024-04-24
เจค็อบ เฟา; วิลเลียม เมอร์ริล; ซามูเอล อาร์. โบว์แมน
ห่วงโซ่แห่งความคิดช่วยให้หม้อแปลงไฟฟ้าสามารถแก้ไขปัญหาอนุกรมโดยธรรมชาติได้ [ลิงก์กระดาษ] 2024-02-20
จื่อหยวนหลี่; หงหลิว; เดนนี่โจว; เต็งหยูหม่า
สู่การเปิดเผยความลึกลับเบื้องหลังห่วงโซ่แห่งความคิด: มุมมองทางทฤษฎี [ลิงก์กระดาษ] 2023-12-22
กู่หาวเฟิง; โบหัง จาง; หยุนเทียนกู; ห่าวเทียนเย่; ตี่เหอ; หลี่เว่ย หวัง
เหตุใดโมเดลภาษาขนาดใหญ่จึงสามารถสร้างห่วงโซ่แห่งความคิดที่ถูกต้องได้ [ลิงค์กระดาษ] 2023-10-20
ราซูล ตูนอฟ; อองตวน กรอสนิต; จูเลียส ซิโอเม็ค; จุนหวาง; ไฮธัม บู-อัมมาร์
โมเดลภาษาขนาดใหญ่ใช้ห่วงโซ่แห่งความคิดอย่างไร [ลิงค์กระดาษ] 13-10-2023
อี้ฉวนหวาง; ไซเลหู; หย่งกัง จาง; เซียงเทียน; เสวี่ยซงหลิว; เหยาหวู่เฉิน; ซูเซิน; เจี๋ยผิงเย่
พลังที่แสดงออกของหม้อแปลงไฟฟ้าพร้อมห่วงโซ่แห่งความคิด [ลิงก์กระดาษ] 13-10-2023
วิลเลียม เมอร์ริล; อาชิช ซาบาร์วาล
^ back to top ^
บทความตรวจสอบปรากฏการณ์ประสาทหลอนในแบบจำลองภาษา รวมทั้งการวิเคราะห์ทั้งทางทฤษฎีและเชิงประจักษ์
ไม่มีอาหารกลางวันฟรี: ข้อจำกัดพื้นฐานของการเรียนรู้โมเดลที่ไม่ทำให้เกิดภาพหลอน [ลิงก์กระดาษ] 24-10-2024
ฉางหลงวู; อนันต์ กรามา; วอจเซียค สปันคอฟสกี้
Shared Imagination: LLMs Hallucinate Alike [ลิงก์กระดาษ] 2024-07-23
อี้หลุนโจว; ไคหมิง สยง; ซิลวิโอ ซาวาเรเซ; เชียนเซิงหวู่
การประมาณอัตราการเกิดอาการประสาทหลอนของ Generative AI [ลิงก์กระดาษ] 2024-06-11
แอนดรูว์ เจสสัน; นิโคลัส เบลตรัน-เบเลซ; เควนติน ชู; สเวตา คาร์เลการ์; ยานนิค โคสเซ่น; ญาริน กัล; จอห์น พี. คันนิงแฮม; เดวิด บลาย
การปรับแต่ง LLM อย่างละเอียดเกี่ยวกับความรู้ใหม่กระตุ้นให้เกิดอาการประสาทหลอนหรือไม่? [ลิงค์กระดาษ] 2024-05-09
โซริก เกคมาน; กัล โยนา; โรอี อาฮาโรนี; มาทาน เอยาล; อาเมียร์ เฟเดอร์; รอย ไรชาร์ท; โจนาธาน เฮอร์ซิก
กลไกของภาพหลอนที่ไม่ใช่ข้อเท็จจริงในแบบจำลองภาษา [ลิงก์กระดาษ] 2024-03-26
เล่ยหยู; เหมิงเฉา; แจ็กกี้ ชิ กิต เฉิง; เยว่ตง
ตัวอย่างการปรับแต่งที่ไม่คุ้นเคยควบคุมวิธีที่โมเดลภาษาเกิดภาพหลอน [ลิงก์กระดาษ] 2024-03-08
เคธี่คัง; เอริค วอลเลซ; แคลร์ ทอมลิน; อาไวรัส คูมาร์; เซอร์เกย์ เลวีน
ความคมชัดในบริบทเป็นการแจ้งเตือน: มุมมองการเป็นตัวแทนภายในสำหรับการบรรเทาอาการประสาทหลอน [ลิงก์กระดาษ] 2024-03-05
ซื่อฉี เฉิน; เมี่ยวซีออง; จุนเติ้งหลิว; เจิ้งซวนวู; เถิงเซียว; สิหยางเกา; จุนเซียนเหอ
โมเดลภาษาที่ปรับเทียบแล้วจะต้องเกิดภาพหลอน [ลิงก์กระดาษ] 24-11-2023
อดัม ทัวมาน คาไล; ซานโตช เอส. เวมปาลา
กรณีที่อยากรู้อยากเห็นของอาการประสาทหลอนที่ไม่สามารถตอบได้: การค้นหาความจริงในสถานะที่ซ่อนอยู่ของแบบจำลองภาษาขนาดใหญ่ที่มีความมั่นใจมากเกินไป [ลิงก์กระดาษ] 2023-10-18
อาวีฟ สโลโบดกิ้น; โอเมอร์ โกลด์แมน; อาวี คาซิอูลารู; อิโด ดากัน; เชาลี ราฟโฟเกล
^ back to top ^
เอกสารที่วิเคราะห์ปรากฏการณ์คำสาปพลิกกลับในแบบจำลองภาษาขนาดใหญ่
สู่ความเข้าใจเชิงทฤษฎีของ 'Reversal Curse' ผ่าน Training Dynamics [ลิงก์กระดาษ] 2024-05-07
ฮั่นหลินจู้; ไป่เหอหวง; เส้าหลุนจาง; ไมเคิล จอร์แดน; เจี้ยนเทาเจียว; หยวนตงเทียน; สจวร์ต รัสเซลล์
คำสาปผกผัน: LLM ที่ได้รับการฝึกอบรมเรื่อง "A คือ B" ล้มเหลวในการเรียนรู้ "B คือ A" [ลิงก์กระดาษ] 2024-04-04
ลูคัส เบิร์กลันด์; เม็กตง; แม็กซ์ คอฟมันน์; มิกิตะ บาเลสนี; อาซา คูเปอร์ สติ๊กแลนด์; โทมัสซ์ คอร์บัค; โอเวน อีแวนส์
การตรวจสอบความไร้ประสิทธิภาพของ LLM ในการทำความเข้าใจความสัมพันธ์สนทนา [ลิงก์กระดาษ] 2023-12-01
เฉิงเหวินฉี; โบเวนหลี่; ปินหยวน ฮุย; ไป๋หลินหวาง; จินหยางหลี่; จินหวาง วู; หยวนจุน ไลลี่
ฟิสิกส์ของแบบจำลองภาษา: ตอนที่ 3.2 การจัดการความรู้ [ลิงก์กระดาษ] 2023-09-25
เจ๋อหยวน อัลเลน-จู้; หยวนจือ ลี่
คำสาปการกลับตัว: โทเค็นใดที่คุณทำนายไว้ภายใต้คำสาปการแยกตัวประกอบและอื่น ๆ [ลิงก์กระดาษ] 2023-06-07
อวย คิตูนิ; นิคลาส โนลเต้; ไดแอน บูชาคอร์ต; เอดินา วิลเลียมส์; ไมค์ แรบแบท; มาร์ค อิบราฮิม
^ back to top ^
บทความสำรวจว่าประสิทธิภาพของโมเดลปรับขนาดตามขนาดโมเดล ขนาดข้อมูล หรือทรัพยากรการคำนวณ และการเกิดขึ้นของความสามารถที่ไม่คาดคิดได้อย่างไร
ปลดล็อกทฤษฎีเบื้องหลังการปรับขนาดเครือข่ายประสาทเทียม 1 บิต [ลิงก์กระดาษ] 2024-11-03
มาจิด ดาลิรี; จ้าวซ่ง; ชีวุนหยาง
มาตราส่วนขนาดกลุ่มที่สำคัญในการฝึกอบรมล่วงหน้าเป็นอย่างไร [ลิงค์กระดาษ] 29-10-2024
ฮั่นหลินจาง; เดเปน มอร์วานี; นิคิล วาส; จิงเฟิง วู; ดิฟาน ซู; อูดายา ไก; คณบดีฟอสเตอร์; ชัม คาคาเดะ
ทฤษฎีสารสนเทศของการปรับขนาดที่เหมาะสมที่สุดทางคอมพิวเตอร์ การเกิดขึ้น และที่ราบสูงในแบบจำลองภาษา [ลิงก์กระดาษ] 2024-10-15
อนุจ เค. นายัค; ลาฟ อาร์. วาร์ชนีย์
คู่มือผู้โบกรถเพื่อการประมาณค่ากฎหมายมาตราส่วน [ลิงก์กระดาษ] 2024-10-15
เลเชม โชเชน; หยางจาง; เจค็อบ แอนเดรียส
การปรับขนาดกฎหมายข้ามสถาปัตยกรรมแบบจำลอง: การวิเคราะห์เปรียบเทียบแบบจำลองความหนาแน่นและ MoE ในแบบจำลองภาษาขนาดใหญ่ [ลิงก์กระดาษ] 2024-10-08
ซี่ฉีหวาง; เจิ้งหยู่เฉิน; เป่ยลี่; เค่อชิงเหอ; มินจาง; จิงกัง หวาง
Grokking ที่ขอบของการแยกเชิงเส้น [ลิงก์กระดาษ] 2024-10-06
อลอนเบ็ค ; โนม เลวี; โยไฮ บาร์-ซินาย
การศึกษาเชิงประจักษ์ของกฎมาตราส่วนเพื่อการถ่ายโอน [paper link] 2024-08-30
แมทธิว บาร์เน็ตต์
แบบจำลองการซึมผ่านของการเกิดขึ้น: การวิเคราะห์หม้อแปลงที่ผ่านการฝึกอบรมในภาษาทางการ [ลิงก์กระดาษ] 2024-08-22
เอกดีป ซิงห์ ลูบานา; เคียวโกะ คาวากุจิ; โรเบิร์ต พี. ดิ๊ก; ฮิเดโนริ ทานากะ
กฎหมายมาตราส่วนที่มีการหลอมอัตราการเรียนรู้ [ลิงก์กระดาษ] 2024-08-20
ฮาวเนื้อเยื่อ; วีนัสหวาง; หลู่หวาง
กฎประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่ [ลิงก์กระดาษ] 19-08-2024
ชูฮัน หวู่; รุ่ยหมิงถัง
มาตรการความก้าวหน้าทางข้อมูลและทฤษฎีเปิดเผยว่า Grokking เป็นการเปลี่ยนผ่านระยะฉุกเฉิน [ลิงก์กระดาษ] 2024-08-16
เคนโซ คลอว์; เซบาสเตียน สตรามาเกลีย; ดานิเอเล มารินาซโซ
Monkeys ภาษาขนาดใหญ่: การปรับขนาดการคำนวณการอนุมานด้วยการสุ่มตัวอย่างซ้ำ ๆ [ลิงก์กระดาษ] 31-07-2024
แบรดลีย์ บราวน์; จอร์แดน จูราฟสกี้; ไรอัน เออร์ลิช ; โรนัลด์คลาร์ก ; ก๊วก วี. เลอ; คริสโตเฟอร์ เร; อซาเลีย มิร์โฮเซนี่
การเกิดขึ้นใหม่ในแบบจำลองที่ไม่ใช่ระบบประสาท: การคำนวณทางคณิตศาสตร์แบบแยกส่วนแบบ Grokking ผ่านการไล่ระดับสีแบบเฉลี่ย [ลิงก์กระดาษ] 2024-07-29
นีล มัลลินาร์; แดเนียล บีเกิ้ลโฮล; หลี่ปิน จู้; อทิตยานารายานันท์ ราธากฤษนัน; ปารเทบัณฑิต; มิคาอิล เบลคิน
การสำรวจแนวโน้มการปรับขนาดในความทนทานของ LLM [ลิงก์กระดาษ] 25-07-2024
นิโคลัส ฮาว ; มิคาล ซาแจค; เอียน แม็คเคนซี่; ออสการ์ ฮอลลินส์เวิร์ธ; ทอม เส็ง; ปิแอร์-ลุค เบคอน; อดัม กลีฟ
การทำความเข้าใจการทำงานร่วมกันของขนาด ข้อมูล และอคติในแบบจำลองภาษา: กรณีศึกษากับ BERT [ลิงก์กระดาษ] 2024-07-25
มูฮัมหมัดอาลี; สเวตสุธาแพนด้า; ฉินหลานเซิน; ไมเคิล วิค; อารี โคเบรน
กฎหมายปรับขนาดด้วยคำศัพท์: โมเดลขนาดใหญ่สมควรได้รับคำศัพท์ที่ใหญ่กว่า [ลิงก์กระดาษ] 18-07-2024
เชาว์ฟานเต๋า; เฉียนหลิว; หลงซูโตว; นิคลาส มึนนิฮอฟฟ์; จงเว่ยวาน; ปิงหลัว; มิน ลิน; ไหงวง
ทำไมคุณถึง Grok? การวิเคราะห์เชิงทฤษฎีของการเติม Grokking Modular [ลิงก์กระดาษ] 17-07-2024
โมฮัมหมัด อามิน โมฮามาดี; จื่อหยวนหลี่; เล่ยหวู่; ดานิกา เจ. ซูเธอร์แลนด์
การทำนายความสามารถฉุกเฉินโดย Finetuning [ลิงก์กระดาษ] 2024-07-10
ชาร์ลี วิคเตอร์ สเนลล์; เอริค วอลเลซ; แดน ไคลน์; เซอร์เกย์ เลวีน
การแก้ไขความคลาดเคลื่อนในการปรับขนาดโมเดลภาษาที่เหมาะสมที่สุดทางคอมพิวเตอร์ [ลิงก์กระดาษ] 2024-06-25
โทเมอร์ โพเรียน; มิทเชลล์เวิร์ทสแมน; เจเนีย จิตเซฟ; ลุดวิก ชมิดท์; ยาร์ คาร์มอน
กฎหมายมาตราส่วนสำหรับแบบจำลองภาษาที่ซับซ้อนเชิงเส้น [ลิงก์กระดาษ] 24-06-2024
ซูหยางเซิน; ตงลี่; รุ่ยเตาเล้ง; เจิ้นฉิน; เหว่ยเกา ซุน; อี้หราน จง
กฎหมายมาตราส่วนเพื่อการจดจำข้อเท็จจริงของแบบจำลองภาษาขนาดใหญ่ [ลิงก์กระดาษ] 2024-06-22
ซิงหยูหลู่; เซียวหนานหลี่; ฉินหยวนเฉิง; ไคติง; ซวนจิงหวง; ซีเผิง ชิว
การกระทบยอดกฎหมายการปรับขนาดของ Kaplan และ Chinchilla [ลิงก์กระดาษ] 2024-06-12
ทิม เพียร์ซ; จินยอบซอง
Deep Grokking: โครงข่ายประสาทเทียมแบบลึกจะมีลักษณะทั่วไปที่ดีกว่าหรือไม่ [ลิงค์กระดาษ] 29-05-2024
ซิมินฟาน; ราซวาน ปาสคานู; มาร์ติน จักกี้
การล่มสลายทางภาษา: การล่มสลายของระบบประสาทในโมเดลภาษา (ขนาดใหญ่) [ลิงก์กระดาษ] 2024-05-28
โรเบิร์ต หวู่; วาร์ดาน ปาปยาน
กฎหมายการปรับขนาดและการฝึกอบรมที่เพิ่มประสิทธิภาพการประมวลผล นอกเหนือจากระยะเวลาการฝึกอบรมคงที่ [ลิงก์กระดาษ] 2024-05-28
อเล็กซานเดอร์ ฮาเกเล่; เอลี บาคูช; อัตลี คอสสัน; ลูบนา เบน อัลลาล; เลอันโดร ฟอน แวร์รา; มาร์ติน จักกี้
gzip คาดการณ์กฎหมายมาตราส่วนที่ขึ้นอยู่กับข้อมูล [ลิงก์กระดาษ] 2024-05-26
โรฮาน ปานดี
การเกิดขึ้นของระยะนามธรรมมิติสูงในเครื่องมือแปลงภาษา [ลิงก์กระดาษ] 2024-05-24
เอมิลี่เฉิง; ดิเอโก โดอิโม; โคเรนติน เคอร์วาเดค; อิอูริ มาค็อกโก; เจดหยู; อเลสซานโดร ลาอิโอ; มาร์โก บาโรนี
เหตุผลจากมุมมองความถี่สำหรับการ Grokking ในการฝึกอบรมโครงข่ายประสาทเทียม [ลิงก์กระดาษ] 2024-05-24
จางเฉินโจว; เหยาหยู จาง; จือฉิน จอห์น ซู
Grokked Transformers มีเหตุผลโดยนัย: การเดินทางด้วยกลไกสู่ขอบทั่วไป [ลิงก์กระดาษ] 2024-05-23
โบชิหวาง; เซียงหยู; หยูซู; ฮวน ซุน
การผสมข้อมูลทำอย่างมีประสิทธิภาพ: กฎหมายมาตราส่วนแบบไบวาเรียตสำหรับการฝึกอบรมโมเดลภาษาล่วงหน้า [ลิงก์กระดาษ] 2024-05-23
เซจี; จือเจี้ยนหม่า; เต้าหยวน เฉิน; ย่าเหลียงหลี่; โบลิน ติง
4+3 ระยะของกฎหมายการปรับมาตราส่วนประสาทที่เหมาะสมที่สุดในการประมวลผล [ลิงก์กระดาษ] 2024-05-23
เอลเลียต ปาแกตต์; คอร์ทนีย์ ปาเควตต์; เล่อเฉาเซียว; เจฟฟรีย์ เพนนิงตัน
ทาสของกฎแห่งจำนวนมาก: คุณสมบัติการแยกส่วนเชิงเส้นกำกับสำหรับความฉงนสนเท่ห์ในแบบจำลองภาษากำเนิด [ลิงก์กระดาษ] 2024-05-22
รากู มูดัมไบ; ไทเลอร์ เบลล์
การเกิดขึ้นเชิงปริมาณในแบบจำลองภาษาขนาดใหญ่ [ลิงก์กระดาษ] 21-05-2024
หังเฉิน; ซินหยู่หยาง; เจียหยิงจู; เหวินหยา หวาง
นอกเหนือจากกฎหมายมาตราส่วน: การทำความเข้าใจประสิทธิภาพของหม้อแปลงด้วยหน่วยความจำเชื่อมโยง [ลิงก์กระดาษ] 2024-05-14
เสวี่ยหยาน หนิว; บ่อบาย; เล่ยเติ้ง; เว่ยฮัน
การประมวลผลที่มากขึ้นคือสิ่งที่คุณต้องการ [ลิงก์กระดาษ] 30-04-2024
เจิ้นกั๋ว
แบบจำลองที่แก้ไขได้อย่างแน่นอนสำหรับกฎหมายการเกิดขึ้นและการปรับขนาด [ลิงก์กระดาษ] 2024-04-26
ยุนซูนัม; นายารา ฟอนเซก้า; ซอกฮยองลี; อาร์ด หลุยส์
เหตุใดโมเดลภาษาขนาดเล็กจึงมีประสิทธิภาพต่ำกว่า? การศึกษา Language Model Saturation ผ่าน Softmax Bottleneck [ลิงค์กระดาษ] 2024-04-11
นาธาน โกดีย์; เอริก เดอ ลา เคลอรี; เบอนัวต์ ซาโกต์
การสำรวจขนาดใหญ่ของ
ลูคัส ลิงเกิล
ความสามารถฉุกเฉินในโมเดลภาษากำเนิดแบบลดขนาด [ลิงก์กระดาษ] 2024-04-02
เชริน มุคกาทิรา; วิเจตา เดชปันเด; วลาดิสลาฟ เลียลิน; แอนนา รัมชิสกี้
การทำความเข้าใจความสามารถฉุกเฉินของแบบจำลองภาษาจากมุมมองของการสูญเสีย [ลิงก์กระดาษ] 2024-03-23
เจิ้งเซียวตู้; อ้าวฮั่นเจิง; หยูเซียวตง; เจียถัง
ไขความลึกลับของกฎมาตราส่วน: ตอนที่ 1 [ลิงก์กระดาษ] 2024-03-21
ฮุยซู; จือเทียน; เสี่ยวหยูเซิน; ซุนเหลียงไค
โมเดลภาษาปรับขนาดได้อย่างน่าเชื่อถือด้วยการฝึกอบรมที่มากเกินไปและงานขั้นปลาย [ลิงก์กระดาษ] 2024-03-13
ซามีร์ ยิตซัค กาเดร; จอร์จิส สเมียร์นิส; ไวชาล ชังการ์; สุชิน กูรูรันกัน; มิทเชลล์เวิร์ทสแมน; รูลิน เฉา; ฌอง เมอร์กัต; อเล็กซ์ฝาง; เจฟฟรีย์หลี่; เซดริก เคห์; รุ่ยซิน; มาเรียนนา เนซูรินา; อิกอร์ วาซิลเยวิช; เจเนีย จิตเซฟ; อเล็กซานดรอส จี. ดิมากิส; กาเบรียล อิลฮาร์โก; เพลงชูราน; โธมัส คอลลาร์; ยาร์ คาร์มอน; อชาล เดฟ; ไรน์ฮาร์ด เฮคเคิล; นิคลาส มึนนิฮอฟฟ์; ลุดวิก ชมิดต์
เมื่อการปรับขนาดตรงตาม LLM Finetuning: ผลกระทบของข้อมูล โมเดล และวิธีการปรับแต่งอย่างละเอียด [ลิงก์กระดาษ] 2024-02-26
เปียวจาง; จงเทาหลิว; โคลิน เชอร์รี่; ออร์ฮาน ฟิรัต
การตีความหม้อแปลง Grokked ในระบบเลขคณิตแบบโมดูลาร์เชิงซ้อน [ลิงก์กระดาษ] 2024-02-26
ฮิโรกิ ฟุรุตะ; โกกิ มิเนกิชิ; ยูสุเกะ อิวาซาวะ; ยูทากะ มัตสึโอะ
A Tale of Tails: โมเดลล่มสลายเนื่องจากการเปลี่ยนแปลงกฎหมายมาตราส่วน [ลิงก์กระดาษ] 2024-02-10
เอลวิส โดห์มาท็อบ; หยุนเจินเฟิง; ผู่หยาง; ฟรองซัวส์ ชาร์ตัน; จูเลีย เคมเป
การปรับขนาดโมเดลภาษาที่จำกัดด้วยข้อมูล [ลิงก์กระดาษ] 25-10-2023
นิคลาส มึนนิฮอฟฟ์; อเล็กซานเดอร์ เอ็ม. รัช; โบอาซบารัค; เทเว่น เลอ สเกา; อเล็กซานดรา พิคตัส; นูอามาเน ทาซี; ซัมโป ปีซาโล; โทมัสวูล์ฟ; คอลิน ราฟเฟิล
ต้นทุนของแบบจำลองภาษาที่ลดขนาดลง: การเรียกคืนข้อเท็จจริงลดลงก่อนการเรียนรู้ในบริบท [ลิงก์กระดาษ] 2023-10-06
เทียนจิน; โนแลน เคลเมนท์; ซินตง; ไวษณพนครจัน; ไมเคิล คาร์บิน; โจนาธาน ราแกน-เคลลีย์; กินตาเร คาโรลินา ซิไกเต
ความสามารถฉุกเฉินของโมเดลภาษาขนาดใหญ่ถือเป็นภาพลวงตาหรือไม่? [ลิงค์กระดาษ] 28-04-2023
ไรแลน แชฟเฟอร์; แบรนโด มิแรนดา; ซานมิ โคเยโจ
การฝึกอบรมโมเดลภาษาขนาดใหญ่ที่เพิ่มประสิทธิภาพการประมวลผล [ลิงก์กระดาษ] 29-03-2022
จอร์แดน ฮอฟฟ์มันน์; เซบาสเตียน บอร์กโดด์; อาเธอร์ เมนช; เอเลนา บูชัตสกายา; เทรเวอร์ ไช่; เอลิซา รัทเธอร์ฟอร์ด; ดิเอโก้ เดอ ลาส คาซาส; ลิซา แอนน์ เฮนดริกส์; โยฮันเนส เวลเบิล; ไอดาน คลาร์ก; ทอม เฮนนิแกน; เอริค โนแลนด์; เคธี่ มิลลิแกน; จอร์จ ฟาน เดน ดรีสเชอ; บ็อกดาน ดาม็อค; ออเรเลียกาย; ไซมอน โอซินเดอโร; คาเรน ซิโมยัน; อีริช เอลเซ่น; แจ็ค ดับเบิลยู. แร; โอเรียล ไวนิลส์; โลรองต์ ซิเฟร
กฎหมายมาตราส่วนสำหรับแบบจำลองภาษาประสาท [ลิงก์กระดาษ] 2020-01-22
จาเร็ด แคปแลน; แซม แมคแคนดิช; ทอม เฮนิแกน; ทอม บี. บราวน์; เบนจามินหมากรุก; เด็กเรวอน; สกอตต์เกรย์; อเล็กซ์ แรดฟอร์ด; เจฟฟรีย์ หวู่; ดาริโอ อาโมได
^ back to top ^
เอกสารมุ่งเน้นไปที่วิธีที่โมเดลภาษาขนาดใหญ่จัดเก็บ ดึงข้อมูล และใช้ความรู้ วิเคราะห์กลไกหน่วยความจำที่เกี่ยวข้อง
กรอบเรขาคณิตสำหรับการทำความเข้าใจการท่องจำในแบบจำลองเชิงกำเนิด [ลิงก์กระดาษ] 31-10-2024
เบรนแดน ลีห์ รอสส์; ฮามิดเดรซา คัมคาริ; ถงซีหวู่; รสา โฮไซน์ซาเดห์; จ้าวหยานหลิว; จอร์จ สไตน์; เจสซี ซี. เครสเวลล์; กาเบรียล โลไอซา-กาเน็ม
ความสามารถในการจดจำที่เหมาะสมที่สุดของ Transformers [ลิงก์กระดาษ] 26-09-2024-09-26
โตเกียว คาจิตสึกะ; อิซเซ ซาโต้
หน่วยความจำ Schrodingers: โมเดลภาษาขนาดใหญ่ [ลิงก์กระดาษ] 2024-09-16
เหว่ยหวาง; ชิงหลี่
การใส่ใจในตนเองขีดจำกัดความจุหน่วยความจำในการทำงานของรุ่นที่ใช้หม้อแปลงไฟฟ้า [ลิงก์กระดาษ] 2024-09-16
ตงหยูกง; ฮันเทา จาง
ความทรงจำอันยิ่งใหญ่ การใช้เหตุผลแบบตื้น: ขีดจำกัดของ kNN-LMs [ลิงก์กระดาษ] 2024-08-21
ซ่างอี้เกิง; ไป Zhao; อเล็กซานเดอร์ เอ็ม รัช
การท่องจำในการเรียนรู้ในบริบท [ลิงก์กระดาษ] 21-08-2024
ชาห์เรียร์ โกลชิน; มิไฮ เซอร์เดียนู; สตีเว่นเบ็ ธ ดาร์; Eduardo Blanco; Ellen Riloff
การวางนัยทั่วไปครั้งแรกการท่องจำที่สอง? การแปลความทรงจำสำหรับงานการจำแนกภาษาธรรมชาติ [ลิงก์กระดาษ] 2024-08-09
Verna Dankers; Ivan Titov
การทำความเข้าใจการท่องจำใน LLMS: พลวัตปัจจัยที่มีอิทธิพลและผลกระทบ [ลิงก์กระดาษ] 2024-07-27
จนถึง Speicher; Mohammad Aflah Khan; Qinyuan Wu; Vedant Nanda; Soumi Das; Bishwamittra Ghosh; Krishna P. Gummadi; Evimaria terzi
Demystifying การท่องจำคำต่อคำในรูปแบบภาษาขนาดใหญ่ [ลิงก์กระดาษ] 2024-07-25
จิงหวาง; Diyi Yang; Christopher Potts
จากความขัดแย้งภายในไปจนถึงการปรับตัวตามบริบทของแบบจำลองภาษา [ลิงก์กระดาษ] 2024-07-24
Sara Vera Marjanović; Haeun Yu; Pepa Atanasova; Maria Maistro; Christina Lioma; Isabelle Augenstein
การวางนัยทั่วไปเทียบกับการท่องจำ: การติดตามความสามารถของโมเดลภาษากลับไปที่ข้อมูลการเตรียมการ [ลิงก์กระดาษ] 2024-07-20
Antonis Antoniades; Xinyi Wang; Yanai Elazar; Alfonso Amayuelas; Alon Albalak; Kexun Zhang; วิลเลียมหยางวัง
ฟิสิกส์ของแบบจำลองภาษา: ส่วนที่ 3.1, การจัดเก็บความรู้และการสกัด [ลิงก์กระดาษ] 2024-07-16
Zeyuan Allen-Zhu; Yuanzhi Li
หัวเหนี่ยวนำเป็นกลไกสำคัญสำหรับการจับคู่รูปแบบในการเรียนรู้ในบริบท [ลิงก์กระดาษ] 2024-07-09
J. Crosbie; E. shutova
LLMS ฝันถึงช้าง (เมื่อบอกว่าไม่) หรือไม่? สมาคมแนวคิดแฝงและหน่วยความจำเชื่อมโยงในหม้อแปลง [ลิงก์กระดาษ] 2024-06-26
Yibo Jiang; Goutham Rajendran; Pradeep Ravikumar; Bryon Aragam
การปรับขนาดกฎหมายสำหรับการจดจำข้อเท็จจริงของแบบจำลองภาษาขนาดใหญ่ [ลิงก์กระดาษ] 2024-06-22
Xingyu Lu; Xiaonan Li; Qinyuan Cheng; ไคดิง; Xuanjing Huang; Xipeng Qiu
การเชื่อมต่อจุด: LLM สามารถอนุมานและใช้โครงสร้างแฝงได้จากข้อมูลการฝึกอบรมที่แตกต่างกัน [ลิงก์กระดาษ] 2024-06-20
Johannes Treutlein; Dami Choi; Jan Betley; Cem Anil; ซามูเอลมาร์ค; Roger Baker Grosse; โอเวนอีแวนส์
การเปิดเผยความทรงจำแฝง: การประเมินรูปแบบการรั่วไหลของข้อมูลและการท่องจำในรูปแบบภาษาขนาดใหญ่ [ลิงก์กระดาษ] 2024-06-20
Sunny Duan; Mikail Khona; Abhiram Iyer; Rylan Schaeffer; ila r fiete
ทำความเข้าใจกับการดึงความรู้ข้อเท็จจริง [ลิงก์กระดาษ] 2024-06-20
Gaurav Ghosal; Tatsunori Hashimoto; Aditi Raghunathan
การประเมินความรู้ในแบบจำลองภาษาขนาดใหญ่โดยไม่ต้องสร้างโทเค็นเดียว [ลิงก์กระดาษ] 2024-06-18
Daniela Gottesman; Mor Geva
แบบจำลองภาษาขนาดใหญ่ได้รับความรู้จริงในระหว่างการผ่าตัดอย่างไร [ลิงก์กระดาษ] 2024-06-17
Hoyeon Chang; Jinho Park; Seonghyeon Ye; Sohee Yang; Youngkyung Seo; Du-seeong Chang; Minjoon Seo
เป็นเหมือนปลาทองอย่าจดจำ! บรรเทาการท่องจำใน LLMs Generative [Paper Link] 2024-06-14
Abhimanyu Hans; Yuxin Wen; Neel Jain; John Kirchenbauer; Hamid Kazemi; Prajwal Singhania; Siddharth Singh; Gowthami somepalli; Jonas Geiping; Abhinav Bhatele; ทอมโกลด์สไตน์
วงจรความรู้ใน Transformers Pretrained [Paper Link] 2024-05-28
Yunzhi Yao; Ningyu Zhang; Zekun XI; Mengru Wang; Ziwen Xu; Shumin Deng; Huajun Chen
ขอบเขตความจุหน่วยความจำบนและล่างของหม้อแปลงสำหรับการทำนายการเปิดตัวครั้งต่อไป [ลิงก์กระดาษ] 2024-05-22
เลียม Madden; Curtis Fox; Christos thrampoulidis
การวิเคราะห์แบบหลายมุมมองการท่องจำในรูปแบบภาษาขนาดใหญ่ [ลิงก์กระดาษ] 2024-05-19
Bowen Chen; Namgi Han; Yusuke Miyao
ฟิสิกส์ของแบบจำลองภาษา: ส่วนที่ 3.3, กฎหมายความสามารถในการปรับขนาดความรู้ [ลิงก์กระดาษ] 2024-04-08
Zeyuan Allen-Zhu; Yuanzhi Li
ความสามารถในการท่องจำของความสนใจหลายหัวในหม้อแปลง [ลิงก์กระดาษ] 2024-03-02
Sadegh Mahdavi; Renjie Liao; Christos thrampoulidis
การเกิดของหม้อแปลง: มุมมองหน่วยความจำ [ลิงก์กระดาษ] 2023-11-06
Alberto Bietti; Vivien Cabannes; Diane Bouchacourt; Herve Jegou; Leon Bottou
ฟิสิกส์ของแบบจำลองภาษา: ส่วนที่ 3.2, การจัดการความรู้ [ลิงก์กระดาษ] 2023-09-25
Zeyuan Allen-Zhu; Yuanzhi Li
การท่องจำเครือข่ายประสาทสามารถแปลได้หรือไม่? [ลิงก์กระดาษ] 2023-07-18
Pratyush Maini; Michael C. Mozer; Hanie Sedghi; Zachary C. Lipton; J. Zico Kolter; จางจาง
ปริมาณการท่องจำในรูปแบบภาษาประสาท [ลิงก์กระดาษ] 2022-02-15
Nicholas Carlini; Daphne Ippolito; Matthew Jagielski; Katherine Lee; Tramer Florian; จางจาง
^ back to top ^
เอกสารที่พูดถึงแง่มุมต่าง ๆ ของกระบวนการฝึกอบรมรวมถึงการเพิ่มประสิทธิภาพการปรับแต่งและภูมิทัศน์การฝึกอบรมของแบบจำลองภาษาขนาดใหญ่
การบรรจบกันทั่วโลกในการฝึกอบรมหม้อแปลงขนาดใหญ่ [ลิงก์กระดาษ] 2024-10-31
Cheng Gao; หยวนเฉา; Zihao Li; Yihan เขา; Mengdi Wang; ฮันหลิว; Jason Matthew Klusowski; แฟน ๆ Jianqing
เกิดอะไรขึ้นในเลเยอร์ LLMS เมื่อได้รับการฝึกฝนมาอย่างรวดเร็วและคิดช้า: มุมมองการไล่ระดับสี [ลิงก์กระดาษ] 2024-10-31
หมิงหลี่; Yanhong Li; Tianyi Zhou
การเรียนรู้และการถ่ายโอนบิ๊กเรมบริบทที่เบาบางด้วยหม้อแปลงเชิงเส้น [ลิงก์กระดาษ] 2024-10-30
Yunwei Ren; Zixuan Wang; Jason D. Lee
การเรียนรู้อย่างฉับพลันในหม้อแปลง: กรณีศึกษาเกี่ยวกับเมทริกซ์เสร็จ [ลิงค์กระดาษ] 2024-10-29
Pulkit Gopalani; Ekdeep Singh Lubana; Wei Hu
LORA กับการปรับแต่งแบบเต็ม: ภาพลวงตาของความเท่าเทียมกัน [ลิงก์กระดาษ] 2024-10-28
Reece Shuttleworth; Jacob Andreas; Antonio Torralba; Pratyusha Sharma
อคติความเรียบง่ายแบบกระจายในการเรียนรู้การเรียนรู้ของหม้อแปลง [ลิงก์กระดาษ] 2024-10-25
Riccardo Rende; Federica Gerace; Alessandro Laio; เซบาสเตียนโกลด์
หัวความสนใจที่ไม่หยุดยั้ง: กลไกการ demystifying phenomena token สุดขั้วใน LLMS [ลิงก์กระดาษ] 2024-10-17
Tianyu Guo; Druv Pai; Yu Bai; Jiantao Jiao; Michael I. Jordan; เพลง Mei
วิธีการที่ Transformers ใช้หัวการเหนี่ยวนำ: การประมาณและการวิเคราะห์การเพิ่มประสิทธิภาพ [ลิงก์กระดาษ] 2024-10-15
Mingze Wang; Ruoxi Yu; Weinan E; เล่ยหวู่
การเป็นหม้อแปลงหมายถึงอะไร? ข้อมูลเชิงลึกจากการวิเคราะห์ทางทฤษฎี Hessian [ลิงก์กระดาษ] 2024-10-14
Weronika Ormaniec; Felix Dangel; Sidak Pal Singh
Adaptation Odyssey ใน LLMS: ทำไมบางครั้งการเตรียมการเพิ่มเติมบางครั้งก็ไม่สามารถปรับปรุงได้? [ลิงก์กระดาษ] 2024-10-08
fıratÖncel; Matthias Bethge; Beyza Ermis; Mirco Ravanelli; Cem Subakan; çağatayyıldız
เกี่ยวกับการเพิ่มประสิทธิภาพและการวางนัยทั่วไปของหม้อแปลงสองชั้นที่มีการไล่ระดับสี [ลิงก์กระดาษ] 2024-10-07
Bingrui Li; Wei Huang; Andi Han; Zhanpeng Zhou; Taiji Suzuki; Jun Zhu; Jianfei Chen
การทำความเข้าใจอัตราการเรียนรู้การอุ่นเครื่องที่มีความเสถียร: มุมมองภูมิทัศน์การสูญเสียแม่น้ำหุบเขา [ลิงก์กระดาษ] 2024-10-07
Kaiyue Wen; Zhiyuan Li; Jason Wang; David Hall; เพอร์ซี่เหลียง; เต็งหยูหม่า
การฝึกอบรมหม้อแปลงแบบไม่เชิงเส้นสำหรับการอนุมานแบบห่วงโซ่: การวิเคราะห์เชิงทฤษฎีทั่วไป [ลิงก์กระดาษ] 2024-10-03
Hongkang Li; Meng Wang; Songtao lu; Xiaodong Cui; Pin-yu Chen
ข้อมูลเชิงลึกเชิงทฤษฎีเกี่ยวกับกลไกความสนใจอย่างละเอียด: การปรับให้เหมาะสมและการเพิ่มประสิทธิภาพ [ลิงก์กระดาษ] 2024-10-03
Xinhao Yao; Hongjin Qian; Xiaolin Hu; Gengze Xu; หยง หลิว
ตัวแยกประเภทหม้อแปลงที่ผ่านการฝึกอบรมทั่วไปและแสดงความเป็นพิษเป็นภัยในบริบท [ลิงก์กระดาษ] 2024-10-02
Spencer Frei; Gal Vardi
สู่ความเข้าใจเชิงทฤษฎีของข้อมูลสังเคราะห์ใน LLM หลังการฝึกอบรม: มุมมองย้อนกลับ-บอตเลนเนค [ลิงก์กระดาษ] 2024-10-02
Zeyu Gan; หยง หลิว
การตรวจสอบผลกระทบของความซับซ้อนของแบบจำลองในรูปแบบภาษาขนาดใหญ่ [ลิงก์กระดาษ] 2024-10-01
จิง Luo; Huiyuan Wang; Weiran Huang
Benigh หรือไม่ได้รับการ overfitting ในการเลือกโทเค็นกลไกความสนใจ [ลิงก์กระดาษ] 2024-09-26
Keitaro Sakamoto; Issei Sato
การบรรจบกันที่ไม่ใช่ asymptotic ของหม้อแปลงการฝึกอบรมสำหรับการทำนายการเปิดตัวครั้งต่อไป [ลิงก์กระดาษ] 2024-09-25
Ruiquan Huang; Yingbin Liang; จิงหยาง
การเพิ่มประสิทธิภาพกฎหมายพารามิเตอร์ไฮเปอร์พารามิเตอร์สำหรับแบบจำลองภาษาขนาดใหญ่ [ลิงก์กระดาษ] 2024-09-07
Xingyu Xie; Kuangyu Ding; Shuicheng Yan; Kim-Chuan Toh; Tianwen Wei
Ademamix Optimizer: ดีกว่าเร็วกว่า [ลิงค์กระดาษ] 2024-09-05
Matteo Pagliardini; Pierre Ablin; David Grangier
การจัดกลุ่มและการจัดตำแหน่ง: การทำความเข้าใจพลวัตการฝึกอบรมในการเพิ่มโมดูลาร์ [ลิงก์กระดาษ] 2024-08-18
Tiberiu Musat
การบรรจบกันทั่วโลกในการฝึกอบรมหม้อแปลงขนาดใหญ่ [ลิงก์กระดาษ] 2024-08
Cheng Gao; หยวนเฉา; Zihao Li; Yihan เขา; Mengdi Wang; ฮันหลิว; Jason M. Klusowski; แฟน ๆ Jianqing
ในการบรรจบกันของหม้อแปลงตื้นเขย
Yongtao Wu; Fanghui Liu; Grigorios G Chrysos; Volkan Cevher
การปรับจูนพารามิเตอร์-ประสิทธิภาพสำหรับการเรียนรู้อย่างต่อเนื่อง: มุมมองเคอร์เนลแทนเจนต์ประสาท [ลิงก์กระดาษ] 2024-07-24
Jingren Liu; จงจี; Yunlong Yu; Jiale Cao; Yanwei Pang; จุนงฮัน; Xuelong Li
การเรียนรู้พลวัตของ LLM finetuning [Paper Link] 2024-07-15
ยี่เรน; Danica J. Sutherland
การแยกแยะสิ่งที่ทำให้เครื่องมือเพิ่มประสิทธิภาพที่ดีสำหรับแบบจำลองภาษา [ลิงก์กระดาษ] 2024-07-10
Rosie Zhao; Depen Morwani; David Brandfonbrener; Nikhil Vyas; Sham Kakade
zero-shot ทั่วไปในระหว่างการปรับแต่งการเรียนการสอน: ข้อมูลเชิงลึกจากความคล้ายคลึงกันและความละเอียด [ลิงก์กระดาษ] 2024-06-17
Bingxiang เขา; หนิงดิง; Cheng Qian; เจียเติ้ง; Ganquan Cui; Lifan หยวน; Huan-ang Gao; Huimin Chen; Zhiyuan Liu; ซันซองซัน
ทำความเข้าใจกับการตรวจสอบเชิงเส้นจากนั้นโมเดลภาษาที่ปรับจูนจากมุมมอง NTK [ลิงก์กระดาษ] 2024-05-27
Akiyoshi Tomihari; Issei Sato
ขีด จำกัด ที่ไม่มีที่สิ้นสุดของการเปลี่ยนแปลงของหม้อแปลงหลายหัว [ลิงก์กระดาษ] 2024-05-24
Blake Bordelon; Hamza Tahir Chaudhry; Cengiz Pehlevan
สู่ความเข้าใจเชิงทฤษฎีของ 'คำสาปกลับรายการ' ผ่านการฝึกอบรมพลวัต [ลิงก์กระดาษ] 2024-05-07
Hanlin Zhu; Baihe Huang; Shaolun Zhang; ไมเคิลจอร์แดน; Jiantao Jiao; Yuandong Tian; สจวร์ตรัสเซล
ควบคุมวิธีการทฤษฎีเพื่อปรับแต่งและถ่ายโอนการเรียนรู้ [ลิงก์กระดาษ] 2024-04-16
Erkan Bayram; Shenyu Liu; Mohamed-Ali Belabbas; Tamer Başar
ดูข้อความ: โมเดลภาษาที่ปรับแต่งเป็นตัวเลือกแบบปรนัยที่มีความแข็งแกร่งมากกว่าที่คุณคิดว่า [Paper Link] 2024-04-12
Xinpeng Wang; Chengzhi Hu; Bolei Ma; Paul Röttger; ไม้กระดานบาร์บาร่า
เกี่ยวกับข้อมูลการฝึกอบรมที่มีอิทธิพลต่อโมเดล GPT [Paper Link] 2024-04-11
Qingyi Liu; Yekun Chai; Shuohuan Wang; หยูซัน; Keze Wang; ฮุววู
แนวทางปฏิบัติที่ดีที่สุดและบทเรียนที่ได้เรียนรู้เกี่ยวกับข้อมูลสังเคราะห์สำหรับแบบจำลองภาษา [ลิงก์กระดาษ] 2024-04-11
Ruibo Liu; Jerry Wei; Fangyu Liu; Chenglei Si; Yanzhe Zhang; Jinmeng Rao; สตีเวนเจิ้ง; Daiyi Peng; Diyi Yang; Denny Zhou; Andrew M. Dai
การฝึกอบรมเกี่ยวกับข้อมูลสังเคราะห์นั้นแย่แค่ไหน? การวิเคราะห์ทางสถิติของรูปแบบภาษาล่มสลาย [ลิงก์กระดาษ] 2024-04-07
Mohamed El Amine Seddik; Suei-Wen Chen; Soufiane Hayou; Pierre Youssef; Merouane Debbah
เปิดตัวพลังการวางนัยทั่วไปของแบบจำลองภาษาขนาดใหญ่ที่ปรับแต่งได้ [ลิงก์กระดาษ] 2024-03-14
Haoran Yang; Yumeng Zhang; Jiaqi Xu; Hongyuan Lu; Pheng Ann Heng; Wai Lam
หม้อแปลงมีเสถียรภาพ: ทฤษฎีการแพร่กระจายสัญญาณแบบ end-to-end สำหรับแบบจำลองภาษา [ลิงก์กระดาษ] 2024-03-14
Akhil Kedia; Mohd Abbas Zaidi; Sushil Khyalia; Jungho Jung; Harshith Goka; Haejun Lee
ความสนใจเชิงเส้นคือ (อาจ) สิ่งที่คุณต้องการ (เพื่อทำความเข้าใจการเพิ่มประสิทธิภาพของหม้อแปลง) [ลิงก์กระดาษ] 2024-03-13
Kwangjun Ahn; Xiang Cheng; เพลง Minhak; Chulhee Yun; Ali Jadbabaie; Suvrit SRA
จุดเด่นของวิถีการปรับให้เหมาะสมในเครือข่ายประสาทและ LLMS: ความยาวโค้งและปลายตาย [ลิงก์กระดาษ] 2024-03-12
Sidak Pal Singh; บ๊อบบี้เขา; Thomas Hofmann; แบร์นฮาร์ด โชลคอปฟ์
The Heuristic Core: การทำความเข้าใจการวางแนวย่อยในรูปแบบภาษาที่ผ่านการฝึกอบรม [ลิงก์กระดาษ] 2024-03-06
Adithya Bhaskar; แดนฟรีดแมน; Danqi Chen
การฝึกอบรมพลวัตของความสนใจ softmax หลายหัวสำหรับการเรียนรู้ในบริบท: การเกิดขึ้นการบรรจบกันและการเพิ่มประสิทธิภาพ [ลิงก์กระดาษ] 2024-02-29
Siyu Chen; Heeejune Sheen; Tianhao Wang; Zhuoran Yang
วิธีการที่หม้อแปลงเรียนรู้โครงสร้างเชิงสาเหตุด้วยการไล่ระดับสี [ลิงก์กระดาษ] 2024-02-22
Eshaan Nichani; อเล็กซ์เดเมียน; Jason D. Lee
การฝึกอบรม LORA ในระบอบการปกครอง NTK ไม่มีขั้นต่ำในท้องถิ่น [ลิงก์กระดาษ] 2024-02-19
Uijeong Jang; Jason D. Lee; เออร์เนสต์เครว
ในการเกิดขึ้นของความเป็นเส้นตรงข้ามงานในกระบวนทัศน์การเตรียมการก่อนหน้า [ลิงก์กระดาษ] 2024-02-06
Zhanpeng Zhou; Zijun Chen; Yilan Chen; โบจาง; Junchi Yan
Transformers เรียนรู้ผ่านการเพิ่มอันดับอย่างค่อยเป็นค่อยไป [ลิงก์กระดาษ] 2023-12-10
Enric Boix-Adsera; etai littwin; Emmanuel Abbe; Samy Bengio; Joshua Susskind
กลไกการวิเคราะห์ผลกระทบของการปรับแต่งอย่างละเอียดต่องานที่กำหนดตามขั้นตอน [ลิงก์กระดาษ] 2023-11-21
Samyak Jain; โรเบิร์ตเคิร์ก; Ekdeep Singh Lubana; Robert P. Dick; Hidenori Tanaka; Edward Grefenstette; Tim Rocktäschel; David Scott Krueger
การเชื่อมต่อรูปแบบภาษาที่ผ่านการฝึกอบรมมาก่อนและงานดาวน์สตรีมผ่านคุณสมบัติของการเป็นตัวแทน [ลิงก์กระดาษ] 2023-11-02
Chenwei Wu; โฮลเดนลี; Rong GE
การสแกนและ SNAP: ทำความเข้าใจการเปลี่ยนแปลงการเปลี่ยนแปลงและองค์ประกอบโทเค็นในหม้อแปลง 1 ชั้น [ลิงก์กระดาษ] 2023-07-02
Yuandong Tian; Yiping Wang; Beidi Chen; Simon du
มุมมองที่อิงเคอร์เนลของการปรับแต่งโมเดลภาษา [ลิงก์กระดาษ] 2023-06-15
Sadhika Malladi; Alexander Wettig; Dingli Yu; Danqi Chen; Sanjeev Arora
การวิเคราะห์ความมั่นคงของการปรับแต่งแบบจำลองที่ผ่านการฝึกอบรมมาก่อน [ลิงก์กระดาษ] 2023-01-24
Zihao Fu; Anthony Man-Cho So; ไนเจลถ่านหิน
^ back to top ^
เอกสารการวิเคราะห์ความสามารถในการเรียนรู้และประสิทธิภาพการวางนัยทั่วไปของแบบจำลองภาษาตั้งแต่ความอ่อนแอไปจนถึงการวางนัยทั่วไปที่แข็งแกร่ง
การวางนัยทั่วไปและขอบเขตความเสี่ยงสำหรับเครือข่ายประสาทที่เกิดขึ้นอีก [ลิงค์กระดาษ] 2024-11-05
Xuewei Cheng; Ke Huang; Shujie Ma
ความยาวทั่วไปที่พิสูจน์ได้ในการทำนายลำดับผ่านการกรองสเปกตรัม [ลิงก์กระดาษ] 2024-11-01
Annie Marsden; Evan Dogariu; Naman Agarwal; Xinyi Chen; Daniel Suo; Elad Hazan
RL-Star: การวิเคราะห์เชิงทฤษฎีของกรอบการเรียนรู้การเสริมแรงสำหรับเหตุผลที่สอนด้วยตนเอง [ลิงก์กระดาษ] 2024-10-31
Fu-Chieh Chang; Yu-ting Lee; hui-ying shih; Pei-yuan Wu
ส่วนผสมของนกแก้ว: ผู้เชี่ยวชาญปรับปรุงการท่องจำมากกว่าการใช้เหตุผล [ลิงก์กระดาษ] 2024-10-24
Samy Jelassi; Clara Mohri; David Brandfonbrener; อเล็กซ์กู; Nikhil Vyas; Nikhil Anand; David Alvarez-Melis; Yuanzhi Li; Sham M. Kakade; Eran Malach
ความแม่นยำเชิงตัวเลขมีผลต่อความสามารถในการใช้เหตุผลทางคณิตศาสตร์ของ LLMS [ลิงก์กระดาษ] 2024-10-17
Guhao Feng; ไคหยาง; Yuntian Gu; xinyue ai; Shengjie Luo; Jiacheng Sun; Di เขา; Zhenguo Li; Liwei Wang
ข้อผิดพลาดข้อผิดพลาดทั่วไปขึ้นอยู่กับอันดับสำหรับหม้อแปลง [ลิงก์กระดาษ] 2024-10-15
Lan V. Truong
ความสนใจมากเกินไปในความสนใจแบบหัวเดียว [ลิงก์กระดาษ] 2024-10-10
Roey Magen; Shuning Shang; Zhiwei Xu; Spencer Frei; Wei Hu; Gal Vardi
พลวัตของการเรียนรู้แนวคิดและการจัดองค์ประกอบทั่วไป [ลิงก์กระดาษ] 2024-10-10
Yongyi Yang; Core Francisco Park; Ekdeep Singh Lubana; Maya Okawa; Wei Hu; Hidenori Tanaka
การปนเปื้อนมากเกินไปสำหรับการถดถอยด้วยเครือข่าย Relu สองชั้นที่ผ่านการฝึกอบรม [ลิงก์กระดาษ] 2024-10-08
Junhyung Park; Patrick Bloebaum; Shiva Prasad Kasiviswanathan
การวางนัยทั่วไปที่อ่อนแอต่อความอ่อนแอผ่านการ overfitting overfitting [ลิงก์กระดาษ] 2024-10-06
David X. Wu; anant sahai
กรอบการทำงานอย่างเป็นทางการสำหรับการทำความเข้าใจความยาวทั่วไปในหม้อแปลง [ลิงก์กระดาษ] 2024-10-03
Xinting Huang; Andy Yang; Satwik Bhattamishra; Yash Sarrof; Andreas Krebs; Hattie Zhou; Preetum Nakkiran; Michael Hahn
ตัวแยกประเภทหม้อแปลงที่ผ่านการฝึกอบรมทั่วไปและแสดงความเป็นพิษเป็นภัยในบริบท [ลิงก์กระดาษ] 2024-10-02
Spencer Frei; Gal Vardi
เส้นความคิดในรูปแบบภาษาขนาดใหญ่ [ลิงก์กระดาษ] 2024-10-02
Raphaël Sarfati; Toni JB Liu; Nicolas Boullé; คริสโตเฟอร์เจเอิร์ลส์
การตรวจสอบผลกระทบของความซับซ้อนของแบบจำลองในรูปแบบภาษาขนาดใหญ่ [ลิงก์กระดาษ] 2024-10-01
จิง Luo; Huiyuan Wang; Weiran Huang
การเลือกใช้โทเค็นของกลไกความสนใจที่ไม่เป็นพิษเป็นภัย
Keitaro Sakamoto; Issei Sato
การทำความเข้าใจอคติที่เรียบง่ายต่อการแมปองค์ประกอบผ่านการเรียนรู้พลวัต [ลิงก์กระดาษ] 2024-09-15
ยี่เรน; Danica J. Sutherland
การวางนัยทั่วไปที่น่าจดจำในรูปแบบภาษา [ลิงก์กระดาษ] 2024-09-03
Eric Zhang; Leshem เลือก; จาค็อบแอนเดรียส
ใบหน้าหลายครั้งของการเรียนรู้ที่อ่อนแออย่างมาก [ลิงก์กระดาษ] 2024-08-30
Mikael MøllerHøgsgaard; Kasper Green Larsen; Markus Engelund Mathiasen
ฟิสิกส์ของแบบจำลองภาษา: ส่วนที่ 2.2 วิธีการเรียนรู้จากความผิดพลาดเกี่ยวกับปัญหาคณิตศาสตร์ระดับประถมศึกษา [ลิงก์กระดาษ] 2024-08-29
Tian Ye; Zicheng Xu; Yuanzhi Li; Zeyuan Allen-Zhu
การกระจายแบบทั่วไปผ่านการจัดองค์ประกอบ: เลนส์ผ่านหัวเหนี่ยวนำในหม้อแปลง [ลิงก์กระดาษ] 2024-08-18
Jiajun Song; Zhuoyan Xu; Yiqiao Zhong
เกี่ยวกับการเรียนรู้ทั่วไปของการเรียนรู้ด้วย DPO [ลิงก์กระดาษ] 2024-08-06
Shawn IM; yixuan li
อุปนัยหรือนิรนัย? ทบทวนความสามารถในการใช้เหตุผลพื้นฐานของ LLMS [ลิงก์กระดาษ] 2024-07-31
Kewei Cheng; Jingfeng Yang; Haoming Jiang; Zhengyang Wang; Binxuan Huang; Ruirui li; Shiyang Li; เจิ้งหลี่; Yifan Gao; Xian Li; Bing Yin; Yizhou Sun