รายการชุดข้อมูล แบบจำลอง เอกสาร คลังข้อมูลการปรับแต่งคำสั่งโอเพ่นซอร์สที่คัดสรรแล้ว
หลังจาก Longpre และคณะ เราจะแสดงรายการชุดข้อมูลการปรับแต่งคำสั่งที่มีอยู่ทั้งหมดที่ดัดแปลงจากงาน NLP แบบดั้งเดิม
ปล่อย | ชุดข้อมูล | จำนวนงาน | จำนวนอินสแตนซ์ | รุ่น_ชื่อ | ฐาน | รุ่น_ขนาด |
---|---|---|---|---|---|---|
2020-05 | UnifiedQA | 46 | 750k | UnifiedQA | โรเบอร์ตา | 110-340 ม |
2021-04 | ครอสฟิต | 159 | 71.ม | BART-CrossFit | บาร์ต | 140 ม |
2021-04 | เนเชอรัล Inst v1.0 | 61 | 620 ก | พล.ท | บาร์ต | 140 ม |
2021-09 | ฟลาน 2021 | 62 | 4.4M | ฟลาน-ละเอ็มด้า | ลามด้า | 137B |
2021-10 | ป3 | 62 | 12ม | ถึง ถึง ถึง+ ถึง ++ | T5-LM | 3-11B |
2021-10 | โลหะCL | 142 | 3.5M | โลหะCL | GPT-2 | 770 ม |
2021-11 | เอ็กซ์มิกซ์ | 107 | 500 ก | ExT5 | T5 | 220M-11B |
2022-04 | สถาบันซุปเปอร์เนเชอรัล | 1613 | 5ม | Tk-สอน | T5-LM, mT5 | 17-13B |
2022-10 | จีแอลเอ็ม | 77 | 12ม | GLM-130B | จีแอลเอ็ม | 130 บ |
2022-10 | ฟลาน 2022 | 1836 | 15ม | ประหม่า-T5, ประหม่า-ปาล์ม | T5-LM, ปาล์ม | 10 เอ็ม-540 บ |
2022-11 | xP3 | 71 | 81ม | BLOOMz, มทีโอ | บลูม, mT5 | 13-176B |
2022-12 | สถาบันที่ไม่เป็นธรรมชาติ | 117 | 64 ก | T5-LM-อุนนัท สถาบัน | T5-LM | 11B |
ปล่อย | รุ่น_ชื่อ | ฐาน | รุ่น_ขนาด | ชุดข้อมูล | จำนวนอินสแตนซ์ | ภาษา |
---|---|---|---|---|---|---|
2022-12 | GPT-3 การติดตั้งด้วยตนเอง | GPT-3 | 175B | การสอนด้วยตนเอง | 82 ก | ภาษาอังกฤษ |
03-03-2023 | เนื้ออัลปาก้า | ลามะ | 7B | อัลปาก้า_ดาต้า | 52 ก | ภาษาอังกฤษ |
19-03-2023 | อัลปาก้า-ลอร่า | ลามะ | 7B 13B 30B | alpaca_data、alpaca_data_cleaned | 52 ก | ภาษาอังกฤษ |
23-03-2023 | จีน-วิคูน่า | ลามะ | 7B 13B | BELLE、ชุดข้อมูล Guanaco | 1ม | จจ |
24-03-2023 | อัลปาก้า-CoT | ลามะ | 7B | ชุดข้อมูล | - | เอ็นจ |
25-03-2023 | ดอลลี่ | ดอลลี่ | 6B | อัลปาก้า_ดาต้า | 52 ก | ภาษาอังกฤษ |
25-03-2023 | กวานาโก | ลามะ | 7B | ชุดข้อมูล Guanaco | 534 ก | เอน จ่า เดอ |
28-03-2023 | จีน-LLaMA-อัลปาก้า | ลามะ | 7B | alpaca_data_zh、pCLUE、translation2019zh、alpaca_data、การสอนด้วยตนเอง | 2ม | จจ |
29-03-2023 | ColossalChat | ลามะ | 7B 13B | InstructionWild | 104 ก | เอ็นจ |
31-03-2023 | ลัวถัว | LLaMA ChatGLM | 7B 6B | trans_chinese_alpaca_data | 52k | จจ |
31-03-2023 | สมอง-lora-alpaca | เซรีบราส-GPT | 2.7B | ข้อมูลอัลปาก้าสะอาดแล้ว | 52k | ภาษาอังกฤษ |
ชุดข้อมูลที่มีอยู่ส่วนใหญ่เป็นภาษาอังกฤษ อย่างไรก็ตาม ประชากรส่วนใหญ่ของโลกไม่ได้รับบริการในแง่ของความพร้อมของข้อมูลสำหรับภาษาของตน จะแน่ใจได้อย่างไรว่าทุกคนทั่วโลกสามารถได้รับประโยชน์จาก generative AI เราได้พัฒนาเครื่องมือแปลแบบโอเพ่นซอร์สที่ตรงไปตรงมาและอิงจาก Helsinki-NLP ซึ่งสามารถแปลชุดข้อมูลภาษาอังกฤษเป็นภาษาต่างๆ ได้มากกว่า 100 ภาษาโดยไม่มีค่าใช้จ่าย แม้ว่าชุดข้อมูลที่แปลแล้วเหล่านี้อาจมีสัญญาณรบกวนอยู่บ้าง แต่ก็เป็นทางเลือกที่ใช้งานได้แทนข้อมูลคุณภาพสูงและมีราคาแพง ดูด้านล่าง
python translator.py model_name source_data_path
python translator.py Helsinki-NLP/opus-mt-en-zh alpaca_data.json
เครื่องมือของเราได้รับการออกแบบให้ทำงานกับข้อมูลอัลปาก้าและโมเดล Helsinki-NLP/opus-mt-en-zh ชุดข้อมูลที่แตกต่างกันหรือแบบจำลอง Helsinki-NLP ให้ผลลัพธ์ที่แตกต่างกัน เนื่องจากข้อจำกัดของโมเดล ซึ่งถูกจำกัดโดยความสามารถของโมเดล คุณภาพการแปลอาจไม่ดีที่สุดเสมอไป ตัวอย่างเช่น เราสังเกตเห็นกรณีที่มีคำซ้ำในการแปลจากภาษาอังกฤษเป็นภาษาจีน ซึ่งทำให้เราต้องพัฒนา "process.py" เพื่อกำจัดข้อความแจ้งที่แปลซึ่งมีสตริงที่มีความยาวเท่าใดก็ได้ที่ปรากฏติดต่อกันสามครั้ง เราจัดเตรียมเวอร์ชันสุดท้ายไว้ใน "translated_alpaca_data.json"
python process.py unprocessed_data_path
python process.py translated_data.json
# โมเดล Helsinki-NLP อาจมีขีดจำกัดความยาวประโยคอินพุตสูงสุด เราได้ละทิ้งข้อความแจ้งที่เกินขีดจำกัดก่อนที่จะแปล
เราได้ตรวจสอบเอกสารในสาขานี้อย่างกว้างขวาง และได้แสดงรายการบทความที่มีค่าที่สุดไว้ด้านล่าง:
โมเดลภาษาที่ได้รับการปรับปรุงคือผู้เรียนที่ไม่ต้องทำอะไรเลย 2021.9
การฝึกอบรมแบบมัลติทาสก์พร้อมท์ช่วยให้สามารถทำงานแบบ Zero-Shot โดยทั่วไปได้ 2021.10
ฝึกอบรมโมเดลภาษาให้ปฏิบัติตามคำแนะนำพร้อมความคิดเห็นจากมนุษย์ 2022.3
คำแนะนำเหนือธรรมชาติ: การวางนัยทั่วไปผ่านคำแนะนำที่ประกาศในงาน NLP มากกว่า 1,600 รายการ 2022.4
ลักษณะทั่วไปข้ามงานที่ไม่มีผู้ดูแลผ่านการดึงข้อมูล Augmentation 2022.4
การปฐมนิเทศคำสั่ง: จากตัวอย่างบางส่วนไปจนถึงคำอธิบายงานภาษาธรรมชาติ 2022.5
คำแนะนำในการปรับขนาด-โมเดลภาษาที่ได้รับการปรับแต่งอย่างละเอียด 2022.10
เดาคำสั่ง! การเรียนรู้แบบพลิกกลับทำให้โมเดลภาษาแข็งแกร่งขึ้นสำหรับผู้เรียน Zero-Shot 2022.10
คำแนะนำที่ผิดธรรมชาติ: การปรับโมเดลภาษาโดย (เกือบ) ไม่มีแรงงานมนุษย์ 2022.12
การปรับปรุงลักษณะทั่วไปข้ามงานของโมเดลตารางเป็นข้อความแบบรวมพร้อมการกำหนดค่างานเชิงองค์ประกอบ 2022.12
การสอนด้วยตนเอง: การจัดรูปแบบภาษาให้สอดคล้องกับคำแนะนำที่สร้างขึ้นเอง 2022.12
MultiInstruct: การปรับปรุงการเรียนรู้ Zero-Shot แบบ Multi-Modal ผ่านการปรับแต่งคำสั่ง 2022.12
The Flan Collection: การออกแบบข้อมูลและวิธีการเพื่อการปรับแต่งคำสั่งอย่างมีประสิทธิภาพ 2023.1
การเรียนรู้การสอนในบริบท 2023.2
นอกจากนี้ เราได้จัดเตรียมรายการพื้นที่เก็บข้อมูลที่เกี่ยวข้องไว้เพื่อใช้อ้างอิงเพิ่มเติม
สุดยอดการเรียนการสอนการเรียนรู้
ชุดข้อมูลคำสั่งที่ยอดเยี่ยม
ICL_รายการกระดาษ
การเรียนรู้พร้อมท์ในบริบท
การใช้เหตุผลของ LM
LLM-การใช้เหตุผล-เอกสาร
เอกสารห่วงโซ่แห่งความคิด
OpenICL