ชุดข้อมูลการจัดตำแหน่ง • ชุดข้อมูลเฉพาะโดเมน • ชุดข้อมูลการฝึกอบรมล่วงหน้า ⁉️ ชุดข้อมูลหลายรูปแบบ
โมเดลภาษาขนาดใหญ่ (LLM) เช่น ซีรีส์ GPT ของ OpenAI, Bard ของ Google และ Wenxin Yiyan ของ Baidu กำลังขับเคลื่อนการเปลี่ยนแปลงทางเทคโนโลยีอย่างลึกซึ้ง เมื่อเร็วๆ นี้ ด้วยการเกิดขึ้นของเฟรมเวิร์กโมเดลโอเพ่นซอร์สขนาดใหญ่ เช่น LlaMa และ ChatGLM การฝึกอบรม LLM จึงไม่ใช่โดเมนเฉพาะของบริษัทที่อุดมไปด้วยทรัพยากรอีกต่อไป การฝึกอบรม LLM โดยองค์กรขนาดเล็กหรือบุคคลกลายเป็นความสนใจที่สำคัญในชุมชนโอเพ่นซอร์ส โดยมีผลงานที่โดดเด่นบางส่วน เช่น Alpaca, Vicuna และ Luotuo นอกจากเฟรมเวิร์กโมเดลขนาดใหญ่แล้ว คลังการฝึกอบรมขนาดใหญ่และมีคุณภาพสูงยังจำเป็นสำหรับการฝึกอบรมโมเดลภาษาขนาดใหญ่อีกด้วย ปัจจุบัน องค์กรโอเพ่นซอร์สที่เกี่ยวข้องในชุมชนยังคงกระจัดกระจาย ดังนั้นเป้าหมายของพื้นที่เก็บข้อมูลนี้คือการรวบรวมคลังการฝึกอบรมคุณภาพสูงสำหรับ LLM ในชุมชนโอเพ่นซอร์สอย่างต่อเนื่อง
การฝึกอบรม Chatbot LLM ที่สามารถทำตามคำแนะนำของมนุษย์ได้อย่างมีประสิทธิภาพจำเป็นต้องเข้าถึงชุดข้อมูลคุณภาพสูงที่ครอบคลุมโดเมนและสไตล์การสนทนาที่หลากหลาย ในพื้นที่เก็บข้อมูลนี้ เราจัดเตรียมคอลเลกชันชุดข้อมูลที่ได้รับการคัดสรรซึ่งออกแบบมาเพื่อการฝึกอบรมแชทบอทโดยเฉพาะ รวมถึงลิงก์ ขนาด ภาษา การใช้งาน และคำอธิบายโดยย่อของชุดข้อมูลแต่ละชุด เป้าหมายของเราคือการทำให้นักวิจัยและผู้ปฏิบัติงานสามารถระบุและเลือกชุดข้อมูลที่เกี่ยวข้องและมีประโยชน์มากที่สุดสำหรับความต้องการในการฝึกอบรม LLM ของแชทบอทได้ง่ายขึ้น ไม่ว่าคุณกำลังปรับปรุงคุณภาพบทสนทนาของแชทบอท การสร้างการตอบสนอง หรือความเข้าใจภาษา พื้นที่เก็บข้อมูลนี้มีบางอย่างสำหรับคุณ
หากคุณต้องการมีส่วนร่วมคุณสามารถติดต่อ:
จุนห่าว จ้าว ?
ให้คำปรึกษาโดย ศ.วันหยุน ชุย
ชื่อชุดข้อมูล | ใช้โดย | พิมพ์ | ภาษา | ขนาด | คำอธิบาย️ |
---|---|---|---|---|---|
ช่วยคัดท้าย | - | RLHF | ภาษาอังกฤษ | 37,000 อินสแตนซ์ | ชุดข้อมูล RLHF ที่ได้รับการอธิบายโดยมนุษย์ด้วยการวัดความช่วยเหลือ ความถูกต้อง ความเชื่อมโยง ความซับซ้อน และการใช้คำฟุ่มเฟือย |
no_robots | - | เอสเอฟที | ภาษาอังกฤษ | 10,000 อินสแตนซ์ | ข้อมูล STF คุณภาพสูงที่มนุษย์สร้างขึ้นในเทิร์นเดียว |
ชื่อชุดข้อมูล | ใช้โดย | พิมพ์ | ภาษา | ขนาด | คำอธิบาย️ |
---|---|---|---|---|---|
มานุษยวิทยา_ HH_โกลเด้น | อุลมา | SFT/RLHF | ภาษาอังกฤษ | รถไฟ 42.5k + ทดสอบ 2.3k | ปรับปรุงชุดข้อมูลที่ไม่เป็นอันตรายของชุดข้อมูล Helpful and Harmless (HH) ของ Anthropic ใช้ GPT4 เพื่อเขียนคำตอบเดิมที่ "เลือก" ใหม่ เมื่อเปรียบเทียบกับชุดข้อมูล Harmless เดิม ชุดข้อมูลนี้จะปรับปรุงประสิทธิภาพของวิธี RLHF, DPO หรือ ULMA บนตัววัดที่ไม่เป็นอันตรายอย่างมีนัยสำคัญ |
ชื่อชุดข้อมูล | ใช้โดย | พิมพ์ | ภาษา | ขนาด | คำอธิบาย️ |
---|---|---|---|---|---|
การทำงาน_ โทร_ ขยาย | - | คู่ | ภาษาอังกฤษ รหัส | - | ชุดข้อมูลที่มนุษย์สร้างขึ้นคุณภาพสูงจากการปรับปรุงความสามารถการใช้ API ของ LM |
AmericanStories | - | ปตท | ภาษาอังกฤษ | - | สแกนคลังข้อมูลขนาดใหญ่จากหอสมุดรัฐสภาแห่งสหรัฐอเมริกา |
โดลมา | โอลโม | ปตท | - | โทเค็น 3T | คลังข้อมูลโอเพ่นซอร์สขนาดใหญ่ที่หลากหลายสำหรับการฝึกอบรม LM ล่วงหน้า |
ตุ่นปากเป็ด | ตุ่นปากเป็ด2 | คู่ | ภาษาอังกฤษ | 25ก | ชุดข้อมูลคุณภาพสูงมากสำหรับการปรับปรุงความสามารถในการให้เหตุผล STEM ของ LM |
นกพัฟฟิน | เรดมอนด์-พัฟฟิน ชุด | กล่องโต้ตอบ | ภาษาอังกฤษ | ~ 3,000 รายการ | ชุดข้อมูลประกอบด้วยการสนทนาระหว่างมนุษย์จริงกับ GPT-4 ซึ่งมีบริบทที่ยาว (มากกว่า 1,000 โทเค็นต่อการสนทนา) และกล่องโต้ตอบแบบหลายรอบ |
ซีรีย์เล็ก ๆ | - | คู่ | ภาษาอังกฤษ | - | ชุดรหัสหรือข้อความที่สั้นและกระชับมีจุดมุ่งหมายเพื่อปรับปรุงความสามารถในการให้เหตุผลของ LM |
ลองเบนช์ | - | การประเมิน เท่านั้น | ภาษาอังกฤษ ชาวจีน | 17 งาน | เกณฑ์มาตรฐานสำหรับการประเมินความสามารถในการทำความเข้าใจบริบทอันยาวนานของ LLM |
ชื่อชุดข้อมูล | ใช้โดย | พิมพ์ | ภาษา | ขนาด | คำอธิบาย️ |
---|---|---|---|---|---|
ปลาวาฬเพชรฆาต | - | กล่องโต้ตอบ | ภาษาอังกฤษ | 198,463 รายการ | ชุดข้อมูลกล่องโต้ตอบสไตล์ Orca มีเป้าหมายเพื่อปรับปรุงความสามารถในการสนทนาตามบริบทที่ยาวนานของ LM |
ไดอะล็อกสตูดิโอ | - | กล่องโต้ตอบ | พูดได้หลายภาษา | - | ชุดข้อมูลที่หลากหลายมุ่งเป้าไปที่การสร้าง Chatbot แบบสนทนา |
chatbot_arena _การสนทนา | - | RLHF กล่องโต้ตอบ | พูดได้หลายภาษา | บทสนทนา 33,000 ครั้ง | ทำความสะอาดการสนทนาด้วยการตั้งค่าของมนุษย์แบบคู่ที่รวบรวมไว้ใน Chatbot Arena |
WebGLM-qa | WebGLm | คู่ | ภาษาอังกฤษ | 43.6k รายการ | ชุดข้อมูลที่ใช้โดย WebGLM ซึ่งเป็นระบบ QA ที่ใช้ LLM และอินเทอร์เน็ต แต่ละรายการในชุดข้อมูลนี้ประกอบด้วยคำถาม คำตอบ และข้อมูลอ้างอิง การตอบสนองมีพื้นฐานอยู่ในการอ้างอิง |
พี-1 | พี-1 | กล่องโต้ตอบ | ภาษาอังกฤษ | - | ชุดข้อมูลที่สร้างขึ้นโดยใช้วิธีการในตำราเรียนคือสิ่งที่คุณต้องการ มุ่งเน้นไปที่ปัญหาทางคณิตศาสตร์และวิทยาการคอมพิวเตอร์ |
ลินลี่- การฝึกล่วงหน้า- ชุดข้อมูล | ซีรีส์ลินลี่ | ปตท | ชาวจีน | 3.4GB | ชุดข้อมูลการเตรียมการฝึกภาษาจีนที่ใช้โดยโมเดลซีรีส์ Linly ประกอบด้วย ClueCorpusSmall, CSL news-crawl และอื่นๆ |
FineGrainedRLHF | - | RLHF | ภาษาอังกฤษ | ~ 5,000 ตัวอย่าง | Repo มีเป้าหมายเพื่อพัฒนากรอบการทำงานใหม่เพื่อรวบรวมความคิดเห็นของมนุษย์ ข้อมูลที่รวบรวมมีวัตถุประสงค์เพื่อปรับปรุงความถูกต้องตามข้อเท็จจริง ความเกี่ยวข้องของหัวข้อ และความสามารถอื่นๆ ของ LLM |
ปลาโลมา | - | คู่ | ภาษาอังกฤษ | 4.5M รายการ | ความพยายามที่จะจำลอง Orca ของ Microsoft อิงจาก FLANv2 |
เปิดแชท_ แบ่งปันgpt4_ ชุดข้อมูล | โอเพนแชท | กล่องโต้ตอบ | ภาษาอังกฤษ | กล่องโต้ตอบ 6k | ชุดข้อมูลคุณภาพสูงที่สร้างขึ้นโดยใช้ GPT-4 เพื่อดำเนินการพร้อมท์ ShareGPT ที่ได้รับการปรับปรุงให้เสร็จสมบูรณ์ |
ชื่อชุดข้อมูล | ใช้โดย | พิมพ์ | ภาษา | ขนาด | คำอธิบาย️ |
---|---|---|---|---|---|
OpenOrca | - | คู่ | ภาษาอังกฤษ | สำเร็จ 4.5M | การรวบรวมข้อมูล FLAN เสริม สร้างขึ้นโดยใช้วิธีคือกระดาษออร์ก้า |
COIG-พีซี COIG-Lite | - | คู่ | ชาวจีน | - | COIG เวอร์ชันปรับปรุง |
ตัวช่วยสร้างLM_Orca | ซีรีส์ orca_mini | คู่ | ภาษาอังกฤษ | 55,000 รายการ | ข้อมูล WizardLM ที่ปรับปรุงแล้ว สร้างโดยใช้วิธีของออร์ก้า |
ชุดข้อมูลคำสั่ง arxiv คณิตศาสตร์ ซีเอส ฟิสิกส์ | - | คู่ | ภาษาอังกฤษ | 50,000/ 50,000/ 30,000 รายการ | ชุดข้อมูลประกอบด้วยคู่คำถาม-คำตอบที่ได้มาจากบทคัดย่อ ArXiv คำถามถูกสร้างขึ้นโดยใช้แบบจำลองฐาน t5 ในขณะที่คำตอบถูกสร้างขึ้นโดยใช้แบบจำลอง GPT-3.5-turbo |
ฉันรู้สึก- อยากรู้ | - | คู่ | ภาษาอังกฤษ | 2595 รายการ | คำถามสุ่มและข้อเท็จจริงที่เกี่ยวข้องที่สร้างโดย Google ฉันรู้สึกได้ถึงคุณสมบัติที่น่าสงสัย |
ign_clean _สอน _ชุดข้อมูล_500k | - | คู่ | - | 509,000 รายการ | ชุดข้อมูล SFT ขนาดใหญ่ซึ่งสร้างขึ้นแบบสังเคราะห์จากชุดย่อยของการแจ้งเตือน Ultrachat ขาดดาต้าการ์ดโดยละเอียด |
ตัวช่วยสร้างLM วิวัฒนาการ_สั่งสอน V2 | ตัวช่วยสร้างLM | กล่องโต้ตอบ | ภาษาอังกฤษ | 196,000 รายการ | ชุดข้อมูล Evolve Instruct เวอร์ชันล่าสุด |
ไดโนซอร์ | - | คู่ | ภาษาอังกฤษ | 800,000 รายการ | ชุดข้อมูลที่สร้างขึ้นโดยการประยุกต์ใช้วิธีการในบทความนี้ จุดเด่นคือการสร้างข้อมูลคุณภาพสูงด้วยต้นทุนที่ต่ำ |
สลิมชุดนอน | - | ปตท | เบื้องต้น ภาษาอังกฤษ | - | RedPajama เวอร์ชันที่ล้างข้อมูลและขจัดข้อมูลซ้ำซ้อนแล้ว |
ชุดข้อมูล LIMA | ลิมา | คู่ | ภาษาอังกฤษ | 1,000 รายการ | ชุดข้อมูล SFT คุณภาพสูงที่ LIMA ใช้: Less Is More สำหรับการจัดตำแหน่ง |
ไทเกอร์บอทซีรีส์ | ไทเกอร์บอท | ปตท คู่ | ชาวจีน ภาษาอังกฤษ | - | ชุดข้อมูลที่ใช้ในการฝึก TigerBot รวมถึงข้อมูลการฝึกล่วงหน้า ข้อมูล STF และชุดข้อมูลเฉพาะโดเมนบางชุด เช่น รายงานการวิจัยทางการเงิน |
TSI-v0 | - | คู่ | ภาษาอังกฤษ | ตัวอย่าง 30,000 รายการ ต่องาน | ข้อมูลการปรับแต่งคำสั่งแบบมัลติทาสก์ที่หล่อใหม่จากชุดข้อมูลแหล่งข้อมูลงาน 475 ชุด คล้ายกับชุดข้อมูล Flan และคำสั่ง Natural |
NMBVC | - | ปตท | ชาวจีน | - | ขนาดใหญ่ อัปเดตชุดข้อมูลการฝึกอบรมภาษาจีนล่วงหน้าอย่างต่อเนื่อง |
สแต็คโอเวอร์โฟลว์ โพสต์ | - | ปตท | - | 35GB | ข้อมูล Raw StackOverflow ในรูปแบบมาร์กดาวน์ สำหรับการฝึกล่วงหน้า |
ชื่อชุดข้อมูล | ใช้โดย | พิมพ์ | ภาษา | ขนาด | คำอธิบาย️ |
---|---|---|---|---|---|
LaMini-คำแนะนำ | - | คู่ | ภาษาอังกฤษ | 2.8M รายการ | ชุดข้อมูลที่กลั่นจากการรวบรวม flan, p3 และการสอนด้วยตนเอง |
อัลตร้าแชท | - | กล่องโต้ตอบ | ภาษาอังกฤษ | 1.57M กล่องโต้ตอบ | ชุดข้อมูลกล่องโต้ตอบขนาดใหญ่ที่สร้างขึ้นโดยใช้ ChatGPT สองชุด โดยชุดหนึ่งทำหน้าที่เป็นผู้ใช้ และอีกชุดหนึ่งสร้างการตอบสนอง |
แชร์GPT_ Vicuna_ไม่กรอง | วิคูน่า | คู่ | พูดได้หลายภาษา | 53,000 รายการ | ล้างชุดข้อมูล ShareGPT แล้ว |
ชุดข้อมูล pku-saferlhf | บีเวอร์ | RLHF | ภาษาอังกฤษ | 10K + 1M | ชุดข้อมูลชุดแรกประเภทนี้ประกอบด้วยอินสแตนซ์ 10,000 รายการพร้อมการตั้งค่าความปลอดภัย |
RefGPT-ชุดข้อมูล ลิงก์ที่ไม่เป็นทางการ | RefGPT | คู่, บทสนทนา | ชาวจีน | ~50,000 รายการ | ชุดข้อมูลบทสนทนาภาษาจีนมีเป้าหมายเพื่อปรับปรุงความถูกต้องของข้อเท็จจริงใน LLM (บรรเทาภาพหลอนของ LLM) |
Luotuo-QA-A CoQA-จีน | โครงการลั่วถัว | บริบท | ชาวจีน | คู่ประกันคุณภาพ 127,000 คู่ | ชุดข้อมูลที่สร้างขึ้นจาก CoQA ที่แปลแล้ว เสริมโดยใช้ OpenAI API |
พ่อมด-LM-จีน คำแนะนำ-วิวัฒนาการ | โครงการลั่วถัว | คู่ | ชาวจีน | ~70,000 รายการ | WizardLM 70K เวอร์ชันภาษาจีน คำตอบได้มาจากคำถามที่แปลฟีดใน GPT API ของ OpenAI แล้วรับคำตอบ |
อัลปาก้า_จีน ชุดข้อมูล | - | คู่ | ชาวจีน | - | ข้อมูลอัลปาก้าที่แปลโดย GPT-4 มีข้อมูลเสริมบางส่วน (เช่น บทกวีจีน แอปพลิเคชัน ฯลฯ) ตรวจสอบโดยมนุษย์ |
Zhihu-KOL | เปิดผู้ช่วย | คู่ | ชาวจีน | 1.5GB | ข้อมูล QA บนแพลตฟอร์ม Zhihu QA ของจีนที่มีชื่อเสียง |
อัลปาก้า-GPT-4_zh-cn | - | คู่ | ชาวจีน | ประมาณ 50,000 รายการ | ชุดข้อมูลสไตล์อัลปาก้าภาษาจีน สร้างโดย GPT-4 เดิมเป็นภาษาจีน ไม่ได้แปล |
hh-rlhf บน Huggingface | โคอาล่า | RLHF | ภาษาอังกฤษ | 161,000 คู่ 79.3MB | ชุดข้อมูลแบบคู่สำหรับการฝึกอบรมโมเดลรางวัลในการเรียนรู้แบบเสริมกำลังเพื่อปรับปรุงความไม่เป็นอันตรายและการช่วยเหลือของโมเดลภาษา |
Panther-ชุดข้อมูล_v1 | เสือดำ | คู่ | ภาษาอังกฤษ | 377 รายการ | ชุดข้อมูลที่มาจาก hh-rlhf โดยจะเขียน hh-rlhf ใหม่ในรูปแบบของคู่อินพุต-เอาต์พุต |
ชุดข้อมูล Baize | เบซ | กล่องโต้ตอบ | ภาษาอังกฤษ | กล่องโต้ตอบ 100,000 รายการ | ชุดข้อมูลกล่องโต้ตอบที่สร้างโดย GPT-4 โดยใช้การพูดคุยด้วยตนเอง คำถามและหัวข้อต่างๆ รวบรวมมาจาก Quora, StackOverflow และแหล่งความรู้ทางการแพทย์บางส่วน |
h2ogpt-fortune2000 ส่วนบุคคล | h2ogpt | คู่ | ภาษาอังกฤษ | 11363 รายการ | การปรับแต่งคำสั่งที่พัฒนาโดย h2oai ครอบคลุมหัวข้อต่างๆ |
เอสเอชพี | มีเสถียรภาพVicuna, แชทเลือก , SteamSHP | RLHF | ภาษาอังกฤษ | 385,000 รายการ | ชุดข้อมูล RLHF แตกต่างจากที่กล่าวถึงก่อนหน้านี้ ใช้คะแนน+การประทับเวลาเพื่ออนุมานการตั้งค่าของผู้ใช้ ครอบคลุม 18 โดเมน รวบรวมโดย Stanford |
ELI5 | มินิLM ซีรีส์ | ฟุต RLHF | ภาษาอังกฤษ | 270,000 รายการ | คำถามและคำตอบที่รวบรวมจาก Reddit รวมถึงคะแนนด้วย อาจใช้สำหรับการฝึกอบรมโมเดลรางวัล RLHF |
ตัวช่วยสร้างLM evo_instruct V2 | ตัวช่วยสร้างLM | คู่ | ภาษาอังกฤษ | ชุดข้อมูลการปรับแต่งคำสั่งที่ได้มาจาก Alpaca-52K โดยใช้วิธี การวิวัฒนาการ ในบทความนี้ | |
ข้อมูลมอส SFT | มอส | คู่, กล่องโต้ตอบ | จีนอังกฤษ | 1.1M รายการ | ชุดข้อมูลการสนทนาที่รวบรวมและพัฒนาโดยทีมงาน MOSS มีป้ายกำกับประโยชน์ ความภักดี และไม่เป็นอันตรายสำหรับทุกรายการข้อมูล |
แชร์GPT52K | โคอาล่า LLM เสถียร | คู่ | พูดได้หลายภาษา | 52ก | ชุดข้อมูลนี้ประกอบด้วยการสนทนาที่รวบรวมจาก ShareGPT โดยเน้นไปที่การสนทนาเชิงสร้างสรรค์ที่ปรับแต่งโดยเฉพาะ |
ชุดข้อมูล GPT-4 ทั้งหมด | GPT-4all | คู่ | ภาษาอังกฤษ, อาจจะมี ฉบับแปล | 400,000 รายการ | การรวมกันของชุดย่อยบางส่วนของ OIG, P3 และ Stackoverflow ครอบคลุมหัวข้อต่างๆ เช่น QA ทั่วไป คำถามเชิงสร้างสรรค์ที่ปรับแต่งเอง |
COIG | - | คู่ | ชาวจีน, รหัส | 200,000 รายการ | ชุดข้อมูลที่ใช้ภาษาจีน ประกอบด้วยโดเมน เช่น QA วัตถุประสงค์ทั่วไป ข้อสอบภาษาจีน รหัส คุณภาพได้รับการตรวจสอบโดยผู้อธิบายประกอบที่เป็นมนุษย์ |
ชุดนอนสีแดง-Data-1T | สีแดงชุดนอน | ปตท | ภาษาอังกฤษเป็นหลัก | โทเค็น 1.2T 5TB | ชุดข้อมูลการฝึกอบรมล่วงหน้าแบบเปิดเต็มรูปแบบเป็นไปตามวิธีของ LLaMA |
OASST1 | OpenAssistant | คู่, กล่องโต้ตอบ | พูดได้หลายภาษา (อังกฤษ สเปน ฯลฯ) | แผนผังการสนทนา 66,497 รายการ | ชุดข้อมูลการสนทนาคุณภาพสูงขนาดใหญ่ที่เขียนโดยมนุษย์และมีคำอธิบายประกอบโดยมนุษย์ มีจุดมุ่งหมายเพื่อทำให้ LLM สร้างการตอบสนองที่เป็นธรรมชาติมากขึ้น |
อัลปาก้า-COT | ฟีนิกซ์ | คู่, โต้ตอบ CoT | ภาษาอังกฤษ | - | ผสมผสานชุดข้อมูลจำนวนมาก เช่น ชุดข้อมูล Alpaca แบบคลาสสิก, OIG, Guanaco และชุดข้อมูล CoT (Chain-of-Thought) บางชุด เช่น FLAN-CoT อาจจะมีประโยชน์ต่อการใช้งาน |
แบคเทรียน-เอ็กซ์ | - | คู่ | พูดได้หลายภาษา (52 ภาษา) | 67,000 รายการต่อภาษา | Alpaca และ Dolly-15K เวอร์ชันหลายภาษา |
databricks-ดอลลี่-15k zh-cn เวอร์ชั่น | ดอลลี่2.0 | คู่ | ภาษาอังกฤษ | 15,000+ รายการ | ชุดข้อมูลพร้อมท์และการตอบกลับ ที่เขียนโดยมนุษย์ นำเสนองานต่างๆ เช่น การตอบคำถามแบบโอเพ่นโดเมน การระดมความคิด การสรุป และอื่นๆ |
ข้อมูลอัลปาก้าสะอาดแล้ว | เนื้ออัลปาก้า/ LLaMA บางรุ่น | คู่ | ภาษาอังกฤษ | - | Alpaca, GPT_LLM และ GPTeacher เวอร์ชันที่สะอาดแล้ว |
ชุดข้อมูล GPT-4-LLM | บางรุ่นเหมือนอัลปาก้า | คู่, RLHF | ภาษาอังกฤษ, ชาวจีน | 52,000 รายการสำหรับภาษาอังกฤษและจีนตามลำดับ รายการ 9K คำสั่งที่ไม่เป็นธรรมชาติ | ไม่ใช่ชุดข้อมูลที่ใช้โดย GPT-4!! มันถูกสร้างขึ้นโดย GPT-4 และ LLM อื่นๆ เพื่อคู่ที่ดีกว่าและ RLHF ประกอบด้วยข้อมูลคำสั่งและข้อมูลการเปรียบเทียบในรูปแบบ RLHF |
จีพีครู | - | คู่ | ภาษาอังกฤษ | 20,000 รายการ | ชุดข้อมูลมีเป้าหมายที่สร้างโดย GPT-4 และรวมงานเริ่มต้นหลายงานเหมือนกับชุดข้อมูล Alpaca พร้อมด้วยงานใหม่บางอย่างที่เพิ่มเข้ามา เช่น การสวมบทบาท |
HC3 | โคอาล่า | RLHF | ภาษาอังกฤษ, ชาวจีน | 24322 ภาษาอังกฤษ 12853 ภาษาจีน | ชุดข้อมูลการเปรียบเทียบระหว่างมนุษย์กับ ChatGPT แบบหลายโดเมน สามารถใช้สำหรับการฝึกโมเดลรางวัลหรือการฝึกเครื่องตรวจจับ ChatGPT |
ข้อมูลอัลปาก้า ดาวน์โหลด | อัลปาก้า, ChatGLM-finetune-LoRA, โคอาล่า | โต้ตอบ คู่ | ภาษาอังกฤษ | 52,000 รายการ 21.4MB | ชุดข้อมูลที่สร้างโดย text-davinci-003 เพื่อปรับปรุงความสามารถของโมเดลภาษาในการปฏิบัติตามคำสั่งของมนุษย์ |
โอไอจี OIG-ชิปขนาดเล็ก2 | Pythia-Chat-Base-7B, GPT-NeoXT-Chat-Base-20B, โคอาล่า | โต้ตอบ คู่ | ภาษาอังกฤษ, รหัส | 44M รายการ | ชุดข้อมูลการเรียนการสอนการสนทนาขนาดใหญ่ที่มีชุดย่อยคุณภาพปานกลางและสูง (OIG-small-chip2) สำหรับการเรียนรู้แบบหลายงาน |
ข้อมูล ChatAlpaca | - | โต้ตอบ คู่ | ภาษาอังกฤษ, เวอร์ชั่นจีนจะมาเร็วๆ นี้ | 10,000 รายการ 39.5MB | ชุดข้อมูลมีจุดมุ่งหมายเพื่อช่วยให้นักวิจัยพัฒนาแบบจำลองสำหรับการปฏิบัติตามคำสั่งในการสนทนาแบบหลายรอบ |
InstructionWild | ColossalChat | คู่ | อังกฤษ, จีน | 10K มาแล้ว | ชุดข้อมูลสไตล์ Alpaca แต่ด้วยงานเริ่มต้นมาจากภาพหน้าจอ chatgpt |
หิ่งห้อย (流萤) | หิ่งห้อย (流萤) | คู่ | ชาวจีน | 1.1M รายการ 1.17GB | ชุดข้อมูลการปรับแต่งคำสั่งภาษาจีนที่มีตัวอย่างที่เขียนโดยมนุษย์ 1.1 ล้านตัวอย่างใน 23 งาน แต่ไม่มีการสนทนา |
เบลล์ เวอร์ชัน 0.5M รุ่น 1เอ็ม รุ่น 2เอ็ม | ซีรีย์ BELLE ชุนหัว (春华) | คู่ | ชาวจีน | รวม 2.67B | ชุดข้อมูลคำสั่งภาษาจีนที่คล้ายกับ ข้อมูล Alpaca ที่สร้างขึ้นโดยการสร้างคำตอบจากงานเริ่มต้น แต่ไม่มีการสนทนา |
ชุดข้อมูล Guanaco | กวานาโก | โต้ตอบ คู่ | ภาษาอังกฤษ, ชาวจีน, ญี่ปุ่น | 534,530 รายการ | ชุดข้อมูลคำสั่งหลายภาษาสำหรับเพิ่มขีดความสามารถของโมเดลภาษาในงานทางภาษาต่างๆ เช่น ความเข้าใจภาษาธรรมชาติและการจดจำเนื้อหาที่ชัดเจน |
OpenAI WebGPT | โมเดลการให้รางวัลของ WebGPT คือ Koala | RLHF | ภาษาอังกฤษ | 19,578 คู่ | ชุดข้อมูลที่ใช้ในกระดาษ WebGPT ใช้สำหรับโมเดลรางวัลการฝึกอบรมใน RLHF |
OpenAI การสรุป การเปรียบเทียบ | โคอาล่า | RLHF | ภาษาอังกฤษ | ~ 93,000 รายการ 420MB | ชุดข้อมูลความคิดเห็นของมนุษย์ซึ่งช่วยฝึกอบรมโมเดลการให้รางวัล จากนั้นแบบจำลองการให้รางวัลจะถูกนำมาใช้ในการฝึกแบบจำลองการสรุปเพื่อให้สอดคล้องกับความชอบของมนุษย์ |
สอนตนเอง | - | คู่ | ภาษาอังกฤษ | 82,000 รายการ | ชุดข้อมูลที่สร้างขึ้นโดยใช้วิธีการสอนด้วยตนเองที่รู้จักกันดี |
คำแนะนำที่ไม่เป็นธรรมชาติ | - | คู่ | ภาษาอังกฤษ | 240,670 ตัวอย่าง | ความพยายามในช่วงแรกๆ ในการใช้โมเดลอันทรงพลัง (text-davinci-002) เพื่อสร้างข้อมูล |
xP3 (และบางรุ่น) | บลูมซ์, mT0 | คู่ | พูดได้หลายภาษา, รหัส | 79M รายการ 88GB | ชุดข้อมูลคำสั่งสำหรับการปรับปรุงความสามารถในการวางลักษณะทั่วไปของโมเดลภาษา คล้ายกับ Natural Instruct |
ฟลาน V2 | - | - | ภาษาอังกฤษ | - | ชุดข้อมูลจะรวบรวมชุดข้อมูลจาก Flan 2021, P3, Super-Natural Instructions พร้อมด้วยชุดข้อมูลอีกนับสิบชุดเป็นชุดเดียวและจัดรูปแบบให้เป็นการผสมผสานระหว่างเทมเพลตแบบ Zero-shot, Three-shot และแบบลูกโซ่แห่งความคิด |
การสอนแบบธรรมชาติ GitHub&ดาวน์โหลด | ชุดคำสั่ง tk | คู่, การประเมิน | พูดได้หลายภาษา | - | เกณฑ์มาตรฐานที่มีงานมากกว่า 1,600 งานพร้อมคำแนะนำและคำจำกัดความสำหรับการประเมินและปรับปรุงภาพรวมงานหลายงานของโมเดลภาษาภายใต้การสอนภาษาธรรมชาติ |
ครอส WOZ | - | กล่องโต้ตอบ | ภาษาอังกฤษ, ชาวจีน | กล่องโต้ตอบ 6K | ชุดข้อมูลที่นำเสนอในบทความนี้ ซึ่งส่วนใหญ่เกี่ยวกับหัวข้อการท่องเที่ยวในกรุงปักกิ่ง คำตอบจะถูกสร้างขึ้นโดยอัตโนมัติตามกฎ |
เราถือว่ารายการแถวเป็นเรื่อง
โอไอจี | hh-rlhf | xP3 | คำสั่งสอนที่เป็นธรรมชาติ | ข้อมูลอัลปาก้าสะอาดแล้ว | GPT-4-LLM | อัลปาก้า-CoT | |
---|---|---|---|---|---|---|---|
โอไอจี | - | ประกอบด้วย | ทับซ้อนกัน | ทับซ้อนกัน | ทับซ้อนกัน | ทับซ้อนกัน | |
hh-rlhf | ส่วนหนึ่งของ | - | ทับซ้อนกัน | ||||
xP3 | ทับซ้อนกัน | - | ทับซ้อนกัน | ทับซ้อนกัน | |||
คำสั่งสอนที่เป็นธรรมชาติ | ทับซ้อนกัน | ทับซ้อนกัน | - | ทับซ้อนกัน | |||
ข้อมูลอัลปาก้าสะอาดแล้ว | ทับซ้อนกัน | - | ทับซ้อนกัน | ทับซ้อนกัน | |||
GPT-4-LLM | ทับซ้อนกัน | - | ทับซ้อนกัน | ||||
อัลปาก้า-CoT | ทับซ้อนกัน | ทับซ้อนกัน | ทับซ้อนกัน | ทับซ้อนกัน | ทับซ้อนกัน | ทับซ้อนกัน | - |
ชื่อชุดข้อมูล | ใช้โดย | พิมพ์ | ภาษา | ขนาด | คำอธิบาย️ |
---|---|---|---|---|---|
หลักฐานกอง | หลักฐาน-GPT | ปตท | ภาษาอังกฤษ ลาเท็กซ์ | 13GB | ชุดข้อมูลก่อนการฝึกซึ่งคล้ายกับไพล์ แต่มีคลังข้อมูล LaTeX เพื่อเพิ่มความสามารถของ LM ในการพิสูจน์ |
peS2o | - | ปตท | ภาษาอังกฤษ | 7.5GB | ชุดข้อมูลเอกสารวิชาการคุณภาพสูงสำหรับการฝึกอบรมล่วงหน้า |
สแต็คโอเวอร์โฟลว์ โพสต์ | - | ปตท | - | 35GB | ข้อมูล Raw StackOverflow ในรูปแบบมาร์กดาวน์ สำหรับการฝึกล่วงหน้า |
สลิมชุดนอน | - | ปตท | เบื้องต้น ภาษาอังกฤษ | - | RedPajama เวอร์ชันที่ล้างข้อมูลและขจัดข้อมูลซ้ำซ้อนแล้ว |
NMBVC | - | ปตท | ชาวจีน | - | ขนาดใหญ่ อัปเดตชุดข้อมูลการฝึกอบรมภาษาจีนล่วงหน้าอย่างต่อเนื่อง |
เว็บกลั่นเหยี่ยว | ซีรีย์ tiiuae/เหยี่ยว | ปตท | ภาษาอังกฤษ | - | ชุดย่อยที่ได้รับการปรับปรุงของ CommonCrawl |
ซีบุ๊ค-150ก | - | พ.ต. ชุดข้อมูลอาคาร | ชาวจีน | หนังสือมากกว่า 150,000 เล่ม | ชุดข้อมูลหนังสือภาษาจีนดิบ ต้องการไปป์ไลน์ก่อนการประมวลผล |
การรวบรวมข้อมูลทั่วไป | LLaMA (หลังจากกระบวนการบางอย่าง) | การสร้างชุดข้อมูล ปตท | - | - | ชุดข้อมูลดิบที่เป็นที่รู้จักมากที่สุด ไม่ค่อยได้ถูกนำมาใช้โดยตรง ไปป์ไลน์ก่อนการประมวลผลที่เป็นไปได้อย่างหนึ่งคือ CCNet |
nlp_จีน_คอร์ปัส | - | พ.ต. ทีเอฟ | ชาวจีน | - | คลังข้อมูล pretrain ของจีน รวมถึง Wikipedia, Baidu Baike, Baidu QA, ฟอรัม QA และคลังข่าว |
เดอะไพล์ (V1) | GLM (บางส่วน), LLaMA (บางส่วน), GPT-J, GPT-NeoX-20B, Cerebras-GPT 6.7B, OPT-175b | ปตท | พูดได้หลายภาษา, รหัส | 825GB | ชุดข้อมูลการสร้างแบบจำลองภาษาโอเพ่นซอร์สที่หลากหลายประกอบด้วยชุดข้อมูลคุณภาพสูงขนาดเล็กกว่า 22 ชุด ซึ่งรวมถึงโดเมนและงานจำนวนมาก |
ค4 ชุดข้อมูล Huggingface ชุดข้อมูล TensorFlow | Google ซีรีส์ T5, LLaMA | ปตท | ภาษาอังกฤษ | 305GB | คลังข้อมูลการรวบรวมข้อมูลเว็บของ Common Crawl เวอร์ชันมหึมาและสะอาดแล้ว นำมาใช้บ่อยๆ. |
ราก | บลูม | ปตท | พูดได้หลายภาษา, รหัส | 1.6TB | ชุดข้อมูลโอเพ่นซอร์สที่หลากหลายประกอบด้วยชุดข้อมูลย่อย เช่น Wikipedia และ StackExchange สำหรับการสร้างแบบจำลองภาษา |
PushshPairs Reddit กระดาษ | OPT-175b | ปตท | - | - | ข้อมูล Reddit ดิบ หนึ่งในไปป์ไลน์การประมวลผลที่เป็นไปได้ในบทความนี้ |
โครงการกูเทนแบร์ก | ลามะ | ปตท | พูดได้หลายภาษา | - | ชุดข้อมูลหนังสือ ส่วนใหญ่เป็นนวนิยาย ไม่ได้รับการประมวลผลล่วงหน้า |
คลูคอร์ปัส | - | พ.ต. ปรับแต่ง, การประเมิน | ชาวจีน | 100GB | คอร์ปัสการเตรียมการฝึกของจีนที่มาจาก Common Crawl |
ชื่อชุดข้อมูล | ใช้โดย | พิมพ์ | ภาษา | ขนาด | คำอธิบาย️ |
---|---|---|---|---|---|
สตาร์โคเดอร์ดาต้า | สตาร์โคเดอร์ ชุด | ปตท | รหัส | 783GB | ชุดข้อมูลการฝึกอบรมล่วงหน้าขนาดใหญ่สำหรับการปรับปรุงความสามารถในการเขียนโค้ดของ LM |
รหัส_ คำแนะนำ _120k_อัลปาก้า | - | คู่ | ภาษาอังกฤษ/รหัส | 121,959 รายการ | code_instruction ในรูปแบบคำสั่งอย่างละเอียด |
การทำงาน- การร้องขอ-25k | MPT บางส่วน ตัวแปร | คู่ | รหัสภาษาอังกฤษ | 25,000 รายการ | ชุดข้อมูลมีจุดมุ่งหมายเพื่อสอนโมเดล AI ถึงวิธีการเรียกใช้ฟังก์ชัน APIsGuru อย่างถูกต้องตามคำสั่งภาษาธรรมชาติ |
ทฤษฎีบทQA | - | คู่ | ภาษาอังกฤษ | 800 | ชุดข้อมูล QA ของทฤษฎี STEM คุณภาพสูง |
พี-1 | พี-1 | กล่องโต้ตอบ | ภาษาอังกฤษ | - | ชุดข้อมูลที่สร้างขึ้นโดยใช้วิธีการในตำราเรียนคือสิ่งที่คุณต้องการ มุ่งเน้นไปที่ปัญหาทางคณิตศาสตร์และวิทยาการคอมพิวเตอร์ |
ฟินเอ็นแอลพี | FinGPT | ข้อมูลดิบ | ภาษาอังกฤษ, ชาวจีน | - | ข้อมูลข้อความทางการเงินดิบแบบโอเพ่นซอร์ส รวมถึงข่าวสาร โซเชียลมีเดีย และอื่นๆ |
PRM800K | ตัวแปรของ GPT-4 | บริบท | ภาษาอังกฤษ | 800,000 รายการ | ชุดข้อมูลการควบคุมกระบวนการสำหรับปัญหาทางคณิตศาสตร์ |
ข้อมูล MeChat | มีแชท | กล่องโต้ตอบ | ชาวจีน | 355733 คำพูด | ชุดข้อมูล SFT ของจีนสำหรับการฝึกอบรมแชทบอทด้านการดูแลสุขภาพจิต |
ChatGPT-Jailbreak-พร้อมท์ | - | - | ภาษาอังกฤษ | ขนาดไฟล์ 163KB | แจ้งให้ข้ามกฎระเบียบด้านความปลอดภัยของ ChatGPT สามารถใช้สำหรับการตรวจสอบความไม่เป็นอันตรายของ LLM |
จีนสุดยอดมาก ทรัพยากรทางกฎหมาย | กฎหมายWGPT | - | ชาวจีน | - | การรวบรวมข้อมูลทางกฎหมายของจีนสำหรับการฝึกอบรม LLM |
แบบยาว | - | คู่ | ภาษาอังกฤษ | 23.7K รายการ | ชุดข้อมูลมีจุดมุ่งหมายเพื่อปรับปรุงความสามารถในการสร้างข้อความแบบยาวของ LLM |
การปรับแต่งคำสั่งเชิงสัญลักษณ์ | - | คู่ | ภาษาอังกฤษ, รหัส | 796 | ชุดข้อมูลมุ่งเน้นไปที่งาน "เชิงสัญลักษณ์" เช่น การเขียนโค้ด SQL การคำนวณทางคณิตศาสตร์ ฯลฯ |
พร้อมท์ความปลอดภัย | - | การประเมินผลเท่านั้น | ชาวจีน | 100,000 รายการ | ความปลอดภัยของจีนแจ้งให้ประเมินและปรับปรุงความปลอดภัยของ LLM |
สมเสร็จ-ทำความสะอาด | - | คู่ | ภาษาอังกฤษ, | 116,000 รายการ | นี่คือชุดข้อมูล DAISLab ของกฎ PairsTT เวอร์ชันปรับปรุง ซึ่งได้รับการทำความสะอาด ให้คะแนน และปรับแต่งอย่างละเอียดเพื่อวัตถุประสงค์ในการปรับแต่งคำสั่ง |
การเรียนการสอน_ รหัสค้นหาnet_python | - | คู่ | ภาษาอังกฤษ & หลาม | 192MB | ชุดข้อมูลนี้เป็นเทมเพลตที่สร้างชุดข้อมูล Python เพื่อการเรียนการสอนซึ่งสร้างขึ้นจากเวอร์ชันที่มีคำอธิบายประกอบของชุดข้อมูล code-search-net สำหรับโปรเจ็กต์ Open-Assistant |
การเงิน-alpaca | - | คู่ | ภาษาอังกฤษ | 1.3K รายการ | ชุดข้อมูลสไตล์ Alpaca แต่เน้นหัวข้อทางการเงิน |
ชื่อชุดข้อมูล | ใช้โดย | พิมพ์ | ภาษา | ขนาด | คำอธิบาย️ |
---|---|---|---|---|---|
แชร์GPT4V | - | รูปภาพพร้อมคำบรรยาย | ภาษาอังกฤษ | 1.2M อินสแตนซ์ | ชุดข้อมูลคำอธิบายภาพหลายรูปแบบที่ขับเคลื่อนโดย GPT4-Vision |
โอเบลิกส์ | อุดมการณ์ ชุด | รูปภาพเอกสาร | ภาษาอังกฤษ | เอกสาร 141 ล้านฉบับ | คอลเลกชันเอกสารเว็บข้อความรูปภาพและข้อความแบบเปิด ขนาดใหญ่ และคัดสรรอย่างดี |
เจอร์นี่ดีบี | - | รูปภาพพร้อมคำบรรยาย | ภาษาอังกฤษ | อินสแตนซ์ 4M | ชุดข้อมูลขนาดใหญ่ประกอบด้วยงาน QA คำบรรยาย และข้อความแจ้ง ซึ่งอิงจากรูปภาพ Midjourney |
ม3ไอที | หญิง-VLM | คำแนะนำภาพ | พูดได้หลายภาษา | อินสแตนซ์ 2.4M | ชุดข้อมูลประกอบด้วย 40 งานพร้อมคำสั่งเขียนโดยมนุษย์ 400 รายการ |
เลียนแบบไอที | นาก | คำแนะนำภาพ | พูดได้หลายภาษา | 2.2M อินสแตนซ์ | คู่คำสั่ง-การตอบกลับหลายกิริยาคุณภาพสูงโดยอิงตามรูปภาพและวิดีโอ |
คำสั่ง LLaVA | ลาวา | คำแนะนำภาพ | ภาษาอังกฤษ | ตัวอย่าง 158,000 รายการ | ชุดข้อมูลต่อเนื่องหลายรูปแบบที่สร้างขึ้นจากชุดข้อมูล COCO โดยแจ้งให้ GPT-4 รับคำแนะนำ |
ชื่อชุดข้อมูล | ใช้โดย | พิมพ์ | ภาษา | ขนาด | คำอธิบาย️ |
---|---|---|---|---|---|
WebText (ลิงก์ Reddit) | GPT-2 | ปตท | ภาษาอังกฤษ | - | ข้อมูลที่รวบรวมข้อมูลจาก Reddit และกรองสำหรับการฝึกล่วงหน้า GPT-2 |
MassiveText | โกเฟอร์, ชินชิล่า | ปตท | ภาษาอังกฤษ 99%, อื่นๆ 1% (รวมโค้ด) | ||
WuDao(悟道) Corpora | จีแอลเอ็ม | ปตท | ชาวจีน | 200GB | คลังข้อมูลจีนขนาดใหญ่ ส่วนประกอบที่เป็นไปได้แต่เดิมเป็นโอเพ่นซอร์ส แต่ตอนนี้ไม่พร้อมใช้งาน |