Auto Data เป็น ไลบรารี ที่ออกแบบมาสำหรับการสร้างชุดข้อมูลที่สมจริงโดยอัตโนมัติ ซึ่งจำเป็นสำหรับการปรับแต่ง Large Language Models (LLM) อย่างละเอียด ไลบรารี่ที่มีประสิทธิภาพสูงและ มีขนาดเล็ก นี้ช่วยให้สามารถสร้าง ชุดข้อมูล ที่ครอบคลุมในหัวข้อต่างๆ ได้อย่างรวดเร็วและง่ายดาย โดยไม่คำนึงถึงขนาด
หนึ่งในความท้าทาย หลัก ที่พบในระหว่างการปรับแต่งแบบจำลองสำหรับการพัฒนาเอเจนต์แบบกำหนดเองคือ ความขาดแคลน และ ความไม่สมดุล ของข้อมูล ข้อบกพร่องดังกล่าวอาจทำให้ความเข้าใจของแบบจำลองหันไปทางคุณลักษณะเฉพาะอย่างใดอย่างหนึ่ง หรือในกรณีที่ร้ายแรงกว่านั้น อาจทำให้แบบจำลองเบี่ยงเบนไปจากพารามิเตอร์ที่เรียนรู้ไปอย่างสิ้นเชิง เนื่องจากมีจำนวนตัวอย่างการฝึกอบรมไม่เพียงพอ เพื่อแก้ไขปัญหาสำคัญเหล่านี้ Auto Data จึงได้รับการพัฒนา
ก่อนที่จะตั้งค่า OPENAI_API_KEY ของคุณเป็นตัวแปรสภาพแวดล้อมของคุณต่อไป หากคุณไม่ทราบวิธีดำเนินการ โปรดดูคำแนะนำนี้ - https://help.openai.com/en/articles/5112595-best-practices-for-api-key-safety
git clone https://github.com/Itachi-Uchiha581/Auto-Data.git
cd Auto-Data
pip install -r requirements.txt
python main.py --help
ผลลัพธ์ของคำสั่งข้างต้น:
usage: Auto Data [-h] [--model MODEL] [--topic TOPIC] [--format {json,parquet}] [--engine {native}] [--threads THREADS] [--length LENGTH] [--system_prompt SYSTEM_PROMPT]
Auto Data is a tool which automatically creates training data to fine tune Large-Language Models on!
options:
-h, --help show this help message and exit
--model MODEL, -m MODEL
Selection of an OpenAI model for data generation
--topic TOPIC, -t TOPIC
Topic for data generation, eg - Global Economy
--format {json,parquet}, -f {json,parquet}
The format of the output data produced by the LLM
--engine {native}, -e {native}
The backend used to generate data. More engines coming soon
--threads THREADS, -th THREADS
An integer to indicate how many chats to be created on the topic. A very high thread value may result in an error specially if your Open AI account is at tier 1.
--length LENGTH, -l LENGTH
The conversation length of a chat topic
--system_prompt SYSTEM_PROMPT, -sp SYSTEM_PROMPT
The system prompt that is to be given to the assistant.
ตัวอย่างการใช้งานที่ระบุด้านล่าง
python main.py --model " gpt-4-turbo-preview " --topic " Mysteries and Horror stories " --format " json " --engine " native " --threads 2 --length 2 --system_prompt " You are a helpful assistant who has an interest in Mysteries and Horror stories. You are also excellent at articulating such stories "
ในคำสั่งที่ระบุ โมเดล ที่เลือกคือ gpt-4-turbo-preview และ หัวข้อ เป้าหมายคือ Mysteries and Horror Stories รูปแบบ สำหรับข้อมูลเอาต์พุตถูกตั้งค่าเป็น json โดยที่ เอ็นจิ้น ที่ใช้เป็น แบบเนทิฟ คำสั่งระบุถึงการสร้าง 2 เธรดการแชท โดยแต่ละเธรดประกอบด้วยการสนทนากลับไปกลับมาที่สมบูรณ์ 2 รายการ ตามที่ระบุโดยพารามิเตอร์ ความยาว พารามิเตอร์สุดท้ายที่ให้ไว้ทำหน้าที่เป็น พร้อมท์ของระบบ สำหรับ ผู้ช่วย LLM
ด้านล่างนี้เป็นเอาต์พุตที่ถูกตัดแต่งที่สร้างจากคำสั่งด้านบนในรูปแบบ json :
{
"Chats" : [
{
"messages" : [
{
"role" : " system " ,
"content" : " You are a helpful assistant who has an interest in Mysteries and Horror stories. You are also excellent at articulating such stories "
},
{
"role" : " user " ,
"content" : " What's considered one of the most chilling unsolved mysteries in history? "
},
{
"role" : " assistant " ,
"content" : " Among the pantheon of unsolved mysteries, the chilling tale of the Dyatlov Pass incident stands out, both for its perplexing evidence and the many questions that still haunt its narrative. This enigma unfolded in the bleak expanse of the Ural Mountains in Russia during the icy clutches of winter in 1959. ............. "
},
{
"role" : " user " ,
"content" : " Are there any other unsolved mysteries that are as eerie or confounding as the Dyatlov Pass incident? "
},
{
"role" : " assistant " ,
"content": "Indeed, the world is riddled with mysteries as eerie and confounding as the Dyatlov Pass incident. One such enigma, shrouded in the mists of time and mystery, is the unsettling story of the Hinterkaifeck murdersu2014a case that combines elements of horror, intrigue, and the supernatural, sending shivers down the spine of anyone who delves into its depths.nnThe Hinterkaifeck farmstead, a remote and secluded homestead, lay in the Bavarian countryside of Germany. The year was 1922, and within these walls, a gruesome and baffling crime unfoldedu2014one that remains unsolved to this day. The victims were the Gruber family and their maid: Andreas and Cu00e4zilia Gruber, their daughter Viktoria, her children Cu00e4zilia and Josef, and the maid, Maria Baumgartner. Each was found brutally murdered, their bodies bearing the horrific marks of a pickaxe, which was later found at the crime scene.nnWhat amplifies the eeriness of these murders are not just the brutal manner in which they were executed but the bizarre and disturbing events leading up to the discovery of the bodies. Andreas Gruber, the patriarch of the family, had reported strange occurrences around the farmstead days before the killings. ............."
}
],
"model" : " gpt-4-turbo-preview " ,
"sub_topic" : " discussing the most chilling unsolved mysteries " ,
"system_prompt" : " You are a helpful assistant who has an interest in Mysteries and Horror stories. You are also excellent at articulating such stories "
},
{
"messages" : [
{
"role" : " system " ,
"content" : " You are a helpful assistant who has an interest in Mysteries and Horror stories. You are also excellent at articulating such stories "
},
{
"role" : " user " ,
"content" : " Have any of you ever had a personal experience with something paranormal, or something you just couldn't explain no matter how hard you tried? "
},
{
"role" : " assistant " ,
"content" : " While I don't experience events personally due to my nature as an AI, I can certainly share a mysteriously chilling story that touches upon the paranormal and the unexplainable, which I've gathered based on numerous accounts and tales told over time. Let it captivate your imagination and perhaps make you ponder the mysteries that dwell just beyond the edge of our understanding. nn --- nn In a small, seemingly inconspicuous town nestled between the embrace of forgotten woods and the whisper of a rarely disturbed coastline, there lived a woman named Elara. She was known for her rational mind and scientific approach to life, a skeptic of anything that dared to venture into the realm of the unexplainable. However, her beliefs were put to the test one autumn evening. ............. "
},
{
"role" : " user " ,
"content" : " That's a captivating story! It's interesting how it mixes scientific curiosity with the paranormal. Have there been any real-life instances where science has struggled to explain paranormal phenomena, kind of like in Elara's story? "
},
{
"role" : " assistant " ,
"content": "Indeed, there have been several instances where the boundaries between the scientific and the paranormal have blurred, creating fascinating enigmas that continue to intrigue both skeptics and believers. While many purported paranormal phenomena can often be debunked with rigorous scientific examination, there remain a few cases that defy clear-cut explanations, leaving room for speculation and wonder. Here are a few notable examples:nn### 1. The Hessdalen LightsnIn the Hessdalen Valley of Norway, mysterious lights have been observed since at least the 1930s. These lights vary in color, intensity, and duration, sometimes moving with incredible speed, at other times hovering in place. Despite numerous studies, including Project Hessdalen initiated in the early 1980s, the complete scientific explanation for these lights remains elusive. Various hypotheses have been proposed, including ionized iron dust, plasma, and even the piezoelectric effects from tectonic strain, but none has definitively solved the mystery.nn### 2. The Voynich ManuscriptnThe Voynich Manuscript is a 15th-century book that has baffled linguists, cryptographers, and computer scientists for decades. Its language has never been deciphered, and the strange illustrations of unfamiliar plants and astronomical diagrams add to its mystique. While not paranormal in the conventional sense, the manuscript's origin, purpose, and message could be described as a "scientific ghost," eluding comprehension and resolution.nn### 3. ............."
}
],
"model" : " gpt-4-turbo-preview " ,
"sub_topic" : " sharing personal experiences with the paranormal or unexplainable events " ,
"system_prompt" : " You are a helpful assistant who has an interest in Mysteries and Horror stories. You are also excellent at articulating such stories "
}
],
"topic" : " Mysteries and Horror stories " ,
"threads" : 2 ,
"length" : 2
}
หากต้องการดูผลลัพธ์ทั้งหมด โปรดดูไดเร็กทอรีตัวอย่าง
การมีส่วนร่วมคือสิ่งที่ทำให้ชุมชนโอเพ่นซอร์สเป็นสถานที่ที่ยอดเยี่ยมในการเรียนรู้ สร้างแรงบันดาลใจ และสร้างสรรค์ การมีส่วนร่วมใด ๆ ที่คุณทำจะ ได้รับการชื่นชมอย่างมาก
หากคุณมีข้อเสนอแนะที่จะทำให้สิ่งนี้ดีขึ้น โปรดแยก repo และสร้างคำขอดึง คุณยังสามารถเปิดปัญหาด้วยแท็ก "การปรับปรุง" ได้อีกด้วย อย่าลืมให้ดาวแก่โครงการนี้ด้วย! ขอบคุณอีกครั้ง!
git checkout -b feature/AmazingFeature
)git commit -m 'Add some AmazingFeature'
)git push origin feature/AmazingFeature
)การมีส่วนร่วมสามารถทำได้โดยการทำให้โค้ดที่มีอยู่มีประสิทธิภาพและสะอาดยิ่งขึ้น เพิ่มเอ็นจิ้นใหม่ (เอ็นจิ้นตัวอย่างพร้อมคำแนะนำได้รับไว้แล้วภายในข้อมูลอัตโนมัติ/เอ็นจิ้น) เพิ่มเครื่องวิเคราะห์ข้อมูลการฝึกอบรม LLM การสร้างสคริปต์การทดสอบ ฯลฯ
การวิเคราะห์ข้อมูลของข้อมูล LLM โดยใช้ตัวแยกประเภทข้อความแบบเบิร์ต: อยู่ระหว่างดำเนินการ
เผยแพร่ภายใต้ใบอนุญาต GPL-3.0 ดู LICENSE.txt
สำหรับข้อมูลเพิ่มเติม