ดาวน์โหลด JARVIS ChatGPT - JARVIS ChatGPT ซอร์สโค้ดดาวน์โหลด

JARVIS ChatGPT

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

JARVIS-Chatgpt: ผู้ช่วยสนทนาที่ติดตั้งเสียงของจาร์วิส

ผู้ช่วยแบบโต้ตอบด้วยเสียงที่ติดตั้งเสียงสังเคราะห์ที่หลากหลาย (รวมถึงเสียงของจาร์วิสจากไอรอนแมน)

รูปภาพโดย Midjourney AI

เคยใฝ่ฝันที่จะถามเคล็ดลับระบบที่ฉลาดเกินจริงเพื่อปรับปรุงเกราะของคุณหรือไม่? ตอนนี้คุณทำได้! อาจไม่ใช่ส่วนเกราะ ... โครงการนี้ใช้ประโยชน์จาก Openai Whisper, Openai Chatgpt และ IBM Watson

แรงจูงใจโครงการ:

หลายครั้งที่ความคิดมาในช่วงเวลาที่เลวร้ายที่สุดและพวกเขาก็จางหายไปก่อนที่คุณจะมีเวลาสำรวจพวกเขาดีขึ้น วัตถุประสงค์ของโครงการนี้คือการพัฒนาระบบที่มีความสามารถในการให้คำแนะนำและความคิดเห็นในเวลากึ่งจริงเกี่ยวกับสิ่งที่คุณถาม ผู้ช่วยสูงสุดจะสามารถเข้าถึงได้จากไมโครโฟนที่ได้รับอนุญาตภายในบ้านหรือโทรศัพท์ของคุณมันควรทำงานอย่างต่อเนื่องในพื้นหลังและเมื่อเรียกควรจะสามารถสร้างคำตอบที่มีความหมาย (ด้วยเสียงที่ไม่ดี) รวมถึงอินเทอร์เฟซกับพีซีหรือเซิร์ฟเวอร์และบันทึก/อ่าน/เขียนที่สามารถเข้าถึงได้ในภายหลัง มันควรจะสามารถเรียกใช้งานวิจัยรวบรวมเนื้อหาจากอินเทอร์เน็ต (แยกเนื้อหาจากหน้า HTML, ถอดความวิดีโอ YouTube, ค้นหาเอกสารทางวิทยาศาสตร์ ... ) และให้บทสรุปที่สามารถใช้เป็นบริบทเพื่อทำการตัดสินใจอย่างชาญฉลาด นอกจากนี้มันอาจเชื่อมต่อกับอุปกรณ์ภายนอก (IoT) บางส่วน แต่นั่นเป็นพิเศษ

การสาธิต:

2023-04-11.23-20-03_Trim.mp4

14 กรกฎาคม 2023 อัปเดต: โหมดการวิจัย

ฉันสามารถแบ่งปันร่างแรกของโหมดการวิจัย รูปแบบนี้เป็นความคิดสำหรับคนที่มักจะจัดการกับงานวิจัย

เปลี่ยนไปใช้โหมดการวิจัยโดยพูดว่า 'เปลี่ยนเป็นโหมดการวิจัย'
เริ่มต้นพื้นที่ทำงานใหม่เช่นนี้: 'เริ่มต้นพื้นที่ทำงานใหม่เกี่ยวกับการใช้งานคาร์บอนไฟเบอร์ในอุตสาหกรรมยานอวกาศ' พื้นที่ทำงานเป็นโฟลเดอร์ที่รวบรวมและจัดระเบียบผลลัพธ์ของการวิจัย โปรโตคอลนี้แบ่งออกเป็น 3 รอบย่อย:
1. การระบุกระดาษหลัก: ใช้ API Semantic Scholar เพื่อระบุเอกสารที่เกี่ยวข้องอย่างยิ่ง
2. การขยายหลัก: สำหรับกระดาษแต่ละฉบับพบคำแนะนำบางอย่างจากนั้นเก็บคำแนะนำที่ดูเหมือนจะคล้ายกับกระดาษอย่างน้อย 2 ฉบับ
3. Refy Expansion: ใช้แพ็คเกจการแก้ไขข้อเสนอแนะเพื่อขยายผลลัพธ์
ค้นหาคำแนะนำเช่น: 'ค้นหาคำแนะนำที่มีความเงียบลงกับกระดาษด้วยชื่อเรื่อง ... '
ดาวน์โหลด: 'ดาวน์โหลดกระดาษด้วยชื่อเรื่อง ... '
สอบถามฐานข้อมูลของคุณเช่น: 'ผู้เขียนกระดาษที่มีชื่อเรื่อง ... ?' 'เงื่อนไขการทดลองตั้งค่าไว้สำหรับกระดาษที่มีชื่อเรื่อง ... ?'

PS: โหมดนี้ไม่เสถียรมากและจำเป็นต้องทำงานต่อไป

PPS: โครงการนี้จะถูกยกเลิกบางครั้งเนื่องจากฉันจะทำวิทยานิพนธ์ของฉันจนถึงปี 2024 อย่างไรก็ตามมีหลายสิ่งหลายอย่างที่สามารถปรับปรุงได้ดังนั้นฉันจะกลับมา!

สิ่งที่คุณต้องการ:

ข้อจำกัดความรับผิดชอบ:
โครงการอาจใช้เครดิต OpenAI ของคุณส่งผลให้เกิดการเรียกเก็บเงินที่ไม่พึงประสงค์
ฉันไม่รับผิดชอบต่อค่าใช้จ่ายที่ไม่พึงประสงค์ใด ๆ
พิจารณาการตั้งค่าข้อ จำกัด เกี่ยวกับการใช้เครดิตที่บัญชี OpenAI ของคุณ

บัญชี OpenAI และคีย์ API; (ตรวจสอบคำถามที่พบบ่อยด้านล่างสำหรับทางเลือก)
บัญชี Picovoice และ AccessKey ฟรี (ไม่จำเป็น)
บัญชีสิบเอ็ดบัญชีและคีย์ API ฟรี (ไม่บังคับ) ;
กุญแจ Langchain API สำหรับการท่องเว็บ (ข่าว, สภาพอากาศ, serpapi, Google-Serp, Google-search ... พวกเขาทั้งหมดฟรี)
ffmpeg;
Python Virtual Environment (Python> = 3.9 และ <3.10);
เครดิตบางอย่างที่จะใช้จ่ายกับ CHATGPT (คุณสามารถใช้งานได้ฟรีสามเดือนโดยลงทะเบียนกับ OpenAI) (แนะนำ) ;
รุ่น cuda> = 11.2;
บัญชีคลาวด์ IBM เพื่อใช้ประโยชน์จากโมเดลข้อความแบบข้อความบนคลาวด์ (การสอน) (ไม่บังคับ) ;
A การเชื่อมต่ออินเทอร์เน็ตที่รวดเร็ว (พอสมควร) (รหัสส่วนใหญ่อาศัย API ดังนั้นการเชื่อมต่อที่ช้ากว่าอาจส่งผลให้เวลาตอบสนองนานขึ้น);
ไมค์และลำโพง
CUDA CABABLE GRAPHIC Engine (My Torch Version: 2.0 และ CUDA V11.7 pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117 );
ความอดทน ?

คุณสามารถพึ่งพา setup.bat ใหม่ที่จะทำสิ่งต่าง ๆ ให้คุณ

ภาพรวม GitHub

สคริปต์ หลักที่ คุณควรเรียกใช้: openai_api_chatbot.py หากคุณต้องการใช้ OpenAI API เวอร์ชันล่าสุดภายในโฟลเดอร์ Demos คุณจะพบคำแนะนำสำหรับแพ็คเกจที่ใช้ในโครงการหากคุณมีข้อผิดพลาดคุณอาจตรวจสอบไฟล์เหล่านี้ก่อนเพื่อกำหนดเป้าหมายปัญหา ส่วนใหญ่จะถูกเก็บไว้ในโฟลเดอร์ผู้ช่วย: get_audio.py จัดเก็บฟังก์ชั่นทั้งหมดเพื่อจัดการกับการโต้ตอบไมค์, tools.py ใช้แง่มุมพื้นฐานบางอย่างของผู้ช่วยเสมือน voice.py อธิบายคลาสเสียงที่หยาบ (มาก) Agents.py จัดการส่วน langchain ของระบบ (ที่นี่คุณสามารถเพิ่มหรือลบเครื่องมือออกจากชุดเครื่องมือของตัวแทน)
สคริปต์ที่เหลืออยู่นั้นเสริมด้วยการสร้างเสียงและไม่ควรแก้ไข

บทช่วยสอนการติดตั้ง

การติดตั้งอัตโนมัติ

คุณสามารถเรียกใช้ setup.bat ได้หากคุณทำงานบน Windows/Linux สคริปต์จะดำเนินการทุกขั้นตอนของการติดตั้งด้วยตนเองตามลำดับ อ้างถึงสิ่งเหล่านั้นในกรณีที่ขั้นตอนควรล้มเหลว
การติดตั้งอัตโนมัติจะเรียกใช้การติดตั้ง Vicuna (คู่มือการติดตั้ง Vicuna)

การติดตั้งด้วยตนเอง

ขั้นตอนที่ 1: การติดตั้งบัญชี API ...

สิ่งแวดล้อม

สร้างสภาพแวดล้อมเสมือนจริงที่ว่างเปล่าด้วย Python 3.8 และเปิดใช้งาน (. venv_name Scripts Activate);
pip install -r venv_requirements.txt ; อาจใช้เวลาสักครู่ หากคุณพบความขัดแย้งในแพ็คเกจที่เฉพาะเจาะจงให้ติดตั้งด้วยตนเองโดยไม่ต้อง ==<version> ;
ติดตั้ง pytorch ด้วยตนเองตามรุ่น cuda ของคุณ;
คัดลอกและวางไฟล์ที่คุณจะพบในโฟลเดอร์ whisper_edits ไปยังโฟลเดอร์ whisper ของสภาพแวดล้อมของคุณ (. venv lib site-packages Whisper ) การแก้ไขเหล่านี้จะเพิ่มแอตทริบิวต์ให้กับโมเดล Whisper เพื่อเข้าถึงมิติได้ง่ายขึ้น
ติดตั้ง TTS;
เรียกใช้สคริปต์ของพวกเขาและตรวจสอบว่าทุกอย่างใช้งานได้ (ควรดาวน์โหลดบางรุ่น) (คุณสามารถเรียกใช้ demos/tts_demo.py );
เปลี่ยนชื่อหรือลบโฟลเดอร์ TTS และดาวน์โหลดผู้ช่วยและสคริปต์อื่น ๆ จาก repo นี้
ติดตั้ง Vicuna ตามคำแนะนำในโฟลเดอร์ Vicuna หรือทำงาน:
cd Vicuna
call vicuna.ps1
คำแนะนำด้วยตนเองจะแนะนำให้คุณทำตามคู่มือการติดตั้ง Vicuna
วางปุ่มทั้งหมดของคุณในไฟล์ env.txt และเปลี่ยนชื่อเป็น .env (ใช่ลบส่วนขยาย txt)
ตรวจสอบทุกอย่างใช้งานได้ (ติดตาม)

ตรวจสอบ

ตรวจสอบว่าเอ็นจิ้นกราฟิกและรุ่น cuda ของคุณเข้ากันได้กับ pytorch โดยใช้ torch.cuda.is_available() และ torch.cuda.get_device_name(0) ภายใน Pyhton; -
เรียกใช้ tests.py ไฟล์นี้พยายามดำเนินการพื้นฐานที่อาจทำให้เกิดข้อผิดพลาด
[คำเตือน] ตรวจสอบคำถามที่พบบ่อยด้านล่างหากคุณมีข้อผิดพลาด
คุณสามารถตรวจสอบแหล่งที่มาของข้อผิดพลาดได้โดยเรียกใช้การสาธิตในโฟลเดอร์การสาธิต

ขั้นตอนที่ 2: การสนับสนุนภาษา

หากต้องการคำตอบที่พูดในภาษาของคุณคุณควรตรวจสอบก่อนว่าภาษาของคุณได้รับการสนับสนุนโดยตัวสร้างคำพูดที่ https://cloud.ibm.com/docs/text-to-speech?topic=text-to-peech-voices ;
หากได้รับการสนับสนุนให้เพิ่มหรือเปลี่ยนภาษาภายใน VirtualAssistant.__init__() ;

ข้อควรจำ: เสียงกระซิบที่โหลดเป็นสื่อกลาง หากทำงานไม่ดีในภาษาของคุณให้อัพเกรดเป็นภาษาที่ใหญ่กว่าใน __main__() ที่ whisper_model = whisper.load_model("large") ; แต่ฉันหวังว่าหน่วยความจำ GPU ของคุณจะมีขนาดใหญ่เช่นเดียวกัน

ขั้นตอนที่ 3: การรัน ( `openai_api_chatbot.py` ):

เมื่อทำงานคุณจะเห็นข้อมูลจำนวนมากที่ปรากฏขึ้น ฉันพยายามอย่างต่อเนื่องที่จะปรับปรุงความสามารถในการอ่านของการดำเนินการโครงการทั้งหมดเป็นเบต้าขนาดใหญ่ให้อภัยรูปแบบเล็กน้อยจากหน้าจอด้านล่าง อย่างไรก็ตามนี่คือสิ่งที่เกิดขึ้นในแง่ทั่วไปเมื่อคุณกด 'run':

การเริ่มต้นเบื้องต้นเกิดขึ้นคุณควรได้ยินเสียงระฆังเมื่อผู้ช่วยพร้อม
เมื่อ รอการเรียกใช้คำที่เรียก จะปรากฏขึ้นคุณจะต้องพูดว่า Jarvis เรียกผู้ช่วย ณ จุดนี้การสนทนาจะเริ่มขึ้นและคุณสามารถพูดในภาษาใดก็ได้ที่คุณต้องการ (ถ้าคุณทำตามขั้นตอนที่ 2) การสนทนาจะสิ้นสุดลงเมื่อคุณ 1) พูดคำหยุด 2) พูดอะไรบางอย่างด้วยคำเดียว (เช่น 'ตกลง') 3) เมื่อคุณหยุดถามคำถามนานกว่า 30 วินาที

หลังจากพูดคำวิเศษคำว่า การฟัง ... ควรปรากฏขึ้น ณ จุดนี้คุณสามารถถามคำถามของคุณ เมื่อคุณทำเสร็จแล้วเพียงแค่รอ (3 วินาที) สำหรับคำตอบที่จะส่ง;
สคริปต์จะแปลงเสียงที่บันทึกไว้เป็นข้อความโดยใช้ Whisper;
ข้อความจะถูกวิเคราะห์และจะทำการตัดสินใจ หากผู้ช่วยเชื่อว่าจำเป็นต้องดำเนินการบางอย่างเพื่อตอบสนอง (เช่นมองหาการสนทนาที่ผ่านมา) ตัวแทน Langchain จะทำแผนและใช้เครื่องมือของพวกเขาเพื่อตอบ
Elsewise สคริปต์จะขยาย chat_history ด้วยคำถามของคุณมันจะส่งคำขอกับ API และจะอัปเดตประวัติทันทีที่ได้รับคำตอบเต็มจาก CHATGPT (อาจใช้เวลาถึง 5-10 วินาทีพิจารณาขอคำตอบสั้น ๆ อย่างชัดเจนหากคุณรีบ)
ฟังก์ชั่น say() จะทำการทำซ้ำด้วยเสียงเพื่อพูดคุยกับ Jarvis/เสียงของใครบางคน หากอาร์กิวเมนต์ไม่ได้เป็นภาษาอังกฤษ IBM Watson จะส่งคำตอบจากหนึ่งในรุ่นข้อความที่ดีต่อคำพูดของพวกเขา หากทุกอย่างล้มเหลวฟังก์ชั่นจะขึ้นอยู่กับ PYTTSX3 ซึ่งเป็นทางเลือกที่รวดเร็ว แต่ไม่เจ๋ง

เมื่อมีการพูดคำหลักใด ๆ สคริปต์จะขอให้ chatgpt ให้ชื่อกับการสนทนาและจะบันทึกการแชทในไฟล์. txt ด้วยรูปแบบ 'currentdate_title.txt';
ผู้ช่วยจะกลับไปนอน

ฉันทำพรอมต์และปิดการสนทนา

คำสำคัญ:

หากต้องการหยุดหรือบันทึกการแชทเพียงแค่พูดว่า 'ขอบคุณ' ในบางจุด;
เพื่อเรียก Jarvis Voice เพียงแค่พูดว่า 'Jarvis' ในบางจุด;

ไม่เหมาะที่ฉันรู้ แต่ใช้งานได้ในตอนนี้

ประวัติศาสตร์:

กำลังทำงานอยู่ในขณะนี้:

ขยายเครื่องมือประมวลผล DOC
ค้นหาทางเลือกฟรีสำหรับตัวแทน Langchain

กำลังติดตาม:

การแก้ไขข้อผิดพลาดการแชทความยาว (เมื่อแชทยาวเกินไปจะไม่สามารถประมวลผลได้โดย Chatgpt 3.5 Turbo)
การขยาย หน่วยความจำ
รายงานความผิดพลาด
ความสามารถในการปรับแต่ง

กำลังรอ CHATGPT4 ไปที่:

เพิ่มอินพุตหลายรูปแบบ (เช่น "คุณคิดว่า 'นี่' [การถือเครื่องบินกระดาษ] สามารถบินได้" -> กล้อง -> chatgpt4 -> "คุณควรปรับปรุงปลายปีก"
ขยาย หน่วยความจำโครงการ ไปยังรูปภาพ, PDF, เอกสาร ...

ตรวจสอบ UpdateHistory.MD ของโครงการเพื่อดูข้อมูลเชิงลึกเพิ่มเติม

มีความสุข!

ข้อผิดพลาดและคำถามที่พบบ่อย

หมวดหมู่: ติดตั้ง, ทั่วไป, รันไทม์

ติดตั้ง: ฉันมีแพ็คเกจที่ขัดแย้งกันในขณะที่ติดตั้ง venv_requirements.txt ฉันควรทำอย่างไร?

ตรวจสอบให้แน่ใจว่าคุณมีรุ่น Python ที่ถูกต้อง (3.7) บน. venv (> Python -Version พร้อมการเปิดใช้งานสภาพแวดล้อมเสมือนจริง)
ลองแก้ไข venv_requirements.txt และลบข้อกำหนดของเวอร์ชันของการพึ่งพาที่ถูกกล่าวหา
ตรงถอดแพ็คเกจออกจากไฟล์ TXT และติดตั้งด้วยตนเองหลังจากนั้น

ติดตั้ง: ฉันพบข้อผิดพลาดเมื่อเรียกใช้ openai_api_chatbot.py พูดว่า: typeerror: loadlibrary () อาร์กิวเมนต์ 1 ต้องเป็น str ไม่มีอะไรผิดปกติ?

ปัญหาเกี่ยวกับกระซิบ คุณควรติดตั้งใหม่ด้วย pip install whisper-openai

ติดตั้ง: ฉันไม่สามารถนำเข้า 'openai.embeddings_utils'

พยายาม pip install --upgrade openai
สิ่งนี้เกิดขึ้นเนื่องจาก OpenAI ยกระดับข้อกำหนดขั้นต่ำของพวกเขา ฉันมีปัญหานี้และแก้ไขโดยการดาวน์โหลด embeddings_utils.py ด้วยตนเองด้วยตนเองภายใน

3. หากปัญหายังคงอยู่กับ `` `datalib`` 'ยกปัญหาขึ้นและฉันจะให้ไฟล์ที่หายไป 4. อัปเกรดเป็น Python 3.8 (สร้าง Env ใหม่และติดตั้ง TTS ใหม่ข้อกำหนด)

ติดตั้ง: ฉันพบข้อผิดพลาด ModulenotFoundError: ไม่มีโมดูลชื่อ '<บางโมดูล>'

ข้อกำหนดจะไม่ได้รับการปรับปรุงทุกครั้ง แม้ว่าสิ่งนี้อาจสร้างข้อผิดพลาดคุณสามารถติดตั้งโมดูลที่หายไปได้อย่างรวดเร็วในเวลาเดียวกันมันทำให้สภาพแวดล้อมสะอาดจากความขัดแย้งเมื่อฉันลองแพ็คเกจใหม่ (และฉันลองใช้จำนวนมาก)

เวลาทำงาน: ฉันพบหน่วยความจำ oom บางอย่างเมื่อโหลดโมเดลกระซิบมันหมายความว่าอย่างไร?

หมายความว่ารุ่นที่คุณเลือกนั้นใหญ่เกินไปสำหรับหน่วยความจำอุปกรณ์ CUDA ของคุณ น่าเสียดายที่มีไม่มากที่คุณสามารถทำได้ยกเว้นโหลดรุ่นที่เล็กกว่า หากโมเดลขนาดเล็กไม่ตอบสนองคุณคุณอาจต้องการพูด 'ชัดเจนขึ้น' หรือทำให้พร้อมท์อีกต่อไปเพื่อให้โมเดลทำนายได้อย่างแม่นยำยิ่งขึ้นในสิ่งที่คุณพูด ฟังดูไม่สะดวก แต่ในกรณีของฉันปรับปรุงการพูดภาษาอังกฤษของฉันอย่างมาก :)

เวลาทำงาน: โทเค็นความยาวสูงสุดสำหรับ CHATGPT-3.5-turbo คือ 4096 แต่ได้รับ ... โทเค็น

นี่เป็นข้อบกพร่องที่ยังคงมีอยู่อย่าคาดหวังว่าจะมีการสนทนากับผู้ช่วยของคุณเป็นเวลานานเพราะมันจะมีหน่วยความจำเพียงพอที่จะจดจำการสนทนาทั้งหมดในบางจุด การแก้ไขอยู่ในระหว่างการพัฒนาอาจประกอบด้วยการใช้วิธีการ 'หน้าต่างเลื่อน' แม้ว่ามันอาจทำให้เกิดการทำซ้ำของแนวคิดบางอย่าง

ทั่วไป: ฉันทำ Openai Credit/Demo เสร็จฉันจะทำอย่างไร?

ออนไลน์เท่านั้น ราคาไม่ได้เลวร้ายและคุณอาจต้องจ่ายเงินสองสามดอลลาร์ต่อเดือนเนื่องจากราคาขึ้นอยู่กับการใช้งาน (ด้วยการทดสอบอย่างหนักฉันจบลงด้วยการบริโภคเทียบเท่าประมาณ 4 ดอลลาร์ต่อเดือนในระหว่างการทดลองใช้ฟรี) คุณสามารถกำหนดขีด จำกัด ของการบริโภคโทเค็นรายเดือนของคุณ
ใช้โหมดไฮบริดที่มีการดำเนินงานที่เน้นเครดิตมากที่สุดในพื้นที่ฟรีและส่วนที่เหลือจะออนไลน์
ติดตั้ง Vicuna และเรียกใช้โหมดออฟไลน์เท่านั้นด้วยประสิทธิภาพที่ จำกัด