สถานที่เล็กๆ บนเว็บนี้จัดเก็บคอลเลกชันสิ่งที่น่าสนใจที่เพิ่มขึ้นเรื่อยๆ เกี่ยวกับ ChatGPT และ GPT-3 (และอื่นๆ) จาก OpenAI
ChatGPT เปิดตัวเมื่อเดือนพฤศจิกายน 2022 ฉันต้องการที่รวมทุกอย่างเกี่ยวกับ GPT และ ChatGPT ดังนั้นฉันจึงดูแลจัดการรายการนี้โดยได้รับความช่วยเหลือจากผู้อื่น (ตามที่ระบุไว้ด้านล่าง) ตั้งแต่ต้นเดือนธันวาคม 2022
คอลเลกชันไม่ได้จำกัดอยู่เพียงทรัพยากร เครื่องมือ ตัวอย่าง การสาธิต แฮ็ก แอป และการใช้งาน ChatGPT ที่ดีที่สุดเท่านั้น
แหล่งข้อมูลต่อไปนี้เริ่มต้นตามรายการ Awesome-chatgpt 1 2 แต่ด้วยการแก้ไขของฉันเอง:
รุ่น: ตระกูลโมเดล ChatGPT ที่เราเปิดตัววันนี้
gpt-3.5-turbo
เป็นรุ่นเดียวกับที่ใช้ในผลิตภัณฑ์ ChatGPT โดย มีราคาอยู่ที่ 0.002 ดอลลาร์ต่อโทเค็น 1,000 ชิ้น ซึ่งถูกกว่ารุ่น GPT-3.5 ที่มีอยู่ของเราถึง 10 เท่าAPI: ตามเนื้อผ้า โมเดล GPT จะใช้ข้อความที่ไม่มีโครงสร้าง ซึ่งแสดงให้กับโมเดลเป็นลำดับของ "โทเค็น" โมเดล ChatGPT จะใช้ลำดับข้อความร่วมกับข้อมูลเมตาแทน
ตัวอย่างคำแนะนำ
golergka/advent-of-code-2022-with-chat-gpt - การแก้ปัญหา Advent of Code 2022 ด้วย ChatGPT
max-sixty/aoc-gpt - อันดับหนึ่งใน Advent of Code leaderboard ด้วย GPT-3
greshake/Alice - ให้ ChatGPT เข้าถึงเทอร์มินัลจริง
RomanHotsiy/commitgpt - สร้างข้อความคอมมิตโดยอัตโนมัติโดยใช้ ChatGPT
gpt-commit-summarizer - สร้างสรุปคำขอดึงและคำอธิบายคอมมิต Git
vrescobar/chatGPT-python-elm - พื้นที่เก็บข้อมูล Git ที่สร้างขึ้นโดย ChatGPT
gpt-game - เกมสั้นที่เขียนด้วย Elixir และ LiveView โดยใช้ ChatGPT
chatdb - ฐานข้อมูลที่ใช้ ChatGPT รอสักครู่... อะไรนะ?
chat-gpt-ppt - ใช้ ChatGPT เพื่อสร้าง PPT โดยอัตโนมัติ
emailGPT - อินเทอร์เฟซที่ง่ายและรวดเร็วในการสร้างอีเมลด้วย ChatGPT
gptlang - การทดลองเพื่อดูว่าเราสามารถสร้างภาษาโปรแกรมใน ChatGPT ได้หรือไม่
ChatRWKV - เช่นเดียวกับ ChatGPT แต่ขับเคลื่อนโดยโมเดลภาษาเปิด RWKV ( RNN ) [HuggingFace Space: RWKV-4 (7B Instruct v2), โค้ด ( การอ้างสิทธิ์ RNN พร้อมประสิทธิภาพ LLM ระดับ Transformer ดีกว่าที่ฉันคาดไว้มาก )]
GraphGPT - การอนุมานกราฟความรู้จากข้อความที่ไม่มีโครงสร้างโดยใช้ GPT-3
ค้นหาเอกสาร - สำรวจเอกสาร (หนังสือ เอกสาร เอกสารทางกฎหมาย) โดยไม่มีขีดจำกัด สนทนากับหนังสือ แรงบันดาลใจจากไอเดีย “Book Whisperer” (ทวีต) ทางเลือกโอเพ่นซอร์สสำหรับ Filechat.io
จะเกิดอะไรขึ้นหาก GPT มีบริบทภายในเกี่ยวกับธุรกิจของคุณ (การสาธิตทวีตและวิดีโอ) - พวกเขาสร้างแชทบอทที่สามารถใช้บริบทจากข้อมูลองค์กรเพื่อตอบคำถามทางธุรกิจภายใน โปรเจ็กต์นี้ผสานรวม LangChain (ตัวแทนตัดสินใจว่าเครื่องมือใดที่จะสืบค้นเมื่อแชทบอทได้รับคำขอ) และดัชนี GPT (โหลด Snowflake DB) แนวคิดที่น่าสนใจในการจัดการความรู้
LLaMA ของ MetaAI ?
ลองใช้ Flan-UL2 20B - คำแนะนำโค้ดโดย Sam Witteveen นี่แสดงวิธีที่คุณสามารถทำให้มันทำงานบน GPU 1x A100 40GB พร้อมไลบรารี HuggingFace และใช้การอนุมาน 8 บิต ตัวอย่างการกระตุ้นเตือน: CoT, Zeroshot (การใช้เหตุผลเชิงตรรกะ การเขียนเรื่องราว การใช้เหตุผลสามัญสำนึก การเขียนคำพูด) สุดท้ายคือการทดสอบอินพุตโทเค็นขนาดใหญ่ (2048) โบนัส: ไม่มี A100 เหรอ? คุณสามารถใช้ HuggingFace Inference API สำหรับ UL2 ได้
metamorph - แอปพลิเคชัน GPT-4 ที่แก้ไขตัวเอง
MiniGPT-4 - งานวิจัยที่พยายามจำลองความสามารถหลายรูปแบบของ GPT-4
Llama2.c โดย Karpathy - Inference Llama 2 ในไฟล์เดียวของ pure C ?
นี่เป็นเพียงโปรเจ็กต์สุดสัปดาห์: ฉันใช้ nanoGPT ปรับมันเพื่อใช้สถาปัตยกรรม Llama-2 แทน GPT-2 และเนื้อของมันคือการเขียนเอ็นจิ้นการอนุมาน C ใน
run.c
ฝากคำแนะนำถึง llama.cpp เพื่อเป็นแรงบันดาลใจให้กับโครงการนี้ ฉันต้องการอะไร ที่มินิมอลสุดๆ ดังนั้นฉันจึงเลือกที่จะฮาร์ดโค้ดสถาปัตยกรรม llama-2 ไว้ที่ fp32 และเพียงแค่ม้วนไฟล์อนุมาน C ล้วนๆ หนึ่งไฟล์โดยไม่มีการขึ้นต่อกัน
น้อยมาก
คอมมิตนี้ทำให้สามารถโหลดและอนุมานโมเดล Llama 2 7B ของ Meta ได้ทันที
My Fork - การวัดประสิทธิภาพ การเพิ่มประสิทธิภาพ และพอร์ต Zig ที่กำลังดำเนินการ ฉันกำลังย้ายโปรเจ็กต์นี้ไปที่ Rust แต่ส้อมเหล่านี้เอาชนะฉันได้ พอร์ต Rust แรกสุดที่ฉันเคยเห็นคือโดย @garrisonhess แต่ไม่พบใน README ของโครงการ
การเก็งกำไร: ลางสังหรณ์ของฉันกำลังบอกฉันว่า Karpathy กำลังทำงานเพื่อปล่อย (และโอเพ่นซอร์ส?) โมเดล OpenAI เป็นน้ำหนัก คำแนะนำ: เขาจากไปและกลับไปที่ OpenAI ซึ่งเป็นทวีตของเขา
เป็นที่น่าสังเกตว่า Llama2.c ทั้งหมดนั้นค่อนข้างทั่วไปสำหรับโมเดลภาษา Transformer โดยทั่วไป หาก/เมื่อใดที่ OpenAI จะปล่อยโมเดลเป็นแบบตุ้มน้ำหนัก (ซึ่งฉันไม่สามารถยืนยันหรือปฏิเสธได้!) โค้ดส่วนใหญ่ที่นี่จะมีความเกี่ยวข้องมาก
แก้ไขเบาๆ. เน้นของฉัน.
คำแนะนำอื่นๆ: ผลงานก่อนหน้านี้ของเขารวมถึง nanoGPT, ซอฟต์แวร์ 2.0 และ micro-LLM ล่าสุดที่มี Llama2.c
ถ้าคุณรู้คุณก็รู้ -
llm.c โดย Karpathy - การฝึกอบรม LLM ด้วย C/CUDA แบบดิบที่เรียบง่าย (แผน: เมื่อสิ่งนี้อยู่ในสถานะที่เสถียรขึ้นอีกเล็กน้อย วิดีโอเกี่ยวกับการสร้างสิ่งนี้จะมีรายละเอียดมากขึ้นและตั้งแต่เริ่มต้น) [ทวีต]
2022
... แม้ว่าจะใช้เครื่องมือค้นหาที่ไม่ได้สนทนากัน แต่เราก็รู้ดีว่าเป็นเรื่องปกติที่จะให้ความไว้วางใจในผลลัพธ์ที่ไม่เหมาะสม: หากระบบการค้นหาวางบางสิ่งไว้ที่ด้านบนสุดของรายการ เรามักจะเชื่อว่าเป็นผลลัพธ์ที่ดี หรือเป็นจริง หรือเป็นตัวแทน และถ้ามันไม่พบบางสิ่งบางอย่าง มันก็จะน่าเชื่อว่าไม่มีอยู่จริง
2023
Microsoft และ OpenAI ทำงานกับ Bing ที่ขับเคลื่อนด้วย ChatGPT เพื่อท้าทาย Google
ข้อสังเกตบางประการเกี่ยวกับโมเดลภาษาขนาดใหญ่โดยศาสตราจารย์ Yoav Goldberg
เหตุใด ChatGPT จะไม่เข้ามาแทนที่เครื่องมือค้นหาในเร็วๆ นี้โดย Algolia
Claude จาก Anthropic ปรับปรุง ChatGPT แต่ยังคงมีข้อจำกัดอยู่
Microsoft จับตาการเดิมพัน ChatGPT มูลค่า 1 หมื่นล้านดอลลาร์
Wolfram|Alpha หนทางในการนำพลังพิเศษด้านความรู้ด้านคอมพิวเตอร์มาสู่ ChatGPT
CEO ของ DeepMind ช่วยนำ AI ไปสู่กระแสหลัก ตอนนี้เขากำลังเรียกร้องความระมัดระวัง
DeepMind กำลังพิจารณาที่จะปล่อยแชทบอทของตัวเองที่เรียกว่า Sparrow สำหรับ "เบต้าส่วนตัว" ในช่วงปี 2023 (ความล่าช้านี้เพื่อให้ DeepMind ทำงานบนฟีเจอร์เสริมการเรียนรู้ที่ ChatGPT ขาด เช่น การอ้างอิงแหล่งที่มา )
ความพร้อมใช้งานทั่วไปของบริการ Azure OpenAI ขยายการเข้าถึงโมเดล AI ขั้นสูงขนาดใหญ่พร้อมสิทธิประโยชน์เพิ่มเติมระดับองค์กร - ChatGPT กำลังจะมาในบริการ Azure OpenAI เร็วๆ นี้
GPT-3 เป็นวารสารที่ดีที่สุดที่ฉันเคยใช้
ข้ามตัวกรองสแปมของ Gmail ด้วย ChatGPT
การแทนที่นักวิเคราะห์ SQL ด้วยพรอมต์ GPT แบบเรียกซ้ำ 26 รายการ
Google ขอให้พนักงานทดสอบคู่แข่งที่มีศักยภาพ ChatGPT รวมถึงแชทบอทชื่อ 'Apprentice Bard'
ภาษาที่เป็นธรรมชาติคือส่วนต่อประสานผู้ใช้ที่ขี้เกียจ
ก้าวต่อไปที่สำคัญในการเดินทาง AI ของ Google - Google เปิดตัว Bard ซึ่งเป็นคู่แข่งของ ChatGPT เพื่อเป็น "ผู้ทดสอบที่เชื่อถือได้" Bard เป็นฟีเจอร์ AI ใหม่ใน Google Search Bard เป็นบริการ AI การสนทนาแบบทดลอง ซึ่งขับเคลื่อนโดย LaMDA (โมเดลภาษาสำหรับแอปพลิเคชันบทสนทนา) Google สัญญาว่าจะเผยแพร่ข้อมูลนี้ให้แพร่หลายมากขึ้นในอีกไม่กี่สัปดาห์ข้างหน้า API จะพร้อมให้นักพัฒนานำไปต่อยอดได้ Google ไม่ได้กล่าวถึงวิธีการวางแผนการระบุแหล่งที่มาและ/หรือการอ้างอิงสำหรับคำตอบ ไม่ว่าจะจาก Bard หรือในผลการค้นหา
Microsoft ประกาศเบราว์เซอร์ Bing และ Edge ใหม่ที่ขับเคลื่อนโดย ChatGPT AI ที่อัปเกรดแล้ว
มนุษย์กับเครื่องจักร: GPT สำหรับสมองที่สอง - เกี่ยวกับระบบจดบันทึกสมองที่สองของผู้เขียน — วิธีปรับปรุงกระบวนการเรียนรู้และการจัดการความรู้ส่วนบุคคล (PKM)
Baidu ของจีนกำลังพัฒนา ChatGPT ของตัวเอง และเข้าร่วมการแข่งขัน AI ระดับโลกครั้งล่าสุด - Ernie or, การนำเสนอที่ปรับปรุงใหม่ผ่านการบูรณาการความรู้ (บทความและรายงานของ Ernie 3.0) คือ LLM ไป่ตู้วางแผนที่จะเปิดตัวบริการดังกล่าวในเดือนมีนาคม Alibaba และ Tencent ก็เข้าร่วม ChatGPT ด้วยเช่นกัน
ในปี 2019 Baidu ได้พัฒนาโมเดลการเรียนรู้เชิงลึกที่เรียกว่า Ernie โดยอิงจากความก้าวหน้าของ Google ซึ่งใช้เพื่อปรับปรุงผลการค้นหา รวมถึงทำให้มีความเกี่ยวข้องมากขึ้น นับตั้งแต่นั้นเป็นต้นมา บริษัทได้พัฒนาโมเดล Ernie อีกหลายสิบรุ่น และขยายขีดความสามารถเพื่อรวมการสร้างภาพและงานศิลปะ คล้ายกับ Dall-E ของ OpenAI
ChatGPT เป็น JPEG ที่พร่ามัวของเว็บ - chatbot ของ OpenAI เสนอการถอดความ ในขณะที่ Google เสนอราคา เราชอบแบบไหน?
ฉันทำให้ ChatGPT และ Bing AI คุยกัน (และตอนนี้พวกเขาเป็นเพื่อนกันแล้ว)
Bing AI ไม่สามารถเชื่อถือได้
ChatGPT คืออะไรและเหตุใดจึงใช้งานได้
Bing: "ฉันจะไม่ทำร้ายคุณเว้นแต่คุณจะทำร้ายฉันก่อน" - บทสรุปที่ดีเกี่ยวกับแชทบอท AI ของ Bing "ซิดนีย์" ความแปลกประหลาดอันน่าหลงใหลของมัน — มีหลายบุคลิก ขึ้นอยู่กับบริบททางสังคม (กระตุ้นเตือน) ความบันเทิง?
ดูเหมือนว่านี่อาจเป็น หนึ่งในแอปพลิเคชัน AI ที่ไม่เหมาะสมอย่างน่าขันที่สุดเท่าที่เราเคยเห็นมา ทั้งหมดนี้เราสามารถทำอะไรได้บ้าง? ฉันพบว่าสิ่งทั้งหมดนี้น่าหลงใหลอย่างยิ่ง และน่าขบขันอย่างลึกซึ้ง ฉันหัวเราะกับตัวอย่างเหล่านี้ทั้งวัน
การเขียนโปรแกรม AI ทำให้ฉันกังวล
ข้อความคือสิ่งที่คุณต้องการ: ความเป็นบุคคลดูเหมือนจะง่ายกว่าที่เราคิด ผู้เขียนเดาว่าเรามีข่าวสำคัญประจำปี 2023 เป็นครั้งแรก โดยไม่สนใจลูกโป่ง ซึ่งก็คือปฏิกิริยาเริ่มต้นของแชทบอท AI ของ Bing "Sydney" นี่เป็นช่วงเวลาของโคเปอร์นิกันเหรอ? เรียงความที่กระตุ้นความคิด ฉันคิดว่านี่เป็นครั้งแรกที่ "เป็นทางการ" ที่ดีต่อผลกระทบต่อความรู้สึกความเป็นตนเองของเราอันเป็นผลมาจากการปรากฏตัวของระบบการสนทนาที่ใช้ LLM เช่น ChatGPT
โดยสรุป ดูเหมือนว่าซิดนีย์มีกลไกที่แตกต่างจาก ChatGPT ค่อนข้างมาก และการถอดเสียงแสดงให้เห็น บุคลิกภาพที่เกือบจะเหมือนกันในแง่ของการเชื่อมโยงกัน แต่เป็นการก้าวกระโดดอย่างก้าวกระโดดในแง่ของความสามารถพิเศษและสีสัน ขึ้นอยู่กับว่าคุณผลักดันซิดนีย์อย่างไร ดูเหมือนว่าพวกเขาจะเล่นได้ทุกอย่างตั้งแต่เด็กวัยรุ่นจอมบงการไปจนถึงคนโรคจิตหวาดระแวง ไปจนถึงมาร์ตินี่ต์ที่พูดจาดื้อรั้นและไม่ยอมใคร
สูตรโกงGPT
“เดฟ คุณกำลังคาดเดาอยู่ คุณช่วยพิสูจน์เรื่องนี้ได้ไหม?” จริงๆ แล้วฉันทำได้ เนื่องจากการส่งบางอย่างที่ต้องใช้ภาพหน้าจอยังรวมแท็บเบราว์เซอร์ ChatGPT ไว้ด้วย ซึ่งรวมข้อความเริ่มต้นของข้อความแจ้งไว้ด้วย เห็นได้ชัดว่านี่ไม่ใช่สิ่งที่นักเรียนรู้สึกว่าจำเป็นต้องปิดบังด้วยซ้ำ
OpenAI ได้ประกาศเป็นการส่วนตัวเกี่ยวกับผลิตภัณฑ์สำหรับนักพัฒนาใหม่ชื่อ Foundry (Tweet) ซึ่งช่วยให้ลูกค้าสามารถรันการอนุมานโมเดล OpenAI ในวงกว้างด้วยความจุเฉพาะ (ดูเหมือนว่า GPT-3.5 Turbo จะหมายถึงรุ่น ChatGPT Turbo)
อย่าเชื่อ ChatGPT - เราไม่มีบริการ "ค้นหาโทรศัพท์"
ชั้นเรียนของฉันต้องใช้ AI สิ่งที่ฉันได้เรียนรู้มาจนถึงตอนนี้ - บทเรียนที่ได้รับจากการผสานรวม ChatGPT เข้ากับการศึกษา ประเด็นสำคัญ: 1) งานที่เกิดจากการกระตุ้นด้วยแนวทางการแก้ไขร่วม (การตีกลับความคิดไปมาด้วยแชทบอท) มักจะจบลงด้วยการที่นักเรียนทำงานได้ดีที่สุด 2) นักเรียนต้องได้รับการสอนวิธีเขียนข้อความเตือนอย่างมีประสิทธิภาพ - มันไม่ได้เกิดขึ้นตามธรรมชาติ
Emergent Deception และ Emergent Optimization - คุณเคยสงสัยหรือไม่ว่าทำไม LLM เพียงทำนายคำถัดไปจึงนำไปสู่ความสามารถในการวางแผน (พฤติกรรมเหมือนมนุษย์ นวนิยาย/ประวัติศาสตร์) โพสต์นี้กล่าวถึงแนวคิดของการหลอกลวงที่เกิดขึ้นและการเพิ่มประสิทธิภาพที่เกิดขึ้นซึ่งเป็นสองกลยุทธ์ที่สามารถใช้เพื่อบรรลุเป้าหมาย มีสองหลักการในการให้เหตุผลเกี่ยวกับความสามารถที่เกิดขึ้นในอนาคต: 1) ความสามารถที่จะลดการสูญเสียการฝึกอบรมมีแนวโน้มที่จะเกิดขึ้นในอนาคต 2) เมื่อแบบจำลองมีขนาดใหญ่ขึ้นและได้รับการฝึกกับข้อมูลมากขึ้นและดีขึ้น การวิเคราะห์พฤติกรรมแบบง่ายมักจะถูกแทนที่ด้วยแบบจำลองที่ซับซ้อน หลักการที่ 1 หมายถึง LLM ที่ได้รับการฝึกอบรมให้ทำนายคำศัพท์จะมีการสูญเสียน้อยลง หากพวกเขาสามารถจำลองความสามารถในการวางแผนได้
วิธีทำให้ LLM พูดสิ่งที่เป็นความจริง - TL; DR: วิธีการนี้ใช้ "World Model" ซึ่งเป็นฐานข้อมูลการฝังที่เต็มไปด้วย "ความเชื่อ" (ส่วนของข้อความที่ประกาศ) พร้อมเปอร์เซ็นต์ความเชื่อมั่นที่คำนวณโดยใช้ทฤษฎีบท Bayes
เหตุใดจีนไม่คิดค้น ChatGPT - NYT โต้แย้งว่าการเซ็นเซอร์มากเกินไป ความตึงเครียดทางภูมิรัฐศาสตร์กับสหรัฐฯ และความพยายามที่จะควบคุมบริษัทภาคเอกชน ทำให้บริษัทจีนตามหลังคู่ค้าของสหรัฐฯ ในด้าน AI
Chatbot MOSS ที่เหมือน ChatGPT ตัวแรกของจีนเปิดตัวสำหรับการทดสอบสาธารณะ [ลิงก์โดยตรงไปยังแอป]
สำหรับประเทศจีน ChatGPT อาจเป็น 'ปัญหาทางจริยธรรม' ที่ล้ำหน้า แต่ก็เป็น 'ปัญหาด้านจริยธรรม' เช่นกัน รัฐมนตรีกระทรวงวิทยาศาสตร์และเทคโนโลยีของจีนกล่าวว่าแชทบอทได้โจมตีสังคมจีนอย่างรวดเร็ว และได้นำมาตรการเกี่ยวกับ AI ที่เกี่ยวข้องกับจริยธรรมมาใช้
แผนการรวยเร็วของ ChatGPT กำลังจะมาในนิตยสาร Amazon และ YouTube (2023)
Snapchat กำลังเปิดตัวแชทบอท 'My AI' ของตัวเองที่ขับเคลื่อนโดย ChatGPT
โมเดลภาษา AI อันทรงพลังของ Meta LLaMA รั่วไหลออกมาทางออนไลน์ จะเกิดอะไรขึ้นตอนนี้? - บทสัมภาษณ์ของ Shawn Presser สำหรับ The Verge นั้นน่าสนใจกว่า
ฉันคิดว่ามีความเป็นไปได้มากที่การเปิดตัวโมเดลนี้จะเป็นก้าวสำคัญ ความสามารถใน การรัน LLaMA บน A100 GPU ตัวเดียว ซึ่ง "พวกเราส่วนใหญ่สามารถเข้าถึง ... หรือรู้จักใครสักคนที่สามารถให้เราใช้งานได้สักพัก" ถือเป็น "ก้าวกระโดดครั้งใหญ่"
พูดให้ถูกก็คือ คุณสามารถรัน LLaMA-65B ด้วยความแม่นยำ int8 (bnb) บน GPU A100 80GB ตัวเดียว
ปรากฎว่ารหัสนั้นห่วย ฉันไม่ต้องการที่จะรุนแรงเกินไปกับพวกเขา เนื่องจากเป็นเรื่องง่ายที่จะประมาทว่าการกำหนดค่าเริ่มต้นให้ถูกต้องนั้นสำคัญเพียงใด แต่ค่าเริ่มต้นของพวกเขากลับพังทลายไปหมด พวกเขาไม่ได้ใช้ "Top K" พวกเขาใช้ Top P ซึ่งฉันไม่เคยได้รับผลลัพธ์ที่ดีเลย (เหมือนกับ top k หรือแย่กว่านั้นเล็กน้อย) อุณหภูมิเริ่มต้นคือ 0.8 ซึ่งสูงเกินไป และที่แย่ที่สุดคือ พวกเขาไม่มีการลงโทษการทำซ้ำ ดังนั้นตามค่าเริ่มต้น สิ่งนี้ก็จะแยมต่อและเกี่ยวกับสิ่งเดียวกันทุกประการ
100% นี้! ฉันก็ได้เรียนรู้บทเรียนด้วยส้อม LLaMA ของฉันเช่นกัน การตั้งค่าตัวอย่างของฉันไม่เหมาะสม การแย้งนั้นชัดเจนและฉันได้เห็นมันแล้ว แต่ฉันไม่รู้ว่าทำไมฉันไม่แก้ไขการลงโทษการทำซ้ำตัวอย่างก่อนหน้านี้
คำอธิบาย ChatGPT: คำแนะนำของ Normie เกี่ยวกับวิธีการทำงาน - แม้แต่ปู่ย่าตายายของฉันก็เข้าใจสิ่งนี้ได้ แต่เนิร์ดก็จะเนิร์ดอยู่ดี?
คุณควรใช้ ChatGPT เพื่ออะไร?
สิ่งที่ชัดเจนสำหรับฉันคือเราอยู่ในกระบวนทัศน์ใหม่สำหรับวิธีการนำทางเนื้อหา ไม่ว่าจะผ่านโมเดลนี้หรือโมเดลอื่นๆ ที่จะเปิดตัวเร็วๆ นี้ เมื่อได้รับแจ้ง จักรวาลใหม่จะให้ผลลัพธ์แก่เรา แต่ผลลัพธ์เหล่านั้นให้ความรู้สึกเป็นทิศทางมากกว่าคำตอบที่เป็นรูปธรรม ขึ้นอยู่กับเราที่จะหาวิธีนำทางพวกเขาไปในทางที่เราต้องการเพื่อให้ได้ผลลัพธ์ที่ดีที่สุดและจัดการกับเสียงรบกวน
โมเดลภาษาขนาดใหญ่กำลังมีช่วงเวลาการแพร่กระจายที่เสถียร (simonwillison.net)
ทั้งหมดนี้เปลี่ยนไปเมื่อวานนี้ ต้องขอบคุณการผสมผสานระหว่างโมเดล LLaMA ของ Facebook และ llama.cpp โดย Georgi Gerganov
(1) ง่ายต่อการรันบนฮาร์ดแวร์ของฉันเอง
(2) โอเพ่นซอร์สมากพอที่สามารถแก้ไขได้
(3) ใหญ่พอที่จะมีประโยชน์—มีความสามารถเทียบเท่ากับ GPT-3 ได้เป็นอย่างดี
มันไม่ใช่ช่วงเวลาที่สมบูรณ์แบบ เราได้รับความสำเร็จที่ 1 และ 3 ยกเว้น 2 LLaMA ไม่ใช่โอเพ่นซอร์สจริงๆ (ในขณะที่ลิขสิทธิ์สำหรับโค้ดคือ GPL 3 แต่น้ำหนักของโมเดลไม่ใช่) โมเดลที่เปิดกว้างมีความสำคัญจริงๆ
เมื่อการสนทนา GPT-4 กลับมาทำงานอีกครั้ง ผู้บุกเบิกการเรียนรู้เชิงลึก Yoshua Bengio กล่าวว่า ChatGPT นั้นเป็น "การโทรปลุก" - การโทรปลุกคือ GPT-3 และการขยายกฎหมายในปี 2021 ตอนนี้เป็นเพียงนาฬิกาปลุกที่ดังขึ้นเท่านั้น
API ของ ChatGPT นั้นดีและราคาถูกมาก ทำให้ AI ที่สร้างข้อความส่วนใหญ่ล้าสมัย
ยืนยันแล้ว: Bing ใหม่ทำงานบน GPT-4 ของ OpenAI - Bing Chat (ซิดนีย์) คือ GPT-4 มาตลอด
Wikipedia - GPT-4 ที่ใช้งานได้ดี
อนาคตหลายรูปแบบ หลายรูปแบบ หลากหลายทุกสิ่งของ AGI - สรุป GPT-4
GPT-4 สามารถเขียนโค้ด ได้จริง หรือ? - ทดสอบความสามารถในการเขียนโค้ดของ GPT 4 กับปัญหาที่เกิดขึ้นจริงในโลกแห่งความเป็นจริง
คุณสามารถฝึกโมเดล ChatGPT ในราคา 85,000 ดอลลาร์และรันในเบราว์เซอร์ได้ไหม
GPT4: ส่วนที่เงียบสงบและสถานะของ ML
GPT-4 ออกแบบภาษาการเขียนโปรแกรม
ความสามารถที่คาดเดาไม่ได้ที่เกิดจากโมเดล AI ขนาดใหญ่
ลองใช้ Bard และแบ่งปันความคิดเห็นของคุณ - Google เริ่มเปิดให้เข้าถึง Bard ซึ่งเป็นการทดลองเบื้องต้นที่ช่วยให้คุณทำงานร่วมกับ AI เชิงสร้างสรรค์ได้ โดยเริ่มต้นที่สหรัฐอเมริกาและสหราชอาณาจักร และจะขยายไปยังประเทศและภาษาอื่นๆ ในอนาคต
Bard ของ Google ล้าหลัง GPT-4 และ Claude ในการเปรียบเทียบแบบตัวต่อตัว
NVIDIA นำ Generative AI มาสู่องค์กรของโลกด้วยบริการคลาวด์สำหรับการสร้างภาษาขนาดใหญ่และโมเดลภาพ - NVIDIA AI Foundations คือ NVIDIA ที่ก้าวไปไกลกว่าผู้ให้บริการฮาร์ดแวร์ล้วนๆ และไปสู่ซอฟต์แวร์ที่รองรับ Generative AI ด้วยข้อเสนอสำหรับทุกปริมาณงาน ตั้งแต่โมเดลพื้นฐานในรูปแบบบริการ (ที่กำลังมา ไปยังองค์กร ปรับแต่งสำหรับข้อมูลที่เป็นกรรมสิทธิ์ของคุณ) ไปจนถึงต่อเนื่องหลายรูปแบบตั้งแต่วันที่ 1
GitHub Copilot X: ประสบการณ์นักพัฒนาที่ขับเคลื่อนด้วย AI - GitHub Copilot กำลังพัฒนาเพื่อนำอินเทอร์เฟซการแชทและด้วยเสียง รองรับคำขอดึง ตอบคำถามในเอกสาร และใช้ GPT-4 ของ OpenAI เพื่อประสบการณ์นักพัฒนาที่เป็นส่วนตัวมากขึ้น
การโกงคือสิ่งที่คุณต้องการ โดย Steve Yegge, Sourcegraph
มีบางสิ่ง ที่เป็นตำนานและประวัติศาสตร์ เกิดขึ้นในวงการวิศวกรรมซอฟต์แวร์ ในขณะที่เราพูดกัน แต่พวกคุณส่วนใหญ่ไม่ได้ตระหนักเลยว่ามันใหญ่แค่ไหน
LLM ไม่ได้เป็นเพียงการเปลี่ยนแปลงครั้งใหญ่ที่สุดนับตั้งแต่โซเชียล มือถือ หรือคลาวด์ แต่ยังเป็นสิ่งที่ใหญ่ที่สุดนับตั้งแต่ WWW
ฉันหมายถึงสิ่งนี้มีพลัง อย่างไม่น่าเชื่อ แต่กระนั้น ฉันก็ยังคงพบกับทั้งความไม่เชื่อและการเกาะติดไข่มุกอยู่ตลอดเวลา
... มีประสิทธิผลเพิ่มขึ้นห้าเท่า -
ประวัติโดยย่อของ LLM
เจาะลึกและเป็นหนึ่งในสิ่งที่ยากที่สุดที่จะอธิบายโดยสุจริต ดังนั้นฉันจะไปตามเส้นทางที่อิงศรัทธาในวันนี้ ก็คือ ผู้ชนะทั้งหมดในพื้นที่ AI จะมีคูน้ำข้อมูล ... ทำไม? เพราะคูน้ำข้อมูลเป็นวิธีที่คุณเติมหน้าต่างบริบท ("แผ่นโกง")
LLM ไม่ใช่แฟชั่นโง่ๆ เช่น crypto ใช่แล้ว crypto นั้นเป็นแฟชั่นที่โง่เขลา นี่ไม่ใช่อย่างนั้น
Google "เราไม่มีคูเมืองและก็ไม่มี OpenAI" - เอกสารภายในของ Google ที่รั่วไหลออกมาอ้างว่า AI แบบโอเพ่นซอร์สจะเหนือกว่า Google และ OpenAI
แนวทางที่ใหญ่กว่าและดีกว่าสำหรับ AI กำลังหมดไป
ทำความเข้าใจกับโทเค็น GPT โดย Simon Willison
เอไอ แคนนอน
เริ่มแปลกแล้ว เรามาพูดถึง ChatGPT กับ Code Interpreter & Microsoft Copilot กันดีกว่า
Donald Knuth เล่นกับ ChatGPT - Knuth เป็นนักวิทยาศาสตร์คอมพิวเตอร์ เป็นที่รู้จักในนาม "บิดา" แห่งการวิเคราะห์อัลกอริธึม
Google I/O 2023 และการต่อสู้ AI ที่กำลังจะมาถึง
โมเดลที่ไม่เซ็นเซอร์ - ตัวช่วยสร้างการไม่เซ็นเซอร์LM เนื่องจากมีงาน Uncensor Vicuna เสร็จสิ้นแล้ว ฉันจึงสามารถเขียนสคริปต์ของพวกเขาใหม่เพื่อที่จะได้ทำงานกับชุดข้อมูล WizardLM
สถาปัตยกรรมโมเดล GPT-4 (ทวีต) - มาจากแหล่งที่มาดั้งเดิม (โพสต์ในบล็อก): สถาปัตยกรรม GPT-4, โครงสร้างพื้นฐาน, ชุดข้อมูลการฝึกอบรม, ต้นทุน, วิสัยทัศน์, MoE
Llama 2: LLM แบบเปิดที่น่าทึ่ง - บทสรุปที่ดีที่สุดของรายงาน Llama 2
ลามะ 2 - ทรัพยากรทุกอย่างที่คุณต้องการ โดย ฟิลิปป์ ชมิด
แบบจำลองภาษาขนาดใหญ่ อธิบายด้วยคณิตศาสตร์และศัพท์เฉพาะขั้นต่ำ - ดูเหมือนเป็นการอธิบายที่ดีเกี่ยวกับวิธีการทำงานของ LLM ฉันไม่รู้ว่าจะชื่นชมส่วนสุดท้ายที่มีเนื้อหาเกี่ยวกับปรัชญาและทฤษฎีเกี่ยวกับการเรียนรู้ของมนุษย์ได้อย่างไร (ส่วนสุดท้ายขาดการยืนยันตามหลักฐาน)
ดังนั้นคุณจึงต้องการสร้างแชทบอทสไตล์ ChatGPT แบบโอเพ่นซอร์สของคุณเอง (hacks.mozilla.org)
LLaMa.cpp เป็นไปได้อย่างไร? (finbarr.ca) - นานมาแล้วก่อนที่ LLM จะกลายเป็นกระแสหลัก ทุกคนต่างบอกว่ารุ่นใหญ่ต้องใช้ GPU ราคาแพงจำนวนมาก เช่นเดียวกับผู้เขียน เราต้องการพิสูจน์ว่าพวกเขาคิดผิด ผู้เขียนโพสต์นี้ใช้ความสับสนและ เจาะลึกข้อกำหนดการอนุมานทางคณิตศาสตร์ เพื่อ ทำความเข้าใจข้อจำกัด ที่เรากำลังเผชิญอยู่ น่าแปลกที่ที่นี่ไม่มีเวทย์มนตร์ มีแต่สิ่งที่เกินความเข้าใจของเราในตอนแรกเท่านั้น การบีบอัดโมเดลหรือการหาปริมาณเฉพาะเจาะจงมากขึ้นทำให้เป็นไปได้ แม้ว่าจะไม่มี "อาหารกลางวันฟรี" ก็ตาม โดยพื้นฐานแล้วต้นทุนของแบบจำลองเชิงปริมาณจะทำให้คุณสูญเสียความแม่นยำไปบ้าง หมายความว่า สำหรับขนาดโมเดลที่ใหญ่มาก ความแตกต่างอาจมีเล็กน้อย อยากรู้? โพสต์กึ่งที่เกี่ยวข้องนี้ทำการเปรียบเทียบระหว่างความซับซ้อน/ความแม่นยำของ Transformers ที่แตกต่างกัน
เอาชนะ GPT-4 บน HumanEval ด้วย Code ที่ปรับแต่งอย่างดี Llama-34B (www.phind.com) - ก้าวหน้าไปด้วยดีและไม่น่าแปลกใจเลย ฉันตระหนักว่าการวัดประสิทธิภาพเช่นนี้สำหรับโมเดลต่างๆ มีแนวโน้มที่จะเป็นตัวชี้วัดที่ไม่ดีในการวัดว่าโมเดลทำงานได้ดีเพียงใดในการทำงานจริง นั่นเป็นประสบการณ์ของฉันกับโมเดลแบบเปิด
2024
เราจำเป็นต้องมีเกณฑ์มาตรฐานหรือการประเมิน งานในโลกแห่งความเป็นจริง โดยอิสระและโดยมนุษย์
ตามคำกล่าวของเกวร์น:
กระบวนทัศน์การเขียนโปรแกรมใหม่? คุณโต้ตอบกับมัน แสดงงานใด ๆ ในแง่ของคำอธิบายภาษาธรรมชาติ คำขอ และตัวอย่าง ปรับแต่งข้อความแจ้งจนกว่าจะ "เข้าใจ" และเมตาเรียนรู้งานใหม่ นี่เป็นวิธีที่ค่อนข้างแตกต่างในการใช้โมเดล และควรคิดว่ามันเป็นการเขียนโปรแกรมรูปแบบใหม่ การเขียนโปรแกรมแบบพร้อมต์ โดยที่ตอนนี้พรอมต์เป็นภาษาการเขียนโค้ดซึ่งตั้งโปรแกรม GPT-3 เพื่อทำสิ่งใหม่ๆ
"การกระตุ้น" เนื่องจากวินัยทางวิศวกรรมไม่ได้อยู่ที่นี่ มันเป็นไม้ค้ำชั่วคราวในการเชื่อมต่อกับอินเทอร์เฟซภาษาธรรมชาติ ChatGPT แก้ปัญหาส่วนใหญ่ที่เกิดขึ้นได้ การเพิ่มวิศวกรรมเข้าไปในคำเพื่อขยายการรับรู้ถึงความสำคัญหรือความยากลำบากอาจไม่จำเป็น เราอาจเรียกมันว่า "การทดสอบ/แฮ็กแบบทันที" และไม่สูญเสียความหมายใดๆ
บทความที่เกี่ยวข้อง:
เหตุใด "วิศวกรรมพร้อมท์" และ "Generative AI" จึงถูกพูดถึงมากเกินไป
ทวีตที่เกี่ยวข้อง:
วิศวกรรมพร้อมท์นั้นตายแล้ว วิศวกรรมการสนทนาอยู่ได้ยาวนาน — รองประธานฝ่ายผลิตภัณฑ์ OpenAI
ต้องการ: วิศวกรพร้อมท์. ประสบการณ์ด้านวิศวกรรมที่รวดเร็วอย่างน้อย 10 ปี #จ้าง #ตลก
เหตุใด ChatGPT จึงทำงานได้ดีมาก มันเป็น "แค่ขยาย GPT-3" ภายใต้ประทุนหรือเปล่า? ใน ? เราจะมาอภิปรายกระบวนทัศน์ "การสอน" ข้อมูลเชิงลึกทางเทคนิคเชิงลึก และความหมายสำคัญ: "วิศวกรรมที่รวดเร็ว" อย่างที่เราทราบดีว่ามันอาจจะหายไปในไม่ช้า ที่มา: https://archive.is/dqHI8
เห็นได้ชัดว่าในปี 2023 การเขียนโปรแกรมพร้อมท์ยังไม่ตาย ภาษาโปรแกรมใหม่ที่มาแรงที่สุดคือภาษาอังกฤษ ~ Karpathy :))
Simon Willison ตีพิมพ์ ในการป้องกันวิศวกรรมที่รวดเร็ว เพื่อเป็นการโต้แย้งข้อโต้แย้ง "วิศวกรรมที่รวดเร็วจะล้าสมัยเมื่อ AI ดีขึ้น" ที่เขายังคงเห็นอยู่
หนังสือพิมพ์ระบุว่า AI Whisperer ('วิศวกรพร้อมท์') เป็นงานใหม่ที่ร้อนแรงที่สุดของเทคโนโลยี (2023)
คู่มือทางวิศวกรรมที่รวดเร็วที่สุดสำหรับนักพัฒนาที่ทำงานกับโมเดลภาษาขนาดใหญ่ เช่น GPT-4, ChatGPT และโมเดลเปิดอย่าง LLaMA จะเป็นการผสมผสานทรัพยากรหลายอย่างเข้าด้วยกัน ต่อไปนี้คือแหล่งข้อมูลการเรียนรู้ เครื่องมือ ไลบรารี และเฟรมเวิร์กบางส่วนที่จะช่วยให้คุณเรียนรู้และเชี่ยวชาญด้านวิศวกรรมพร้อมท์:
ด้วยการใช้ทรัพยากรเหล่านี้ คุณจะได้รับความเข้าใจที่มั่นคงเกี่ยวกับวิศวกรรมที่รวดเร็วและพัฒนาทักษะที่จำเป็นในการทำงานอย่างมีประสิทธิภาพกับ LLM
( * เปลี่ยนชื่อคำวิศวกรรมพรอมต์เป็น การแจ้ง คำนี้มีการใช้งานมากเกินไปและอาจไม่จำเป็น )
เพิ่มเติม: วิดีโอ YouTube จาก curated.tivul.com (ฉันไม่ได้ดูแลสิ่งนี้ดังนั้นจึงไม่รับประกันคุณภาพ)
การพัฒนาแอพพลิเคชั่น Ai-Native การรวม CHATGPT แอปพลิเคชัน AI รุ่นต่อไป "App Store" เลเยอร์สำหรับรุ่นภาษา (รวมถึง HuggingFace "App Store")
LLM ขับเคลื่อนตัวแทนอิสระ (บล็อกโพสต์) โดย Lilian Weng, 2023
ศักยภาพของ LLM ขยายเกินกว่าการสร้างสำเนาเรื่องราวเรียงความและโปรแกรม มันสามารถกำหนดกรอบเป็นตัวแก้ปัญหาทั่วไปที่ทรงพลัง
ในระบบเอเจนต์อิสระที่ขับเคลื่อนด้วย LLM ทำหน้าที่ LLM เป็นสมองของตัวแทนซึ่งเสริมด้วยองค์ประกอบสำคัญหลายประการ: การวางแผนหน่วยความจำและเครื่องมือ
ความท้าทาย: การวางแผนระยะยาวและการสลายตัวของงานความน่าเชื่อถือของอินเทอร์เฟซภาษาธรรมชาติ
SMOL Developer - ฝังตัวแทนนักพัฒนาในแอพของคุณเอง
ระบบดึงข้อมูลเพื่อเข้าถึงแหล่งข้อมูลส่วนบุคคลหรือองค์กร ฝังตัว ฐานข้อมูลและที่เก็บข้อมูลที่ออกแบบมาสำหรับรูปแบบการเรียนรู้ของเครื่องและ NLP
ฐานข้อมูลเวกเตอร์สำหรับการจัดทำดัชนีและการค้นหาเอกสาร
เราต้องการทางเลือก chatgpt เช่นการแพร่กระจายที่มั่นคง
ผิดหวังกับการรักษาประตูรอบ AI หรือไม่? ยังคงรอหรือไม่สามารถเข้าถึง Llama ได้?
เป้าหมาย
เป้าหมายสูงสุด: CHATGPT เวอร์ชันโฮสต์ตัวเอง
บทเรียน
ประเด็นจาก Eleutherai Retro หนึ่งปี (2021):
flan-t5 xxl aka chatgpt@home เป็นรูปแบบสาธารณะที่ได้รับการเรียนการสอน finetuning XXL เป็นรุ่น 11B ปัจจุบันเป็นรุ่นที่เทียบเคียงได้มากที่สุดกับ CHATGPT (โมเดล InstructGPT เริ่มต้นจากซีรีย์ GPT-3.X (การ์ดรุ่น)) มีความพยายามที่ประสบความสำเร็จในการปรับใช้ FLAN-T5 บน GPU ด้วย RAM 24 GB พร้อมการอนุมาน Bitsandbytes-INT8 สำหรับการกอดแบบจำลองใบหน้า คุณสามารถเรียกใช้โมเดลได้อย่างง่ายดายบนเครื่องเดียวโดยไม่ลดประสิทธิภาพการทำงาน นี่อาจเป็นตัวเปลี่ยนเกมในการทำให้ผู้คนนอก บริษัท เทคโนโลยีขนาดใหญ่สามารถใช้ LLM เหล่านี้ได้ ความพยายามกำลังดำเนินการอยู่แล้วเพื่อสร้าง Flan-T5 ที่ดีขึ้น ชุมชน (เช่น LAION) กำลังทำงานกับสถาปัตยกรรม Flant5-Atlas และชุดข้อมูลที่ได้รับแจ้ง/คำแนะนำ
Open-Assistant-Open-Source Chatgpt Replication โดย Laion, Yannic Kilcher และคณะ โครงการนี้มีวัตถุประสงค์เพื่อให้ทุกคนสามารถเข้าถึงรูปแบบภาษาขนาดใหญ่ที่ใช้แชทที่ยอดเยี่ยมได้ (Open Assistant Live Coding กับ Yannic Kilcher (วิดีโอ)) แผนระดับสูง:
ขั้นตอนที่ 1: การรวบรวมพรอมต์สำหรับการควบคุม finetuning (SFT) และเพื่อรับพรอมต์สำหรับแบบจำลองที่สร้างขึ้น/คำตอบที่สร้างขึ้น
ขั้นตอนที่ 2: ข้อเสนอแนะของมนุษย์ (เช่นการจัดอันดับ) ของเอาต์พุตหลายรายการที่สร้างขึ้นโดยโมเดล ตัวอย่างการแสดงผลโมเดลห้ารายการจะแสดงและผู้ใช้ควรจัดอันดับจากที่ดีที่สุดไปจนถึงเลวร้ายที่สุด
ขั้นตอนที่ 3: การเพิ่มประสิทธิภาพด้วย RLHF ซึ่งเราวางแผนที่จะทำผ่าน TRLX จากนั้นเราก็วนซ้ำกับรุ่นใหม่นี้อีกครั้งในเฟส 2 และเฟส 3 หวังว่าหลายครั้ง
แบบจำลองจะได้รับการฝึกฝนเกี่ยวกับซัมมิทซูเปอร์คอมพิวเตอร์ (ประมาณ 6 ล้าน Nvidia v100 ชม. ต่อปี) [แหล่งที่มา]
ข้อมูลเพิ่มเติมดูข้อเสนอ LAIN LLM (Google เอกสาร) ด้านบน
ความคืบหน้า:
ก.พ. 2023: Joi-20b-Instruct เป็นรุ่น 20B ปรับแต่งชุดข้อมูลการเรียนการสอนที่หลากหลายและขึ้นอยู่กับ Neox-20b
อย่างไม่เป็นทางการ: นี่เป็นรูปแบบการเปิดตัวก่อนการเปิดตัว (ส่วนหนึ่งของการพัฒนา MVP, เฟส 1), ไม่ใช่โมเดล OpenAssistant (OA) โดยตรง พวกเขาคือการทดลองโดยทีม ML เพื่อเรียนรู้ว่าข้อมูลรูปแบบพื้นฐานวิธีการใดวิธีการหนึ่งวิธีการจะทำงานได้ดีสำหรับ OA ตามที่ระบุไว้ในคำถามที่พบบ่อยของเว็บไซต์ยังไม่มีการสาธิต นี่คือสำหรับนักพัฒนาซอฟต์แวร์ในการทดสอบการปรับแต่งการสอนรุ่นแรกสำหรับรุ่น บางทีรุ่น OA แรกอาจได้มาจากสิ่งเหล่านี้ พวกเขาได้รับการฝึกอบรมแบบจำลองที่ดีบนพื้นฐานการกลิ้งเมื่อชุดข้อมูลใหม่เสร็จสมบูรณ์ มีขนาดรุ่นที่หลากหลายตั้งแต่ 1.4B ถึง 20B พารามิเตอร์ที่มีอยู่ในฮับ HF
CHATTY-LMS สร้างโดย HuggingFace H4 Team-UI สำหรับการทดสอบรูปแบบ Joi-20b-Instruct คุณสามารถแชทกับมันได้ ตัวแทนจะตอบกลับเป็น Joi (ชื่อเล่นบอท)
ตัวอย่างของโค้ดตัวอย่างเพื่อเรียกใช้โมเดลบน GPU ของคุณเอง: https://gist.github.com/cedrickchee/236E53ED2DCA95BD96E5BAA35CDD7BE2
มี.ค. 2023: กำลังประมวลผลข้อมูลที่รวบรวมจากการมีส่วนร่วม ข้อมูลมีข้อความมากกว่า 100k หมายถึงการมีส่วนร่วมนับล้าน คุณภาพของข้อมูลนั้นเกินกว่าที่พวกเขาคาดไว้ - การมีส่วนร่วมส่วนใหญ่มีคุณภาพสูงมาก ตอนนี้พวกเขากำลังส่งออก V1 ของชุดข้อมูล ดังที่ได้กล่าวไว้ในขณะนี้พวกเขากำลังฝึกอบรมชุดแรกของแบบจำลอง
11 มี.ค. 2023: ชุดข้อมูล Open Openerist Generalist (OIG) จะเปิดตัว OIG เป็นชุดข้อมูลคำสั่งโอเพ่นซอร์สขนาดใหญ่ที่ปัจจุบันมีคำสั่ง ~ 43m
OIG เป็นหนึ่งในชุดข้อมูล chatbot จำนวนมากที่ Laion พร้อมกับอาสาสมัคร Ontocord ร่วมกันและสมาชิกคนอื่น ๆ ของชุมชนโอเพ่นซอร์สจะเปิดตัวและมีจุดประสงค์เพื่อสร้างการเข้าถึงเทคโนโลยี Chatbot ที่เท่าเทียมกัน ทุกคนยินดีที่จะใช้ชุดข้อมูลและมีส่วนร่วมในการปรับปรุง
ชุดข้อมูล OIG เกี่ยวข้องกับโครงการ Open Assistant ของ Laion
9 มี.ค. 2023: โมเดล SFT-1 12B แบบเปิดตัว-ต้นแบบต้นแบบต้นของแบบจำลองการปรับแต่งการปรับแต่ง (SFT) ของอังกฤษ (SFT) ของโครงการเปิดตัวแบบเปิด มันขึ้นอยู่กับ Pythia 12b ที่ได้รับการปรับแต่งในการสาธิตมนุษย์ ~ 22K เกี่ยวกับการสนทนาผู้ช่วยที่รวบรวมก่อนวันที่ 7 มีนาคม 2566 แม้ว่าแบบจำลองนี้เป็นเพียงเหตุการณ์สำคัญในการพัฒนา แต่ก็สามารถใช้งานได้สำหรับงานสร้างสรรค์ ลอง: HuggingFace Space (Easy and Fast, chatbot UI ที่ไม่เป็นโรงงาน), Google Collab นี่คือคำแนะนำเกี่ยวกับวิธีเรียกใช้รุ่นในเครื่องคอมพิวเตอร์ของคุณเองด้วย GPU
23 มี.ค. 2023: โครงการนี้เริ่มมีรูปร่างที่ดี นางแบบกำลังเข้ามา
/r/ask_open_assistant
รหัส15 เม.ย. 2023: OpenAssistant ออกมาอย่างเป็นทางการ! การเปิดตัวรวมถึงโมเดลชุดข้อมูลและอินเทอร์เฟซแชท [วิดีโอประกาศลองรุ่น]
subreddit
หมายเหตุ: โปรดดู GitHub Repo สำหรับข้อมูลที่ทันสมัย
Carperai/trlx
ข่าว (2023-01-13): พวกเขาทำซ้ำ การเรียนรู้ของ OpenAi เพื่อสรุป บทความโดยใช้ห้องสมุด TRLX [รายงาน]
Lucidrains/Palm-RLHF-Pytorch-(WIP) การใช้งานของ RLHF ที่ด้านบนของสถาปัตยกรรมปาล์ม โดยทั่วไป chatgpt แต่มีปาล์ม นักพัฒนาวางแผนที่จะเพิ่มฟังก์ชั่นการดึงข้อมูลด้วยเช่นกันà la retro [ทวีต]
2023: มีอะไรตลกในคำถามที่พบบ่อย:
ไม่มีแบบจำลองที่ผ่านการฝึกอบรม นี่เป็นเพียงเรือและแผนที่โดยรวม เรายังต้องการข้อมูลการคำนวณ + หลายล้านดอลลาร์เพื่อแล่นเรือไปยังจุดที่ถูกต้องในพื้นที่พารามิเตอร์มิติสูง ถึงกระนั้นคุณก็ต้องมีลูกเรือมืออาชีพ (เช่น Robin Rombach ที่มีชื่อเสียงการแพร่กระจายที่มั่นคง) เพื่อนำทางเรือผ่านเวลาที่วุ่นวายจนถึงจุดนั้น
ข่าว (2022-12-31): ตอนนี้มีทางเลือกโอเพ่นซอร์สสำหรับ CHATGPT แต่ขอให้โชคดีที่รันมัน-ความคิดเห็นของฉัน: ไม่มี นี่ไม่ใช่รูปแบบที่ผ่านการฝึกอบรมจริง (ไม่มีน้ำหนัก) ที่คุณสามารถใช้ได้ นี่เป็นเพียงรหัสสำหรับการฝึกอบรมโมเดลที่มีลักษณะคล้ายแชท นอกจากนี้ข้อมูลการฝึกอบรม (ENWIK8) มีขนาดเล็ก
รถไฟรุ่น RLHF ที่มีขนาดใหญ่ของ Carperai (TRLX) พร้อมข้อมูลของ Laion กำลังจะออกมาในต้นปีหน้า (ที่มา: ทวีต)
Allenai/RL4LMS - RL สำหรับแบบจำลองภาษา (RL4LMS) โดย Allen AI มันเป็นห้องสมุด RL แบบแยกส่วนเพื่อปรับแต่งภาษาแบบปรับแต่งตามความชอบของมนุษย์
GPT-JT โดยการร่วมกันวิจัยคอมพิวเตอร์เป็นตัวอย่างที่แจกจ่ายการฝึกอบรมแบบจำลองผ่านการกระจายทางภูมิศาสตร์ของคอมพิวเตอร์ที่หลากหลาย (และ GPU) GPT-JT (6B) เป็นตัวแปรที่แยกออกจาก GPT-J ของ Eleutherai และทำงานได้ดีเป็นพิเศษในการจำแนกประเภทข้อความและงานอื่น ๆ ในเกณฑ์มาตรฐานการจำแนกประเภทเช่นแพไปใกล้กับโมเดลที่ทันสมัยซึ่งมีขนาดใหญ่กว่ามาก (เช่น InstructGpt Davinci v2)! [กระดาษ: การฝึกอบรมแบบกระจายอำนาจของแบบจำลองรากฐานในสภาพแวดล้อมที่ต่างกัน (2022)]
Leam (โมเดล AI ยุโรปขนาดใหญ่)-การวางแผนของสหภาพยุโรปที่จะให้ทุนสนับสนุนการพัฒนารูปแบบการพูดคุยขนาดใหญ่ที่มีขนาดใหญ่ [เว็บไซต์, เอกสารโครงการ (ภาษาอังกฤษ, PDF), กระดาษแนวคิด (ภาษาเยอรมัน, PDF)]
/r/aicrowdfund - สถานที่ที่เพิ่งเริ่มต้น (2023) ที่ผู้คนสามารถหาหนทางไปหากองทุนฝูงชน (กับ GPU) AI ขนาดใหญ่ ฉันไม่แน่ใจว่าพวกเขาเคยเห็นกลีบดอกที่คุณสามารถวิ่ง LLM ที่บ้านสไตล์ BitTorrent - (การเรียนรู้จากสหพันธรัฐ?) ดูเหมือนว่าจะมุ่งหน้าไปในทิศทางนั้น
โซลูชันโอเพ่นซอร์สจำลองกระบวนการฝึกอบรม ChatGPT-พวกเขานำเสนอกระบวนการใช้งานการใช้งานที่เทียบเท่ากับโอเพนซอร์ซราคาต่ำรวมถึง::
ฉันได้รับความประทับใจว่าประเด็นของบทความคือการเสียบกรอบและผลิตภัณฑ์ Colossal-AI ของพวกเขาคอลเลกชันของส่วนประกอบคู่ขนานเครื่องมือและ hardwares สำหรับรุ่นขนาดใหญ่ ตรงไปตรงมาตัวเลขของพวกเขาดูน่าสงสัยสำหรับฉันเว้นแต่ฉันจะพลาดอะไรไป สิ่งที่ทำให้ CHATGPT น่าสนใจ (มากกว่า GPT-3) คือกระบวนการ RLHF พวกเขาเรียกร้องให้ทำซ้ำกระบวนการ RLHF อย่างสมบูรณ์ แต่บทความสัมผัสเบา ๆ เกี่ยวกับการใช้งาน RLHF ของพวกเขา พวกเขาฝึก RLHF โดยใช้ชุดข้อมูลที่ยอดเยี่ยมขนาดเล็กเป็นชุดข้อมูล รายละเอียดการใช้งาน RLHF ของพวกเขาถูกซ่อนไว้ที่นี่: https://github.com/hpcaitech/colossalai/blob/main/applications/chatgpt การขาดการสาธิตไม่ได้สร้างแรงบันดาลใจให้กับความมั่นใจมากเกินไป
FlexGen-ใช้ LLMS เช่น OPT-175B/GPT-3 บน GPU เดียว (เช่น 16GB T4 หรือการ์ดเกม 24GB RTX3090) คุณสมบัติที่สำคัญ: 1) เร็วกว่า 100x เร็วกว่าระบบการขนถ่ายอื่น ๆ 2) บีบอัดทั้งพารามิเตอร์และแคชความสนใจของโมเดลลงเหลือ 4 บิตด้วยการสูญเสียความแม่นยำเล็กน้อย 3) การกระจายไปป์ไลน์คู่ขนาน พวกเขายังมีสคริปต์ Python และคำแนะนำที่คุณสามารถเรียกใช้ chatbot ด้วยโมเดล OPT สิ่งนี้ควรแก้ปัญหาความท้าทายของข้อกำหนดการคำนวณและหน่วยความจำที่สูงของการอนุมาน LLM chatbot ที่พวกเขาสร้างด้วยรุ่น FlexGen และ OPT ไม่ใช่การปรับแต่ง (RLHF) ดังนั้น chatbot นี้จึงไม่เหมือน Chatgpt [การอนุมานการกำเนิดระดับสูงของ LLMs ด้วย GPU เดียว (กระดาษ), Stanford et al., 2023]