มิสทรัล ขนาดใหญ่ 2 | มิสทรัล เอไอ | 123B | Mistral-Large คือ Large Language Model (LLM) ขั้นสูงที่มีความหนาแน่นสูงของพารามิเตอร์ 123B พร้อมด้วยความสามารถในการให้เหตุผล ความรู้ และการเขียนโค้ดที่ล้ำสมัย มีหน้าต่างบริบท 128k | บล็อกกอดใบหน้า |
ลามะ 3.1 | เมตาเอไอ | 8B, 70B, 405B | กลุ่ม Meta Llama 3.1 ของโมเดลภาษาขนาดใหญ่หลายภาษา (LLM) คือคอลเลกชันของโมเดล generative ที่ปรับแต่งแล้วและคำแนะนำในขนาด 8B, 70B และ 405B โมเดลเฉพาะข้อความที่ปรับแต่งคำสั่ง Llama 3.1 ได้รับการปรับให้เหมาะสมสำหรับกรณีการใช้งานบทสนทนาหลายภาษา และมีประสิทธิภาพเหนือกว่าโมเดลโอเพ่นซอร์สและแชทแบบปิดที่มีอยู่มากมายในเกณฑ์มาตรฐานอุตสาหกรรมทั่วไป โมเดลเหล่านี้เป็นโมเดลภาษาแบบถดถอยอัตโนมัติที่ใช้สถาปัตยกรรมหม้อแปลงที่ปรับให้เหมาะสม เวอร์ชันที่ได้รับการปรับแต่งจะใช้การปรับแต่งแบบละเอียดภายใต้การดูแล (SFT) และการเรียนรู้แบบเสริมกำลังพร้อมการตอบสนองของมนุษย์ (RLHF) เพื่อให้สอดคล้องกับความชอบของมนุษย์ในด้านความช่วยเหลือและความปลอดภัย | บล็อกกอดใบหน้า |
มิสทรัล นีโม | เอ็นวิเดีย มิสทรัล เอไอ | 12B | โมเดลภาษาขนาดใหญ่ Mistral-Nemo เป็นโมเดลข้อความที่สร้างไว้ล่วงหน้าของพารามิเตอร์ 12B ที่ฝึกร่วมกันโดย Mistral AI และ NVIDIA ซึ่งมีประสิทธิภาพเหนือกว่าโมเดลที่มีอยู่ซึ่งมีขนาดเล็กกว่าหรือมีขนาดใกล้เคียงกันอย่างมาก | บล็อกกอดใบหน้า |
นีโมตรอน 4 | เอ็นวิเดีย | 340B | โมเดลพื้นฐานของ Nemotron 4 ได้รับการฝึกอบรมล่วงหน้าบนคลังโทเค็นจำนวน 9 ล้านล้านโทเค็น ซึ่งประกอบด้วยข้อความที่เป็นภาษาอังกฤษหลากหลายประเภท ภาษาธรรมชาติมากกว่า 50 ภาษา และภาษาการเขียนโค้ดมากกว่า 40 ภาษา | กอดหน้า |
ดีซีแอลเอ็ม | แอปเปิล | 7B | DCLM คือโมเดลภาษา Transformer ที่ใช้ตัวถอดรหัสเท่านั้น มีความยาวบริบท 2,048 โทเค็น ได้รับการฝึกฝนบนโทเค็น 2.5T ไม่ได้ผ่านการจัดตำแหน่งเฉพาะหรือการปรับแต่งด้านความปลอดภัย ดังนั้นเอาต์พุตจึงควรใช้ด้วยความระมัดระวัง | กอดหน้า |
เจมม่า 2 | Google | 9B 27B | Gemma 2 เป็นโมเดลภาษาขนาดใหญ่ที่แปลงข้อความเป็นข้อความโดยใช้ตัวถอดรหัสเท่านั้น มีเป็นภาษาอังกฤษ โดยมีน้ำหนักเปิดสำหรับทั้งเวอร์ชันที่ได้รับการฝึกอบรมล่วงหน้าและเวอร์ชันที่ปรับแต่งคำแนะนำ โมเดล Gemma เหมาะอย่างยิ่งสำหรับงานสร้างข้อความที่หลากหลาย รวมถึงการตอบคำถาม การสรุป และการใช้เหตุผล | กอดหน้า |
กิ้งก่า | เมตาเอไอ | 7B 30B | Chameleon เป็นโมเดลรองพื้นแบบฟิวชันแบบผสมจาก FAIR มีให้เลือก 2 ขนาด: 7B และ 30B | Github กอดใบหน้า |
มิสทรัล 7B v3 | มิสทรัล เอไอ | 7B | Mistral-7B-v0.3 Large Language Model (LLM) คือ Mistral-7B-v0.2 พร้อมคำศัพท์เพิ่มเติม | Github กอดใบหน้า |
อาร์กติก (หนาแน่น-MoE) | เกล็ดหิมะ | 480B แอคทีฟ 17B | Arctic เป็นสถาปัตยกรรมหม้อแปลงไฟฟ้าแบบหนาแน่น MoE Hybrid ที่ได้รับการฝึกอบรมล่วงหน้าตั้งแต่ต้น Arctic รวมรุ่นหม้อแปลงความหนาแน่น 10B เข้ากับ MoE MLP ที่เหลือ 128x3.66B MoE MLP reThe Mistral-7B-v0.3 Large Language Model (LLM) คือ Mistral-7B-v0.2 พร้อมคำศัพท์เพิ่มเติม การสรุปในพารามิเตอร์ที่ใช้งานทั้งหมด 480B และ 17B เลือกโดยใช้ประตู 2 อันดับแรก | บล็อก HuggingFace Github |
ลามะ 3 | เมตาเอไอ | 8B 70B | Llama 3 คือตระกูลโมเดลภาษาขนาดใหญ่ ซึ่งเป็นคอลเลกชันของโมเดลข้อความที่สร้างไว้ล่วงหน้าและคำแนะนำที่ได้รับการปรับแต่งในขนาด 8 และ 70B เป็นโมเดลภาษาแบบถดถอยอัตโนมัติที่ใช้สถาปัตยกรรมหม้อแปลงที่ปรับให้เหมาะสม เวอร์ชันที่ได้รับการปรับแต่งจะใช้การปรับแต่งแบบละเอียดภายใต้การดูแล (SFT) และการเรียนรู้แบบเสริมกำลังด้วยการตอบสนองของมนุษย์ (RLHF) | บล็อก HuggingFace Github |
พี 3 วิชั่น | ไมโครซอฟต์ | | Phi3-3-Vision เป็นโมเดลหลายรูปแบบแบบเปิดที่มีน้ำหนักเบาและล้ำสมัย สร้างขึ้นจากชุดข้อมูลซึ่งรวมถึง - ข้อมูลสังเคราะห์และเว็บไซต์สาธารณะที่กรองแล้ว - โดยมุ่งเน้นไปที่ข้อมูลความหนาแน่นสูงและมีคุณภาพสูงมากทั้งในด้านข้อความและการมองเห็น . มีความยาวบริบท 128k | กอดหน้า |
พี่ 3 | ไมโครซอฟต์ | 3.8B 7B 14B | Phi-3 คือชุดสะสมโมเดล มีจำหน่ายในขนาดต่างๆ: Phi3-mini, Phi3-small, Phi3-medium เป็นโมเดลแบบเปิดที่ทันสมัยและมีน้ำหนักเบาซึ่งฝึกฝนโดยใช้ชุดข้อมูล Phi-3 ชุดข้อมูลนี้มีทั้งข้อมูลสังเคราะห์และข้อมูลเว็บไซต์ที่เปิดเผยต่อสาธารณะ โดยเน้นที่คุณสมบัติคุณภาพสูงและมีเหตุผลหนาแน่น โมเดล Phi-3 เป็นโมเดลภาษาขนาดเล็ก (SLM) ที่มีความสามารถและคุ้มค่าที่สุดที่มีอยู่ | บล็อกกอดใบหน้า |
OpenELM | แอปเปิล | 270M 450M 1.1B 3B | OpenELM ซึ่งเป็นกลุ่มโมเดลภาษาโอเพ่นซอร์สที่มีประสิทธิภาพ OpenELM ใช้กลยุทธ์การปรับขนาดแบบเลเยอร์เพื่อจัดสรรพารามิเตอร์ภายในแต่ละเลเยอร์ของโมเดลหม้อแปลงอย่างมีประสิทธิภาพ ซึ่งนำไปสู่ความแม่นยำที่เพิ่มขึ้น ได้รับการฝึกอบรมบน RefinedWeb, ขจัดข้อมูลซ้ำซ้อน PILE, ชุดย่อยของ RedPajama และชุดย่อยของ Dolma v1.6 รวมมูลค่าประมาณ 1.8 ล้านล้านโทเค็น เปิดตัวทั้งรุ่นฝึกล่วงหน้าและรุ่นปรับคำสั่งพร้อมพารามิเตอร์ 270M, 450M, 1.1B และ 3B | HuggingFace OpenELM HuggingFace OpenELM- คำสั่ง |
Deepseek V2 (MoE) | แสวงหาอย่างลึกซึ้ง | 236B แอคทีฟ 21B | DeepSeek-V2 คือโมเดลภาษาแบบ Mixture-of-Experts (MoE) ที่แข็งแกร่ง โดดเด่นด้วยการฝึกอบรมที่ประหยัดและการอนุมานที่มีประสิทธิภาพ ประกอบด้วยพารามิเตอร์ทั้งหมด 236B โดยที่ 21B ถูกเปิดใช้งานสำหรับแต่ละโทเค็น เมื่อเทียบกับ DeepSeek 67B แล้ว DeepSeek-V2 มีประสิทธิภาพที่ดีกว่า และในขณะเดียวกันก็ประหยัดได้ถึง 42.5% | Github กอดใบหน้า |
มิกซ์ทรัล 8x22B (MoE) | มิสทรัล เอไอ | 176B แอคทีฟ 40B | Mixtral-8x22B Large Language Model (LLM) เป็นการผสมผสานแบบเบาบางของผู้เชี่ยวชาญที่ผ่านการฝึกอบรมมาแล้ว มีความยาวเชื่อมต่อ 65,000 โทเค็น | บล็อกกอดใบหน้า |
คำสั่ง-R+ | เชื่อมโยงกัน | 104B | C4AI Command R+ คือการเปิดตัวการวิจัย Open Weights ของโมเดลพารามิเตอร์ 1.04 แสนล้านล้านรายการที่มีความสามารถขั้นสูง ซึ่งรวมถึงการดึงข้อมูล Augmented Generation (RAG) และการใช้เครื่องมือเพื่อทำให้งานที่ซับซ้อนเป็นอัตโนมัติ Command R+ ได้รับการปรับให้เหมาะสมสำหรับกรณีการใช้งานที่หลากหลาย รวมถึงการให้เหตุผล การสรุป และการตอบคำถาม | กอดหน้า |
จัมบะ (MoE) | ห้องปฏิบัติการ AI21 | 52B แอคทีฟ 12B | Jamba คือ SSM-Transformer LLM แบบไฮบริดที่ล้ำสมัย โดยให้ปริมาณงานที่เพิ่มขึ้นมากกว่ารุ่นที่ใช้ Transformer แบบดั้งเดิม เป็นโมเดลข้อความที่สร้างโดยผู้เชี่ยวชาญแบบผสมผสาน (MoE) ที่ผ่านการฝึกอบรมมาแล้ว โดยมีพารามิเตอร์ที่ใช้งานอยู่ 12B และพารามิเตอร์ทั้งหมด 52B สำหรับผู้เชี่ยวชาญทั้งหมด รองรับความยาวบริบท 256K และสามารถรองรับโทเค็นได้สูงสุด 140K บน GPU ขนาด 80GB ตัวเดียว | บล็อกกอดใบหน้า |
DBRX (โมอี) | ดาต้าบริคส์ | 132B แอคทีฟ 36B | DBRX คือโมเดลภาษาขนาดใหญ่ (LLM) ที่ใช้ตัวถอดรหัสแบบ Transformer เท่านั้น ซึ่งได้รับการฝึกฝนโดยใช้การทำนายโทเค็นถัดไป ใช้สถาปัตยกรรมแบบผสมผสานของผู้เชี่ยวชาญ (MoE) ที่ละเอียด โดยมีพารามิเตอร์รวม 132B โดยที่พารามิเตอร์ 36B ทำงานบนอินพุตใดๆ ได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับโทเค็น 12T ของข้อความและข้อมูลโค้ด เมื่อเปรียบเทียบกับ MoE รุ่นเปิดอื่นๆ เช่น Mixtral-8x7B และ Grok-1 แล้ว DBRX มีความละเอียดรอบคอบ ซึ่งหมายความว่าจะใช้ผู้เชี่ยวชาญที่มีขนาดเล็กกว่าจำนวนมาก DBRX มีผู้เชี่ยวชาญ 16 คน และเลือก 4 คน ในขณะที่ Mixtral-8x7B และ Grok-1 มีผู้เชี่ยวชาญ 8 คน และเลือก 2 คน ซึ่งให้การผสมผสานของผู้เชี่ยวชาญที่เป็นไปได้มากขึ้น 65 เท่า ซึ่งช่วยปรับปรุงคุณภาพของโมเดล | บล็อก HuggingFace Github |
โกรก 1.0 (MoE) | xAI | 314B | Grok 1.0 ใช้ผู้เชี่ยวชาญ 8 คน (MoE) Grok 1.0 ไม่ได้รับการปรับแต่งอย่างละเอียดสำหรับแอปพลิเคชันเฉพาะ เช่น บทสนทนา แต่แสดงประสิทธิภาพที่ยอดเยี่ยมเมื่อเทียบกับรุ่นอื่นๆ เช่น GPT-3.5 และ Llama 2 โดยมีขนาดใหญ่กว่า GPT-3/3.5 | Github กอดใบหน้า |
เจมม่า | Google | 2B 7B | Gemma คือกลุ่มผลิตภัณฑ์โมเดลแบบเปิดที่มีน้ำหนักเบาและล้ำสมัยจาก Google ซึ่งสร้างขึ้นจากการวิจัยและเทคโนโลยีแบบเดียวกับที่ใช้ในการสร้างโมเดล Gemini เป็นโมเดลภาษาขนาดใหญ่จากข้อความเป็นข้อความที่ใช้ตัวถอดรหัสเท่านั้น มีให้เป็นภาษาอังกฤษ โดยมีน้ำหนักแบบเปิด รูปแบบที่ได้รับการฝึกอบรมล่วงหน้า และรูปแบบที่ได้รับการปรับแต่งคำแนะนำ โมเดล Gemma เหมาะอย่างยิ่งสำหรับงานสร้างข้อความที่หลากหลาย รวมถึงการตอบคำถาม การสรุป และการใช้เหตุผล | บล็อก HuggingFace Kaggle Github |
เจมม่าเกิดซ้ำ | Google | 2B | RecurrentGamma เป็นตระกูลโมเดลภาษาเปิดที่สร้างขึ้นจากสถาปัตยกรรมที่เกิดซ้ำแบบใหม่ เช่นเดียวกับ Gemma โมเดล RecurrentGemma เหมาะอย่างยิ่งสำหรับงานสร้างข้อความที่หลากหลาย รวมถึงการตอบคำถาม การสรุป และการใช้เหตุผล เนื่องจากสถาปัตยกรรมแบบใหม่ RecurrentGemma จึงต้องใช้หน่วยความจำน้อยกว่า Gemma และอนุมานได้เร็วกว่าเมื่อสร้างลำดับที่ยาว | กอดใบหน้า Kaggle |
มิกซ์ทรัล 8x7B (MoE) | มิสทรัล เอไอ | 45B แอคทีฟ 12B | Mixtral-8x7B Large Language Model (LLM) เป็นการผสมผสานแบบเบาบางของผู้เชี่ยวชาญที่ได้รับการฝึกฝนมาก่อน Mixtral-8x7B มีประสิทธิภาพเหนือกว่า Llama 2 70B ในการวัดประสิทธิภาพส่วนใหญ่ | บล็อก HuggingFace Kaggle |
Qwen1.5-MoE (โมอี) | อาลีบาบา | 14.3B แอคทีฟ 2.7B | Qwen1.5-MoE คือโมเดลภาษาที่ใช้ตัวถอดรหัส MoE ที่ใช้หม้อแปลงเท่านั้น ซึ่งได้รับการฝึกอบรมล่วงหน้ากับข้อมูลจำนวนมาก ใช้สถาปัตยกรรม Mixture of Experts (MoE) โดยที่โมเดลต่างๆ ได้รับการอัปไซเคิลจากโมเดลภาษาหนาแน่น มีพารามิเตอร์ทั้งหมด 14.3B และพารามิเตอร์ที่เปิดใช้งาน 2.7B ในระหว่างรันไทม์ ขณะเดียวกันก็มีประสิทธิภาพเทียบเท่ากับ Qwen1.5-7B แต่ใช้ทรัพยากรการฝึกอบรมเพียง 25% เท่านั้น | กอดใบหน้า |
มิสทรัล 7B v2 | มิสทรัล เอไอ | 7B | Mistral 7B v2 มีการเปลี่ยนแปลงดังต่อไปนี้เมื่อเปรียบเทียบกับ Mistral 7B:- หน้าต่างบริบท 32k (เทียบกับบริบท 8k ใน v0.1), Rope-theta = 1e6, ไม่มีหน้าต่างบานเลื่อนสนใจ | Github กอดใบหน้า |
มิสทรัล 7B | มิสทรัล เอไอ | 7B | Mistral-7B-v0.1 Large Language Model (LLM) เป็นโมเดลข้อความที่สร้างขึ้นล่วงหน้าซึ่งมีพารามิเตอร์ 7 พันล้านพารามิเตอร์ Mistral-7B-v0.1 มีประสิทธิภาพเหนือกว่า Llama 2 13B ในการวัดประสิทธิภาพส่วนใหญ่ | บล็อก Github HuggingFace Kaggle |
ลามะ 2 | เมตาเอไอ | 7B 13B 70B | Llama 2 คือคอลเลกชันของโมเดลข้อความที่สร้างไว้ล่วงหน้าและปรับแต่งอย่างละเอียด โดยมีขนาดตั้งแต่ 7 พันล้านถึง 70 พันล้านพารามิเตอร์ มันเป็นโมเดลภาษาแบบถดถอยอัตโนมัติที่ใช้สถาปัตยกรรมหม้อแปลงที่ได้รับการปรับปรุงให้เหมาะสม เวอร์ชันที่ได้รับการปรับแต่งจะใช้การปรับแต่งแบบละเอียดภายใต้การดูแล (SFT) และการเรียนรู้แบบเสริมกำลังพร้อมการตอบสนองของมนุษย์ (RLHF) เพื่อให้สอดคล้องกับความชอบของมนุษย์ในด้านความช่วยเหลือและความปลอดภัย | บล็อก HuggingFace Kaggle Github |
ดอลลี่ v2 | ดาต้าบริคส์ | 3B 7B 12B | Dolly v2 เป็นโมเดลภาษาเชิงสาเหตุที่สร้างขึ้นโดย Databricks ซึ่งได้มาจาก Pythia-12b ของ EleutherAI และปรับแต่งอย่างละเอียดในคลังคำสั่งบันทึก ~15K | การกอดFace Dolly3B การกอดFace Dolly7B การกอดFace Dolly12B Kaggle Github |
คำสั่ง-R | เชื่อมโยงกัน | 35B | Command-R เป็นผลงานการวิจัยเกี่ยวกับโมเดลกำเนิดที่มีประสิทธิภาพสูงด้วยพารามิเตอร์จำนวน 35 พันล้านพารามิเตอร์ Command-R เป็นโมเดลภาษาขนาดใหญ่ที่มีน้ำหนักเปิดซึ่งปรับให้เหมาะกับกรณีการใช้งานที่หลากหลาย รวมถึงการให้เหตุผล การสรุป และการตอบคำถาม Command-R มีความสามารถในการสร้างหลายภาษาที่ได้รับการประเมินใน 10 ภาษา และความสามารถ RAG ที่มีประสิทธิภาพสูง | กอดใบหน้า Kaggle |
คิวเวน1.5 | อาลีบาบา | 0.5B 1.8B 4B 7B 14B 32B 72B | Qwen1.5 คือโมเดลภาษาที่ใช้ตัวถอดรหัสแบบ Transformer เท่านั้น ซึ่งได้รับการฝึกอบรมล่วงหน้ากับข้อมูลจำนวนมาก ขึ้นอยู่กับสถาปัตยกรรม Transformer ที่มีการเปิดใช้งาน SwiGLU, อคติความสนใจ QKV, ความสนใจในการสืบค้นแบบกลุ่ม, การผสมผสานระหว่างความสนใจในหน้าต่างบานเลื่อนและความสนใจอย่างเต็มที่ ฯลฯ | Github กอดใบหน้า |
วิคูน่า เวอร์ชั่น 1.5 | ลิสม์ | 7B 13B | Vicuna v1.5 ได้รับการปรับแต่งอย่างละเอียดจาก Llama 2 พร้อมการปรับแต่งคำแนะนำแบบละเอียดภายใต้การดูแล ข้อมูลการฝึกอบรมมีการสนทนาประมาณ 125,000 บทสนทนาที่รวบรวมจาก ShareGPT.com การใช้งานหลักของ Vicuna คือการวิจัยเกี่ยวกับโมเดลภาษาขนาดใหญ่และแชทบอท | กอดใบหน้า Vicuna7B กอดใบหน้า Vicuna13B |
พี่ 2 | ไมโครซอฟต์ | 2.7B | Phi-2 เป็นหม้อแปลงไฟฟ้าที่มีพารามิเตอร์ 2.7 พันล้านพารามิเตอร์ ได้รับการฝึกอบรมโดยใช้แหล่งข้อมูลเดียวกันกับ Phi-1.5 เสริมด้วยแหล่งข้อมูลใหม่ที่ประกอบด้วยข้อความสังเคราะห์ NLP ต่างๆ และเว็บไซต์ที่ถูกกรอง เมื่อประเมินเทียบกับเกณฑ์มาตรฐานที่ทดสอบสามัญสำนึก ความเข้าใจภาษา และการใช้เหตุผลเชิงตรรกะ Phi-2 แสดงให้เห็นประสิทธิภาพที่เกือบจะล้ำสมัยในบรรดาโมเดลที่มีพารามิเตอร์น้อยกว่า 13 พันล้าน | บล็อก HuggingFace Kaggle |
ออร์ก้า 2 | ไมโครซอฟต์ | 7B 13B | Orca 2 สร้างขึ้นเพื่อวัตถุประสงค์ในการวิจัยเท่านั้น และให้การตอบสนองแบบเทิร์นเดียวในงานต่างๆ เช่น การให้เหตุผลกับข้อมูลที่ผู้ใช้ให้มา ความเข้าใจในการอ่าน การแก้ปัญหาทางคณิตศาสตร์ และการสรุปข้อความ แบบจำลองนี้ได้รับการออกแบบมาให้มีความเป็นเลิศโดยเฉพาะในด้านการใช้เหตุผล โมเดลนี้ไม่ได้รับการปรับให้เหมาะสมสำหรับการแชท และไม่ได้รับการฝึกอบรมกับ RLHF หรือ DPO | บล็อกกอดใบหน้า |
สม็อก | ลูกคิด เอไอ | 34B 72B | Smaug ถูกสร้างขึ้นโดยใช้เทคนิคการปรับแต่งใหม่ DPO-Positive (DPOP) และเวอร์ชันการตั้งค่าแบบคู่ใหม่ของ ARC, HellaSwag และ MetaMath (รวมถึงชุดข้อมูลอื่นๆ ที่มีอยู่) | กอดใบหน้า |
MPT | โมเสกมล | 1B 7B 30B | MPT เป็นหม้อแปลงรูปแบบตัวถอดรหัสที่ได้รับการฝึกอบรมตั้งแต่เริ่มต้นบนโทเค็น 1T ของข้อความและรหัสภาษาอังกฤษ โมเดลเหล่านี้ใช้สถาปัตยกรรมหม้อแปลงที่ได้รับการปรับเปลี่ยนซึ่งปรับให้เหมาะสมเพื่อการฝึกอบรมและการอนุมานที่มีประสิทธิภาพ การเปลี่ยนแปลงทางสถาปัตยกรรมเหล่านี้รวมถึงการใช้งานเลเยอร์ที่ปรับให้เหมาะสมประสิทธิภาพและการกำจัดการจำกัดความยาวบริบทโดยการแทนที่การฝังตำแหน่งด้วย Attention with Linear Biases (ALiBi) | กอดใบหน้า Kaggle Github |
เหยี่ยว | ทีแอลแอล | 7B 40B 180B | Falcon เป็นโมเดลเฉพาะตัวถอดรหัสเชิงสาเหตุพารามิเตอร์ 7B/40B/180B ที่สร้างโดย TII และฝึกฝนบนโทเค็น 1,000B/1,500B/3,500B ของ RefinedWeb ที่ได้รับการปรับปรุงด้วยคลังข้อมูลที่ได้รับการดูแลจัดการ | กอดใบหน้า |
ยาล์ม | ยานเดกซ์ | 100B | YaLM 100B เป็นโครงข่ายประสาทเทียมที่มีลักษณะคล้าย GPT สำหรับการสร้างและประมวลผลข้อความ ได้รับการฝึกฝนบนคลัสเตอร์กราฟิกการ์ด A100 จำนวน 800 ตัวในระยะเวลา 65 วัน มันถูกออกแบบมาสำหรับการสร้างและการประมวลผลข้อความ | Github กอดใบหน้า |
เดซิแอลเอ็ม | เดซิเอไอ | 6B 7B | DeciLM เป็นรูปแบบการสร้างข้อความแบบถอดรหัสเท่านั้น ด้วยการรองรับความยาวลำดับโทเค็น 8K โมเดลประสิทธิภาพสูงนี้ใช้ตัวแปร Grouped-Query Attention (GQA) เพื่อให้เกิดความสมดุลที่เหนือกว่าระหว่างความแม่นยำและประสิทธิภาพในการคำนวณ | กอดใบหน้า |
เบิร์ต | Google | 110 ม. ถึง 350 ม | BERT เป็นโมเดลหม้อแปลงที่ได้รับการฝึกอบรมเกี่ยวกับคลังข้อมูลภาษาอังกฤษขนาดใหญ่ในลักษณะที่มีการดูแลตนเอง ซึ่งหมายความว่าได้รับการฝึกอบรมล่วงหน้ากับข้อความดิบเท่านั้น โดยไม่มีมนุษย์ติดป้ายข้อความด้วยกระบวนการอัตโนมัติเพื่อสร้างอินพุตและป้ายกำกับจากข้อความเหล่านั้นไม่ว่าด้วยวิธีใดก็ตาม | กอดใบหน้า Kaggle GitHub |
โอลโม | อัลเลนเอไอ | 1B 7B | OLMo คือชุดของ Open Language Models ที่ออกแบบมาเพื่อรองรับวิทยาศาสตร์ของโมเดลภาษา โมเดล OLMo ได้รับการฝึกบนชุดข้อมูล Dolma | Github กอดใบหน้า |
โอเพ่นแชท3.5 | โอเพนแชท | 7B | Openchat2.5 เป็น 7B LLM ที่มีประสิทธิภาพดีที่สุด | Github กอดใบหน้า |
บลูม | บิ๊กไซแอนซ์ | 176B | BLOOM คือโมเดลภาษาขนาดใหญ่แบบถอยอัตโนมัติ (LLM) ซึ่งได้รับการฝึกฝนให้ดำเนินการต่อข้อความจากพรอมต์บนข้อมูลข้อความจำนวนมหาศาลโดยใช้ทรัพยากรการคำนวณระดับอุตสาหกรรม | กอดใบหน้า |
เฮอร์มีส 2 โปร มิสทรัล | การวิจัยใหม่ | 7B | Hermes 2 Pro บน Mistral 7B คือ 7B Hermes ซึ่งเป็นเรือธงใหม่ Hermes 2 Pro เป็นเวอร์ชันอัปเกรดที่ได้รับการฝึกอบรมใหม่ของ Nous Hermes 2 ซึ่งประกอบด้วยชุดข้อมูล OpenHermes 2.5 เวอร์ชันอัปเดตและล้างข้อมูลแล้ว รวมถึงชุดข้อมูล Function Calling และ JSON Mode ที่เพิ่งเปิดตัวใหม่ที่พัฒนาขึ้นภายในบริษัท Hermes เวอร์ชันใหม่นี้ยังคงรักษางานทั่วไปและความสามารถในการสนทนาที่ยอดเยี่ยม แต่ยังเก่งในเรื่องการเรียกใช้ฟังก์ชัน JSON Structured Outputs อีกด้วย | กอดใบหน้า |
Hermes 2 Mixtral 7x8B (MoE) | การวิจัยใหม่ | แอคทีฟ 12B | Nous Hermes 2 Mixtral 8x7B DPO เป็นโมเดลเรือธง Nous Research รุ่นใหม่ที่ได้รับการฝึกอบรมเหนือ Mixtral 8x7B MoE LLM โมเดลดังกล่าวได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่สร้างโดย GPT-4 เป็นหลักมากกว่า 1,000,000 รายการ รวมถึงข้อมูลคุณภาพสูงอื่นๆ จากชุดข้อมูลแบบเปิดทั่วภูมิทัศน์ของ AI ส่งผลให้ได้รับประสิทธิภาพที่ล้ำสมัยในงานต่างๆ ที่หลากหลาย นี่คือ Mixtral Hermes 2 เวอร์ชัน SFT + DPO | กอดใบหน้า |
เมอร์ลิไนต์ | ไอบีเอ็ม | 7B | Merlinite-7b เป็นแบบจำลองอนุพันธ์ Mistral-7b ที่ได้รับการฝึกอบรมด้วยวิธี LAB โดยใช้ Mixtral-8x7b-Instruct เป็นแบบจำลองสำหรับผู้สอน | กอดใบหน้า |
ลาบราโดไรต์ | ไอบีเอ็ม | 13B | Labradorite-13b เป็นแบบจำลองอนุพันธ์ LLaMA-2-13b ที่ได้รับการฝึกอบรมด้วยวิธี LAB โดยใช้ Mixtral-8x7b-Instruct เป็นแบบจำลองสำหรับผู้สอน | กอดใบหน้า |
เอ็กซ์เจน | พนักงานขาย | 7B | Xgen เป็นโมเดลภาษาขนาดใหญ่ที่มีความยาวบริบท 8K, 4K และได้รับการปรับให้เหมาะสมสำหรับงานที่มีลำดับยาว | Github กอดใบหน้า |
พลังงานแสงอาทิตย์ | หลังฉาก | 10.7B | SOLAR-10.7B ซึ่งเป็นโมเดลภาษาขนาดใหญ่ (LLM) ขั้นสูงที่มีพารามิเตอร์ 10.7 พันล้านพารามิเตอร์ แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าในงานการประมวลผลภาษาธรรมชาติ (NLP) ต่างๆ มีขนาดกะทัดรัดแต่ทรงพลังอย่างน่าทึ่ง และแสดงให้เห็นถึงประสิทธิภาพที่ล้ำสมัยที่ไม่มีใครเทียบได้ในรุ่นที่มีพารามิเตอร์ต่ำกว่า 30B | กอดใบหน้า |
GPT-นีโอกซ์ | เอลิวเธอร์ เอไอ | 20B | GPT-NeoX-20B คือโมเดลภาษาถอยหลังอัตโนมัติพารามิเตอร์ 2 หมื่นล้านพารามิเตอร์ที่ได้รับการฝึกบน Pile โดยใช้ไลบรารี GPT-NeoX สถาปัตยกรรมของมันมีเจตนาให้มีลักษณะคล้ายกับ GPT-3 และเกือบจะเหมือนกับของ GPT-J-6B | กอดใบหน้า GitHub |
ประหม่า-T5 | Google | 80M ถึง 11B | FLAN-T5 ได้รับการปรับเปลี่ยนในเวอร์ชัน T5 และมีจำนวนพารามิเตอร์เท่ากัน โมเดลเหล่านี้ได้รับการปรับแต่งอย่างละเอียดในงานเพิ่มเติมมากกว่า 1,000 งาน ซึ่งครอบคลุมภาษาต่างๆ มากขึ้นด้วย ขนาดต่างๆ:- flan-t5-small, flan-t5-base, flan-t5-large, flan-t5-xxl | กอดใบหน้า Kaggle |
เลือก | เมตาเอไอ | 125M ถึง 175B | OPT เป็นหม้อแปลงที่ผ่านการฝึกอบรมล่วงหน้าสำหรับตัวถอดรหัสเท่านั้น โดยมีพารามิเตอร์ตั้งแต่ 125M ถึง 175B ส่วนใหญ่ได้รับการฝึกฝนล่วงหน้าด้วยข้อความภาษาอังกฤษ แต่ข้อมูลที่ไม่ใช่ภาษาอังกฤษจำนวนเล็กน้อยยังคงมีอยู่ในคลังข้อมูลการฝึกอบรมผ่าน CommonCrawl | กอดใบหน้า |
LM2 ที่เสถียร | AI ความเสถียร | 1.6B 12B | LM 2 ที่เสถียรคือโมเดลภาษาสำหรับตัวถอดรหัสเท่านั้นที่ได้รับการฝึกอบรมล่วงหน้าบนโทเค็น 2 ล้านล้านโทเค็นของชุดข้อมูลหลายภาษาและโค้ดที่หลากหลายสำหรับสองยุค | กอดใบหน้า |
LM เซเฟอร์ที่เสถียร | AI ความเสถียร | 3B | รุ่น StableLM Zephyr 3B เป็นโมเดลภาษาแบบถดถอยอัตโนมัติโดยอิงตามสถาปัตยกรรมตัวถอดรหัสหม้อแปลงไฟฟ้า StableLM Zephyr 3B คือพารามิเตอร์ 3 พันล้านตัวที่ได้รับการฝึกอบรมเกี่ยวกับการผสมผสานระหว่างชุดข้อมูลที่เปิดเผยต่อสาธารณะและชุดข้อมูลสังเคราะห์โดยใช้ Direct Preference Optimization (DPO) | กอดใบหน้า |
อายะ | เชื่อมโยงกัน | 13B | แบบจำลอง Aya เป็นรูปแบบภาษาที่สร้างได้หลายภาษาแบบอัตโนมัติแบบถดถอยอัตโนมัติซึ่งทำตามคำแนะนำใน 101 ภาษา มีสถาปัตยกรรมเดียวกันกับ mt5-xxl | บล็อก HuggingFace Kaggle |
นีโมตรอน 3 | เอ็นวิเดีย | 8B | Nemotron-3 เป็นโมเดลพื้นฐานภาษาขนาดใหญ่สำหรับองค์กรเพื่อสร้าง LLM แบบกำหนดเอง โมเดลพื้นฐานนี้มีพารามิเตอร์ 8 พันล้านพารามิเตอร์ และรองรับความยาวบริบท 4,096 โทเค็น Nemotron-3 คือกลุ่มโมเดลข้อความที่สร้างขึ้นสำหรับองค์กรที่เข้ากันได้กับ NVIDIA NeMo Framework | กอดใบหน้า |
แชทประสาท v3 | อินเทล | 7B | Neural Chat เป็น LLM พารามิเตอร์ 7B ที่ได้รับการปรับแต่งอย่างละเอียดบนโปรเซสเซอร์ Intel Gaudi 2 จาก missralai/Mistral-7B-v0.1 บนชุดข้อมูลโอเพ่นซอร์ส Open-Orca/SlimOrca โมเดลได้รับการจัดตำแหน่งโดยใช้วิธี Direct Performance Optimization (DPO) | กอดใบหน้า |
ยี | 01 เอไอ | 6B 9B 34B | โมเดลซีรีส์ Yi เป็นโมเดลภาษาโอเพ่นซอร์สขนาดใหญ่รุ่นต่อไป พวกเขามีเป้าหมายเป็นแบบจำลองภาษาสองภาษาและได้รับการฝึกอบรมเกี่ยวกับคลังข้อมูลหลายภาษาของ 3T ซึ่งแสดงให้เห็นถึงศักยภาพในการทำความเข้าใจภาษา การใช้เหตุผลทั่วไป ความเข้าใจในการอ่าน และอื่นๆ | Github กอดใบหน้า |
สตาร์ลิ่ง แอล.เอ็ม | เน็กซัสโฟลว์ | 7B | Starling LM ซึ่งเป็นโมเดลภาษาขนาดใหญ่แบบเปิด (LLM) ที่ได้รับการฝึกอบรมโดย Reinforcement Learning จาก AI Feedback (RLAIF) Starling LM ได้รับการฝึกอบรมจาก Openchat-3.5-0106 ด้วยโมเดลรางวัลใหม่ของเรา Starling-RM-34B และวิธีการเพิ่มประสิทธิภาพนโยบาย การปรับแต่งโมเดลภาษาอย่างละเอียดจาก Human Preferences (PPO) | กอดใบหน้า |
เน็กซัสเรเวน v2 | เน็กซัสโฟลว์ | 13B | NexusRaven เป็นฟังก์ชันโอเพ่นซอร์สและใช้งานได้ในเชิงพาณิชย์ที่เรียกว่า LLM ซึ่งเหนือกว่าความสามารถในการเรียกใช้ฟังก์ชันที่ล้ำสมัย NexusRaven-V2 สามารถสร้างการเรียกใช้ฟังก์ชันที่ซ้อนกันลึก การเรียกใช้ฟังก์ชันแบบขนาน และการเรียกเดี่ยวแบบง่ายๆ นอกจากนี้ยังสามารถปรับการเรียกใช้ฟังก์ชันที่สร้างขึ้นได้อีกด้วย | กอดใบหน้า |
DeepSeek LLM | AI เชิงลึก | 7B 67B | DeepSeek LLM เป็นโมเดลภาษาขั้นสูง ได้รับการฝึกฝนตั้งแต่เริ่มต้นบนชุดข้อมูลจำนวน 2 ล้านล้านโทเค็นทั้งภาษาอังกฤษและภาษาจีน | Github กอดใบหน้า |
Deepseek VL (ต่อเนื่องหลายรูปแบบ) | AI เชิงลึก | 1.3B 7B | DeepSeek-VL ซึ่งเป็นโมเดล Vision-Language (VL) แบบโอเพ่นซอร์สที่ออกแบบมาสำหรับแอปพลิเคชันการทำความเข้าใจภาษาและการมองเห็นในโลกแห่งความเป็นจริง DeepSeek-VL มีความสามารถในการทำความเข้าใจหลายรูปแบบทั่วไป สามารถประมวลผลไดอะแกรมเชิงตรรกะ เว็บเพจ การจดจำสูตร เอกสารทางวิทยาศาสตร์ รูปภาพธรรมชาติ และความอัจฉริยะที่รวบรวมไว้ในสถานการณ์ที่ซับซ้อน เป็นเครื่องเข้ารหัสการมองเห็นแบบไฮบริดที่รองรับอินพุตภาพ 1024 x 1024 และสร้างขึ้นจากฐาน DeepSeek-7b ซึ่งได้รับการฝึกฝนบนคลังข้อมูลโดยประมาณของโทเค็นข้อความ 2T | Github กอดใบหน้า |
Llava 1.6 (ต่อเนื่องหลายรูปแบบ) | ลาวา HF | 7B 13B 34B | LLaVa ผสมผสานโมเดลภาษาขนาดใหญ่ที่ได้รับการฝึกอบรมล่วงหน้าเข้ากับตัวเข้ารหัสการมองเห็นที่ได้รับการฝึกอบรมมาแล้วสำหรับกรณีการใช้งานแชทบอทหลายรูปแบบ รุ่นที่มีจำหน่าย:- Llava-v1.6-34b-hf, Llava-v1.6-Mistral-7b-hf, Llava-v1.6-Vicuna-7b-hf, Llava-v1.6-vicuna-13b-hf | กอดหน้า กอดใบหน้า |
Yi VL (ต่อเนื่องหลายรูปแบบ) | 01 เอไอ | 6B 34B | โมเดล Yi-VL เป็นซีรีส์ Yi Large Language Model (LLM) แบบโอเพ่นซอร์สหลายรูปแบบ ช่วยให้สามารถเข้าใจเนื้อหา การจดจำ และการสนทนาหลายรอบเกี่ยวกับรูปภาพได้ | กอดใบหน้า YiVL6B กอดใบหน้า YiVL34B |