DeepSeek เปิดตัวโมเดลการอนุมานรุ่นแรก R1-Lite-Preview ซึ่งมีประสิทธิภาพเหนือกว่า OpenAI o1 - บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-01-26 02:00:01

DeepSeek บริษัทในเครือของ Huifang Quantitative ยักษ์ใหญ่ด้านการลงทุนเชิงปริมาณของจีน ได้เปิดตัวโมเดลภาษาขนาดใหญ่ล่าสุด R1-Lite-Preview ซึ่งขณะนี้โมเดลนี้เปิดให้บุคคลทั่วไปเข้าชมผ่านแพลตฟอร์มแชทบอทบนเว็บ DeepSeek Chat เท่านั้น R1-Lite-Preview ใช้การใช้เหตุผลแบบ "การคิดแบบลูกโซ่" ซึ่งสามารถแสดงกระบวนการคิดที่ต้องดำเนินการเมื่อตอบคำถามของผู้ใช้ แม้ว่าการคิดแบบลูกโซ่บางอย่างจะดูไร้สาระ แต่ความแม่นยำในการตอบโดยรวมนั้นสูงมาก และยังสามารถแก้ปัญหาแบบเดิม ๆ ได้อีกด้วย ปัญหาที่ยากสำหรับโมเดล AI อันทรงพลังที่จะจัดการ โมเดลดังกล่าวเหนือกว่าโมเดลตัวอย่าง o1 ที่เพิ่งเปิดตัวของ OpenAI ในการทดสอบเกณฑ์มาตรฐานหลายรายการ และประสิทธิภาพของโมเดลก็ยอดเยี่ยมในงานที่ต้องใช้เหตุผลเชิงตรรกะ การคิดทางคณิตศาสตร์ และการแก้ปัญหาแบบเรียลไทม์

DeepSeek เป็นที่รู้จักในด้านการมีส่วนร่วมเชิงนวัตกรรมต่อระบบนิเวศ AI แบบโอเพ่นซอร์ส และการเปิดตัวใหม่นี้มีจุดมุ่งหมายเพื่อนำความสามารถในการอนุมานระดับสูงมาสู่สาธารณะ ขณะเดียวกันก็รักษาความมุ่งมั่นในการเข้าถึงและความโปร่งใส แม้ว่าปัจจุบัน R1-Lite-Preview จะใช้งานได้เฉพาะในแอปพลิเคชันแชทเท่านั้น แต่ก็ได้รับความสนใจอย่างมากด้วยประสิทธิภาพที่ใกล้เคียงหรือเกินกว่าโมเดล o1-preview ที่เพิ่งเปิดตัวของ OpenAI R1-Lite-Preview ใช้การให้เหตุผลแบบ "การคิดแบบลูกโซ่" ซึ่งสามารถแสดงกระบวนการคิดต่างๆ ที่ต้องเผชิญเมื่อตอบคำถามของผู้ใช้

แม้ว่าห่วงโซ่ความคิดบางอย่างอาจดูไร้สาระหรือผิดสำหรับมนุษย์ แต่โดยรวมแล้ว คำตอบของ R1-Lite-Preview นั้นแม่นยำมากและยังสามารถแก้ไข "กับดัก" ที่พบในโมเดล AI ที่ทรงพลังแบบดั้งเดิมบางรุ่น เช่น GPT-4o และ Claude series "Questions, เช่น คำว่า "สตรอเบอร์รี่" มีกี่ตัว? "อันไหนใหญ่กว่ากัน 9.11 หรือ 9.9"

จากข้อมูลของ DeepSeek โมเดลดังกล่าวมีความเป็นเลิศในงานที่ต้องใช้เหตุผลเชิงตรรกะ การคิดทางคณิตศาสตร์ และการแก้ปัญหาแบบเรียลไทม์ ประสิทธิภาพเกินระดับของ OpenAI o1-พรีวิวบนเกณฑ์มาตรฐานที่กำหนดไว้ เช่น AIME (American Invitational Mathematics Examination) และ MATH

นอกจากนี้ DeepSeek ยังเผยแพร่ข้อมูลเพิ่มเติมสำหรับโมเดล ซึ่งแสดงให้เห็นถึงการปรับปรุงความแม่นยำอย่างต่อเนื่องเมื่อโมเดลมีเวลามากขึ้น หรือ "โทเค็นการคิด" เพื่อแก้ไขปัญหา แผนภูมิเน้นว่าเมื่อความลึกของการคิดเพิ่มขึ้น คะแนนของแบบจำลองในเกณฑ์มาตรฐาน เช่น AIME จะดีขึ้น

R1-Lite-Preview รุ่นปัจจุบันทำงานได้ดีในเกณฑ์มาตรฐานหลัก โดยสามารถจัดการงานต่างๆ ได้ตั้งแต่คณิตศาสตร์ที่ซับซ้อนไปจนถึงสถานการณ์ลอจิก โดยมีคะแนนเทียบได้กับโมเดลการอนุมานชั้นนำ เช่น GPQA และ Codeforces กระบวนการให้เหตุผลอย่างโปร่งใสของแบบจำลองทำให้ผู้ใช้สามารถสังเกตขั้นตอนเชิงตรรกะได้แบบเรียลไทม์ ซึ่งช่วยเพิ่มความรู้สึกรับผิดชอบและความน่าเชื่อถือของระบบ

เป็นที่น่าสังเกตว่า DeepSeek ยังไม่ได้เผยแพร่โค้ดที่สมบูรณ์สำหรับการวิเคราะห์หรือการเปรียบเทียบโดยบุคคลที่สาม และไม่ได้จัดเตรียมอินเทอร์เฟซ API สำหรับการทดสอบอิสระ นอกจากนี้ บริษัทยังไม่ได้เผยแพร่บล็อกโพสต์หรือเอกสารทางเทคนิคที่เกี่ยวข้องซึ่งอธิบายการฝึกอบรมหรือการทดสอบ R1 -Lite-Preview โครงสร้างซึ่งทำให้ต้นกำเนิดเบื้องหลังยังคงเต็มไปด้วยความสงสัย

ปัจจุบัน R1-Lite-Preview ให้บริการฟรีผ่าน DeepSeek Chat (chat.deepseek.com) แต่โหมด "ลึก" ขั้นสูงนั้นจำกัดอยู่ที่ 50 ข้อความต่อวัน ทำให้ผู้ใช้สามารถสัมผัสประสบการณ์ความสามารถอันทรงพลังของมันได้ DeepSeek วางแผนที่จะเปิดตัวโมเดลซีรีส์ R1 เวอร์ชันโอเพนซอร์สและ API ที่เกี่ยวข้อง เพื่อรองรับการพัฒนาชุมชน AI แบบโอเพ่นซอร์สเพิ่มเติม

DeepSeek ยังคงขับเคลื่อนนวัตกรรมในพื้นที่ AI แบบโอเพนซอร์ส และการเปิดตัว R1-Lite-Preview จะเพิ่มมิติใหม่ให้กับการอนุมานและความสามารถในการปรับขนาด ในขณะที่ธุรกิจและนักวิจัยสำรวจแอปพลิเคชันสำหรับ AI ที่ใช้การอนุมานเข้มข้น ความมุ่งมั่นของ DeepSeek ในด้านการเปิดกว้างจะทำให้มั่นใจได้ว่าแบบจำลองจะกลายเป็นทรัพยากรสำคัญสำหรับการพัฒนาและนวัตกรรม

ทางเข้าอย่างเป็นทางการ: https://www.deepseek.com/

ไฮไลท์:

DeepSeek เปิดตัวโมเดล R1-Lite-Preview ซึ่งมีประสิทธิภาพใกล้เคียงและเหนือกว่า OpenAI o1

แบบจำลองนี้แสดงกระบวนการให้เหตุผลอย่างโปร่งใส และผู้ใช้สามารถสังเกตขั้นตอนเชิงตรรกะได้แบบเรียลไทม์

มีความสามารถในการเรียนรู้เชิงลึกและการให้เหตุผลเชิงตรรกะที่น่าทึ่ง และเวอร์ชันโอเพ่นซอร์สและ API จะเปิดตัวในอนาคต

โดยรวมแล้ว โมเดล R1-Lite-Preview ที่ออกโดย DeepSeek แสดงให้เห็นถึงข้อได้เปรียบที่สำคัญในความสามารถในการอนุมาน และกระบวนการอนุมานที่โปร่งใสและแผนโอเพ่นซอร์สในอนาคตก็คุ้มค่าที่จะรอคอยเช่นกัน อย่างไรก็ตาม การขาดรหัสสาธารณะและเอกสารทางเทคนิคในปัจจุบันจำกัดการประเมินประสิทธิภาพอย่างครอบคลุม