วันนี้ Dark Side of the Moon Company ได้เปิดตัวโมเดลการคิดด้วยภาพ k1 ซึ่งใช้เทคโนโลยีการเรียนรู้แบบเสริมกำลัง และได้สร้างความก้าวหน้าครั้งสำคัญในการทำความเข้าใจและการใช้เหตุผลจากภาพ โมเดล k1 ไม่เพียงแต่รองรับการทำความเข้าใจรูปภาพแบบ end-to-end เท่านั้น แต่ยังผสานรวมเทคโนโลยีห่วงโซ่การคิด ขยายขอบเขตการใช้งานไปยังสาขาวิทยาศาสตร์พื้นฐาน เช่น ฟิสิกส์และเคมี และเหนือกว่าโมเดลชั้นนำของโลกในการทดสอบเกณฑ์มาตรฐานหลายรายการ นวัตกรรมอยู่ที่การบูรณาการความเข้าใจภาพและความสามารถในการคิด ผู้ใช้สามารถป้อนข้อมูลภาพได้โดยตรงและรับคำตอบโดยไม่ต้องใช้เครื่องมือภายนอก ซึ่งช่วยปรับปรุงประสิทธิภาพการโต้ตอบและประสบการณ์ผู้ใช้ได้อย่างมาก
วันนี้ Dark Side of the Moon ได้ประกาศเปิดตัวโมเดลการคิดด้วยภาพ k1 ใหม่ แบบจำลองนี้ใช้เทคโนโลยีการเรียนรู้แบบเสริมกำลัง ซึ่งไม่เพียงแต่สนับสนุนการทำความเข้าใจภาพแบบ end-to-end เท่านั้น แต่ยังผสานรวมเทคโนโลยีห่วงโซ่การคิด ซึ่งขยายขีดความสามารถไปยังสาขาวิทยาศาสตร์พื้นฐานเพิ่มเติม นอกเหนือจากคณิตศาสตร์ รวมถึงฟิสิกส์และเคมี ในการทดสอบความสามารถด้านเกณฑ์มาตรฐาน โมเดล k1 มีประสิทธิภาพเหนือกว่าโมเดลเกณฑ์มาตรฐานชั้นนำของโลก เช่น o1, GPT-4o และ Claude3.5Sonnet ของ OpenAI
โมเดลรุ่นใหม่ช่วยกระตุ้นการสร้างขั้นตอนการให้เหตุผลที่มีรายละเอียดมากขึ้นเพื่อสร้างห่วงโซ่การคิดคุณภาพสูง ซึ่งช่วยเพิ่มอัตราความสำเร็จในการแก้ปัญหาที่ซับซ้อนได้อย่างมาก การบูรณาการโมเดล k1 ของ Kimi เข้ากับความสามารถในการทำความเข้าใจและการคิดเกี่ยวกับภาพ ทำให้ผู้ใช้ได้รับประสบการณ์การโต้ตอบที่ราบรื่นยิ่งขึ้น โดยสามารถประมวลผลข้อมูลภาพที่ป้อนเข้าโดยผู้ใช้ได้โดยตรง และรับคำตอบโดยไม่ต้องใช้ OCR ภายนอกหรือโมเดลภาพเพิ่มเติม
การฝึกโมเดล k1 แบ่งออกเป็นสองขั้นตอน ขั้นแรก โมเดลพื้นฐานจะได้มาจากการฝึกล่วงหน้า และจากนั้น การฝึกหลังการฝึกผ่านการเรียนรู้แบบเสริมกำลังจะดำเนินการบนพื้นฐานนี้ โมเดลพื้นฐานได้รับคะแนนดีเยี่ยมถึง 903 บน OCRBench และดำเนินการได้อย่างโดดเด่นในเกณฑ์มาตรฐาน MathVista-testmini, MMMU-val และ DocVQA การฝึกอบรมการเรียนรู้หลังเสริมกำลังได้รับการปรับให้เหมาะสมในแง่ของคุณภาพข้อมูลและประสิทธิภาพการเรียนรู้ ทำให้เกิดความก้าวหน้าครั้งใหม่ในระดับขนาด
นอกจากนี้ Kimi ยังได้จัดทำชุดทดสอบที่ได้มาตรฐานอย่าง Science Vista ซึ่งครอบคลุมคำถามเกี่ยวกับภาพทางคณิตศาสตร์ ฟิสิกส์ และเคมีที่มีความยากต่างกันออกไป และจะเปิดให้ทั่วทั้งอุตสาหกรรม แม้ว่ารุ่น k1 ได้แสดงข้อจำกัดบางประการในการทดสอบภายใน เช่น พื้นที่สำหรับการปรับปรุงลักษณะทั่วไปที่ไม่กระจายและอัตราความสำเร็จในปัญหาที่ซับซ้อน แต่ประสิทธิภาพในฉากที่มีสัญญาณรบกวนทางสายตานั้นดีกว่ารุ่นอื่นๆ ซึ่งแสดงให้เห็นถึงความสามารถในการจดจำภาพที่แข็งแกร่งเป็นพิเศษ
โมเดลการคิดด้วยภาพ k1 ของผู้ช่วยอัจฉริยะ Kimi ไม่เพียงแต่ทำงานได้ดีในสาขาคณิตศาสตร์ แต่ยังขยายไปสู่สาขาฟิสิกส์และเคมีอีกด้วย ซึ่งแสดงให้เห็นถึงความสามารถทางวิทยาศาสตร์ขั้นพื้นฐานที่หลากหลาย นอกจากนี้ แบบจำลอง k1 ยังแสดงให้เห็นถึงความสามารถทั่วไปในการอธิบายและให้เหตุผลเกี่ยวกับปัญหาที่ไม่ใช่คณิตศาสตร์ เช่น เนื้อหาและเรื่องราวเบื้องหลังของต้นฉบับของนักวิทยาศาสตร์
Kimi Smart Assistant ตั้งตารอที่จะสำรวจโลกที่ใหญ่ขึ้นกับผู้ใช้ k1 รุ่นใหม่เปิดตัวแล้ว ผู้ใช้สามารถสัมผัสประสบการณ์คุณสมบัติใหม่นี้ผ่านแอพมือถือ Kimi Smart Assistant เวอร์ชันล่าสุดหรือเวอร์ชันเว็บ
รุ่น k1 ของ Kimi ทำงานได้ดีในการทดสอบเกณฑ์มาตรฐานหลายครั้ง ซึ่งแสดงให้เห็นถึงความสามารถในการคิดด้วยภาพที่แข็งแกร่งและโอกาสในการนำไปใช้ในวงกว้าง แม้ว่าจะยังมีบางประเด็นที่ต้องปรับปรุง แต่ความก้าวหน้าในการจดจำภาพและการตอบคำถามทางวิทยาศาสตร์จะนำแรงผลักดันการพัฒนาใหม่มาสู่สาขาปัญญาประดิษฐ์อย่างไม่ต้องสงสัย ผู้ใช้สามารถสัมผัสประสบการณ์การโต้ตอบแบบใหม่ที่มาจากรุ่น k1!