Tongyi Qianwen แบบจำลองทางคณิตศาสตร์ Qwen2 Math Demo เปิดตัวแล้ว รุ่น 72B เหนือกว่า GPT-4

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-22 14:16:01

ทีม Alibaba Tongyi Qianwen ได้เปิดตัวแบบจำลองทางคณิตศาสตร์ Qwen2-Math ที่น่าทึ่ง โดยมีประสิทธิภาพเหนือกว่า GPT-4 ในการทดสอบเกณฑ์มาตรฐานหลายรายการ และยังเหนือกว่าเวอร์ชันพารามิเตอร์ 72B ของโมเดลโอเพ่นซอร์ส NuminaMath ในเวอร์ชันพารามิเตอร์ 7B โมเดลนี้ไม่เพียงแต่สามารถจัดการกับปัญหาทางคณิตศาสตร์ที่ป้อนด้วยข้อความเท่านั้น แต่ยังจดจำสูตรในรูปภาพและภาพหน้าจอได้อีกด้วย ทำให้เป็นเครื่องมือเสริมที่มีประสิทธิภาพสำหรับการเรียนรู้คณิตศาสตร์ รุ่นต่างๆ (72B, 7B และ 1.5B) มีตัวเลือกสำหรับความต้องการที่แตกต่างกัน ซึ่งแสดงถึงประสิทธิภาพที่แข็งแกร่งและความสามารถในการปรับเปลี่ยนได้

ทีม Tongyi Qianwen ของอาลีบาบาได้ประกาศข่าวใหญ่อีกครั้ง พวกเขาเพิ่งเปิดตัว Qwen2Math Demo แบบจำลองทางคณิตศาสตร์นี้เป็นเพียงสัตว์ประหลาดตัวน้อย แม้แต่ GPT-4 ก็ถูกเหยียบย่ำอยู่ใต้เท้าของมัน

โมเดลนี้ไม่เพียงแต่สามารถจัดการกับปัญหาทางคณิตศาสตร์ของการป้อนข้อความเท่านั้น แต่ยังเข้าใจสูตรในรูปภาพและภาพหน้าจออีกด้วย ลองนึกภาพว่าคุณถ่ายรูปการคำนวณแล้วมันสามารถให้คำตอบกับคุณได้ มันเป็นเพียงเครื่องมือในการแก้ปัญหาในชั้นเรียนคณิตศาสตร์ (แน่นอนว่าเราไม่สนับสนุนการโกง)

Qwen2-Math เปิดตัวในสามเวอร์ชัน: 72B, 7B และ 1.5B ในบรรดาเวอร์ชัน 72B เป็นเพียงอัจฉริยะทางคณิตศาสตร์ โดยได้คะแนนมากกว่า GPT-4 ในชุดข้อมูล MATH ถึง 7 คะแนน ซึ่งเพิ่มขึ้น 9.6% นี่เหมือนกับว่าคุณได้คะแนน 145 คะแนนในการทดสอบคณิตศาสตร์เพื่อสอบเข้าวิทยาลัย แต่นักเรียนอันดับต้นๆ ที่อยู่ถัดจากคุณทำได้เพียง 132 คะแนนเท่านั้น

สิ่งที่น่าทึ่งยิ่งกว่านั้นคือเวอร์ชัน 7B ใช้พารามิเตอร์น้อยกว่าหนึ่งในสิบของพารามิเตอร์ ซึ่งเหนือกว่าแบบจำลองทางคณิตศาสตร์โอเพ่นซอร์ส 72B NuminaMath คุณรู้ไหมว่า NuminaMath เป็นโมเดลที่ได้รับรางวัลใน AIMO แรกของโลก และรางวัลนี้มอบให้โดย Terence Tao ซึ่งเป็นบุคคลชั้นนำของโลกคณิตศาสตร์

Lin Junyang ผู้เชี่ยวชาญด้านอัลกอริทึมอาวุโสของอาลีบาบา ประกาศอย่างตื่นเต้นว่าพวกเขาเปลี่ยนโมเดล Qwen2 ให้เป็นปรมาจารย์ทางคณิตศาสตร์ พวกเขาทำได้อย่างไร พวกเขาใช้อาหารเสริมสมองทางคณิตศาสตร์ชนิดพิเศษ ซึ่งเป็นคลังข้อมูลทางคณิตศาสตร์ที่ออกแบบมาอย่างระมัดระวัง ผลิตภัณฑ์เสริมอาหารสมองนี้ประกอบด้วยข้อความออนไลน์ หนังสือ รหัส คำถามสอบ และแม้แต่คำถามคณิตศาสตร์ออนไลน์คุณภาพสูงจำนวนมากที่รวบรวมโดยโมเดล Qwen2

ผลลัพธ์คืออะไร ในชุดทดสอบคณิตศาสตร์คลาสสิก เช่น GSM8K และ MATH นั้น Qwen2-Math-72B ทิ้งไว้ข้างหลัง 405B Llama-3.1 ชุดทดสอบเหล่านี้ไม่ใช่เรื่องตลก โดยประกอบด้วยปัญหาทางคณิตศาสตร์ต่างๆ เช่น พีชคณิต เรขาคณิต ความน่าจะเป็น และทฤษฎีจำนวน

ไม่เพียงเท่านั้น Qwen2-Math ยังท้าทายชุดข้อมูลจีน CMATH และคำถามสอบเข้าวิทยาลัยด้วย ในชุดข้อมูลภาษาจีน แม้แต่เวอร์ชัน 1.5B ก็สามารถเอาชนะ 70B Llama3.1 ได้ ยิ่งไปกว่านั้น ไม่ว่าเวอร์ชันไหนก็ตาม เมื่อเปรียบเทียบกับรุ่นพื้นฐาน Qwen2 ในขนาดเดียวกัน ประสิทธิภาพก็ได้รับการปรับปรุงให้ดีขึ้นอย่างเห็นได้ชัด

ดูเหมือนว่าถงอี้เฉียนเหวินถามอัจฉริยะทางคณิตศาสตร์ในครั้งนี้จริง ๆ แล้วเราจะถามมันได้ไหมเมื่อทำโจทย์คณิตศาสตร์ในอนาคต? ทักษะทางคณิตศาสตร์ของคุณ!

ที่อยู่ประสบการณ์ออนไลน์: https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo

การเกิดขึ้นของ Qwen2-Math ถือเป็นความก้าวหน้าครั้งสำคัญในแบบจำลองภาษาขนาดใหญ่ในสาขาคณิตศาสตร์ แม้ว่ามันจะเป็นเครื่องมือที่ทรงพลัง แต่การพัฒนาความสามารถทางคณิตศาสตร์ของคุณเองเป็นสิ่งสำคัญมากกว่า และอย่าพึ่งพาเครื่องมือและเพิกเฉยต่อกระบวนการเรียนรู้ เราหวังว่า Qwen2-Math จะสามารถมีบทบาทในสาขาต่างๆ ได้มากขึ้นในอนาคต ซึ่งจะนำความสะดวกสบายมาสู่การเรียนรู้และการวิจัยทางวิทยาศาสตร์มากขึ้น