บรรณาธิการรายงาน Downcodes: ระบบแชทบอทที่เพิ่งเปิดตัวใหม่ของ OpenAI ติดอันดับหนึ่งในการประเมินล่าสุด โดยทำงานได้ดีในแง่ของประสิทธิภาพโดยรวม ความปลอดภัย และความสามารถทางเทคนิค โดยเฉพาะอย่างยิ่งในงาน STEM อย่างไรก็ตาม เป็นที่น่าสังเกตว่าจำนวนการให้คะแนนที่เข้าร่วมในการประเมินนี้ค่อนข้างต่ำ ซึ่งอาจมีผลกระทบบางอย่างต่อผลลัพธ์สุดท้าย และจำเป็นต้องตีความด้วยความระมัดระวัง
ระบบใหม่ของ OpenAI ได้รับผลลัพธ์ที่ยอดเยี่ยมในการประเมินล่าสุด โดยครองตำแหน่งสูงสุดในการจัดอันดับแชทบอท อย่างไรก็ตาม เนื่องจากมีคะแนนน้อย จึงอาจทำให้ผลการประเมินบิดเบือนได้
จากภาพรวมของการเปิดตัว ระบบใหม่นี้ทำงานได้ดีในทุกหมวดการประเมิน รวมถึงประสิทธิภาพโดยรวม ความปลอดภัย และความสามารถทางเทคนิค หนึ่งในระบบที่ออกแบบมาเพื่องาน STEM โดยเฉพาะ ได้รับการจัดอันดับเป็นอันดับสองในช่วงสั้นๆ และเป็นผู้นำในด้านเทคโนโลยี ร่วมกับเวอร์ชัน GPT-4o ที่เปิดตัวเมื่อต้นเดือนกันยายน
Chatbot Arena เป็นแพลตฟอร์มสำหรับเปรียบเทียบระบบต่างๆ ประเมินระบบใหม่โดยใช้คะแนนจากชุมชนมากกว่า 6,000 รายการ ผลลัพธ์แสดงให้เห็นว่าระบบใหม่เหล่านี้ทำงานได้ดีกับงานทางคณิตศาสตร์ พรอมต์ที่ซับซ้อน และการเขียนโปรแกรม
อย่างไรก็ตาม ระบบใหม่เหล่านี้ได้รับเรตติ้งที่ต่ำกว่าระบบที่พัฒนาเต็มที่อื่นๆ มาก เช่น GPT-4o หรือ Claude3.5 ของ Anthropic ซึ่งแต่ละระบบมีบทวิจารณ์น้อยกว่า 3,000 รายการ ขนาดตัวอย่างที่เล็กเช่นนี้อาจทำให้การประเมินบิดเบือนและจำกัดความสำคัญของผลลัพธ์
ระบบใหม่ของ OpenAI เป็นเลิศในด้านคณิตศาสตร์และการเขียนโค้ด ซึ่งเป็นเป้าหมายหลักของการออกแบบ ด้วยการ "คิด" ให้นานขึ้นก่อนตอบ ระบบเหล่านี้มีเป้าหมายเพื่อสร้างมาตรฐานใหม่สำหรับการให้เหตุผลของ AI อย่างไรก็ตาม ระบบเหล่านี้ไม่ได้มีประสิทธิภาพเหนือกว่าระบบอื่นๆ ในทุกด้าน งานจำนวนมากไม่ต้องการเหตุผลเชิงตรรกะที่ซับซ้อน และบางครั้งการตอบสนองอย่างรวดเร็วจากระบบอื่นก็เพียงพอแล้ว
แผนภูมิของ Lmsys เกี่ยวกับความแข็งแกร่งของแบบจำลองทางคณิตศาสตร์แสดงให้เห็นอย่างชัดเจนว่าระบบใหม่เหล่านี้ได้คะแนนมากกว่า 1,360 คะแนน ซึ่งเหนือกว่าประสิทธิภาพของระบบอื่นๆ อย่างมาก
แม้จะมีขนาดตัวอย่างที่จำกัด แต่ประสิทธิภาพที่ยอดเยี่ยมของระบบใหม่ของ OpenAI ยังคงคุ้มค่าแก่ความสนใจ ความก้าวหน้าในสาขาคณิตศาสตร์และการเขียนโค้ดทำให้เกิดทิศทางใหม่ในการพัฒนาเทคโนโลยีการใช้เหตุผลของ AI ในอนาคต ด้วยการสะสมข้อมูลมากขึ้นและการปรับปรุงโมเดลอย่างต่อเนื่อง ระบบใหม่ของ OpenAI คาดว่าจะแสดงให้เห็นถึงความสามารถอันทรงพลังในด้านต่างๆ มากขึ้น บรรณาธิการของ Downcodes จะยังคงให้ความสำคัญกับการพัฒนาต่อไป