Cosine สตาร์ทอัพด้าน AI ในซานฟรานซิสโก ได้เปิดตัวโมเดล AI ใหม่ล่าสุด Genie ซึ่งออกแบบมาสำหรับนักพัฒนาซอฟต์แวร์และทำงานได้ดีในการทดสอบเกณฑ์มาตรฐาน โดยได้คะแนนสูงกว่าคู่แข่ง Cosine ใช้ประโยชน์จากตัวแปร GPT-4o ที่ได้รับการฝึกอบรมร่วมกับ OpenAI และผ่านความสามารถ "Coded Human Reasoning" ที่เป็นเอกลักษณ์ ช่วยให้ Genie สามารถทำงานด้านการเขียนโปรแกรมที่หลากหลายได้สำเร็จโดยอัตโนมัติหรือโดยร่วมมือกัน รวมถึงการแก้ไขจุดบกพร่อง การพัฒนาคุณสมบัติใหม่ และการปรับโครงสร้างโค้ดใหม่ ความสำเร็จของ Genie ยังแยกไม่ออกจากวิธีการฝึกอบรมข้อมูลที่เป็นเอกลักษณ์ของ Cosine และการใช้กลไกการพัฒนาตนเองอย่างชาญฉลาดของแบบจำลอง ซึ่งท้ายที่สุดก็ได้รับคะแนนนำ 30% ในการทดสอบ SWE-Bench
Cosine สตาร์ทอัพด้าน AI ในซานฟรานซิสโกได้เปิดตัวโมเดล AI ใหม่ที่เรียกว่า Genie ซึ่งออกแบบมาเพื่อช่วยเหลือนักพัฒนาซอฟต์แวร์ จากข้อมูลของบริษัท Genie ทำได้ดีกว่าคู่แข่งในการทดสอบเกณฑ์มาตรฐาน ซึ่งแสดงให้เห็นถึงความสามารถที่เหนือกว่า
Cosine ร่วมมือกับ OpenAI เพื่อฝึกตัวแปร GPT-4o โดยใช้ข้อมูลคุณภาพสูง เพื่อให้ได้ผลลัพธ์การวัดประสิทธิภาพที่น่าประทับใจ บริษัทกล่าวว่ากุญแจสู่ความสำเร็จของ Genie คือความสามารถในการ "เข้ารหัสการใช้เหตุผลของมนุษย์" ซึ่งอาจไม่จำกัดอยู่เพียงโลกแห่งการพัฒนาซอฟต์แวร์
จีนี่เป็นผู้นำใน SWE
Alistair Pullen ผู้ร่วมก่อตั้งและซีอีโอของ Cosine เปิดเผยว่า Genie ได้คะแนน 30% ในการทดสอบ SWE-Bench ซึ่งเป็นคะแนนสูงสุดสำหรับโมเดล AI ในสาขานี้ คะแนนนี้เหนือกว่าโมเดลภาษาที่เน้นการเขียนโค้ดอื่นๆ เช่น โมเดลของ Amazon (19%) และ Devin ของ Cognition (13.8% ในการทดสอบ SWE-Bench บางส่วน)
สถาปัตยกรรมของ Genie ได้รับการออกแบบมาเพื่อจำลองกระบวนการรับรู้ของนักพัฒนาที่เป็นมนุษย์ ทำให้สามารถแก้ไขจุดบกพร่อง พัฒนาคุณสมบัติใหม่ๆ รีแฟคเตอร์โค้ด และทำงานด้านการเขียนโปรแกรมต่างๆ ได้ด้วยตนเองหรือทำงานร่วมกัน
การพัฒนาตนเองด้วยข้อมูลสังเคราะห์
Genie ได้รับการพัฒนาโดยใช้กระบวนการที่เป็นกรรมสิทธิ์ซึ่งฝึกฝนและปรับแต่งตัวแปร GPT-40 ที่ไม่ใช่แบบสาธารณะอย่างละเอียด โดยใช้ข้อมูลคุณภาพสูงนับพันล้าน โคไซน์ใช้เวลาเกือบหนึ่งปีในการรวบรวมข้อมูลนี้ด้วยความช่วยเหลือจากนักพัฒนาที่มีประสบการณ์ ชุดข้อมูลประกอบด้วย JavaScript และ Python 21%, TypeScript และ TSX 14% และภาษาอื่นๆ 3% รวมถึง Java, C++ และ Ruby)
ประสิทธิภาพที่เหนือกว่าของ Genie ส่วนหนึ่งมาจากการฝึกฝนเพื่อการพัฒนาตนเอง ในตอนแรก โมเดลเรียนรู้จากโค้ดที่สมบูรณ์แบบและใช้งานได้เป็นส่วนใหญ่ แต่ก็สับสนเกี่ยวกับการจัดการข้อผิดพลาดของตัวเอง โคไซน์แก้ปัญหานี้โดยใช้ข้อมูลสังเคราะห์ หากโซลูชันที่ Genie เสนอในตอนแรกไม่ถูกต้อง แบบจำลองจะแสดงวิธีปรับปรุงด้วยผลลัพธ์ที่ถูกต้อง ในการวนซ้ำแต่ละครั้ง โซลูชันของ Genie จะค่อยๆ ดีขึ้น และจำนวนการแก้ไขที่ต้องค่อยๆ ลดลง
เอาชนะข้อจำกัดทางเทคนิค
Pullen มองเห็นศักยภาพของโมเดลภาษาขนาดใหญ่ในการสนับสนุนการพัฒนาซอฟต์แวร์ของมนุษย์ตั้งแต่ต้นปี 2022 อย่างไรก็ตาม เทคโนโลยีในขณะนั้นยังไม่ถึงระดับที่จะทำให้วิสัยทัศน์ของ Genie เป็นจริงได้ ความจุเครื่องหมายของหน้าต่างบริบทมักจะจำกัดอยู่ที่ 4,000 เครื่องหมาย ซึ่งเป็นปัญหาคอขวดที่สำคัญ ปัจจุบัน รุ่นต่างๆ เช่น Gemini 1.5 Pro สามารถรองรับเครื่องหมายได้มากถึง 2 ล้านเครื่องหมายในการแจ้งเตือนครั้งเดียว แม้ว่าโคไซน์จะไม่ได้เปิดเผยความสามารถในการติดฉลากเฉพาะของ Genie แต่ความก้าวหน้าทางเทคโนโลยีนี้ถือเป็นรากฐานที่มั่นคงสำหรับความสำเร็จของ Genie อย่างไม่ต้องสงสัย
การเกิดขึ้นของ Genie ถือเป็นความก้าวหน้าครั้งสำคัญในด้านการพัฒนาซอฟต์แวร์ที่ได้รับความช่วยเหลือจาก AI เทคโนโลยีที่เป็นนวัตกรรมของโคไซน์นำเสนอแนวคิดใหม่ๆ ในการปรับปรุงประสิทธิภาพการพัฒนาซอฟต์แวร์และลดต้นทุนการพัฒนา และสมควรได้รับความสนใจจากอุตสาหกรรมและการวิจัยเพิ่มเติม