Startup AI San Francisco, Cosine, telah merilis model AI terbarunya, Genie, yang dirancang untuk pengembang perangkat lunak dan berkinerja baik dalam pengujian benchmark, dengan skor jauh di atas para pesaingnya. Cosine memanfaatkan varian GPT-4o yang dilatih dalam kemitraan dengan OpenAI, dan melalui kemampuan unik "Coded Human Reasoning", memungkinkan Genie menyelesaikan berbagai tugas pemrograman secara mandiri atau kolaboratif, termasuk memperbaiki bug, mengembangkan fitur baru, dan memfaktorkan ulang kode. Kesuksesan Genie juga tidak terlepas dari metode pelatihan data Cosine yang unik dan penggunaan mekanisme pengembangan diri model yang cerdik, yang pada akhirnya mencapai skor terdepan 30% dalam tes SWE-Bench.
Startup AI yang berbasis di San Francisco, Cosine, telah meluncurkan model AI baru bernama Genie yang dirancang untuk membantu pengembang perangkat lunak. Menurut perusahaan, Genie jauh mengungguli pesaingnya dalam tes benchmark, menunjukkan kemampuan yang unggul.
Cosine bermitra dengan OpenAI untuk melatih varian GPT-4o menggunakan data berkualitas tinggi, sehingga mencapai hasil benchmark yang mengesankan. Perusahaan tersebut mengatakan kunci kesuksesan Genie adalah kemampuannya untuk "mengkodekan pemikiran manusia", yang mungkin tidak terbatas pada dunia pengembangan perangkat lunak.
Genie memimpin di SWE
Salah satu pendiri dan CEO Cosine, Alistair Pullen, mengungkapkan bahwa Genie memperoleh skor 30% dalam tes SWE-Bench, yang merupakan skor tertinggi sejauh ini untuk model AI di lapangan. Skor ini melampaui model bahasa yang berfokus pada pengkodean lainnya, seperti model Amazon (19%) dan Devin dari Cognition (13,8% dalam beberapa pengujian SWE-Bench).
Arsitektur Genie dirancang untuk mensimulasikan proses kognitif pengembang manusia, memungkinkannya memperbaiki bug, mengembangkan fitur baru, memfaktorkan ulang kode, dan melakukan berbagai tugas pemrograman secara mandiri atau kolaboratif.
Peningkatan diri melalui data sintetis
Genie dikembangkan menggunakan proses eksklusif yang melatih dan menyempurnakan varian GPT-40 non-publik menggunakan miliaran data berkualitas tinggi. Cosine menghabiskan hampir satu tahun menyusun data ini dengan bantuan pengembang berpengalaman. Kumpulan data berisi 21% JavaScript dan Python, 14% TypeScript dan TSX, dan 3% bahasa lain termasuk Java, C++ dan Ruby).
Kinerja Genie yang unggul sebagian disebabkan oleh pelatihan pengembangan diri. Awalnya, model tersebut belajar sebagian besar dari kode yang sempurna dan berfungsi, namun bingung mengenai penanganan kesalahannya sendiri. Cosine memecahkan masalah ini dengan menggunakan data sintetik: jika solusi yang awalnya diusulkan Genie salah, model akan diperlihatkan cara meningkatkannya dengan hasil yang benar. Dengan setiap iterasi, solusi Genie secara bertahap meningkat dan jumlah revisi yang diperlukan secara bertahap berkurang.
Mengatasi keterbatasan teknis
Pullen melihat potensi model bahasa yang besar dalam mendukung pengembangan perangkat lunak manusia pada awal tahun 2022. Namun teknologi pada saat itu belum mampu mewujudkan visi Genie. Kapasitas tanda pada jendela konteks biasanya dibatasi hingga 4000 tanda, yang merupakan hambatan besar. Saat ini, model seperti Gemini 1.5 Pro dapat menangani hingga 2 juta penanda dalam satu waktu. Meskipun Cosine belum mengungkapkan kapasitas pelabelan spesifik Genie, kemajuan teknologi ini tidak diragukan lagi memberikan landasan yang kuat bagi kesuksesan Genie.
Kemunculan Genie menandai terobosan besar dalam bidang pengembangan perangkat lunak berbantuan AI. Kemampuan pengkodeannya yang efisien dan mekanisme pembelajaran mandiri memberikan kemungkinan baru untuk pengembangan perangkat lunak di masa depan. Teknologi inovatif Cosine memberikan ide-ide baru untuk meningkatkan efisiensi pengembangan perangkat lunak dan mengurangi biaya pengembangan, dan patut mendapat perhatian industri dan penelitian lebih lanjut.