Cognition公司推出令人驚豔的AI程式設計師Genie,在權威測試平台SWE-Bench上以30.08%的得分力壓Devin和GPT-4,成為全球最強AI程式設計助理。 Downcodes小編帶你深入了解Genie背後的技術突破與未來展望。
AI 新創公司Cognition 推出了全新的AI 程式設計師“Genie”,它的表現可謂驚人,瞬間擊敗了Devin 和GPT-4,成為全球最強的AI 程式設計助理。
這款AI 程式設計師在權威測試平台SWE-Bench 上,得分高達30.08%,遠超過Devin 的13.8% 和Swe-agent+GPT-4的12.47%。
你可能會好奇,Genie 是怎麼做到的?早在2022年12月,Genie 的聯合創始人Alistair Pullen 就在倫敦大學展示過這個計畫。他希望創造出一個能像人類一樣自動進行編碼、調試和優化的AI 程式。經過一年多的開發,Genie 終於進入了測試階段,並且獲得了250萬美元的種子輪融資。
Alistair 提到,Genie 的成功和它的訓練資料以及方法密切相關。與傳統的大模型微調不同,Genie 使用了一個包含人類程式設計師推理過程的特殊資料集。這些數據涵蓋了知識的逐步發現和基於案例的決策過程,使Genie 在面對複雜問題時,能夠展現出類似人類工程師的判斷力。
此外,Genie 還採用了獨特的「自我改進機制」。最初,Genie 在高品質的資料上進行訓練,達到「完美」 狀態,但在這個過程中,Genie 對自身錯誤的判斷和改進不足。為了克服這個問題,開發者使用Genie 產生了一些合成數據,進一步豐富了訓練內容。這就好比媽媽教孩子走路,每次跌倒後都給予正確的指導。
經過多次迭代訓練,Genie 的能力大幅提升,甚至能在未見過的問題上展現出創意解決方案。功能上,Genie 支援多種開發任務,包括功能開發、BUG 修復、程式碼重構、程式碼測試等,涵蓋了JavaScript、Python、Java 等數十種程式語言。
現在,Genie 已經開放了申請試用,大家可以透過官網註冊,預計在接下來的幾週內會發放測試權限。
官方部落格:https://cosine.sh/blog/state-of-the-art
體驗網址:https://cosine.sh/register
劃重點:
Genie 在SWE-Bench 測試中得分高達30.08%,成為全球最強AI 程式設計師。
採用特殊資料集和自我改進機制,使Genie 在複雜編碼中表現出色。
? 目前已開放申請試用,未來將推出更多驚喜功能!
Genie 的出現標誌著AI程式設計助理領域的新突破,其獨特的訓練方法和自我改進機制值得業界關注。 Downcodes小編期待Genie未來能為開發者帶來更多驚喜!