Стартап Cosine, занимающийся искусственным интеллектом из Сан-Франциско, выпустил свою новейшую модель искусственного интеллекта Genie, которая предназначена для разработчиков программного обеспечения и хорошо показывает себя в тестах производительности, значительно превосходя своих конкурентов. Cosine использует варианты GPT-4o, обученные в сотрудничестве с OpenAI, и благодаря своим уникальным возможностям «Закодированного человеческого мышления» позволяет Genie выполнять различные задачи программирования автономно или совместно, включая исправление ошибок, разработку новых функций и рефакторинг кода. Успех Genie также неотделим от уникального метода обучения данных Cosine и умелого использования механизма самосовершенствования модели, который в конечном итоге достиг 30%-го лидирующего результата в тесте SWE-Bench.
Стартап Cosine, базирующийся в Сан-Франциско, запустил новую модель ИИ под названием Genie, предназначенную для помощи разработчикам программного обеспечения. По данным компании, Genie значительно превзошла конкурентов в тестах производительности, продемонстрировав превосходные возможности.
Cosine в партнерстве с OpenAI обучила вариант GPT-4o с использованием высококачественных данных и добилась впечатляющих результатов тестов. Компания заявляет, что ключом к успеху Genie является ее способность «кодировать человеческое мышление», которое, возможно, не ограничивается миром разработки программного обеспечения.
Genie лидирует в SWE
Соучредитель и генеральный директор Cosine Алистер Пуллен сообщил, что Genie набрала 30% баллов в тесте SWE-Bench, что на данный момент является самым высоким показателем для модели искусственного интеллекта в этой области. Этот показатель превосходит другие языковые модели, ориентированные на кодирование, такие как модель Amazon (19%) и Devin от Cognition (13,8% в некоторых тестах SWE-Bench).
Архитектура Genie предназначена для моделирования когнитивных процессов разработчиков-людей, что позволяет исправлять ошибки, разрабатывать новые функции, рефакторить код и выполнять различные задачи программирования автономно или совместно.
Самосовершенствование через синтетические данные
Genie был разработан с использованием запатентованного процесса, который обучал и настраивал закрытые варианты GPT-40 с использованием миллиардов высококачественных данных. Косинус потратил почти год на сопоставление этих данных с помощью опытных разработчиков. Набор данных содержит 21% JavaScript и Python, 14% TypeScript и TSX и 3% других языков, включая Java, C++ и Ruby).
Превосходные результаты Genie отчасти объясняются тренировками по самосовершенствованию. Первоначально модель обучалась в основном на идеальном, работающем коде, но ее смущала собственная обработка ошибок. Косинус решает эту проблему, используя синтетические данные: если первоначально предложенное Джини решение было неверным, модель показывает, как улучшить ее с правильными результатами. С каждой итерацией решение Genie постепенно улучшалось, а количество необходимых доработок постепенно уменьшалось.
Преодолеть технические ограничения
Пуллен увидел потенциал больших языковых моделей в поддержке разработки программного обеспечения человеком еще в начале 2022 года. Однако технологии в то время еще не были на том уровне, чтобы реализовать видение Джини. Емкость меток контекстного окна обычно ограничена 4000 метками, что является основным узким местом. Сегодня такие модели, как Gemini 1.5 Pro, могут обрабатывать до 2 миллионов маркеров за один раз. Хотя компания Cosine не раскрыла конкретные возможности Genie по маркировке, этот технологический прогресс, несомненно, обеспечивает прочную основу для успеха Genie.
Появление Genie знаменует собой крупный прорыв в области разработки программного обеспечения с помощью искусственного интеллекта. Его эффективные возможности кодирования и механизм самообучения открывают новые возможности для будущей разработки программного обеспечения. Инновационная технология Cosine предлагает новые идеи для повышения эффективности разработки программного обеспечения и снижения затрат на разработку и заслуживает внимания отрасли и дальнейших исследований.