A startup de IA de São Francisco, Cosine, lançou seu mais recente modelo de IA, Genie, que foi projetado para desenvolvedores de software e tem um bom desempenho em testes de benchmark, pontuando bem acima de seus concorrentes. Cosine aproveita variantes GPT-4o treinadas em parceria com OpenAI e, por meio de seus recursos exclusivos de “Raciocínio Humano Codificado”, permite que Genie conclua uma variedade de tarefas de programação de forma autônoma ou colaborativa, incluindo correção de bugs, desenvolvimento de novos recursos e refatoração de código. O sucesso do Genie também é inseparável do método exclusivo de treinamento de dados da Cosine e do uso inteligente do mecanismo de autoaperfeiçoamento do modelo, que finalmente alcançou uma pontuação máxima de 30% no teste SWE-Bench.
A startup de IA com sede em São Francisco, Cosine, lançou um novo modelo de IA chamado Genie, projetado para ajudar desenvolvedores de software. Segundo a empresa, a Genie superou em muito os concorrentes em testes de benchmark, demonstrando capacidades superiores.
A Cosine fez parceria com a OpenAI para treinar uma variante GPT-4o usando dados de alta qualidade, alcançando resultados de benchmark impressionantes. A empresa afirma que a chave para o sucesso do Genie é a sua capacidade de “codificar o raciocínio humano”, que pode não se limitar ao mundo do desenvolvimento de software.
Genie assume a liderança no SWE
O cofundador e CEO da Cosine, Alistair Pullen, revelou que Genie alcançou uma pontuação de 30% no teste SWE-Bench, que é a pontuação mais alta até agora para um modelo de IA em campo. Essa pontuação supera outros modelos de linguagem com foco em codificação, como o modelo da Amazon (19%) e o Devin da Cognition (13,8% em alguns testes do SWE-Bench).
A arquitetura do Genie foi projetada para simular os processos cognitivos de desenvolvedores humanos, permitindo corrigir bugs, desenvolver novos recursos, refatorar código e executar uma variedade de tarefas de programação de forma autônoma ou colaborativa.
Autoaperfeiçoamento por meio de dados sintéticos
O Genie foi desenvolvido usando um processo proprietário que treinou e ajustou variantes não públicas do GPT-40 usando bilhões de dados de alta qualidade. Cosine passou quase um ano coletando esses dados com a ajuda de desenvolvedores experientes. O conjunto de dados contém 21% de JavaScript e Python, 14% de TypeScript e TSX e 3% de outras linguagens, incluindo Java, C++ e Ruby).
O desempenho superior do Genie se deve em parte ao seu treinamento de autoaperfeiçoamento. Inicialmente, o modelo aprendeu principalmente com código perfeito e funcional, mas ficou confuso sobre seu próprio tratamento de erros. Cosine resolve esse problema usando dados sintéticos: se a solução proposta originalmente pelo Genie estava incorreta, o modelo mostra como melhorar com os resultados corretos. A cada iteração, a solução da Genie melhorou gradualmente e o número de revisões necessárias diminuiu gradualmente.
Superar limitações técnicas
Pullen viu o potencial de grandes modelos de linguagem no apoio ao desenvolvimento humano de software já no início de 2022. No entanto, a tecnologia da época ainda não estava no nível necessário para concretizar a visão da Genie. A capacidade de marcas da janela de contexto é geralmente limitada a 4.000 marcas, o que é um grande gargalo. Hoje, modelos como o Gemini 1.5 Pro podem lidar com até 2 milhões de marcadores em um único prompt. Embora a Cosine não tenha divulgado a capacidade específica de rotulagem do Genie, este avanço tecnológico sem dúvida fornece uma base sólida para o sucesso do Genie.
O surgimento do Genie marca um grande avanço no campo do desenvolvimento de software assistido por IA. Suas capacidades de codificação eficientes e mecanismo de autoaprendizagem oferecem novas possibilidades para o desenvolvimento futuro de software. A tecnologia inovadora da Cosine fornece novas ideias para melhorar a eficiência do desenvolvimento de software e reduzir os custos de desenvolvimento, e merece a atenção da indústria e mais pesquisas.