Recentemente, Max Woolf, cientista sênior de dados da BuzzFeed, conduziu um experimento envolvente para explorar os efeitos de melhorar o código solicitando repetidamente a IA. No experimento, ele usou o modelo de idioma Claude3.5 e propôs um desafio de programação clássico: escrevendo código Python para encontrar os valores máximos e mínimos da soma dos números em um milhão de números aleatórios.
Na versão inicial, o código gerado por Claude é executado a 657 milissegundos. No entanto, como o Wolf continuou a entrar na instrução simples "Escreva um código melhor", o código resultante foi reduzido para apenas 6 milissegundos, e o desempenho foi melhorado por 100 vezes. Esse resultado não é apenas atraente, mas também mostra alterações inesperadas no processo de definição de "melhor código".
Na quarta solicitação de "escrever um código melhor", Claude inesperadamente transformou o código em uma estrutura semelhante a um aplicativo corporativo, adicionando alguns recursos corporativos típicos que a Woolf não solicitou. Isso sugere que a IA pode associar "melhor código" ao "software de nível corporativo", refletindo o conhecimento absorvido durante seu processo de treinamento.
O desenvolvedor Simon Willison conduziu uma análise aprofundada desse fenômeno de melhoria iterativa, acreditando que o modelo de idioma examina o código de uma perspectiva completamente nova em todas as novas solicitações. Embora cada solicitação contenha o contexto da conversa anterior, Claude a analisa como se fosse a primeira vez que ver o código, o que permite que ele seja continuamente melhorado.
No entanto, Woolf encontrou na tentativa de fazer solicitações mais específicas que, embora isso resulçasse em melhores resultados mais rapidamente, ainda houve alguns erros sutis no código que precisava de correções humanas. Portanto, ele enfatizou que a engenharia imediata precisa ainda é crucial. Embora perguntas simples de acompanhamento possam melhorar a qualidade do código, os avisos direcionados trarão melhorias significativas de desempenho, embora os riscos também aumentem de acordo.
Vale a pena notar que, neste experimento, Claude pulou algumas etapas de otimização que os desenvolvedores humanos dão como certo, como desduplicação ou classificação de números primeiro. Além disso, mudanças sutis na forma de fazer perguntas também afetarão significativamente a saída de Claude.
Apesar desses ganhos impressionantes de desempenho, Woolf nos lembra que os desenvolvedores humanos ainda são indispensáveis na validação de soluções e solução de problemas. Ele ressaltou que, embora o código gerado pela IA não possa ser usado diretamente, sua capacidade de criar recomendações criativas e de ferramentas é digna de atenção.
Pontos -chave:
A IA melhora o desempenho do código por meio de instruções repetidas, e o tempo de execução do código original caiu de 657 milissegundos para 6 milissegundos.
A IA adiciona automaticamente os recursos corporativos ao código, demonstrando seu entendimento exclusivo de "melhor código".
A engenharia rápida ainda é importante e solicitações precisas podem acelerar a geração de resultados, mas ainda requer verificação e reparo por desenvolvedores manuais.