Não apenas o tão aguardado modelo de próxima geração da OpenAI, Orion, mas também a Anthropic, outra start-up estrela de inteligência artificial (IA) que é rival do Google e da OpenAI, também relatou que o desenvolvimento de modelos avançados de IA encontrou gargalos.
Na quarta-feira, 13 de novembro, horário do leste, a Bloomberg informou que a OpenAI completou a primeira rodada de treinamento Orion em setembro deste ano, esperando que superasse em muito algumas versões anteriores e se aproximasse do objetivo de a IA superar os humanos, citando duas pessoas familiarizadas com o assunto, mas o Orion não teve o desempenho esperado pela empresa. No final do verão, o modelo apresentava um desempenho ruim ao tentar responder a perguntas de codificação não treinadas.
Pessoas familiarizadas com o assunto comentaram que, no geral, até agora, em comparação com o desempenho do GPT-4 além do GPT-3.5, os modelos existentes do Orion e do OpenAI não fizeram muito progresso.
O relatório também citou três outras pessoas familiarizadas com o assunto dizendo que a próxima nova versão do Gemini do Google não atendeu às expectativas internas, e a Anthropic também adiou o lançamento planejado do modelo Claude conhecido como 3.5 Opus.
O relatório acredita que as três empresas acima enfrentam múltiplos desafios no desenvolvimento de modelos de IA. É cada vez mais difícil para elas encontrar dados de treinamento artificial inexplorados de alta qualidade. Por exemplo, o desempenho de codificação insatisfatório do Orion decorre, em parte, da falta de dados de codificação suficientes para treinamento. Mesmo melhorias modestas no desempenho do modelo podem não ser suficientes para justificar os enormes custos de construção e funcionamento de um novo modelo, ou para satisfazer as expectativas de uma grande atualização.
O problema do estrangulamento do desenvolvimento de modelos de IA desafia a lei de escala que é considerada uma diretriz por muitas start-ups e até mesmo por gigantes da tecnologia. Também põe em causa a viabilidade de investimentos maciços em IA para alcançar inteligência artificial geral (agi).
Wall Street News mencionou uma vez que a lei proposta pela OpenAI já em 2020 significa que o desempenho final de um grande modelo está principalmente relacionado à quantidade de cálculo, à quantidade de parâmetros do modelo e à quantidade de dados de treinamento, e está relacionado ao estrutura específica (camada) do modelo) são basicamente irrelevantes. Em julho deste ano, o diretor de tecnologia (CTO) da Microsoft, Kevin Scott, também defendeu essa lei, dizendo que a lei de escala ainda se aplica à indústria atual – embora expanda grandes modelos, os benefícios marginais não diminuem. Coincidentemente, a mídia divulgou na semana passada que a OpenAI descobriu que o Orion “não deu um salto tão grande” e o progresso foi muito menor do que o das duas gerações anteriores de modelos emblemáticos. Esta descoberta desafia diretamente a lei de escala que tem sido seguida no campo da IA. Devido à diminuição dos dados de treinamento de alta qualidade e ao aumento dos custos computacionais, os pesquisadores da OpenAI tiveram que começar a explorar se havia outras maneiras de melhorar o desempenho do modelo.A OpenAI, por exemplo, está incorporando mais recursos de escrita de código em seus modelos e tentando desenvolver software que possa assumir o controle de um PC para concluir atividades de navegador da web ou tarefas de aplicativos, realizando cliques, movimentos de cursor e outras ações.
A OpenAI também estabeleceu uma equipe dedicada, liderada por Nick Ryder, anteriormente responsável pelo pré-treinamento, para explorar como otimizar dados de treinamento limitados e ajustar a aplicação de métodos de expansão para manter a estabilidade da melhoria do modelo.
Em relação ao relatório da Bloomberg na quarta-feira, um porta-voz do Google DeepMind disse que a empresa está “satisfeita com o progresso do Gemini e compartilharemos mais informações quando estiver pronto, a OpenAI se recusou a comentar”. A Anthropic também se recusou a comentar, mas se referiu a uma postagem de blog publicada na segunda-feira, na qual o CEO da Anthropic, Dario Amodei, falou durante um podcast de cinco horas.
Um modelo disse que o que as pessoas chamam de lei de escala não é uma lei. É um nome impróprio. Não é uma lei universal, mas uma lei empírica. Amodel espera que as leis de escala continuem a existir, mas não tem certeza. Ele disse que há “muitas coisas” que poderiam “interromper” o progresso em direção a uma IA mais poderosa nos próximos anos, incluindo “podemos ficar sem dados”. Mas ele está otimista de que as empresas de IA encontrarão uma maneira de superar quaisquer obstáculos.
Em relação ao relatório da Bloomberg, Nosson Weissman, fundador da NossonAI, empresa que fornece soluções customizadas de IA para empresas, comentou que o relatório não o confundiu porque, antes de tudo, não viu a expressão de verdadeiros especialistas que deram contribuições significativas. em segundo lugar, vemos frequentemente progressos significativos na modelização e, finalmente, ele acredita que os meios de comunicação social gostam de criar drama, e este relatório parece ter apenas uma bela manchete dramática.