Nos últimos anos, a melhoria do desempenho de grandes modelos de linguagem (LLM) baseou -se principalmente na expansão da escala, ou seja, aumentando o volume de dados e o poder de computação. No entanto, esse modelo está gradualmente atingindo um gargalo. Especialistas do setor apontaram que é difícil fazer um progresso significativo simplesmente confiando na estratégia "maior e melhor", e novos avanços tecnológicos são iminentes. Este artigo explorará os desafios enfrentados pelo campo atual da IA e como as tecnologias emergentes de "computação no tempo de teste" podem trazer novas direções para o desenvolvimento da IA.
Com o rápido desenvolvimento da IA generativa, a percepção tradicional do setor de "Bigger Is Better" está mudando. Muitos cientistas da IA principais disseram recentemente que o método de melhorar o desempenho da IA, simplesmente aumentando a quantidade de dados e o poder de computação está se aproximando de um gargalo, e novos avanços tecnológicos estão surgindo.
Ilya Sutskever, co-fundador da Superintelligência e Openai segura, expressou recentemente sua opinião de que os métodos tradicionais de pré-treinamento entraram no período da plataforma de desempenho. Essa afirmação é particularmente atraente, porque foi o método de pré-treinamento em larga escala que ele defendeu nos primeiros dias que deu à luz ChatGPT. Hoje, ele disse que o campo da IA se mudou da "Era da expansão da escala" para a "Era da Era de Milagres e Descobertos".
Atualmente, o treinamento de modelos em larga escala enfrenta vários desafios: custos de treinamento de dezenas de milhões de dólares, o risco de falha de hardware causada pela complexidade do sistema, ciclos de teste longo e limitações nos recursos de dados e no fornecimento de energia. Essas perguntas levaram os pesquisadores a explorar novos caminhos tecnológicos.
Entre eles, a tecnologia "computação no tempo de teste" atraiu atenção generalizada. Essa abordagem permite que os modelos de IA gerem e avaliem várias soluções em tempo real durante o uso, em vez de dar uma única resposta diretamente. O pesquisador do Openai Noam Brown fez uma analogia de imagem: deixando a IA pensar por 20 segundos em uma carta de jogo, que é comparável à expansão da escala do modelo e do tempo de treinamento em 100.000 vezes.
Atualmente, vários principais laboratórios de IA, incluindo OpenAI, Anthrópico, Xai e DeepMind, estão desenvolvendo ativamente suas respectivas versões tecnológicas. A Openai aplicou essa tecnologia em seu mais recente modelo "O1", e o diretor de produtos Kevin Weil disse que, através dessas abordagens inovadoras, eles viram um grande número de oportunidades para melhorar o desempenho do modelo.
Os especialistas do setor acreditam que essa transformação de rotas tecnológicas pode remodelar o cenário competitivo de toda a indústria da IA e alterar fundamentalmente a estrutura de demanda das empresas de IA para vários recursos. Isso marca que o desenvolvimento da IA está entrando em um novo estágio, onde se concentra mais na melhoria da qualidade, em vez de simplesmente escalar a expansão.
Em resumo, o surgimento de novas tecnologias como "computação no tempo de teste" marca um novo estágio no desenvolvimento da IA, ou seja, prestando mais atenção à melhoria do desempenho do modelo, em vez de simplesmente escalar a expansão. Isso mudará o cenário competitivo da indústria de IA e promoverá a tecnologia de IA para se desenvolver em uma direção mais refinada e inteligente. No futuro, os avanços na tecnologia de IA dependerão mais da inovação e da compreensão do algoritmo da essência do modelo, em vez de simples acúmulo de poder de computação.