Recentemente, Elon Musk expressou preocupação sobre o esgotamento dos dados de treinamento de inteligência artificial em uma transmissão ao vivo. Ele acredita que os dados usados para treinar modelos de IA no mundo real estão próximos do esgotamento. Esta visão ecoa as opiniões de outros especialistas na área de IA, desencadeando o pensamento da indústria sobre futuros modelos de desenvolvimento de IA. Musk acredita que os dados sintéticos serão uma solução chave para o problema da escassez de dados, observando que muitas empresas tecnológicas começaram a adoptar esta abordagem, o que terá um impacto profundo na forma e no custo de formação de modelos de IA.
Em uma recente conversa transmitida ao vivo, o CEO da Tesla e da SpaceX, Elon Musk, disse que os dados do mundo real disponíveis para o treinamento de modelos de inteligência artificial estão quase esgotados. A pessoa que conversou com ele foi Mark Payne, presidente do conselho de administração da Stagwell. Musk mencionou: "Basicamente consumimos todo o acúmulo de conhecimento humano... os dados usados para treinamento de inteligência artificial. Esse fenômeno basicamente aconteceu no ano passado."
A visão de Musk é semelhante à teoria do “pico de dados” proposta pelo ex-cientista-chefe da OpenAI, Ilya Sutskov, na conferência NeurIPS em dezembro do ano passado. Suzkofer disse que a indústria de IA enfrenta o desafio da escassez de dados, e a falta de dados de treinamento suficientes no futuro forçará mudanças na forma como os modelos de IA são desenvolvidos.
Para resolver este problema, Musk acredita que os dados sintéticos se tornarão uma alternativa viável. Ele ressalta que a única forma de complementar os dados do mundo real é por meio de dados sintéticos, onde a IA gera seus próprios dados de treinamento. Musk disse que a IA pode melhorar o desempenho por meio da autoavaliação e da otimização contínua.
Atualmente, muitas empresas de tecnologia como Microsoft, Meta, OpenAI e Anthropic começaram a utilizar dados sintéticos para treinar seus principais modelos de IA. O Gartner prevê que até 2024, 60% dos dados utilizados em projetos de inteligência artificial e análise de dados serão gerados sinteticamente.
Uma vantagem significativa dos dados sintéticos é que os custos de desenvolvimento podem ser significativamente reduzidos. No entanto, Musk e outros especialistas também apontam que os dados sintéticos apresentam riscos. A investigação mostra que os dados sintéticos podem degradar o desempenho do modelo e os resultados podem ser menos inovadores e potencialmente afetados por preconceitos. Se os próprios dados sintéticos tiverem limitações, o resultado do modelo final também será afetado por esses problemas.
Destaque:
Musk está preocupado com o fato de os dados do mundo real disponíveis para treinamento de IA estarem quase esgotados.
Os dados sintéticos são considerados uma solução importante para o futuro e muitas empresas de tecnologia já os estão adotando.
O uso de dados sintéticos pode reduzir significativamente os custos de desenvolvimento, mas também traz o risco de degradar o desempenho do modelo.
Em suma, o problema da falta de dados de formação em inteligência artificial é iminente. Embora os dados sintéticos tragam novas oportunidades, também apresentam desafios. A direção futura do desenvolvimento da IA dependerá de como utilizar e melhorar eficazmente os dados sintéticos, equilibrar os seus custos e riscos e, em última análise, alcançar um progresso contínuo na tecnologia da IA.