O treinamento em inteligência artificial é demorado e consome poder de computação, o que sempre foi um gargalo no campo da IA. A equipe DeepMind lançou recentemente um estudo inovador e propôs um novo método de triagem de dados chamado JEST, que resolve esse problema de forma eficaz. O editor de Downcodes lhe dará uma compreensão profunda de como o JEST pode melhorar significativamente a eficiência do treinamento de IA e explicará os princípios técnicos por trás dele.
No campo da inteligência artificial, o poder computacional e o tempo sempre foram fatores-chave que restringem o progresso tecnológico. No entanto, os últimos resultados da pesquisa da equipe DeepMind fornecem uma solução para este problema.
Eles propuseram um novo método de triagem de dados chamado JEST, que consegue uma redução significativa no tempo de treinamento de IA e nos requisitos de potência de computação, selecionando de forma inteligente os melhores lotes de dados para treinamento. Diz-se que pode reduzir o tempo de treinamento de IA em 13 vezes e reduzir os requisitos de energia computacional em 90%.
O núcleo do método JEST reside na seleção conjunta dos melhores lotes de dados, em vez de amostras individuais, uma estratégia que provou ser particularmente eficaz na aceleração da aprendizagem multimodal. Comparado com os métodos tradicionais de triagem de dados de pré-treinamento em grande escala, o JEST não apenas reduz significativamente o número de iterações e operações de ponto flutuante, mas também supera o estado da arte anterior, usando apenas 10% do orçamento do FLOP.
A pesquisa da equipe DeepMind revelou três conclusões principais: selecionar bons lotes de dados é mais eficaz do que escolher pontos de dados individualmente, aproximações de modelos on-line podem ser usadas para filtrar dados com mais eficiência e pequenos conjuntos de dados de alta qualidade podem ser inicializados para aproveitar os maiores. Conjunto de dados não curado. Essas descobertas fornecem uma base teórica para o desempenho eficiente do método JEST.
O princípio de funcionamento do JEST é avaliar a capacidade de aprendizagem dos pontos de dados com base em pesquisas anteriores sobre perda de RHO e combinando a perda do modelo de aprendizagem e do modelo de referência pré-treinado. Ele seleciona pontos de dados que são mais fáceis para o modelo pré-treinado, mas mais difíceis para o modelo de aprendizagem atual, para melhorar a eficiência e a eficácia do treinamento.
Além disso, o JEST também adota um método iterativo baseado no bloqueio da amostragem de Gibbs para construir lotes gradualmente e selecionar um novo subconjunto de amostra com base na pontuação de capacidade de aprendizagem condicional em cada iteração. Esta abordagem continua a melhorar à medida que mais dados são filtrados, incluindo a utilização apenas de modelos de referência pré-treinados para pontuar os dados.
Esta pesquisa da DeepMind não só traz um progresso revolucionário no campo do treinamento em IA, mas também fornece novas ideias e métodos para o desenvolvimento futuro da tecnologia de IA. Com a maior otimização e aplicação do método JEST, temos motivos para acreditar que o desenvolvimento da inteligência artificial dará início a perspectivas mais amplas.
Artigo: https://arxiv.org/abs/2406.17711
Destaque:
**Revolução na eficiência do treinamento**: o método JEST da DeepMind reduz o tempo de treinamento de IA em 13 vezes e reduz os requisitos de potência de computação em 90%.
**Triagem de lotes de dados**: o JEST melhora significativamente a eficiência do aprendizado multimodal ao selecionar conjuntamente os melhores lotes de dados em vez de amostras individuais.
?️ **Método de treinamento inovador**: JEST utiliza aproximação de modelo on-line e orientação de conjunto de dados de alta qualidade para otimizar a distribuição de dados e recursos de generalização de modelo de pré-treinamento em grande escala.
O surgimento do método JEST trouxe uma nova esperança ao treinamento em IA, e espera-se que sua estratégia eficiente de triagem de dados promova a aplicação e o desenvolvimento da tecnologia de IA em vários campos. No futuro, esperamos ver o desempenho do JEST em aplicações mais práticas e promover ainda mais avanços no campo da inteligência artificial. O editor do Downcodes continuará prestando atenção aos desenvolvimentos relevantes e trazendo relatórios mais interessantes aos leitores.