El entrenamiento en inteligencia artificial requiere mucho tiempo y potencia informática, lo que siempre ha sido un cuello de botella en el campo de la inteligencia artificial. El equipo de DeepMind publicó recientemente un estudio innovador y propuso un nuevo método de detección de datos llamado JEST, que resuelve eficazmente este problema. El editor de Downcodes le brindará una comprensión profunda de cómo JEST puede mejorar en gran medida la eficiencia del entrenamiento de IA y le explicará los principios técnicos detrás de esto.
En el campo de la inteligencia artificial, la potencia informática y el tiempo siempre han sido factores clave que restringen el progreso tecnológico. Sin embargo, los últimos resultados de la investigación del equipo de DeepMind proporcionan una solución a este problema.
Propusieron un nuevo método de detección de datos llamado JEST, que logra una reducción significativa en el tiempo de entrenamiento de la IA y los requisitos de potencia informática al detectar de manera inteligente los mejores lotes de datos para el entrenamiento. Se dice que puede reducir el tiempo de entrenamiento de la IA 13 veces y reducir los requisitos de potencia informática en un 90%.
El núcleo del método JEST radica en seleccionar conjuntamente los mejores lotes de datos en lugar de muestras individuales, una estrategia que ha demostrado ser particularmente efectiva para acelerar el aprendizaje multimodal. En comparación con los métodos tradicionales de detección de datos previos al entrenamiento a gran escala, JEST no solo reduce significativamente el número de iteraciones y operaciones de punto flotante, sino que también supera el estado de la técnica anterior y utiliza solo el 10% del presupuesto FLOP.
La investigación del equipo de DeepMind reveló tres conclusiones clave: seleccionar buenos lotes de datos es más efectivo que seleccionar puntos de datos individualmente, las aproximaciones de modelos en línea se pueden usar para filtrar datos de manera más eficiente y se pueden iniciar pequeños conjuntos de datos de alta calidad para aprovechar los más grandes. Conjunto de datos no seleccionados. Estos hallazgos proporcionan una base teórica para el desempeño eficiente del método JEST.
El principio de funcionamiento de JEST es evaluar la capacidad de aprendizaje de los puntos de datos basándose en investigaciones previas sobre la pérdida de RHO y combinando la pérdida del modelo de aprendizaje y el modelo de referencia previamente entrenado. Selecciona puntos de datos que son más fáciles para el modelo previamente entrenado pero más difíciles para el modelo de aprendizaje actual para mejorar la eficiencia y eficacia de la capacitación.
Además, JEST también adopta un método iterativo basado en bloquear el muestreo de Gibbs para construir lotes gradualmente y seleccionar un nuevo subconjunto de muestra en función de la puntuación de capacidad de aprendizaje condicional en cada iteración. Este enfoque continúa mejorando a medida que se filtran más datos, incluido el uso solo de modelos de referencia previamente entrenados para calificar los datos.
Esta investigación de DeepMind no solo aporta avances revolucionarios al campo del entrenamiento de IA, sino que también proporciona nuevas ideas y métodos para el futuro desarrollo de la tecnología de IA. Con una mayor optimización y aplicación del método JEST, tenemos motivos para creer que el desarrollo de la inteligencia artificial abrirá perspectivas más amplias.
Documento: https://arxiv.org/abs/2406.17711
Destacar:
**Revolución de la eficiencia del entrenamiento**: el método JEST de DeepMind reduce el tiempo de entrenamiento de la IA 13 veces y reduce los requisitos de potencia informática en un 90 %.
**Detección de lotes de datos**: JEST mejora significativamente la eficiencia del aprendizaje multimodal al seleccionar conjuntamente los mejores lotes de datos en lugar de muestras individuales.
?️ **Método de entrenamiento innovador**: JEST utiliza aproximación de modelos en línea y guía de conjuntos de datos de alta calidad para optimizar la distribución de datos y las capacidades de generalización del modelo del entrenamiento previo a gran escala.
La aparición del método JEST ha traído nuevas esperanzas al entrenamiento de IA, y se espera que su eficiente estrategia de análisis de datos promueva la aplicación y el desarrollo de la tecnología de IA en diversos campos. En el futuro, esperamos ver el desempeño de JEST en aplicaciones más prácticas y promover aún más avances en el campo de la inteligencia artificial. El editor de Downcodes seguirá prestando atención a los desarrollos relevantes y traerá informes más interesantes a los lectores.