Nous Research está llevando a cabo un experimento innovador: utilizar máquinas distribuidas globalmente para entrenar previamente un modelo de lenguaje grande (LLM) de 1.500 millones de parámetros. Este experimento subvierte el modelo de capacitación centralizado tradicional, evita centros de datos costosos y que consumen energía y transmite el proceso de capacitación en tiempo real a través de su sitio web distro.nousresearch.com, demostrando el rendimiento del modelo y los mapas de ubicación del hardware. Esta medida no solo reduce los costos de capacitación, sino que, lo que es más importante, se espera que reduzca la barrera de entrada para modelos de lenguaje grandes, permitiendo que más equipos e individuos pequeños participen en la investigación y el desarrollo de la IA generativa.
En el campo de la IA generativa, en rápido desarrollo, el equipo de Nous Research está llevando a cabo un experimento único: están utilizando máquinas distribuidas por todo el mundo para entrenar previamente un modelo de lenguaje grande (LLM) de 1.500 millones de parámetros, un proceso que evita los requisitos tradicionales centralizados. desarrollo en centros de datos o superclusters costosos y que consumen mucha energía.
Nous Research también transmite el proceso de capacitación previa en vivo en su sitio web exclusivo distro.nousresearch.com, mostrando el desempeño del modelo en varios puntos de referencia de evaluación en tiempo real y proporcionando un mapa de las ubicaciones de hardware que participan en la capacitación, que cubre múltiples ubicaciones en el Estados Unidos y Europa. A la fecha de publicación de este artículo, el tiempo restante para la capacitación previa es de aproximadamente 57 horas (es decir, 2,3 días) y se ha completado más del 75% del progreso de la capacitación.
La capacitación previa es el primer y más básico paso en la capacitación de LLM, que implica entrenar una gran cantidad de datos de texto para aprender las propiedades estadísticas y la estructura del lenguaje. En esta etapa, el modelo captura los patrones de lenguaje, sintaxis y relaciones contextuales entre palabras mediante el procesamiento de extensos conjuntos de datos de texto. Este proceso le da al modelo una amplia comprensión del lenguaje, la capacidad de generar texto coherente y realizar una variedad de tareas relacionadas con el lenguaje. Después del entrenamiento previo, el modelo también debe ajustarse para tareas o dominios específicos.
Si este plan tiene éxito, Nous Research demostrará que aún se puede entrenar LLM de vanguardia sin costosos superclusters ni transmisión de baja latencia, lo que marcará una nueva era de entrenamiento distribuido en IA. Este enfoque de capacitación de código abierto podría cambiar la dinámica de poder de la IA generativa, haciendo que los equipos más pequeños y los actores no corporativos sean más competitivos en este espacio.
La nueva tecnología utilizada por Nous se llama Nous DisTrO (Entrenamiento distribuido a través de Internet), que está diseñada para reducir los requisitos de ancho de banda de comunicación entre GPU durante el proceso de preentrenamiento. Según el último lanzamiento de Nous Research, DisTrO puede reducir los requisitos de comunicación hasta 10.000 veces, lo que permite mantener tasas de convergencia competitivas y curvas de pérdida en conexiones a Internet más lentas y asequibles.
Además, el avance principal de DisTrO es comprimir efectivamente la cantidad de datos intercambiados entre GPU sin afectar el rendimiento del modelo. Esta tecnología se basa en el algoritmo anterior de optimización de impulso desacoplado (DeMo), que también tiene como objetivo reducir significativamente los requisitos de comunicación entre GPU mientras se mantiene el rendimiento del entrenamiento.
En términos de hardware, el proceso de capacitación previa de Nous Research cuenta con el respaldo de muchos socios conocidos, como Oracle, Lambda Labs, Northern Data Group, Crusoe Cloud y Andromeda Cluster, que proporcionan conjuntamente el hardware heterogéneo necesario para probar completamente DisTrO en entornos distribuidos reales. capacidad de los sistemas en el entorno.
Entrada al blog: https://nousresearch.com/
Este experimento de Nous Research no solo supuso un gran avance en la tecnología, sino que, lo que es más importante, proporcionó una nueva idea y posibilidad para los investigadores de IA de todo el mundo, presagiando un cambio en el modelo de entrenamiento de IA. En el futuro, tal vez surjan más proyectos de capacitación distribuida similares, lo que reducirá aún más el umbral de entrada para la tecnología de IA y promoverá el desarrollo vigoroso del campo de la IA.