El Laboratorio Nacional de Oak Ridge en los Estados Unidos ha logrado un gran avance al utilizar Frontier, la supercomputadora más poderosa del mundo, para entrenar con éxito un modelo de lenguaje equivalente a ChatGPT utilizando solo el 8% de su potencia informática. El modelo tiene billones de parámetros A través de una innovadora capacitación distribuida y tecnología paralela, el equipo de investigación logró una eficiencia de expansión débil del 100%, proporcionando una valiosa experiencia y referencia técnica para la capacitación de modelos de lenguaje a mayor escala en el futuro. Esta investigación no sólo demuestra el poder de la tecnología de supercomputación, sino que también destaca la importancia de la memoria y otros desafíos al abordar el entrenamiento de modelos de lenguaje a gran escala.
Los científicos utilizaron la supercomputadora más poderosa del mundo para entrenar con éxito un modelo de nivel ChatGPT, utilizando solo el 8% de la potencia informática. El avance provino del Laboratorio Nacional de Oak Ridge, donde el equipo de investigación utilizó tecnología innovadora para entrenar un modelo de lenguaje de un billón de parámetros en la supercomputadora Frontier. A través de capacitación distribuida y tecnología paralela, se logra una eficiencia de expansión débil del 100%. Sin embargo, entrenar modelos de lenguaje grandes todavía presenta desafíos y requiere abordar problemas de memoria. La investigación proporciona experiencia para entrenar enormes modelos de lenguaje en el futuro y destaca el papel clave de la capacitación distribuida y la computación paralela.El resultado de esta investigación aporta nuevas posibilidades al desarrollo del campo de la inteligencia artificial y también indica que la tecnología de entrenamiento de modelos de lenguaje a gran escala se desarrollará en una dirección más eficiente y que ahorrará energía en el futuro. El uso eficiente de los recursos informáticos es una dirección importante para el desarrollo futuro de grandes modelos de lenguaje.