Zuckerberg dijo que la potencia informática necesaria para entrenar a Llama 4 será 10 veces mayor que la de Llama 3

Autor：Eve Cole Fecha de actualización：2024-12-12 16:32:01

Meta anunció recientemente que la potencia informática necesaria para entrenar modelos de lenguaje a gran escala aumentará exponencialmente en el futuro. El CEO de Meta, Zuckerberg, reveló durante la conferencia telefónica sobre resultados que el volumen de cálculo de entrenamiento de Llama 4 será diez veces mayor que el de Llama 3. Esta noticia destaca los altos costos y los desafíos técnicos de la capacitación de modelos lingüísticos a gran escala, y también refleja la continua y feroz competencia entre los gigantes tecnológicos en el campo de la IA. Meta está invirtiendo activamente en la creación de capacidades informáticas correspondientes para satisfacer las necesidades futuras de formación de modelos.

Meta, como desarrollador del modelo de lenguaje básico de código abierto a gran escala Llama, cree que la potencia informática necesaria para entrenar modelos aumentará significativamente en el futuro. El martes, durante la conferencia telefónica sobre resultados del segundo trimestre de Meta, Mark Zuckerberg reveló que entrenar a Llama4 requerirá 10 veces la potencia informática que entrenar a Llama3. Enfatizó que aun así, Meta debe desarrollar la capacidad de entrenar modelos para no quedarse atrás de sus competidores.

"El entrenamiento de Llama4 puede requerir casi 10 veces la cantidad de cálculo requerido para entrenar a Llama3, y los modelos futuros seguirán requiriendo más cálculo", dijo Zuckerberg. También señaló que es difícil predecir la tendencia de desarrollo de futuros modelos multigeneración. , pero en este momento es mejor desarrollar las capacidades necesarias con anticipación que llegar demasiado tarde. Después de todo, iniciar un nuevo proyecto de inferencia requiere un largo tiempo de preparación.

En abril de este año, Meta lanzó Llama3 con 80 mil millones de parámetros. La semana pasada, la compañía lanzó su versión mejorada Llama3.1405B, con parámetros que alcanzan los 405 mil millones, convirtiéndose en el modelo de código abierto más grande de Meta.

La directora financiera de Meta, Susan Lee, también dijo que la compañía está considerando diferentes proyectos de centros de datos y desarrollando capacidades para entrenar futuros modelos de IA. Meta espera que la inversión aumente el gasto de capital en 2025, dijo.

Ya sabes, entrenar grandes modelos lingüísticos es un negocio costoso. En el segundo trimestre de 2024, los gastos de capital de Meta aumentaron casi un 33% a 8.500 millones de dólares desde 6.400 millones de dólares hace un año, impulsados por inversiones en servidores, centros de datos e infraestructura de red.

Reflejos:

?Meta La potencia informática necesaria para entrenar Llama4 es aproximadamente 10 veces mayor que la de entrenar Llama3.

?Meta espera que las inversiones en creación de capacidad aumenten los gastos de capital en 2025.

“La capacitación de modelos de lenguaje grandes es costosa y los gastos de capital de Meta aumentaron significativamente en el segundo trimestre.

Con todo, la enorme inversión de Meta en el futuro entrenamiento de modelos de IA demuestra sus ambiciones en el campo de la inteligencia artificial, pero también presagia la competencia cada vez más feroz en la industria de la IA y el rápido avance del desarrollo tecnológico. Esto tendrá profundas consecuencias para toda la industria tecnológica.