¡El editor de Downcodes lo llevará a conocer los últimos avances de los investigadores de Meta! Utilizaron el modelo Transformer para superar un problema sin resolver de larga data en el campo de los sistemas dinámicos: encontrar la función global de Lyapunov. Esta investigación no solo demuestra las poderosas capacidades de los modelos lingüísticos a gran escala en el razonamiento matemático complejo, sino que, lo que es más importante, propone un método innovador de "generación inversa" que resuelve eficazmente el problema de la insuficiencia de datos de entrenamiento y allana el camino para la IA en el descubrimiento científico. Las aplicaciones en él han abierto nuevas vías. Los resultados de la investigación se publicaron en arXiv y se proporcionó la dirección del artículo.
Los modelos de lenguaje grandes funcionan bien en muchas tareas, pero sus capacidades de razonamiento han sido controvertidas. Investigadores de Meta publicaron recientemente un artículo que muestra cómo utilizan el modelo Transformer para resolver un problema de larga data en matemáticas: descubrir la función global de Lyapunov de un sistema dinámico.
La función de Lyapunov puede determinar si un sistema dinámico es estable. Por ejemplo, puede usarse para predecir la estabilidad a largo plazo del problema de los tres cuerpos, es decir, la trayectoria a largo plazo de tres cuerpos celestes bajo la influencia de la gravedad. . Sin embargo, todavía no se ha encontrado ningún método general para derivar la función de Lyapunov, y su función correspondiente sólo se conoce para unos pocos sistemas.
Para resolver este problema, los investigadores de Meta entrenaron un modelo Transformer secuencia a secuencia para predecir la función de Lyapunov de un sistema determinado. Utilizaron de forma innovadora un enfoque de "generación inversa" para crear un gran conjunto de datos de entrenamiento que contiene sistemas dinámicos estables y sus correspondientes funciones de Lyapunov.
El método tradicional de "generación directa" parte de un sistema generado aleatoriamente e intenta calcular su función de Lyapunov. Este método es ineficiente y solo puede manejar ciertos tipos de sistemas simples. El método de "generación inversa" primero genera aleatoriamente funciones de Lyapunov y luego construye un sistema estable correspondiente a ellas, evitando así el problema de calcular funciones de Lyapunov y generando datos de entrenamiento más diversos.
Los investigadores descubrieron que el modelo Transformer entrenado en el conjunto de datos de "generación inversa" logró una precisión casi perfecta en el conjunto de prueba (99%) y también tuvo un buen desempeño en el conjunto de prueba fuera de distribución (73%). Aún más sorprendente es que al agregar una pequeña cantidad (300) de ejemplos simples de "generación directa" al conjunto de entrenamiento, la precisión del modelo se puede mejorar aún más al 84%, lo que muestra que incluso una pequeña cantidad de soluciones conocidas puede mejorar significativamente la precisión del modelo. Mejorar la capacidad de generalización del modelo.
Para probar la capacidad del modelo para descubrir nuevas funciones de Lyapunov, los investigadores generaron decenas de miles de sistemas aleatorios y utilizaron el modelo para hacer predicciones. Los resultados muestran que el modelo tiene diez veces más éxito a la hora de encontrar funciones de Lyapunov en sistemas polinomiales que los métodos más modernos, y también puede encontrar funciones de Lyapunov en sistemas no polinomiales, algo que ningún algoritmo actual puede hacer. pequeño.
Los investigadores también compararon el modelo con matemáticos humanos. Invitaron a 25 estudiantes de maestría en matemáticas a realizar una prueba y los resultados mostraron que la precisión del modelo era mucho mayor que la de los humanos.
Esta investigación muestra que los modelos Transformer se pueden entrenar para resolver problemas complejos de razonamiento matemático y que los métodos de "generación inversa" pueden crear efectivamente conjuntos de datos de entrenamiento que superen las limitaciones de los métodos tradicionales. En el futuro, los investigadores planean aplicar este método a otros problemas matemáticos y explorar más posibilidades de la IA en el descubrimiento científico.
Dirección del artículo: https://arxiv.org/pdf/2410.08304
En definitiva, la investigación de Meta proporciona nuevas ideas y métodos para que la IA resuelva problemas científicos complejos y también indica que la IA desempeñará un papel cada vez más importante en el campo de la investigación científica. ¡El editor de Downcodes continuará prestando atención a los últimos desarrollos en el campo de la IA y brindará informes más interesantes a los lectores!