El equipo de investigación de Microsoft lanzó una nueva tecnología de inteligencia artificial: Large Action Model (LAM), que puede operar programas de Windows de forma autónoma, lo que marca una nueva etapa en la IA que pasa del simple diálogo y las sugerencias a la ejecución real de tareas. A diferencia de los modelos de lenguaje tradicionales, LAM puede comprender una variedad de entradas, como texto, voz e imágenes, y convertirlas en planes de acción detallados. Incluso puede ajustar estrategias basadas en situaciones en tiempo real para resolver algunos problemas que otros sistemas de IA no pueden afrontar. con. Esta innovadora tecnología ofrece posibilidades más amplias para la IA en aplicaciones prácticas y señala el camino para el desarrollo de futuros asistentes de inteligencia artificial.
El equipo de investigación de Microsoft lanzó recientemente una tecnología de inteligencia artificial llamada "Modelo de acción grande" (LAM), que marca una nueva etapa en el desarrollo de la IA. A diferencia de los modelos de lenguaje tradicionales como GPT-4o, LAM puede operar programas de Windows de forma autónoma, lo que significa que la IA no sólo puede hablar o dar sugerencias, sino que también puede realizar tareas.
La fortaleza de LAM es su capacidad para comprender una variedad de entradas de usuario, incluidos texto, voz e imágenes, y luego traducir estas solicitudes en planes detallados paso a paso. LAM no sólo desarrolla planes sino que también adapta sus estrategias de acción en función de las condiciones del tiempo real. El proceso de construcción de un LAM se divide principalmente en cuatro pasos: primero, el modelo aprende a dividir la tarea en pasos lógicos y luego, a través de sistemas de IA más avanzados (como GPT-4o), aprende a traducir estos planes en; acciones específicas; luego, el LAM explorará de forma independiente nuevas soluciones e incluso resolverá problemas que otros sistemas de IA no pueden afrontar, y finalmente ajustará la capacitación a través de un mecanismo de recompensa;
En el experimento, el equipo de investigación construyó un modelo LAM basado en Mistral-7B y lo probó en el entorno de prueba de Word. Los resultados mostraron que el modelo completó con éxito la tarea el 71% del tiempo, en comparación con el 63% del GPT-4o sin información visual.
Además, LAM también tiene un buen rendimiento en la velocidad de ejecución de tareas, ya que cada tarea tarda sólo 30 segundos, mientras que GPT-4o tarda 86 segundos. Aunque la tasa de éxito de GPT-4o aumenta al 75,5% cuando se procesa información visual, en general, LAM tiene ventajas significativas en velocidad y efecto.
Para generar los datos de capacitación, el equipo de investigación recopiló inicialmente 29.000 ejemplos de pares de tareas y planes de documentos de Microsoft, artículos de wikiHow y búsquedas de Bing. Luego utilizaron GPT-4o para transformar tareas simples en tareas complejas, ampliando así el conjunto de datos a 76.000 pares, un aumento del 150%. Al final, se incluyeron aproximadamente 2.000 secuencias de acción exitosas en el conjunto de capacitación final.
Aunque LAM ha demostrado su potencial en el desarrollo de la IA, el equipo de investigación todavía enfrenta algunos desafíos, como el problema de posibles errores en las acciones de la IA, cuestiones relacionadas con la reglamentación y limitaciones técnicas para escalar y adaptar en diferentes aplicaciones. Sin embargo, los investigadores creen que LAM representa un cambio importante en el desarrollo de la IA, lo que indica que los asistentes de inteligencia artificial podrán ayudar más activamente a los humanos a completar tareas prácticas.
Reflejos:
LAM puede ejecutar programas de Windows de forma autónoma, superando las limitaciones de la IA tradicional que sólo puede hablar.
⏱ En la prueba de Word, la probabilidad de LAM de completar con éxito la tarea alcanzó el 71%, que es superior al 63% de GPT-4o, y la velocidad de ejecución es más rápida.
El equipo de investigación utilizó una estrategia de expansión de datos para aumentar el número de pares de planes de misión a 76.000 pares, mejorando aún más el efecto de entrenamiento del modelo.
La aparición de LAM presagia la transformación de la inteligencia artificial de proveedor de información a ejecutor de acciones reales, trayendo cambios revolucionarios a la futura interacción entre humanos y computadoras y a la oficina automatizada. Aunque todavía enfrenta desafíos, LAM tiene un gran potencial y vale la pena esperar su amplia aplicación y su mayor desarrollo en diversos campos.