Cuatro líneas de código triplican el contexto de un modelo grande, aplicable tanto a Yangtuo Mistral

Autor：Eve Cole Fecha de actualización：2025-01-22 10:16:01

Los académicos chinos han propuesto un nuevo método de extensión de ventana de modelo grande llamado SelfExtended (SE), que puede triplicar la longitud de la ventana de modelo grande con solo cuatro líneas de código. Esta innovadora tecnología es compatible con “plug and play” con una variedad de modelos grandes y ha sido probada en los modelos Mistral y Llama2. A través del método SE, el rendimiento de modelos grandes en el procesamiento de tareas de texto largas se ha mejorado significativamente, resolviendo efectivamente el problema de codificación excesiva que enfrentan los modelos grandes al procesar textos largos. Esto proporciona nuevas direcciones y posibilidades para que los modelos grandes manejen tareas complejas de texto largo.

Los académicos chinos han lanzado un nuevo método de extensión de ventana de modelo grande, SelfExtended (SE para abreviar), que puede triplicar la longitud de la ventana de modelos grandes con solo cuatro líneas de código. SE es un método "plug and play" que puede adaptarse a cualquier modelo grande y ha sido probado con éxito en Mistral y Llama2. Después de utilizar el procesamiento SE, el rendimiento del modelo en tareas de texto largas mejora significativamente. SE utiliza dos mecanismos de atención para resolver el problema del límite excesivo de codificación que encuentran los modelos grandes al procesar textos largos.

La aparición del método SelfExtended (SE) proporciona una solución simple y eficiente al problema del procesamiento de textos largos en modelos grandes. Su función "plug and play" también hace que sea fácil de aplicar a varios modelos grandes, lo que demuestra su poderosa practicidad. y amplias perspectivas de aplicación. En el futuro, una mayor mejora y perfeccionamiento de los métodos SE brindará más posibilidades para el desarrollo de tecnología de modelos grandes.