Un equipo de investigación de la Universidad de Pekín y la Universidad de Ciencia y Tecnología de Hong Kong logró un avance sorprendente. Desarrollaron un método de entrenamiento innovador y mejoraron con éxito el rendimiento de un modelo médico experto de tamaño 8B al nivel GPT-4. Esta investigación no solo introduce un nuevo concepto de "brecha de estabilidad" para explicar el fenómeno de las fluctuaciones de rendimiento de los modelos de lenguaje grandes durante el entrenamiento previo continuo, sino que, lo que es más importante, propone tres estrategias efectivas para resolver este problema y abre el código fuente. Modelo Llama-3-Physician-8B, que aporta un progreso revolucionario al campo de la IA médica. El rendimiento del modelo en tareas de respuesta a preguntas médicas incluso supera a los modelos de código abierto del mismo tamaño y se acerca al nivel de GPT-4, lo que indica el gran potencial de la IA médica.
Primero, descubrieron que durante el proceso de preentrenamiento continuo, el rendimiento del modelo en el dominio objetivo primero disminuirá y luego aumentará, lo cual es tan emocionante como una montaña rusa. Para solucionar este problema, propusieron tres estrategias. La primera es realizar múltiples rondas de preentrenamiento en subconjuntos de datos de tamaño adecuado, lo que puede restaurar el rendimiento más rápido que una sola ronda de preentrenamiento de conjuntos de datos de gran tamaño. El segundo es seleccionar el subcorpus de mayor calidad para múltiples rondas de capacitación previa. Finalmente, mezclar datos para aproximar la distribución de datos previamente entrenados puede hacer que el modelo sea más estable.
Estas estrategias han logrado resultados notables en el preentrenamiento continuo y el ajuste de instrucciones en el campo médico, mejorando el efecto y reduciendo la cantidad de cálculos. Además, su modelo Llama-3-Physician-8B de código abierto ya está disponible en HuggingFace.
La importancia de esta investigación va más allá de eso. También descubrieron que con estas estrategias, el modelo OpenLLaMa solo necesitaba entrenarse con 5 mil millones de datos de alta calidad durante 4 épocas para superar significativamente todas las líneas de base en tareas médicas. Esto no sólo mejora el rendimiento, sino que también reduce en gran medida el consumo de recursos informáticos.
Lo que es aún más impresionante es que el rendimiento de su modelo Llama-3-Physician-8B-insturct en tareas de respuesta a preguntas médicas no sólo es mejor que otros modelos de código abierto del mismo tamaño, sino que incluso supera al modelo de código cerrado GPT-3.5 y es cerca del nivel GPT-4. Esto es simplemente una revolución en el campo médico.
Esta investigación no sólo nos proporciona un nuevo método de formación, sino que también nos permite ver el enorme potencial de los grandes modelos de lenguaje en el campo médico. Mediante un entrenamiento previo continuo y un ajuste fino de las instrucciones, podemos hacer que el modelo alcance un mayor rendimiento en campos específicos y al mismo tiempo reducir los costos computacionales. Sin duda, esto es una gran ayuda para la industria médica.
Este estudio también nos recuerda que la formación de modelos de lenguaje grandes no se logra de la noche a la mañana, sino que requiere optimización y ajuste continuos. Al introducir el concepto de "brecha de estabilidad", podemos comprender y resolver mejor los problemas en el entrenamiento de modelos, lo que permite que el modelo desempeñe un papel más importante en campos específicos. Esto no es sólo un avance tecnológico, sino también una visión profunda de la industria médica.
Enlace del artículo: https://arxiv.org/abs/2406.14833
Dirección de código abierto: https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct
El resultado de esta investigación señala la dirección para el desarrollo del campo de la IA médica y también proporciona una valiosa experiencia para la formación de modelos en otros campos. En el futuro, con el avance continuo de la tecnología, podemos esperar que la aplicación de grandes modelos de lenguaje en el campo médico sea más extensa y profunda, haciendo mayores contribuciones a la salud humana.