Uma equipe de pesquisa da Universidade de Pequim e da Universidade de Ciência e Tecnologia de Hong Kong fez uma descoberta atraente. Eles desenvolveram um método de treinamento inovador e melhoraram com sucesso o desempenho de um modelo médico especialista de tamanho 8B para o nível GPT-4. Esta pesquisa não apenas introduz um novo conceito de "lacuna de estabilidade" para explicar o fenômeno das flutuações de desempenho de grandes modelos de linguagem durante o pré-treinamento contínuo, mas, mais importante, propõe três estratégias eficazes para resolver esse problema e abre o código-fonte. Modelo Llama-3-Physician-8B, trazendo progresso revolucionário para o campo da IA médica. O desempenho do modelo em tarefas de resposta a perguntas médicas supera até modelos de código aberto do mesmo tamanho e está próximo do nível do GPT-4, o que indica o grande potencial da IA médica.
Primeiro, eles descobriram que durante o processo contínuo de pré-treinamento, o desempenho do modelo no domínio alvo primeiro diminuirá e depois aumentará, o que é tão emocionante quanto uma montanha-russa. Para resolver este problema, eles propuseram três estratégias. A primeira é realizar várias rodadas de pré-treinamento em subconjuntos de dados de tamanho adequado, o que pode restaurar o desempenho mais rapidamente do que uma única rodada de pré-treinamento em um grande conjunto de dados. A segunda é selecionar o subcorpus da mais alta qualidade para múltiplas rodadas de pré-treinamento. Finalmente, misturar dados para aproximar a distribuição de dados pré-treinados pode tornar o modelo mais estável.
Essas estratégias têm alcançado resultados notáveis no pré-treinamento contínuo e no ajuste fino das instruções da área médica, melhorando o efeito e reduzindo a quantidade de cálculos. Além disso, seu modelo Llama-3-Physician-8B de código aberto já está disponível no HuggingFace.
O significado desta pesquisa vai além disso. Eles também descobriram que, com essas estratégias, o modelo OpenLLaMa só precisava ser treinado em 5 bilhões de dados de alta qualidade durante 4 épocas para superar significativamente todas as linhas de base em tarefas médicas. Isso não apenas melhora o desempenho, mas também reduz bastante o consumo de recursos computacionais.
O que é ainda mais impressionante é que o desempenho do modelo Llama-3-Physician-8B-insturct em tarefas de resposta a perguntas médicas não é apenas melhor do que outros modelos de código aberto do mesmo tamanho, mas também supera o modelo GPT-3.5 de código fechado e é próximo ao nível GPT-4. Isto é simplesmente uma revolução no campo médico.
Esta pesquisa não só nos fornece um novo método de treinamento, mas também nos permite ver o enorme potencial dos grandes modelos de linguagem na área médica. Por meio de pré-treinamento contínuo e ajuste fino de instruções, podemos fazer com que o modelo alcance maior desempenho em áreas específicas e, ao mesmo tempo, reduza os custos computacionais. Este é, sem dúvida, um grande benefício para a indústria médica.
Este estudo também nos lembra que o treinamento de grandes modelos de linguagem não é alcançado da noite para o dia, mas requer otimização e ajuste contínuos. Ao introduzir o conceito de “lacuna de estabilidade”, podemos compreender melhor e resolver problemas no treinamento do modelo, permitindo que o modelo desempenhe um papel maior em campos específicos. Isto não é apenas um avanço tecnológico, mas também uma visão profunda da indústria médica.
Link do artigo: https://arxiv.org/abs/2406.14833
Endereço de código aberto: https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct
O resultado desta pesquisa aponta a direção para o desenvolvimento da área de IA médica e também fornece experiência valiosa para treinamento de modelos em outras áreas. No futuro, com o avanço contínuo da tecnologia, podemos esperar que a aplicação de grandes modelos de linguagem na área médica seja mais extensa e aprofundada, trazendo maiores contribuições para a saúde humana.