A equipe de pesquisa da Universidade Chinesa de Hong Kong (Shenzhen) e o Instituto de Pesquisa de Big Data Shenzhen lançou recentemente um modelo de idioma em larga escala médica (LLM) chamado Huatugpt-O1. Um passo importante. Projetado para um raciocínio complexo no campo médico, o modelo visa melhorar a precisão e a confiabilidade do diagnóstico médico e da tomada de decisão. Ao contrário do LLM que se concentrava no raciocínio matemático no passado, o Huatuogpt-O1 se concentra no campo especial dos cuidados médicos e abriu um novo caminho para o desenvolvimento da IA médica, simulando o rigoroso processo de pensamento dos médicos no trabalho real.
O principal desafio enfrentado pela equipe de pesquisa no processo de desenvolvimento é que o processo de raciocínio no campo médico geralmente carece de etapas claras e é difícil de verificar. Para resolver esse problema, eles selecionaram 40.000 perguntas difíceis com respostas corretas únicas e objetivas do banco de perguntas do exame médico e as transformaram em perguntas abertas para criar um conjunto verificável de perguntas médicas. Essas perguntas não apenas exigem que o modelo conduza um raciocínio aprofundado, mas também verificam a correção do processo de inferência através das respostas corretas ou erradas, fornecendo suporte de dados confiáveis para o treinamento do modelo.
Para melhorar a capacidade de raciocínio do modelo, a equipe de pesquisa adotou um método de treinamento em duas etapas. Na primeira fase, eles utilizam o feedback do validador (correto ou errado) para orientar o modelo para pesquisas baseadas em políticas, gerando trajetórias de inferência complexas. O modelo inicialmente inicializa uma cadeia de pensamento (COT). Essas trajetórias de raciocínio bem-sucedidas são então usadas para ajustar o LLM para fornecer a complexa capacidade de raciocínio da reflexão iterativa. Na segunda fase, a equipe de pesquisa usou as recompensas esparsas fornecidas pelo validador para melhorar ainda mais os complexos recursos de raciocínio do modelo por meio de algoritmos de aprendizado de reforço (RL).
Os resultados experimentais mostram que esse método de treinamento em dois estágios alcançou resultados significativos. Usando apenas 40.000 questões verificáveis, um modelo com 8 bilhões de parâmetros alcançou um aumento de 8,5 pontos nos benchmarks médicos. Um modelo de parâmetro de 70 bilhões também supera outros LLMs gerais de código aberto e específicos médicos em vários benchmarks médicos. Esses resultados não apenas confirmam a eficácia do raciocínio complexo na solução de problemas médicos, mas também demonstram o papel significativo do aprendizado de reforço na melhoria do desempenho do modelo.
O Huatuogpt-O1 é inovador, pois usa problemas médicos verificáveis e validadores médicos pela primeira vez para aprimorar as capacidades de raciocínio complexas médicas da LLM. Com essa abordagem, o modelo pode pensar profundamente como um médico e realizar auto-exame e correção antes de dar uma resposta. Isso não apenas melhora o potencial de aplicação do modelo no campo médico, mas também fornece referência para melhorar a capacidade de raciocínio em outros campos profissionais.
Para verificar ainda mais a confiabilidade do modelo, os pesquisadores usaram o GPT-4O como validador, e os resultados mostraram que sua taxa de precisão atingiu 96,5% na primeira fase e 94,5% na segunda fase. Ao mesmo tempo, eles também confirmaram que os validadores baseados em LLM são mais confiáveis que os métodos de correspondência precisos tradicionais. Além disso, os pesquisadores aplicaram o método ao campo médico chinês e também obtiveram resultados notáveis, demonstrando a adaptabilidade do método em diferentes campos e ambientes de idiomas.
No geral, o surgimento de Huatugpt-O1 marca progresso significativo na IA médica no raciocínio complexo. Ele não apenas fornece ferramentas mais confiáveis para diagnóstico médico e tomada de decisão, mas também fornece novas idéias para a aplicação futura de IA em outros campos profissionais. Embora o modelo ainda esteja no estágio de pesquisa e não possa ser aplicado diretamente à prática clínica, seu enorme potencial atraiu atenção generalizada e deve desempenhar um papel maior no campo médico no futuro.
Endereço em papel: https://arxiv.org/pdf/2412.18925