北大和香港科技大學的研究團隊取得了令人矚目的突破,他們開發了一種創新的訓練方法,成功地將8B尺寸的醫療專家模型表現提升至GPT-4級別。這項研究不僅引入了「穩定性差距」這個全新概念,解釋了大語言模型在持續預訓練過程中表現波動的現象,更重要的是,他們提出了三種行之有效的策略來解決這個問題,並開源了Llama-3-Physician-8B模型,為醫療AI領域帶來了革命性的進展。該模型在醫療問答任務上的表現甚至超越了同尺寸的開源模型,並接近GPT-4的水平,這預示著醫療AI的巨大潛力。
首先,他們發現在持續預訓練過程中,模型在目標領域的表現會先下降再上升,就像過山車一樣刺激。為了解決這個問題,他們提出了三種策略。第一種是在適當大小的資料子集上進行多輪預訓練,這樣比單輪大資料集預訓練能更快恢復效能。第二種是選取最高品質的子語料進行多輪預訓練。最後,透過混合資料來接近預訓練資料分佈,這樣可以讓模型更穩定。
這些策略在醫療領域的持續預訓練和指令精調中都取得了顯著的效果,提升了效果的同時,也削減了計算量。而且,他們開源的Llama-3-Physician-8B模型已經在HuggingFace上可以找到。
這項研究的意義可不止於此。他們也發現,透過這些策略,OpenLLaMa模型只需要在高品質50億資料上訓練4個輪次,就能在醫療任務上顯著超越所有基準。這不僅提升了效能,還大大減少了運算資源的消耗。
更厲害的是,他們的Llama-3-Physician-8B-insturct模型在醫療問答任務上的表現,不僅優於其他同尺寸的開源模型,甚至超過了閉源的GPT-3.5模型,接近GPT-4的水平。這簡直就是醫療領域的革命。
這項研究不僅為我們提供了一種新的訓練方法,也讓我們看到了大語言模型在醫療領域的巨大潛力。透過持續預訓練和指令微調,我們可以讓模型在特定領域達到更高的效能,同時降低運算成本。這對醫療產業來說,無疑是一個巨大的福音。
這項研究也提醒我們,大語言模型的訓練不是一蹴可幾的,而是需要不斷地優化和調整。透過引入「穩定性差距」的概念,我們可以更好地理解並解決模型訓練中的問題,讓模型在特定領域發揮更大的作用。這不僅是技術上的突破,更是對醫療產業的深刻洞見。
論文連結:https://arxiv.org/abs/2406.14833
開源位址:https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct
這項研究成果為醫療AI領域的發展指明了方向,也為其他領域的模型訓練提供了寶貴的經驗。未來,隨著科技的不斷進步,我們可以期待大語言模型在醫療領域的應用將更加廣泛和深入,為人類健康事業做出更大的貢獻。