Исследовательская группа из Пекинского университета и Гонконгского университета науки и технологий совершила впечатляющий прорыв. Они разработали инновационный метод обучения и успешно улучшили производительность медицинской экспертной модели размером 8B до уровня GPT-4. Это исследование не только вводит новую концепцию «разрыва в стабильности» для объяснения явления колебаний производительности больших языковых моделей во время непрерывного предварительного обучения, но, что более важно, они предлагают три эффективные стратегии решения этой проблемы и открывают исходный код. Модель «Лама-3-Врач-8Б», приносящая революционный прогресс в области медицинского ИИ. Производительность модели при решении задач по ответам на медицинские вопросы даже превосходит модели с открытым исходным кодом того же размера и приближается к уровню GPT-4, что указывает на большой потенциал медицинского ИИ.
Во-первых, они обнаружили, что во время непрерывного процесса предварительного обучения производительность модели в целевой области сначала снижается, а затем увеличивается, что так же увлекательно, как американские горки. Для решения этой проблемы они предложили три стратегии. Первый — выполнить несколько раундов предварительного обучения на подмножествах данных соответствующего размера, что может восстановить производительность быстрее, чем один раунд предварительного обучения на большом наборе данных. Второй — выбрать подкорпус самого высокого качества для нескольких раундов предварительного обучения. Наконец, смешивание данных для аппроксимации распределения предварительно обученных данных может сделать модель более стабильной.
Эти стратегии позволили добиться замечательных результатов в непрерывной предварительной подготовке и доработке инструкций в медицинской сфере, улучшении эффекта и уменьшении объема вычислений. Более того, их модель Llama-3-Physician-8B с открытым исходным кодом уже доступна на HuggingFace.
Значение данного исследования выходит за рамки этого. Они также обнаружили, что с помощью этих стратегий модели OpenLLaMa достаточно было обучиться на высококачественных 5 миллиардах данных за 4 эпохи, чтобы значительно превзойти все базовые показатели для медицинских задач. Это не только повышает производительность, но и значительно снижает потребление вычислительных ресурсов.
Что еще более впечатляет, так это то, что производительность их модели Llama-3-Physician-8B-insturct при выполнении задач по ответам на медицинские вопросы не только лучше, чем у других моделей с открытым исходным кодом того же размера, но даже превосходит модель GPT-3.5 с закрытым исходным кодом и близко к уровню GPT-4. Это просто революция в медицинской сфере.
Это исследование не только дает нам новый метод обучения, но и позволяет увидеть огромный потенциал больших языковых моделей в медицинской сфере. Благодаря непрерывному предварительному обучению и точной настройке инструкций мы можем добиться более высокой производительности модели в конкретных областях, одновременно сокращая вычислительные затраты. Это, несомненно, огромное благо для медицинской промышленности.
Это исследование также напоминает нам, что обучение больших языковых моделей не достигается в одночасье, а требует постоянной оптимизации и корректировки. Введя концепцию «разрыва стабильности», мы можем лучше понять и решить проблемы обучения модели, что позволит модели играть более важную роль в конкретных областях. Это не только технологический прорыв, но и глубокий взгляд на медицинскую отрасль.
Ссылка на статью: https://arxiv.org/abs/2406.14833.
Адрес открытого исходного кода: https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.
Этот результат исследования указывает направление развития области медицинского ИИ, а также предоставляет ценный опыт для обучения моделей в других областях. В будущем, благодаря постоянному развитию технологий, мы можем ожидать, что применение больших языковых моделей в медицинской сфере станет более обширным и глубоким, что внесет больший вклад в здоровье человека.