В области искусственного интеллекта обучение крупных языковых моделей (LLM) всегда было ресурсной задачей, обычно могут предпринять лишь несколько технических гигантов. Тем не менее, недавно выпущенный метод Google (небольшая модель поддержки с большой модели) может полностью изменить эту ситуацию. Это инновация не только снижает затраты на обучение, но и повышает производительность модели, открывая дверь для разработки ИИ для дополнительных исследовательских институтов и предприятий.
Примечания источника изображения: изображение генерируется ИИ, а изображение авторизованное поставщик услуг Midjourney
Ядро солевого метода лежит в двухэтапном тренировочном процессе. Первый этап - дистилляция знаний, а модель малого языка (SLM) действует как «учитель», передает знания, изученные большой модели через «мягкие теги». Этот этап особенно подходит для основных задач, которые освоили небольшие модели, помогая крупным моделям заложить прочную основу в раннем обучении.
Второй этап-это самоотверженное обучение, с большими моделями, начинающими учиться независимо, сосредоточив внимание на более сложных задачах. Эта фаза перехода требует тщательного дизайна, включая такие стратегии, как линейное ослабление и линейное пропорциональное ослабление, чтобы гарантировать, что крупные модели могут постепенно снижать свою зависимость от небольших моделей и в конечном итоге достичь независимого обучения и оптимизации.
Исследования Google показывают, что использование метода соли для обучения большой модели с 2,8 миллиардами параметров имеет сокращение времени на 28% и имеет повышенную точность в математических задачах и задачах понимания прочитанного на 3% и 4% соответственно. Это значительное улучшение производительности не только демонстрирует эффективность соли, но и демонстрирует его сильный потенциал в сложных задачах.
Появление соли не только повышает эффективность обучения, но и снижает порог для развития ИИ. В прошлом расходы на обучение могла позволить себе только крупные технологические компании, и теперь многие небольшие исследовательские институты и компании могут участвовать. Это будет способствовать появлению более инновационных и профессиональных решений для ИИ и еще больше способствовать развитию области искусственного интеллекта.
В целом, метод соли не только улучшает производительность крупных моделей, внедряя вспомогательную подготовку небольших моделей, но и значительно снижает стоимость обучения. Ожидается, что это инновация вызовет революцию в области ИИ, что позволит большему количеству учреждений участвовать в исследованиях и разработках ИИ и способствует прогрессу всей отрасли.