인공 지능 분야에서 LLM (Lange Language Models) 훈련은 항상 자원 집약적 인 작업이었으며, 일반적으로 소수의 기술 거인 만 수행 할 수 있습니다. 그러나 Google에서 최근에 출시 된 SALT (소규모 모델 지원 대형 모델 교육) 방법은 이러한 상황을 완전히 바꿀 수 있습니다. 이 혁신은 교육 비용을 줄일뿐만 아니라 모델의 성과를 향상시켜 더 많은 연구 기관과 기업을위한 AI 개발의 문을 열어줍니다.
이미지 소스 참고 : 이미지는 AI에 의해 생성되며 이미지 공인 서비스 제공 업체 Midjourney
소금 방법의 핵심은 2 단계 훈련 과정에 있습니다. 첫 번째 단계는 지식 증류이며 SLM (Small Language Model)은 "교사"역할을하며 "소프트 태그"를 통해 배운 지식을 큰 모델로 전달합니다. 이 단계는 소규모 모델이 마스터 한 기본 작업에 특히 적합하여 대형 모델이 조기 학습에서 탄탄한 기초를 세우는 데 도움이됩니다.
두 번째 단계는 자기 감독 학습이며, 대형 모델은 독립적으로 학습하기 시작하여보다 복잡한 작업에 중점을 둡니다. 이 전환 단계는 선형 감쇠 및 선형 비례 감쇠와 같은 전략을 포함하여 신중한 설계가 필요하여 대형 모델이 작은 모델에 대한 의존도를 점차적으로 줄이고 궁극적으로 독립적 인 학습 및 최적화를 달성 할 수 있도록합니다.
Google의 연구에 따르면 SALT 방법을 사용하여 28 억 개의 매개 변수로 대규모 모델을 훈련시키는 데 28%의 시간이 28% 감소했으며 수학적 문제와 독해 작업의 정확도가 각각 3% 및 4% 증가한 것으로 나타났습니다. 이러한 중요한 성능 개선은 소금의 효율성을 보여줄뿐만 아니라 복잡한 작업에서 강력한 잠재력을 보여줍니다.
소금의 출현은 훈련 효율을 향상시킬뿐만 아니라 AI 개발의 임계 값을 낮추는 것입니다. 과거에는 대규모 기술 회사만이 감당할 수있는 교육 비용이 들었으며 이제는 많은 소규모 연구 기관과 회사가 참여할 수 있습니다. 이는보다 혁신적이고 전문적인 AI 솔루션의 출현을 촉진하고 인공 지능 분야의 개발을 더욱 촉진 할 것입니다.
일반적으로 소금 방법은 소규모 모델의 보조 교육을 도입하여 대형 모델의 성능을 향상시킬뿐만 아니라 교육 비용을 크게 줄입니다. 이 혁신은 AI 분야에서 혁명을 일으킬 것으로 예상되며, 더 많은 기관이 AI 연구 개발에 참여하고 전체 산업의 진보를 촉진 할 수 있습니다.