최근 Tencent Technology (Shenzhen) Co., Ltd.는 "대형 언어 모델을위한 교육 방법, 장치, 컴퓨터 장비 및 스토리지 미디어"라는 특허를 신청했습니다. 이 특허는 첫 번째 추상 텍스트와 두 번째 초록 텍스트를 소개하여 큰 언어 모델을 훈련하는 동안 모델에 대해보다 학습 가능한 정보를 제공합니다.
특허 설명에 따르면, 첫 번째 추상 텍스트와 두 번째 초록 텍스트에는 다른 양의 정보가 포함되어 있으며 첫 번째 추상 텍스트에는 올바른 진술과 잘못된 진술도 포함되어 있습니다. 동일한 텍스트 의이 두 가지 다른 초록을 비교하고 배우고 올바른 진술과 잘못된 진술을 구별함으로써 단일 요약 텍스트로 인한 모델 과적으로 모델과 적합성 및 부정확 한 생성과 같은 가능한 문제를 효과적으로 피할 수 있습니다.
이 방법의 혁신은 모델의 일반화 성능을 향상시키고 모델의 정확도를 효과적으로 향상 시킨다는 것입니다. 다양한 추상 텍스트 내용을 도입함으로써 Tencent의 교육 방법은 대형 언어 모델의 교육 프로세스를보다 효율적이고 정확한 개선했습니다.
이러한 진보는 인공 지능 분야에서 Tencent의 기술적 강점을 반영 할뿐만 아니라 미래의 대형 언어 모델의 적용 및 개발을위한 견고한 토대를 임명합니다.