DeepMind의 새로운 연구에 따르면 대규모 언어 모델은 사실 평가에서 인간 주석 작성자보다 뛰어난 성능을 발휘할 수 있습니다. 이 연구에서는 자동화된 사실성 평가를 위해 SAFE 평가기를 활용하고 LongFact 데이터 세트를 사용하여 광범위한 벤치마킹을 수행하여 대규모 모델이 긴 사실 정보를 처리하는 데 잘 수행된다는 것을 보여줍니다. 이 연구는 사실 평가 분야에서 대형 모델의 장점을 입증할 뿐만 아니라 더 중요한 것은 DeepMind 팀이 모든 연구 결과를 완전히 오픈 소스화하여 학계와 산업계에 귀중한 리소스를 제공한다는 것입니다.
DeepMind의 최신 논문은 사실 평가에서 대형 모델의 장점을 보여줍니다. 연구에 따르면 대규모 언어 모델은 인간 주석자의 성능을 능가하고 SAFE 평가자를 통해 자동 사실 평가를 달성할 수 있습니다. 연구원들은 LongFact 데이터 세트를 사용하여 광범위한 벤치마킹을 수행했으며 그 결과 대규모 모델이 긴 사실 측면에서 우수한 성능을 발휘하는 것으로 나타났습니다. 전체 연구는 실제 평가에서 대형 모델의 장점을 강조하며 완전히 오픈 소스입니다.이번 연구 결과는 사실 평가 분야에서 인공지능의 발전을 촉진할 뿐만 아니라 정보 신뢰도 분야에서 향후 대형 모델 적용에 대한 새로운 방향을 제시한다는 점에서 고무적이다. 오픈 소스 전략은 또한 더 넓은 연구와 적용을 위한 길을 열어 주며, 후속 개발을 기대할 가치가 있습니다.