Meta FAIR 팀은 인간의 이중 인지 시스템(시스템 1 및 시스템 2)을 시뮬레이션하고 추론 능력과 컴퓨팅 효율성을 크게 향상시키는 새로운 Transformer 모델인 Dualformer를 출시했습니다. 시스템 1 또는 시스템 2만 시뮬레이션하는 기존 Transformer 모델과 달리 Dualformer는 빠르고 느린 추론 모드 간에 유연하게 전환하여 다양한 작업의 복잡성에 적응할 수 있습니다. 이러한 혁신은 훈련을 위해 무작위 추론 궤적을 사용하고 궤적의 다른 부분을 무작위로 폐기하여 인간 사고 과정의 지름길을 시뮬레이션하는 독특한 훈련 방법에서 비롯됩니다.
Meta의 FAIR 팀은 최근 인간의 이중 인지 시스템을 모방하고 빠르고 느린 추론 모드를 원활하게 통합하여 추론 기능과 컴퓨팅 효율성에 획기적인 발전을 이룰 수 있는 Dualformer라는 새로운 Transformer 모델을 출시했습니다.
인간의 사고 과정은 일반적으로 두 가지 시스템, 즉 빠르고 직관적인 시스템 1과 더 느리고 논리적인 시스템 2에 의해 제어되는 것으로 생각됩니다.
기존 Transformer 모델은 일반적으로 시스템 1 또는 시스템 2 중 하나만 시뮬레이션하므로 속도는 빠르지만 추론 기능이 부족하거나 추론 기능은 강력하지만 느리고 계산 비용이 높은 모델이 생성됩니다.
Dualformer의 혁신적인 점은 훈련 방식입니다. 연구원들은 인간의 사고 과정을 분석하고 지름길을 만드는 것과 유사하게 훈련 중에 궤적의 다른 부분을 무작위로 삭제하는 무작위 추론 궤적을 사용하여 모델을 훈련했습니다. 이 훈련 전략을 통해 Dualformer는 추론 중에 다양한 모드 간에 유연하게 전환할 수 있습니다.
빠른 모드: Dualformer는 최종 솔루션만 출력하므로 매우 빠릅니다.
느린 모드: Dualformer는 더 강력한 추론 기능을 통해 완전한 추론 체인과 최종 솔루션을 출력합니다.
자동 모드: Dualformer는 작업의 복잡성에 따라 적절한 모드를 자동으로 선택할 수 있습니다.
실험 결과에 따르면 Dualformer는 미로 탐색 및 수학적 문제 해결과 같은 작업에서 우수한 성능을 발휘하는 것으로 나타났습니다. 느린 모드에서 Dualformer는 97.6%의 성공률로 30x30 미로 탐색 작업을 해결할 수 있으며, 이는 완전한 추론 궤적만 사용하여 훈련된 Searchformer 모델을 능가하는 동시에 추론 단계를 45.5% 줄일 수 있습니다.
빠른 모드에서 Dualformer의 성공률은 80%까지 높으며, 이는 최종 솔루션만 사용하여 학습한 Solution-Only 모델보다 훨씬 높습니다. 자동 모드에서 Dualformer는 높은 성공률을 유지하면서 추론 단계를 크게 줄일 수 있습니다.
Dualformer의 성공은 인간 인지 이론을 인공지능 모델 설계에 적용하면 모델 성능을 효과적으로 향상시킬 수 있음을 보여줍니다. 빠르고 느린 사고를 통합하는 이 모델은 보다 강력하고 효율적인 AI 시스템을 구축하기 위한 새로운 아이디어를 제공합니다.
논문 주소: https://arxiv.org/pdf/2410.09918
Downcodes의 편집자는 다음과 같이 결론을 내렸습니다. Dualformer의 출현은 인간의 사고 패턴에 더 가까운 인공 지능 모델 설계에서 큰 진전을 의미합니다. 추론 효율성과 정확성의 획기적인 발전은 AI 기술의 새로운 방향과 미래 발전을 제공합니다.