Downcodes의 편집자는 Meta 연구자들의 최신 혁신에 대해 배울 수 있도록 안내할 것입니다! 그들은 Transformer 모델을 사용하여 동적 시스템 분야에서 오랫동안 해결되지 않은 문제, 즉 전역 Lyapunov 함수를 찾는 문제를 극복했습니다. 이 연구는 복잡한 수학적 추론에서 대규모 언어 모델의 강력한 기능을 보여줄 뿐만 아니라, 더 중요한 것은 훈련 데이터 부족 문제를 효과적으로 해결하고 과학적 발견에서 AI의 길을 닦는 혁신적인 "역 생성" 방법을 제안한다는 것입니다. . 그 안에 있는 응용프로그램은 새로운 길을 열었습니다. 연구 결과는 arXiv에 게재되었으며, 논문 주소도 제공되었습니다.
대규모 언어 모델은 많은 작업에서 잘 수행되지만 추론 기능에 대해서는 논란이 있었습니다. Meta의 연구원들은 최근 수학의 오랜 문제인 동적 시스템의 전역 Lyapunov 함수 발견을 해결하기 위해 Transformer 모델을 사용하는 방법을 보여주는 논문을 발표했습니다.
Lyapunov 함수는 동적 시스템이 안정적인지 여부를 확인할 수 있습니다. 예를 들어 삼체 문제, 즉 중력의 영향을 받는 세 천체의 장기 궤적을 예측하는 데 사용할 수 있습니다. . 그러나 Lyapunov 함수를 유도하는 일반적인 방법은 아직 발견되지 않았으며 해당 함수는 소수의 시스템에만 알려져 있습니다.
이 문제를 해결하기 위해 Meta의 연구원들은 주어진 시스템의 Lyapunov 기능을 예측하기 위해 시퀀스-투-시퀀스 변환기 모델을 훈련했습니다. 그들은 혁신적인 동적 시스템과 이에 상응하는 Lyapunov 기능을 포함하는 대규모 훈련 데이터 세트를 생성하기 위해 "역 생성" 접근 방식을 혁신적으로 사용했습니다.
전통적인 "순방향 생성" 방법은 무작위로 생성된 시스템에서 시작하여 해당 시스템의 Lyapunov 함수를 계산하려고 시도합니다. 이 방법은 비효율적이며 특정 유형의 간단한 시스템만 처리할 수 있습니다. '역생성' 방식은 먼저 리아푸노프 함수를 무작위로 생성한 후 이에 대응하는 안정적인 시스템을 구축함으로써 리아푸노프 함수를 계산해야 하는 문제를 우회하고 보다 다양한 훈련 데이터를 생성한다.
연구원들은 "역세대" 데이터 세트에서 훈련된 Transformer 모델이 테스트 세트에서 거의 완벽한 정확도(99%)를 달성했으며 분포를 벗어난 테스트 세트(73%)에서도 좋은 성능을 발휘한다는 사실을 발견했습니다. 더욱 놀라운 점은 훈련 세트에 소수(300개)의 "순방향 생성"의 간단한 예를 추가하면 모델의 정확도가 84%로 더욱 향상될 수 있다는 점입니다. 이는 소수의 알려진 솔루션이라도 가능하다는 것을 보여줍니다. 모델의 정확도를 크게 향상시킵니다. 모델의 일반화 능력을 향상시킵니다.
새로운 Lyapunov 기능을 발견하는 모델의 능력을 테스트하기 위해 연구원들은 수만 개의 무작위 시스템을 생성하고 모델을 사용하여 예측을 했습니다. 결과는 이 모델이 최첨단 방법보다 다항식 시스템에서 Lyapunov 함수를 찾는 데 10배 더 성공적이며 현재 알고리즘으로는 수행할 수 없는 비다항식 시스템에서도 Lyapunov 함수를 찾을 수 있음을 보여줍니다. 작은.
연구진은 또한 이 모델을 인간 수학자 25명과 비교하여 테스트를 실시한 결과 모델의 정확도가 인간보다 훨씬 높은 것으로 나타났습니다.
이 연구는 Transformer 모델을 훈련하여 복잡한 수학적 추론 문제를 해결할 수 있으며 "역생성" 방법이 기존 방법의 한계를 극복하는 훈련 데이터 세트를 효과적으로 생성할 수 있음을 보여줍니다. 앞으로 연구원들은 이 방법을 다른 수학적 문제에 적용하고 과학적 발견에서 AI의 더 많은 가능성을 탐구할 계획입니다.
논문 주소: https://arxiv.org/pdf/2410.08304
전체적으로 Meta의 연구는 AI가 복잡한 과학적 문제를 해결할 수 있는 새로운 아이디어와 방법을 제공하며, 또한 AI가 과학 연구 분야에서 점점 더 중요한 역할을 하게 될 것임을 나타냅니다. Downcodes의 편집자는 AI 분야의 최신 개발에 계속해서 관심을 기울이고 독자들에게 더 흥미로운 보고서를 제공할 것입니다!