AI계에서는 튜링상 수상자 얀 레쿤(Yann Lecun)이 대표적인 아웃라이어다.
많은 기술 전문가들은 현재의 기술 경로를 따라 AGI의 실현은 시간 문제일 뿐이라고 굳게 믿고 있지만 Yann Lecun은 계속해서 이의를 제기해 왔습니다.
그는 동료들과의 열띤 토론에서 현재의 주류 기술 경로로는 우리를 AGI로 이끌 수 없으며 현재 AI 수준도 고양이만큼 좋지 않다고 여러 번 말했습니다.
Turing Award 수상자, 메타 수석 AI 과학자, 뉴욕 대학교 교수 등. 이러한 눈부신 직함과 막중한 실무 경험으로 인해 우리 중 누구도 이 AI 전문가의 통찰력을 무시할 수 없습니다.
그렇다면 Yann LeCun은 AI의 미래에 대해 어떻게 생각합니까? 최근 공개 연설에서 그는 AI가 텍스트 훈련에만 의존하면 인간 수준에 가까운 지능에 도달할 수 없다는 자신의 관점을 다시 한 번 자세히 설명했습니다.
일부 견해는 다음과 같습니다:
1. 미래에 사람들은 일반적으로 스마트 안경이나 기타 유형의 스마트 장치를 착용하게 될 것입니다. 이러한 장치에는 개인 지능형 가상 팀을 구성하여 개인의 창의성과 효율성을 향상시키는 보조 시스템이 내장될 것입니다.
2. 지능형 시스템의 목적은 인간을 대체하는 것이 아니라 인간의 지능을 향상시켜 사람들이 보다 효율적으로 일할 수 있도록 하는 것입니다.
3. 심지어 애완 고양이의 두뇌에는 AI 시스템이 구축할 수 있는 것보다 더 복잡한 모델이 있습니다.
4. FAIR는 기본적으로 더 이상 언어 모델에 초점을 맞추지 않고, 차세대 AI 시스템이라는 장기적인 목표를 향해 나아갑니다.
5. AI 시스템은 텍스트 데이터만으로는 인간 수준에 가까운 지능을 달성할 수 없습니다.
6. Yann Lecun은 생성 모델, 확률 모델, 대조 학습 및 강화 학습을 포기하고 대신 JEPA 아키텍처 및 에너지 기반 모델을 채택할 것을 제안했으며 이러한 방법이 AI 개발을 촉진할 가능성이 더 높다고 믿었습니다.
7. 기계는 결국 인간의 지능을 능가하게 되지만 목표 지향적이기 때문에 통제될 것입니다.
흥미롭게도 연설이 시작되기 전에 에피소드가 있었습니다.
진행자는 르쿤을 소개하면서 그를 페이스북 AI 연구소 (FAIR) 의 수석 AI 과학자라고 불렀다.
이와 관련하여 LeCun은 FAIR의 "F"가 더 이상 Facebook을 의미하지 않고 " Fundamental "을 의미한다는 점을 연설 전에 분명히 밝혔습니다.
아래 연설문의 원문은 APPSO에서 편집하여 편집했습니다. 마지막으로 원본 동영상 링크가 첨부됩니다: https://www.youtube.com/watch?v=4DsCtgtQlZU
AI는 고양이만큼 세상을 이해하지 못합니다.
좋아요, 그럼 저는 인간 수준의 AI에 대해 이야기하고 우리가 거기에 어떻게 도달할 것인지, 그리고 왜 거기에 도달하지 못할 것인지에 대해 이야기하겠습니다.
첫째, 인간 수준의 AI가 정말 필요합니다.
왜냐하면 미래에는 우리 대부분이 스마트 안경이나 다른 유형의 장치를 착용하게 될 것이기 때문입니다. 우리는 이러한 장치와 대화할 것이며 이러한 시스템은 보조자, 어쩌면 한 명 이상, 어쩌면 전체 보조자 세트를 호스트하게 될 것입니다.
이로 인해 우리 각자는 본질적으로 우리를 위해 일하는 지능형 가상 팀을 갖게 될 것입니다.
따라서 모든 사람이 "상사"가 될 것이지만 이러한 "직원"은 실제 인간이 아닙니다. 우리는 기본적으로 인간의 지능을 강화하고 사람들을 더욱 창의적이고 효율적으로 만들기 위해 이와 같은 시스템을 구축해야 합니다.
하지만 그러기 위해서는 인간과 동등한 수준으로 세상을 이해하고, 사물을 기억하고, 직관과 상식을 갖고, 이성과 계획을 세울 수 있는 기계가 필요합니다.
일부 지지자들은 현재 AI 시스템에 이러한 기능이 없다고 말하는 것을 들어보셨을 것입니다. 그러므로 우리는 세상을 모델링하는 방법을 배우고, 세상이 어떻게 작동하는지에 대한 정신적 모델을 갖는 데 시간을 투자해야 합니다.
거의 모든 동물은 그러한 모델을 가지고 있습니다. 고양이는 AI 시스템이 구축하거나 설계할 수 있는 것보다 더 복잡한 모델을 가지고 있어야 합니다.
현재 언어 모델 (LLM) 에는 없는 영구 메모리를 갖춘 시스템, 오늘날의 시스템이 할 수 없는 복잡한 일련의 작업을 계획할 수 있는 시스템, 제어 가능하고 안전한 시스템이 필요합니다.
그래서 저는 목표 중심 AI라는 아키텍처를 제안하겠습니다. 나는 약 2년 전에 이에 관한 비전 논문을 작성하여 출판했습니다. FAIR의 많은 사람들은 이 계획을 현실로 만들기 위해 열심히 노력하고 있습니다.
FAIR는 과거에도 더 많은 응용 프로젝트를 진행했지만 메타는 AI 제품에 집중하기 위해 1년 반 전 제너레이티브 AI (Gen AI) 라는 제품 부서를 만들었다.
그들은 응용 연구 및 개발을 수행하므로 이제 FAIR는 차세대 AI 시스템의 장기 목표를 향해 방향이 바뀌었습니다. 우리는 기본적으로 더 이상 언어 모델에 초점을 맞추지 않습니다.
LLM(대형 언어 모델)을 포함한 AI의 성공, 특히 지난 5~6년간 다른 많은 시스템의 성공은 물론 자기 지도 학습을 포함한 다양한 기술에 달려 있습니다.
자기 지도 학습의 핵심은 특정 작업을 위해 시스템을 훈련하는 것이 아니라 입력 데이터를 좋은 방식으로 표현하려고 노력하는 것입니다. 이를 달성하는 한 가지 방법은 손상 및 재건 복구를 통해서입니다.
따라서 일부 단어를 제거하거나 다른 단어를 변경하여 텍스트 조각을 가져와 손상시킬 수 있습니다. 이 프로세스는 텍스트, DNA 서열, 단백질 또는 기타 모든 것, 심지어 어느 정도 이미지에도 사용될 수 있습니다. 그런 다음 대규모 신경망을 훈련하여 완전한 입력, 즉 손상되지 않은 버전을 재구성합니다.
이는 원래 신호를 재구성하려고 시도하기 때문에 생성 모델입니다.
그러면 빨간색 상자는 비용 함수와 같습니다. 그렇죠? 입력 Y와 재구성된 출력 y 사이의 거리를 계산하며, 이는 학습 과정에서 최소화되어야 하는 매개변수입니다. 이 과정에서 시스템은 다양한 후속 작업에 사용될 수 있는 입력의 내부 표현을 학습합니다.
물론 이는 자동회귀 예측이 수행하는 작업인 텍스트의 단어를 예측하는 데 사용될 수 있습니다.
언어 모델은 항목, 토큰 또는 단어를 예측할 때 왼쪽에 있는 다른 토큰만 볼 수 있도록 아키텍처가 설계된 특별한 경우입니다.
그것은 미래를 내다볼 수 없습니다. 시스템을 올바르게 훈련시키고, 텍스트를 표시하고, 텍스트의 다음 단어나 다음 토큰을 예측하도록 요청하면 시스템을 사용하여 다음 단어를 예측할 수 있습니다. 그런 다음 다음 단어를 입력에 추가하고 두 번째 단어를 예측한 다음 이를 입력에 추가하여 세 번째 단어를 예측합니다.
이것은 자기회귀 예측 입니다.
이것이 LLM이 하는 일입니다. 새로운 개념이 아닙니다. Shannon 시대부터 있었고, 아주 오래 전인 50년대부터 있었습니다. 그러나 변화는 이제 우리가 대규모 신경망 아키텍처를 갖게 되었다는 것입니다. 많은 양의 데이터와 기능이 그로부터 나타날 것으로 보입니다.
그러나 이러한 종류의 자기회귀 예측에는 몇 가지 주요 제한 사항이 있으며 일반적인 의미에서의 실제 추론은 없습니다.
또 다른 제한 사항은 이것이 기본적으로 분리될 수 있는 개별 개체, 기호, 토큰, 단어 등의 형태의 데이터에만 작동한다는 것입니다.
인간 수준의 지능에 도달하는 데 있어서 우리는 여전히 중요한 것을 놓치고 있습니다.
여기서 반드시 인간 수준의 지능에 대해 말하는 것은 아니지만 고양이나 개조차도 현재 AI 시스템의 범위를 넘어서는 놀라운 업적을 달성할 수 있습니다.
10세 어린이라면 누구나 앉은 자리에서 식탁을 치우고 식기 세척기를 채우는 방법을 배울 수 있습니다. 연습이나 그런 건 필요 없잖아요?
17세 어린이가 운전을 배우려면 약 20시간의 연습이 필요합니다.
우리에게는 아직 레벨 5 자율주행차가 없으며, 테이블을 치우고 식기 세척기를 채울 수 있는 가정용 로봇도 확실히 없습니다.
AI는 텍스트만으로 훈련하면 인간 수준의 지능에 도달하지 못합니다.
따라서 우리는 AI 시스템으로 이러한 일을 할 수 있는 중요한 것을 정말로 놓치고 있습니다.
우리는 모라벡의 역설(Moravec 's Paradox) 이라는 것을 계속 접하게 되는데 , 우리에게는 사소해 보이고 지능적이라고 생각되지도 않는 일들이 실제로는 기계로 하기가 매우 어렵고, 조작과 같은 일들은 언어와 같은 높은 수준의 복잡하고 추상적인 사고가 어려운 것 같습니다. 기계의 경우 매우 간단하며 체스나 바둑을 두는 경우에도 마찬가지입니다.
아마도 이유 중 하나는 이것이었을 것입니다.
LLM(대형 언어 모델) 은 일반적으로 20조 개의 토큰에 대해 학습됩니다.
토큰은 기본적으로 평균 단어의 3/4입니다. 따라서 총 1.5×10^13개의 단어가 있습니다. 각 토큰은 약 3B이며 일반적으로 6×1013바이트가 필요합니다.
우리 중 누구라도 이 글을 읽는 데는 대략 수십만 년이 걸릴 것입니다. 그렇죠? 이것은 기본적으로 인터넷상의 모든 공개 텍스트를 합친 것입니다.
하지만 네 살짜리 아이가 총 16,000시간 동안 깨어 있었다고 생각해 보십시오. 우리 뇌에는 200만 개의 시신경 섬유가 들어갑니다. 각 신경 섬유는 초당 약 1B, 아마도 초당 0.5바이트의 속도로 데이터를 전송합니다. 일부 추정에 따르면 초당 3B가 될 수 있습니다.
그것은 중요하지 않습니다. 어쨌든 그것은 규모의 순서입니다.
이 데이터 양은 대략 10의 14승 바이트이며, 이는 LLM과 거의 동일한 규모입니다. 따라서 4년 만에 4세 어린이는 전체 인터넷에서 공개적으로 사용 가능한 텍스트에 대해 훈련된 가장 큰 언어 모델만큼 많은 시각적 데이터를 보았습니다.
데이터를 출발점으로 사용하면 여러 가지 사실을 알 수 있습니다.
첫째, 이는 단순히 텍스트를 훈련하는 것만으로는 결코 인간 수준의 지능에 근접할 수 없다는 것을 말해줍니다. 이것은 단순히 일어나지 않을 것입니다.
둘째, 시각 정보는 매우 중복됩니다. 각 시신경 섬유는 초당 1B의 정보를 전송하는데, 이는 망막의 광수용체에 비해 이미 100:1로 압축되어 있습니다.
우리의 망막에는 대략 6천만에서 1억 개의 광수용체가 있습니다. 이러한 광수용체는 망막 앞부분의 뉴런에 의해 백만 개의 신경 섬유로 압축됩니다. 따라서 이미 100:1 압축이 이루어졌습니다. 그러다가 뇌에 도달할 때쯤에는 정보가 약 50배로 확장됩니다.
그래서 제가 측정하고 있는 것은 압축된 정보이지만 여전히 매우 중복됩니다. 그리고 중복성은 실제로 자기 지도 학습에 필요한 것입니다. 자기 지도 학습은 중복된 데이터에서만 유용한 정보를 학습합니다. 데이터가 압축률이 높으면 데이터가 무작위 노이즈가 되어 아무것도 학습할 수 없습니다.
무엇이든 배우려면 중복이 필요합니다. 데이터의 기본 구조를 배워야 합니다. 그러므로 우리는 영상을 보거나 현실 세계에 살면서 상식과 물리학을 배울 수 있도록 시스템을 훈련시켜야 합니다.
내 말의 순서가 다소 혼란스러울 수도 있습니다. 저는 주로 이 목표 중심 인공지능 아키텍처가 무엇인지 말씀드리고 싶습니다. 추론 프로세스가 단순히 신경망의 일련의 계층을 거치는 것이 아니라 실제로 최적화 알고리즘을 실행한다는 점에서 LLM 또는 피드포워드 뉴런과 매우 다릅니다.
개념적으로는 이렇게 보입니다.
피드포워드 프로세스는 관찰이 지각 시스템을 통해 실행되는 프로세스입니다. 예를 들어 일련의 신경망 레이어가 있고 출력을 생성하는 경우 단일 입력에 대해 하나의 출력만 가질 수 있지만 대부분의 경우 인식에 대해서는 여러 가지 가능한 출력 해석이 있을 수 있습니다. 단순히 기능을 계산하는 것이 아니라 단일 입력에 대해 여러 출력을 제공하는 매핑 프로세스가 필요합니다. 이를 달성하는 유일한 방법은 암시적 함수를 이용하는 것입니다.
기본적으로 이 목표 프레임워크의 오른쪽에 있는 빨간색 상자는 기본적으로 입력과 제안된 출력 간의 호환성을 측정한 후 입력과 가장 잘 호환되는 출력 값을 찾아 출력을 계산하는 기능을 나타냅니다. 이 목표는 일종의 에너지 함수이고 출력을 변수로 사용하여 이 에너지를 최소화한다고 상상할 수 있습니다.
여러 솔루션이 있을 수 있으며 이러한 여러 솔루션을 처리하는 방법이 있을 수 있습니다. 이것은 인간의 지각 시스템에도 해당됩니다. 특정 인식에 대해 여러 가지 해석이 있으면 뇌는 자동으로 해당 해석 사이를 순환합니다. 그래서 이런 종류의 일이 일어난다는 몇 가지 증거가 있습니다.
하지만 다시 아키텍처로 돌아가 보겠습니다. 따라서 최적화를 통한 추론 원칙을 활용하세요. 인간의 마음이 작동하는 방식에 대한 가정은 다음과 같습니다. 당신은 세상에서 관찰을 합니다. 지각 시스템은 세계의 현재 상태에 대한 아이디어를 제공합니다. 하지만 물론 그것은 당신이 현재 인식할 수 있는 세상의 상태에 대한 아이디어만을 제공할 뿐입니다.
당신은 나머지 세계의 상태에 관해 기억나는 몇 가지 생각을 가지고 있을 것입니다. 이는 기억의 내용과 결합되어 세계의 모델로 공급될 수 있습니다.
모델이란 무엇입니까? 세계 모델은 세계에서 당신이 어떻게 행동하는지에 대한 정신적 모델입니다. 따라서 당신이 취할 수 있는 일련의 행동을 상상할 수 있으며, 세계 모델을 통해 그러한 일련의 행동이 세계에 미치는 영향을 예측할 수 있습니다.
따라서 녹색 상자는 세계의 최종 상태가 어떻게 될지 또는 세계에서 일어날 것이라고 예측하는 전체 궤적을 예측하는 가상의 일련의 행동을 입력하는 세계 모델을 나타냅니다.
이를 일련의 목적 함수와 결합합니다. 한 가지 목표는 목표가 얼마나 잘 달성되었는지, 작업이 완료되었는지 여부 및 안전 마진 역할을 하는 다른 목표 세트를 측정하는 것입니다. 기본적으로 궤적이 따라가는 정도나 취한 조치가 로봇에 위험을 초래하지 않는 정도를 측정합니다. 또는 기계 주변의 사람들 등이 기다려요.
따라서 이제 추론 과정 (아직 학습에 대해서는 언급하지 않았습니다) 은 추론일 뿐이며 이러한 목표를 최소화하는 일련의 행동을 찾는 것, 이러한 목표를 최소화하는 일련의 행동을 찾는 것으로 구성됩니다. 이것이 추론 과정입니다.
따라서 이는 단순한 피드포워드 프로세스가 아닙니다. 개별 옵션을 검색하여 이를 수행할 수 있지만 이는 효율적이지 않습니다. 더 나은 접근 방식은 이러한 모든 상자가 미분 가능한지 확인하는 것입니다. 이를 통해 경사를 역전파한 다음 경사 하강을 통해 작업 시퀀스를 업데이트할 수 있습니다.
사실 이 아이디어는 새로운 것이 아니며 60년 이상, 어쩌면 그보다 더 오랫동안 존재해 왔습니다. 먼저 이런 종류의 추론을 위해 세계 모델을 사용하는 것의 이점에 대해 이야기하겠습니다. 장점은 학습이 필요 없이 새로운 작업을 완료할 수 있다는 것입니다.
우리는 때때로 이것을 합니다. 우리는 새로운 상황에 직면했을 때 그것에 대해 생각하고, 행동의 결과를 상상한 다음, 목표 (그것이 무엇이든) 를 달성하기 위해 일련의 행동을 취합니다. , 우리는 계획을 세울 수 있습니다. 이것이 기본적으로 계획입니다.
대부분의 추론 형태를 최적화로 요약할 수 있습니다. 따라서 최적화를 통한 추론 프로세스는 단순히 신경망의 여러 계층을 실행하는 것보다 본질적으로 더 강력합니다. 내가 말했듯이, 최적화를 통한 추론이라는 아이디어는 60년 넘게 존재해 왔습니다.
최적 제어 이론 분야에서는 이를 모델 예측 제어라고 합니다.
로켓, 비행기, 로봇 등 제어하려는 시스템 모델이 있습니다. 일련의 제어 명령의 효과를 계산하기 위해 월드 모델을 사용하는 것을 상상할 수 있습니다.
그런 다음 움직임이 원하는 결과를 얻을 수 있도록 이 시퀀스를 최적화합니다. 기존 로봇 공학의 모든 동작 계획은 이러한 방식으로 수행되며 이는 새로운 것이 아닙니다. 여기서 참신한 점은 우리가 세계의 모델을 학습하고 지각 시스템이 적절한 추상 표현을 추출한다는 것입니다.
이제 이 시스템을 실행하는 방법에 대한 예를 살펴보기 전에 월드 모델, 현재 작업에 대해 구성할 수 있는 비용 함수, 최적화 모듈 (예: 진정한 최적화, 세계 모델에 대한 최적의 동작 순서를 결정하는 주어진 모듈 찾기 , 단기 기억, 지각 시스템 등
그러면 이것이 어떻게 작동하나요? 귀하의 작업이 단일 작업이 아니라 일련의 작업이고 세계 모델이 실제로 시간 T의 세계 상태와 가능한 작업이 주어지면 시간 T+1의 세계 상태를 예측하도록 알려주는 시스템인 경우.
이 상황에서 일련의 두 가지 작업이 어떤 영향을 미칠지 예측하려고 합니다. 이를 달성하기 위해 월드 모델을 여러 번 실행할 수 있습니다.
초기 세계 상태 표현을 얻고, 작업에 대해 0이라는 가정을 입력하고, 모델을 사용하여 다음 상태를 예측한 다음, 작업 1을 수행하고, 다음 상태를 계산하고, 비용을 계산한 다음, 역전파 및 그래디언트 기반 최적화 방법을 사용하여 두 가지 행동의 비용을 최소화하는 것이 무엇인지 알아보세요. 이것이 모델 예측 제어입니다.
이제 세계는 완전히 결정적이지 않으므로 세계 모델에 맞게 잠재 변수를 사용해야 합니다. 잠재 변수는 기본적으로 데이터 세트 내에서 전환되거나 분포에서 추출될 수 있는 변수이며, 관찰과 호환되는 여러 예측 간의 세계 모델 전환을 나타냅니다.
더욱 흥미로운 점은 지능 시스템이 현재 인간은 물론 심지어 동물도 할 수 있는 일, 즉 계층적 계획을 할 수 없다는 점입니다.
예를 들어, 뉴욕에서 파리로의 여행을 계획하고 있다면 세계와 신체에 대한 이해, 그리고 아마도 여기에서 파리까지 이동하는 전체 구성에 대한 아이디어를 활용하여 전체 여행을 계획할 수 있습니다. 낮은 수준의 근육 조절.
오른쪽? 파리에 가기 전에 해야 할 모든 일 중 10밀리초당 근육 조절 단계 수를 더하면 엄청난 숫자입니다. 그래서 당신이 하는 일은 계층적 계획 방식으로 계획을 세우는 것입니다. 매우 높은 수준에서 시작하여 파리에 가려면 먼저 공항에 가서 비행기를 타야 한다고 말합니다.
공항까지 어떻게 가나요? 제가 뉴욕에 있는데 아래층으로 내려가 택시를 타야 한다고 가정해 보겠습니다. 아래층으로 어떻게 가나요? 의자에서 일어나야 하고, 문을 열고, 엘리베이터로 걸어가야 하고, 버튼을 누르는 등의 작업을 해야 합니다. 의자에서 어떻게 일어나나요?
어떤 시점에서는 낮은 수준의 근육 제어 동작으로 표현해야 하지만, 우리는 모든 것을 낮은 수준에서 계획하는 것이 아니라 계층적인 계획을 수행하고 있습니다.
AI 시스템을 사용하여 이를 수행하는 방법은 아직 완전히 해결되지 않았으며 단서도 없습니다.
이는 지능적인 행동을 위한 중요한 요구사항인 것 같습니다.
그렇다면 계층적 계획이 가능하고 다양한 추상화 수준에서 작동할 수 있는 세계 모델을 어떻게 배울 수 있을까요? 아무도 이것에 가까운 것을 보여주지 않았습니다. 이것은 큰 도전입니다. 이미지는 방금 언급한 예를 보여줍니다.
그렇다면 이제 이 세계 모델을 어떻게 훈련시킬 수 있을까요? 왜냐하면 이것은 참으로 큰 문제이기 때문입니다.
나는 아기가 몇 살에 세상에 대한 기본 개념을 배우는지 알아내려고 노력합니다. 직관적인 물리학, 물리적 직관 및 그 모든 것들을 어떻게 배우나요? 이런 일은 아이들이 언어나 상호작용 같은 것을 배우기 훨씬 전에 일어납니다.
따라서 얼굴 추적과 같은 기능은 실제로 매우 초기에 발생합니다. 생물체와 무생물체를 구분하는 생물학적 움직임도 초기에 나타납니다. 객체 불변성(object constancy)도 마찬가지입니다. 이는 객체가 다른 객체에 의해 가려질 때 객체가 지속된다는 사실을 나타냅니다.
그리고 아기들은 자연스럽게 배우므로 사물에 이름을 붙일 필요가 없습니다. 그들은 의자, 테이블, 고양이가 다르다는 것을 알게 될 것입니다. 중력, 관성, 보존 및 운동량과 같은 안정성 및 지지력과 같은 개념은 실제로 약 9개월이 될 때까지 나타나지 않습니다.
시간이 오래 걸립니다. 따라서 6개월 된 아기에게 카트가 플랫폼 위에 있는 왼쪽 시나리오를 보여주고 카트를 플랫폼에서 밀어 내면 공중에 떠 있는 것처럼 보입니다. 6개월 된 아기는 이것을 알아차릴 것이고, 10개월 된 아기는 이런 일이 일어나서는 안 되며 물건이 떨어져야 한다고 느낄 것입니다.
예상치 못한 일이 발생하면 이는 '세계의 모델'이 잘못되었음을 의미합니다. 죽을 수도 있으니 주의하세요.
따라서 여기서 일어나야 하는 학습 유형은 앞서 논의한 학습 유형과 매우 유사합니다.
입력을 받아 어떤 방식으로든 손상시킨 다음 대규모 신경망을 훈련하여 누락된 부분을 예측합니다. 텍스트에서 무슨 일이 일어날지 예측하기 위해 신경망을 훈련시키는 것처럼 비디오에서 무슨 일이 일어날지 예측하도록 시스템을 훈련한다면 아마도 그 시스템은 상식을 배울 수 있을 것입니다.
불행하게도 우리는 이것을 10년 동안 시도해 왔지만 완전히 실패했습니다. 우리는 단지 비디오의 픽셀을 예측하는 것만으로도 일반적인 지식을 실제로 배울 수 있는 시스템에 근접한 적이 없습니다.
좋아 보이는 비디오를 예측하도록 시스템을 훈련시킬 수 있습니다. 비디오 생성 시스템의 예는 많지만 내부적으로는 물리적 세계의 좋은 모델이 아닙니다. 우리는 그들과 함께 이것을 할 수 없습니다.
좋습니다. 생성 모델을 사용하여 개인에게 무슨 일이 일어날지 예측하고 시스템이 마법처럼 세상의 구조를 이해한다는 생각은 완전한 실패입니다.
지난 10년 동안 우리는 많은 접근 방식을 시도했습니다.
가능한 미래가 많기 때문에 실패합니다. 어떤 단어가 일련의 단어 뒤에 올지 예측할 수 있는 텍스트와 같은 개별 공간에서 사전에 있는 가능한 단어에 대한 확률 분포를 생성할 수 있습니다. 그러나 비디오 프레임의 경우 비디오 프레임의 확률 분포를 표현할 수 있는 좋은 방법이 없습니다. 사실 이 작업은 전혀 불가능합니다.
그러니까 제가 이 방을 영상으로 찍었죠? 카메라를 들고 그 부분을 촬영한 뒤 영상을 멈췄어요. 나는 시스템에 다음에 무슨 일이 일어날지 물었습니다. 남은 방을 예측할 수도 있습니다. 벽이 있고 그 위에 사람들이 앉아 있을 것이며 밀도는 아마도 왼쪽과 비슷할 것입니다. 그러나 여러분 각자가 어떻게 보일지에 대한 모든 세부 사항을 픽셀 수준에서 정확하게 예측하는 것은 절대 불가능합니다. , 세계의 질감, 그리고 방의 정확한 크기.
그래서 제가 제안한 솔루션은 JEPA( Joint Embedding Prediction Architecture )입니다.
아이디어는 픽셀 예측을 포기하고 대신 세상이 어떻게 작동하는지에 대한 추상적 표현을 학습한 다음 이 표현 공간 내에서 예측하는 것입니다. 이것이 바로 아키텍처, 공동 임베딩 예측 아키텍처입니다. 이 두 임베딩은 각각 X (손상된 버전) 와 Y를 취하고 인코더에 의해 처리된 다음 시스템은 X 표현을 기반으로 Y 표현을 예측하도록 훈련됩니다.
이제 문제는 예측 오류를 최소화하기 위해 경사 하강법, 역전파법만 사용하여 이러한 시스템을 훈련하면 시스템이 붕괴된다는 것입니다. 예측이 매우 단순해지도록 상수 표현을 학습할 수 있지만 유익하지 않습니다.
따라서 여러분이 기억해 두셨으면 하는 것은 예측을 재구성하려고 시도하는 자동 인코더, 생성 아키텍처, 마스크형 자동 인코더 등과 표현 공간에서 예측을 수행하는 공동 임베딩 아키텍처 간의 차이점입니다.
저는 미래가 이러한 공동 임베딩 아키텍처에 있다고 생각하며, 좋은 이미지 표현을 배우는 가장 좋은 방법은 공동 편집 아키텍처를 사용하는 것이라는 많은 경험적 증거를 가지고 있습니다.
재구성을 통해 이미지 표현을 학습하려는 모든 시도는 빈약하고 잘 작동하지 않습니다. 작동한다고 주장하는 대규모 프로젝트가 많지만 작동하지 않으며 오른쪽 아키텍처를 사용하면 최상의 성능을 얻을 수 있습니다.
이제 생각해 보면 이것이 바로 우리 지능의 전부입니다. 현상을 잘 표현하여 예측을 할 수 있도록 하는 것이 바로 과학의 목적입니다.
진짜. 생각해 보세요. 행성의 궤적을 예측하고 싶다면 행성은 매우 복잡한 물체이고 거대하며 날씨, 온도, 밀도와 같은 모든 종류의 특성을 가지고 있습니다.
복잡한 물체이지만 행성의 궤적을 예측하려면 위치 좌표 3개와 속도 벡터 3개, 즉 6개의 숫자만 알면 됩니다. 그 외에 다른 작업은 필요하지 않습니다. 이는 예측력의 본질이 우리가 관찰하는 사물을 잘 표현하는 데 있다는 것을 실제로 보여주는 매우 중요한 예입니다.
그렇다면 그러한 시스템을 어떻게 훈련시킬 수 있을까요?
따라서 시스템이 충돌하는 것을 방지하고 싶습니다. 이를 수행하는 한 가지 방법은 인코더가 출력하는 표현의 정보 내용을 측정하고 정보 내용을 최대화하고 부정적인 정보를 최소화하는 일종의 비용 함수를 사용하는 것입니다. 훈련 시스템은 입력에서 최대한 많은 정보를 추출하는 동시에 해당 표현 공간의 예측 오류를 최소화해야 합니다.
시스템은 가능한 한 많은 정보를 추출하는 것과 예측할 수 없는 정보를 추출하지 않는 것 사이에서 어느 정도 균형을 찾습니다. 예측이 가능한 좋은 표현 공간을 얻게 될 것입니다.
이제 정보를 어떻게 측정합니까? 여기서 상황이 조금 이상해집니다. 이 내용은 건너뛰겠습니다.
기계는 인간의 지능을 능가하고 안전하고 제어 가능하게 될 것입니다.
실제로 훈련, 에너지 기반 모델 및 에너지 함수를 통해 이를 수학적으로 이해할 수 있는 방법이 있지만 이에 대해 자세히 설명할 시간이 없습니다.
기본적으로 여기서는 몇 가지 다른 사항을 말씀드리겠습니다. JEPA 아키텍처를 선호하여 생성 모델을 포기하고, 에너지 기반 모델을 선호하여 확률 모델을 포기하고, 대조 학습 방법 및 강화 학습을 포기하는 것입니다. 나는 이 말을 10년 동안 해왔다.
이것이 오늘날 머신러닝의 가장 인기 있는 네 가지 핵심 요소입니다. 그래서 아마 지금은 별로 인기가 없을 것 같아요.
한 가지 접근 방식은 인코더에서 나오는 정보 콘텐츠를 측정하여 정보 콘텐츠를 추정하는 것입니다.
현재 이를 달성하는 방법에는 6가지가 있습니다. 실제로 NYU의 동료들이 제안한 MCR이라는 방법이 있는데, 이는 시스템 충돌과 상수 생성을 방지하는 것입니다.
인코더에서 변수를 가져와 이러한 변수의 표준 편차가 0이 아닌지 확인하세요. 이것을 비용 함수에 넣고 가중치가 검색되고 변수가 붕괴되지 않고 상수가 되는지 확인할 수 있습니다. 이것은 비교적 간단합니다.
이제 문제는 시스템이 "속임수"를 하여 모든 변수를 동일하거나 높은 상관 관계로 만들 수 있다는 것입니다. 따라서 이러한 변수의 공분산 행렬을 최소화하는 데 필요한 비대각선 항인 다른 항을 추가하여 이들이 관련되어 있는지 확인해야 합니다.
물론, 변수가 여전히 종속적일 수 있지만 관련이 없을 수 있으므로 이것만으로는 충분하지 않습니다. 따라서 우리는 SX의 차원을 더 높은 차원 공간 VX로 확장하고 이 공간에 분산-공분산 정규화를 적용하여 요구 사항이 충족되도록 하는 또 다른 방법을 채택했습니다.
여기에는 또 다른 비결이 있습니다. 왜냐하면 제가 최대화하는 것은 정보 내용의 상한선이기 때문입니다. 실제 정보 내용이 내 상한선의 최대화를 따르기를 원합니다. 나에게 필요한 것은 하한을 밀어서 정보가 늘어나도록 하는 하한이다. 불행하게도 우리는 하한에 대한 정보가 없거나 적어도 하한을 계산하는 방법을 모릅니다.
"증류 스타일 방법"이라는 두 번째 방법 세트가 있습니다.
이 방법은 신비한 방식으로 작동합니다. 누가 무엇을 하고 있는지 정확히 알고 싶다면 여기 그릴에 앉아 있는 사람에게 물어보세요.
그는 이에 대해 매우 잘 정의한 개인 에세이를 가지고 있습니다. 핵심 아이디어는 다른 부분의 기울기를 역전파하지 않고 모델의 한 부분만 업데이트하고 흥미로운 방식으로 가중치를 공유하는 것입니다. 이 부분에 관한 논문도 많이 있습니다.
이 접근 방식은 좋은 이미지 표현을 생성하기 위해 완전히 자체 감독되는 시스템을 훈련하려는 경우에 적합합니다. 이미지 파괴는 마스킹을 통해 이루어지며, 최근 비디오에 대해 수행한 일부 작업을 통해 동작 인식 비디오 등과 같은 다운스트림 작업에 사용할 좋은 비디오 표현을 추출하는 시스템을 교육할 수 있습니다. 영상의 큰 덩어리를 마스킹하고 이 과정을 통해 예측을 하면 표현 공간에서 이러한 증류 기법을 사용하여 붕괴를 방지하는 것을 볼 수 있습니다. 이것은 훌륭하게 작동합니다.
따라서 우리가 이 프로젝트에서 성공하여 물리적 세계를 추론하고 계획하고 이해할 수 있는 시스템을 갖추게 된다면 미래에 우리의 모든 상호 작용은 이런 모습이 될 것입니다.
모든 것이 제대로 작동하려면 수년, 어쩌면 10년이 걸릴 것입니다. Mark Zuckerberg는 시간이 얼마나 걸릴지 계속 묻습니다. 우리가 그 일에 성공한다면 디지털 세계와의 모든 상호 작용을 중재하는 시스템을 갖게 될 것입니다. 그들은 우리의 모든 질문에 답할 것입니다.
그들은 오랜 시간 동안 우리와 함께할 것이며 본질적으로 모든 인간 지식의 저장소를 형성할 것입니다. 이것은 인터넷과 같은 인프라처럼 느껴집니다. 이는 제품이라기보다는 인프라에 가깝습니다.
이러한 AI 플랫폼은 오픈 소스여야 합니다. IBM과 Meta는 오픈 소스 인공 지능 플랫폼을 홍보하는 Artificial Intelligence Alliance라는 그룹에 참여합니다. 이러한 AI 시스템에는 다양성이 필요하기 때문에 이러한 플랫폼을 오픈 소스로 만들어야 합니다.
우리는 그들이 세상의 모든 언어, 모든 문화, 모든 가치 체계를 이해해야 합니다. 미국 서부나 동부 해안에 있는 회사가 생산하는 단일 시스템만으로는 그런 것을 얻을 수 없습니다. 주. 이는 전 세계의 기여임에 틀림없습니다.
물론 재무 모델을 훈련하는 데는 비용이 많이 들기 때문에 이를 수행할 수 있는 회사는 소수에 불과합니다. Meta와 같은 회사가 기본 모델을 오픈 소스로 제공할 수 있다면 세상은 이를 자신의 목적에 맞게 미세 조정할 수 있습니다. 이것이 Meta와 IBM이 채택한 철학입니다.
따라서 오픈 소스 AI는 단지 좋은 아이디어가 아니라 문화적 다양성과 어쩌면 민주주의 보존을 위해서도 필요합니다.
교육 및 미세 조정은 크라우드소싱이나 스타트업 및 기타 회사의 생태계를 통해 수행됩니다.
AI 스타트업 생태계의 성장을 이끄는 것 중 하나는 이러한 오픈 소스 AI 모델의 가용성입니다. 일반 인공지능에 도달하는 데 얼마나 걸릴까요? 몇 년에서 수십 년이 걸릴지 모르겠습니다.
그동안 많은 변화가 있었고, 아직 해결해야 할 문제도 많습니다. 이것은 우리가 생각하는 것보다 거의 확실하게 더 어려울 것입니다. 이것은 하루아침에 일어나는 것이 아니라 점진적이고 점진적인 발전입니다.
그러니 어느 날 우리가 일반 인공지능의 비밀을 발견하고, 기계를 켜면 즉시 초지능을 갖게 되고, 초지능에 의해 우리 모두가 멸망하는 것도 아니고, 그렇지도 않습니다.
기계는 인간의 지능을 능가하지만 목표 지향적이기 때문에 통제를 받게 될 것입니다. 우리는 그들을 위해 목표를 설정하고 그들은 그것을 달성합니다. 여기 있는 우리 중 다수는 업계나 학계의 리더입니다.
우리는 우리보다 똑똑한 사람들과 함께 일하며, 나 역시 마찬가지입니다. 나보다 똑똑한 사람들이 많다고 해서 그들이 지배하거나 장악하고 싶어 하는 것은 아니며, 그것이 바로 문제의 진실입니다. 물론 여기에는 위험이 있지만 나중에 논의하도록 남겨 두겠습니다. 정말 감사합니다.