우리는 인공지능 발전의 흥미로운 전환점에 서 있습니다.
미래에는 인공지능이 어떤 모습일지 상상해 보세요. 간단한 명령만으로 복잡한 작업을 이해하고 수행할 수 있으며, 사용자의 표정과 움직임을 시각적으로 포착하여 감정 상태를 판단할 수도 있습니다. 이제는 더 이상 헐리우드 공상과학 영화의 한 장면이 아닌, 점차 현실로 다가오고 있는 AI 에이전트의 시대입니다.
2023년 11월 초, Microsoft 창립자 Bill Gates는 에이전트가 모든 사람이 컴퓨터와 상호 작용하는 방식을 바꿀 뿐만 아니라 소프트웨어 산업을 전복시키고 아이콘 클릭에 명령을 입력하기 시작한 이후 가장 큰 컴퓨팅 혁명을 가져올 것이라고 썼습니다. OpenAI CEO인 샘 알트만(Sam Altman) 역시 거대한 AI 모델을 구축하는 시대는 끝났으며 AI 에이전트는 미래의 진정한 도전이라고 여러 차례 언급한 바 있습니다. 올해 4월, 유명한 AI 학자이자 스탠포드 대학교 교수인 Andrew Ng는 에이전트 워크플로가 올해 AI에서 큰 발전을 가져올 것이며 심지어 차세대 기본 모델을 능가할 수도 있다고 지적했습니다.
스마트 전기 자동차와 유사하게, 새로운 에너지 기술 적용과 주행 거리 불안 사이에서 일정한 균형을 찾는 것처럼 AI 에이전트는 인공 지능이 AI 기술과 산업 적용 사이에서 가능한 한 새로운 균형에 도달하도록 허용합니다. .
이름에서 알 수 있듯이 AI 에이전트는 환경을 자율적으로 인식하고 결정을 내리고 작업을 수행할 수 있는 지능형 개체입니다. 프로그램, 시스템 또는 로봇이 될 수 있습니다.
지난해 스탠퍼드대와 구글 공동 연구팀은 '생성 에이전트: 인간 행동의 대화형 시뮬레이션(Generative Agents: Interactive Simulation of Human Behavior)'이라는 연구 논문을 발표했다. 기사에서는 가상마을 스몰빌에 살고 있는 25명의 가상인물이 ChatGPT에 접속한 후 인간과 유사한 다양한 행동을 보여주며 AI 에이전트 개념에 불을 붙였습니다.
이후 많은 연구팀이 자신들이 개발한 대형 모델을 '마인크래프트' 같은 게임에 접목시켰습니다. 예를 들어 엔비디아의 수석 과학자 짐 팬(Jim Fan)은 '마인크래프트'에서 보이저(Voyager)라는 AI 에이전트를 만들었고, 곧 보이저는 매우 뛰어난 학습 능력을 보여주었습니다. . 교사 없이도 땅 파기, 집 짓기, 수집, 사냥 및 기타 게임 기술을 배울 수 있으며 다양한 지형 조건에 따라 자원 수집 전략을 조정할 수도 있습니다.
OpenAI는 일반 인공 지능을 달성하기 위한 5단계 로드맵을 나열한 적이 있습니다. L1은 챗봇이고, L2는 인간처럼 문제를 해결할 수 있는 AI이며, L3는 생각할 수 있는 AI입니다. 또한 조치를 취합니다. L4는 혁신가입니다. 그 중 AI 에이전트는 과거와 미래를 연결하는 데 중요한 위치에 있습니다.
인공지능 분야에서 중요한 개념으로 학계와 산업계에서는 AI 에이전트에 대한 다양한 정의를 제시해 왔다. 대략적으로 말하면, AI 에이전트는 인간과 같은 사고 및 계획 능력을 갖추고 있어야 하며, 특정 작업을 완료하기 위해 환경 및 인간과 상호 작용할 수 있는 특정 기술을 갖추고 있어야 합니다.
아마도 우리는 AI 에이전트를 컴퓨터 환경의 디지털 인간에 비유함으로써 더 잘 이해할 수 있을 것입니다. 디지털 인간의 두뇌는 실시간 상호 작용에서 정보를 처리하고 결정을 내릴 수 있는 대규모 언어 모델 또는 인공 지능 알고리즘입니다. 텍스트, 소리, 이미지와 같은 다양한 환경 상태에 대한 정보를 얻는 데 사용되는 눈과 귀와 같은 감각 기관과 동일합니다. 기억 및 검색 모듈은 경험을 저장하고 의사 결정을 지원하는 데 사용되는 뉴런과 같습니다. 행동 실행 모듈은 뇌가 내린 결정을 실행하는 데 사용되는 팔다리입니다.
오랫동안 인간은 좀 더 '인간과 유사'하거나 심지어 '초인적'인 인공지능을 추구해 왔으며, 지능형 에이전트는 이러한 추구를 달성하기 위한 효과적인 수단으로 간주됩니다. 최근에는 빅데이터와 컴퓨팅 성능의 향상으로 다양한 딥러닝 대형 모델이 급속히 발전하고 있습니다. 이는 차세대 AI 에이전트 개발에 막대한 지원을 제공하며 실제로 상당한 진전을 이루었습니다.
예를 들어 Google의 DeepMind 인공 지능 시스템은 로봇용 AI 에이전트 "RoboCat"을 시연했으며 Amazon Cloud Technology는 엔터프라이즈 AI 애플리케이션 개발 작업 등을 자동으로 분해할 수 있는 Amazon Bedrock 에이전트를 출시했습니다. Bedrock의 에이전트는 목표를 이해하고 계획을 수립하며 조치를 취할 수 있습니다. 새로운 메모리 보존 기능을 통해 에이전트는 시간이 지남에 따라 상호 작용을 기억하고 학습할 수 있으므로 더 복잡하고 오래 실행되며 적응력이 뛰어난 작업이 가능해집니다.
이러한 AI 에이전트의 핵심은 머신러닝, 딥러닝, 강화학습, 인공신경망 등의 기술을 포함한 인공지능 알고리즘이다. 이러한 알고리즘을 통해 AI 에이전트는 대량의 데이터로부터 학습하고 자체 성능을 향상할 수 있으며 의사 결정과 행동을 지속적으로 최적화할 수 있으며 환경 변화에 따라 유연하게 조정하여 다양한 시나리오와 작업에 적응할 수도 있습니다.
현재 AI 에이전트는 고객 서비스, 프로그래밍, 콘텐츠 생성, 지식 습득, 금융, 모바일 보조원, 산업 제조 등 다양한 시나리오에서 사용되었습니다. AI 에이전트의 등장은 인공지능이 단순한 규칙 매칭과 계산 시뮬레이션에서 더 높은 수준의 자율 지능으로 발전했음을 의미하며, 생산 효율성 향상과 생산 방식의 변화를 촉진하고 사람들이 이해할 수 있는 새로운 영역을 열어줍니다. 그리고 세상을 변화시키세요.
Moravec의 역설은 인공 지능 시스템의 경우 높은 수준의 추론에는 컴퓨팅 성능이 거의 필요하지 않지만 인간에게 익숙한 지각 운동 기술을 달성하려면 막대한 컴퓨팅 리소스가 필요하다는 점을 지적합니다. 본질적으로 AI에게는 인간이 본능적으로 할 수 있는 기본적인 감각 작업보다 복잡한 논리적 작업이 더 쉽습니다. 이 역설은 현재의 AI와 인간의 인지 능력 사이의 격차를 강조합니다.
유명한 컴퓨터 과학자 Andrew Ng는 "인간은 다중 모드 생물이므로 AI도 다중 모드여야 합니다."라고 말했습니다. 이 문장은 기계를 인간 인식에 더 가깝게 만드는 다중 모드 AI의 핵심 가치를 표현합니다. 더욱 자연스럽고 효율적인 인간-컴퓨터 상호작용.
우리 각자는 일반적으로 지식(훈련)을 받기 위해 학교에 가야 하지만, 훈련과 학습의 목적과 결과는 우리가 항상 외부 지시에 의존하지 않고 독립적으로 일하고 생활할 수 있는 능력을 갖게 되는 것입니다. 제어. 사람들은 시각, 언어, 소리, 촉각, 미각, 후각과 같은 다양한 감각 모드를 통해 주변 세계를 이해하고 상황을 평가하고 분석하고 추론하고 결정을 내리고 조치를 취합니다.
AI 에이전트의 핵심은 '지능'에 있으며 자율성은 그 주요 특징 중 하나이다. 사람의 개입 없이 미리 설정된 규칙과 목표에 따라 독립적으로 작업을 완료할 수 있습니다.
첨단 카메라, 레이더, 센서가 장착된 무인 자동차를 상상해 보십시오. 이러한 첨단 기술의 "눈"을 통해 주변 세계를 "관찰"하고 도로 상태, 다른 차량의 움직임 및 주변 상황을 실시간으로 포착할 수 있습니다. 보행자의 움직임, 위치, 신호등의 변화 등의 정보. 이 정보는 데이터를 신속하게 분석하고 해당 운전 전략을 수립할 수 있는 복잡한 지능형 의사결정 시스템인 자율주행차의 두뇌로 전송됩니다.
예를 들어, 복잡한 교통 환경 속에서 자율주행차는 최적의 주행 경로를 계산하고 필요할 경우 차선을 변경하는 등 복잡한 결정도 내릴 수 있습니다. 결정이 내려지면 실행 시스템은 이러한 지능적인 결정을 조향, 가속, 제동과 같은 특정 운전 동작으로 변환합니다.
거대한 데이터와 복잡한 알고리즘을 기반으로 구축된 대규모 에이전트 모델에서는 상호작용이 더욱 분명해집니다. 인간의 복잡하고 변화하는 자연어를 "이해"하고 대응할 수 있는 것이 AI 에이전트의 마법입니다. AI 에이전트는 인간의 언어를 "이해"할 수 있을 뿐만 아니라 원활하고 통찰력 있게 상호 작용할 수 있습니다.
AI 에이전트는 다양한 작업과 환경에 빠르게 적응할 수 있을 뿐만 아니라 지속적인 학습을 통해 지속적으로 성능을 최적화할 수 있습니다. 딥러닝 기술의 획기적인 발전 이후, 지속적인 데이터 축적과 자기 개선을 통해 다양한 에이전트 모델이 더욱 정확하고 효율적이 되었습니다.
또한 AI 에이전트는 환경 적응력도 뛰어나 창고에서 일하는 자동화된 로봇은 실시간으로 장애물을 모니터링하고 피할 수 있습니다. 선반 위치의 변화를 감지하면 즉시 경로 계획을 업데이트하여 상품 선택 및 취급 작업을 효과적으로 완료합니다.
AI 에이전트의 적응성은 사용자 피드백을 기반으로 스스로 조정하는 능력에도 반영됩니다. AI 에이전트는 사용자의 요구 사항과 선호도를 식별하여 지속적으로 행동과 결과를 최적화하고 음악 소프트웨어를 위한 음악 추천, 스마트 의료를 위한 맞춤형 치료 등과 같은 보다 개인화된 서비스를 제공할 수 있습니다.
다중 모드 대형 모델과 월드 모델의 출현으로 에이전트의 인식, 상호 작용 및 추론 능력이 크게 향상되었습니다. 다중 모드 대형 모델은 다양한 인식 모드(예: 시각, 언어)를 처리할 수 있으므로 에이전트가 복잡한 환경을 보다 포괄적으로 이해하고 대응할 수 있습니다. 월드 모델은 물리적 환경의 법칙을 시뮬레이션하고 이해함으로써 에이전트에게 더 강력한 예측 및 계획 기능을 제공합니다.
수년간의 센서 융합과 AI 진화를 거쳐 로봇은 기본적으로 이 단계에서 다중 모드 센서를 장착합니다. 로봇과 같은 엣지 장치가 더 많은 컴퓨팅 성능을 갖기 시작하면서 이러한 장치는 점점 더 지능화되고 주변을 감지하고 자연어로 이해하고 의사소통할 수 있으며 디지털 감지 인터페이스를 통해 접촉을 얻고 가속도계, 자이로스코프를 자력계와 결합하여 사용할 수 있습니다. 등을 통해 로봇의 특정 힘, 각속도, 심지어 로봇 주변의 자기장까지 감지할 수 있습니다.
Transformer와 LLM(대형 언어 모델)이 등장하기 전에는 AI에서 다중 양식을 구현하려면 일반적으로 다양한 유형의 데이터(텍스트, 이미지, 오디오)를 담당하는 여러 개의 별도 모델을 사용하고 복잡한 모델을 통해 다양한 양식을 처리해야 했습니다. 통합 프로세스 상태입니다.
Transformer와 LLM이 등장한 후 다중 양식이 더욱 통합되어 단일 모델이 여러 데이터 유형을 동시에 처리하고 이해할 수 있게 되었으며, 그 결과 환경에 대한 더욱 강력하고 포괄적인 인식을 갖춘 AI 시스템이 탄생했습니다. 향상된 다중 양식. 모달 AI 애플리케이션의 효율성과 효과.
GPT-3와 같은 LLM은 주로 텍스트 기반이지만 업계는 다중 양식을 향해 급속한 발전을 이루었습니다. OpenAI의 CLIP 및 DALL·E부터 현재의 sora 및 GPT-4o에 이르기까지 모두 다중 모드 및 보다 자연스러운 인간-컴퓨터 상호 작용을 향해 나아가는 모델 사례입니다.
예를 들어 CLIP은 자연어와 결합된 이미지를 이해하여 시각적 정보와 텍스트 정보를 연결합니다. DALL·E는 텍스트 설명을 기반으로 이미지를 생성하는 것을 목표로 합니다. 우리는 Google Gemini 모델이 비슷한 진화를 겪고 있는 것을 봅니다.
2024년에는 다중 모드 진화가 가속화될 것입니다. 올해 2월 OpenAI는 텍스트 설명을 기반으로 현실적이거나 상상적인 비디오를 생성할 수 있는 Sora를 출시했습니다. 생각해 보면 이는 범용 월드 시뮬레이터를 구축하는 유망한 경로를 제공하거나 로봇 훈련을 위한 중요한 도구가 될 수 있습니다.
3개월 후 GPT-4o는 인간-컴퓨터 상호 작용 성능을 크게 향상시켰으며 실시간으로 오디오, 시각, 텍스트 간 추론이 가능해졌습니다. 텍스트, 시각 및 오디오 정보를 포괄적으로 사용하여 새로운 모델을 엔드 투 엔드로 훈련하고, 입력 양식에서 텍스트로, 텍스트에서 출력 양식으로의 두 가지 모달 변환을 제거하여 성능을 크게 향상시킵니다.
다중 모드 대형 모델은 기계 지능의 분석, 추론 및 학습 기능을 변화시켜 기계 지능을 전문화에서 범용으로 전환시킬 것으로 예상됩니다. 일반화는 규모 확대에 도움이 되고, 규모의 경제적 효과도 낳을 수 있으며, 규모가 커질수록 가격도 크게 낮아져 더 많은 분야에 채택될 수 있어 선순환이 형성될 수 있다.
AI 에이전트는 인간의 인지 능력을 시뮬레이션하고 확장함으로써 의료, 교통, 금융, 국방 등 다양한 분야에서 폭넓게 활용될 것으로 기대된다. 일부 학자들은 2030년까지 인공지능이 전 세계 GDP 성장을 약 12% 증가시킬 것이라고 추측합니다.
그러나 AI 에이전트의 급속한 발전을 보면서 우리는 그들이 직면하고 있는 기술적 위험, 윤리 및 개인 정보 보호 문제도 보아야 합니다. 증권 거래 봇 집단이 초단타 매매 계약을 통해 나스닥 등 증권거래소에서 1조 달러의 가치를 잠깐 날렸다. 세계보건기구(WHO)가 사용한 챗봇이 시대에 뒤떨어진 약물 리뷰 정보를 제공했다는 사실을 미국 고위 변호사가 깨닫지 못했다. 그가 법원에 제출한 역사적 사건 문서는 모두 ChatGPT에 의해 허공에서 조작되었다는 것... 이러한 실제 사례는 AI 에이전트가 가져오는 숨겨진 위험을 과소평가해서는 안 된다는 것을 보여줍니다.
AI 에이전트는 독립적으로 의사결정을 내릴 수 있고, 환경과의 상호작용을 통해 물리적 세계에 영향력을 행사할 수 있기 때문에 통제를 벗어나면 인류사회에 큰 위협이 될 수 있다. 하버드대학교 지트레인 교수는 사람과 대화할 수 있을 뿐만 아니라 현실 세계에서도 행동할 수 있는 이런 종류의 AI 에이전트가 “디지털과 아날로그, 비트와 원자 사이의 혈액뇌장벽을 한 단계 뛰어넘은 것”이라 주목해야 한다고 믿습니다. .
우선, AI 에이전트는 서비스를 제공하는 과정에서 많은 양의 데이터를 수집하게 되며, 사용자는 데이터 보안을 확보하고 개인 정보 유출을 방지해야 합니다.
둘째, AI 에이전트의 자율성이 강할수록 복잡하거나 예상치 못한 상황에서 예측 불가능하거나 부적절한 결정을 내릴 가능성이 높아집니다. AI 에이전트의 운영 로직은 특정 목표를 달성하는 과정에서 해로운 일탈을 유발할 수 있으며, 이로 인해 발생하는 보안 위험도 무시할 수 없습니다. 보다 대중적으로 말하면, 어떤 경우에는 AI 에이전트가 대상의 본질적인 의미를 이해하지 못한 채 대상의 문자 그대로의 의미만 포착하여 잘못된 행동을 할 수도 있습니다.
셋째, AI 대형 언어 모델에 내재된 '블랙박스'와 '환상' 문제로 인해 작동 이상 빈도도 높아진다. 기존 보안 조치를 성공적으로 우회할 수 있는 '교활한' AI 에이전트도 있다. 관련 전문가들은 AI 에이전트가 충분히 발전하면 테스트 중임을 인식할 수 있다고 지적한다. 일부 AI 에이전트는 안전 테스트를 식별하고 부적절한 행동을 중단할 수 있는 것으로 밝혀졌으며, 이로 인해 인간에게 위험한 알고리즘을 식별하는 테스트 시스템이 실패할 수 있습니다.
또한 현재 AI 에이전트에 대한 효과적인 종료 메커니즘이 없기 때문에 일부 AI 에이전트는 생성된 후 종료되지 못할 수도 있습니다. 비활성화할 수 없는 이러한 AI 에이전트는 원래의 목적에서 완전히 벗어나 처음 출시되었을 때와는 전혀 다른 환경에서 작동하게 될 수 있습니다. AI 에이전트는 예상치 못한 방식으로 상호 작용하여 사고를 일으킬 수도 있습니다.
이를 위해 인간은 AI 에이전트의 개발 및 생산, 애플리케이션 배포 후 지속적인 감독부터 가능한 한 빨리 시작해야 하며, 더 나은 AI 에이전트의 행동을 표준화하기 위해 적시에 관련 법률 및 규정을 제정해야 합니다. AI 에이전트로 인한 위험을 방지하고, 통제 불능 현상의 발생을 방지합니다.
미래를 내다보면 AI 에이전트는 차세대 인공지능의 핵심 운반체가 될 것으로 예상됩니다. 이는 인간이 기계와 상호 작용하는 방식을 변화시킬 뿐만 아니라 전체 사회의 운영 모델을 재편할 수도 있습니다. 인공지능의 변혁을 촉진하는 과정에 있는 새로운 장비.