마이크로소프트 연구팀이 윈도우 프로그램을 자율적으로 운영할 수 있는 새로운 인공지능 기술인 LAM(Large Action Model)을 공개해 단순한 대화와 제안에서 실제 작업 실행으로 옮겨가는 AI의 새로운 단계를 열었다. LAM은 기존 언어 모델과 달리 텍스트, 음성, 이미지 등 다양한 입력을 이해하고 이를 세부적인 실행 계획으로 변환하여 실시간 상황에 따라 전략을 조정하여 다른 AI 시스템이 처리할 수 없는 일부 문제를 해결할 수도 있습니다. 와 함께. 이 획기적인 기술은 실제 응용 분야에서 AI에 대한 더 넓은 가능성을 제공하고 미래 인공 지능 보조원 개발의 길을 제시합니다.
마이크로소프트 연구팀은 최근 LAM(Large Action Model)이라는 인공지능 기술을 출시해 AI 발전의 새로운 단계를 열었다. GPT-4o와 같은 기존 언어 모델과 달리 LAM은 Windows 프로그램을 자율적으로 운영할 수 있습니다. 즉, AI가 말하거나 제안을 제공할 수 있을 뿐만 아니라 실제로 작업을 수행할 수도 있습니다.
LAM의 강점은 텍스트, 음성, 이미지 등 다양한 사용자 입력을 이해하고 이러한 요청을 상세한 단계별 계획으로 변환하는 능력입니다. LAM은 계획을 개발할 뿐만 아니라 실시간 상황에 따라 실행 전략을 조정합니다. LAM 구축 과정은 주로 4단계로 나뉩니다. 먼저 모델은 작업을 논리적 단계로 분류한 다음, 고급 AI 시스템(예: GPT-4o)을 통해 이러한 계획을 다음 단계로 변환하는 방법을 학습합니다. 그런 다음 LAM은 독립적으로 새로운 솔루션을 탐색하고 다른 AI 시스템이 처리할 수 없는 문제를 해결하며 마지막으로 보상 메커니즘을 통해 교육을 미세 조정합니다.
실험에서 연구팀은 Mistral-7B를 기반으로 LAM 모델을 구축하고 이를 Word 테스트 환경에서 테스트했다. 그 결과, 시각적 정보가 없는 GPT-4o의 63%에 비해 모델은 71%의 시간 동안 작업을 성공적으로 완료한 것으로 나타났습니다.
또한 LAM은 작업 실행 속도에서도 좋은 성능을 발휘합니다. 각 작업은 30초만 걸리는 반면 GPT-4o는 86초가 걸립니다. 시각적 정보를 처리할 때 GPT-4o의 성공률은 75.5%로 증가하지만 전체적으로 LAM은 속도와 효과 면에서 상당한 이점을 가지고 있습니다.
교육 데이터를 구축하기 위해 연구팀은 처음에 Microsoft 문서, wikiHow 기사 및 Bing 검색에서 작업 및 계획 쌍의 29,000개 예를 수집했습니다. 그런 다음 GPT-4o를 사용하여 간단한 작업을 복잡한 작업으로 변환하여 데이터 세트를 150% 증가한 76,000쌍으로 확장했습니다. 최종적으로 약 2,000개의 성공적인 동작 시퀀스가 최종 훈련 세트에 포함되었습니다.
LAM은 AI 개발에서 잠재력을 입증했지만, 연구팀은 AI 동작의 오류 가능성 문제, 규제 관련 문제, 다양한 애플리케이션의 확장 및 적응에 대한 기술적 한계 등 몇 가지 과제에 여전히 직면해 있습니다. 그러나 연구자들은 LAM이 AI 개발의 중요한 변화를 나타내며 인공 지능 보조원이 인간이 실제 작업을 완료하도록 보다 적극적으로 지원할 수 있음을 나타낸다고 믿습니다.
하이라이트:
LAM은 말만 할 수 있는 기존 AI의 한계를 뛰어넘어 Windows 프로그램을 자율적으로 실행할 수 있습니다.
⏱ Word 테스트에서는 LAM이 작업을 성공적으로 완료할 확률이 71%에 달해 GPT-4o의 63%보다 높았으며 실행 속도도 더 빨랐습니다.
연구팀은 데이터 확장 전략을 사용해 임무 계획 쌍 수를 76,000쌍으로 늘려 모델의 훈련 효과를 더욱 향상시켰습니다.
LAM의 등장은 인공지능이 정보 제공자에서 실제 행동 실행자로 변모함을 예고하며, 미래의 인간-컴퓨터 상호 작용과 자동화된 사무실에 혁명적인 변화를 가져옵니다. 여전히 어려움에 직면해 있지만 LAM은 큰 잠재력을 갖고 있으며 다양한 분야에서 폭넓게 적용되고 추가 개발이 이루어지길 기대해 볼 가치가 있습니다.