정말 AI 응용 시대가 도래한 걸까?
올해 바이두 월드 컨퍼런스의 주제는 '애플리케이션이 온다'다. 11월 초 기준 바이두원신 대형 모델의 일일 평균 호출 횟수는 15억 건을 넘어섰다. 이는 연간 처음 공개된 5000만 건에 비해 약 30배 증가한 수치다. 전에. Robin Li는 "이러한 가파른 성장 곡선은 지난 2년 동안 중국에서 대형 모델 애플리케이션이 폭발적으로 증가했음을 나타냅니다."라고 말했습니다.
AI 애플리케이션의 가장 주류 형태인 지능형 에이전트는 이제 한계점에 도달하고 있다. Robin Li는 "AI 네이티브 시대의 콘텐츠, 정보, 서비스의 새로운 전달자가 될 것"이라고 강조했습니다.
이는 “에이전트를 만들기 위한 임계값이 충분히 낮은 반면, 에이전트의 한도는 매우 강력한 애플리케이션을 만들 수 있을 만큼 높기 때문입니다. 여러 에이전트의 협력을 통해 더 복잡한 문제도 해결할 수 있습니다. ." 질문."
Robin Li는 회의에서 회사 에이전트, 역할 에이전트, 도구 에이전트 및 업계 에이전트를 포함하여 4가지 유형의 에이전트를 시연했습니다. 그 중 회사의 공식 정보는 공식 웹사이트를 대체하고 소비자에게 가장 직접적인 인터페이스가 될 가능성이 높습니다.
"기업형 에이전트는 AI 시대의 기업 공식 홈페이지와 동일하다. 기업형 에이전트는 회사 소개, 제품 사진 및 매개변수 표시, 오프라인 매장 위치 등 기존 공식 홈페이지가 갖고 있는 모든 기능을 갖추고 있다. 하지만 기존 웹사이트에는 선제적인 추천, 적시 대응, 일대일 서비스 기능이 회사의 지능형 에이전트에서 제공됩니다.”
Robin Li는 또한 코드 프리 프로그래밍, 다중 에이전트 협업 및 다양한 대규모 호출을 포함하여 코드를 작성하지 않고도 어떤 아이디어라도 실현할 수 있는 대형 모델과 에이전트로 구성된 소프트웨어인 코드 프리 도구 "Miaida"를 출시했습니다. 다른 기능은 "지금까지 인류 역사상 가장 복잡한 다중 에이전트 공동 작업 도구"입니다.
"Miaoda"의 도움으로 사용자는 자연어 상호 작용을 통해 전체 시스템 구축을 완료할 수 있으며, 기본 모델 기능의 향상과 Miaoda 자체 기술 역량의 발전을 통해 어떤 시나리오에서도 다양한 응용 프로그램을 수행할 수 있습니다. "즉, 프로젝트 관리자, 디자이너, 개발자, 테스터 등을 모집할 필요가 없으며 여러 에이전트가 공동으로 작업을 완료하도록 지시할 수 있습니다." 팀.
로빈 리의 말대로 미아오다와 함께 우리는 '아이디어만으로 돈을 벌 수 있는 시대'를 열게 될 것입니다.
바이두 넷디스크의 C측 사업은 지난 9월 모바일 생태계 그룹(MEG)으로 재분류돼 바이두 부사장 겸 바이두 라이브러리&바이두 넷디스크 대표 왕잉(Wang Ying)이 인수한 후 이번 월드 컨퍼런스에서 바이두 네트워크 디스크 및 라이브러리가 더욱 통합되었습니다.
Wang Ying은 컨퍼런스에서 Baidu의 콘텐츠 생산 및 소비에 대한 새로운 변화를 공유했습니다. 그녀는 현재 콘텐츠 제작 및 소비가 복잡한 도구, 긴 제작 주기, 낮은 소비 효율성 등 많은 문제에 직면해 있다고 언급했습니다. 이를 위해 Baidu Wenku와 Netdisk는 AI 기술을 도입하여 도구 및 모달 경계의 제약을 깨고 보다 자유롭고 효율적인 콘텐츠 경험을 달성했습니다.
Baidu Wenku의 지능형 PPT 생성, AI 종이 작성, AI 그림책 제작, AI 검색 기능 및 AI 소설 및 만화 생성은 동시에 컨텐츠 소비 측면에서 컨텐츠 제작의 효율성과 품질을 크게 향상시켰습니다. 스캔, 간단한 받아쓰기, AI 비디오 요약과 같은 간단한 도구는 사용자가 정보를 처리하고 이해하는 것을 크게 촉진합니다.
구체적으로 사무실 시나리오에서는 바이두 웬쿠(Baidu Wenku)가 스마트 PPT와 스마트 조사 및 보고 기능을 제공하고, 바이두 넷디스크(Baidu Netdisk)는 간단한 듣기 메모 등의 기능을 제공하며, 학습 시나리오에서는 바이두 웬쿠(Baidu Wenku)의 스마트 드로잉북과 사진 검색 기능을 사용할 수 있다. Baidu Netdisk는 엔터테인먼트 측면에서 비디오 해석 및 Panpan 어휘와 같은 보조 학습 도구를 제공하고 Baidu Wenku는 스마트 소설 및 스마트 만화를 제공하며 Baidu Netdisk는 AI 사진 편집 등의 기능을 제공합니다. Baidu Wenku와 Netdisk의 통합은 사용자의 애플리케이션 시나리오를 확대하고 콘텐츠의 지능과 다양화를 실현하며 사용자 경험을 더욱 향상시킵니다.
무료 캔버스 기능|이미지 출처 : 바이두
또한 Baidu Wenku와 Netdisk는 공동으로 새로운 콘텐츠 운영 체제인 Free Canvas를 출시했습니다. 이 시스템은 사용자가 정보 검색부터 편집, 생성 및 공유에 이르기까지 모든 작업을 완료하는 데 도움이 될 수 있습니다. 이는 다양한 형식의 전체 형식 입력 및 출력을 지원할 뿐만 아니라 요소 수준의 콘텐츠 활용을 가능하게 하여 생성 및 공유 수준을 향상시킵니다. 자유.
Robin Li의 말에 따르면 "무료 캔버스는 Wenxin의 다중 모드 대형 모델의 축복을 받은 범용 화이트보드입니다." 이러한 혁신은 콘텐츠 분야에서 AI 기술의 엄청난 잠재력을 보여줄 뿐만 아니라, 미래의 콘텐츠 생산과 소비에 대한 더 많은 가능성을 예고합니다.
컨퍼런스에서 Baidu Group 수석 부사장이자 Baidu 지능형 클라우드 비즈니스 그룹 사장인 Shen Dou는 대규모 모델 및 AI 기본 애플리케이션에서 Baidu 지능형 클라우드의 최신 진행 상황을 공유했습니다. Shen Dou는 대형 모델 기술이 기술 변화에서 산업 변화로 이동하여 사람들이 디지털 세계 및 물리적 세계와 상호 작용하는 방식을 재정의하고 기업의 경쟁력을 강화하는 핵심 요소가 되고 있다고 말했습니다.
Shen Dou는 대형 모델 미세 조정 및 애플리케이션 개발을 위한 플랫폼인 Qianfan 플랫폼에 중점을 두었습니다. 이 플랫폼은 풍부한 도구 체인을 제공하고 AI 기본 애플리케이션 개발의 임계값을 크게 낮춥니다. Qianfan 플랫폼은 기업 수준 애플리케이션의 고도로 사용자 정의 가능하고 대규모이며 고가용성 및 높은 보안 요구 사항을 충족할 뿐만 아니라 워크플로 에이전트도 출시합니다. 이 혁신은 대규모 모델의 의도 이해 및 일반화 기능을 활용하여 복잡한 워크플로를 유연한 에이전트로 전환하여 기업 효율성을 크게 향상시킵니다. 예를 들어, China Pacific Insurance는 Qianfan 플랫폼을 사용하여 "금메달 판매" 에이전트를 생성하여 자동차 보험 갱신의 서비스 효율성과 사용자 경험을 크게 향상시켰습니다.
바이두 스마트 클라우드 Qianfan │ 이미지 출처 : Baidu
또한 Baige 플랫폼은 클러스터 생성부터 모델 훈련 및 추론까지 효율적인 대규모 모델 관련 컴퓨팅 서비스를 제공하여 안정적이고 매우 빠른 성능을 보장합니다. 이 플랫폼은 대규모 클러스터 배포의 주요 문제를 해결하고 효율적인 운영을 지원하며 다양한 고객의 컴퓨팅 성능 요구 사항을 충족합니다.
Shen Dou는 또한 미세 조정 모델을 통해 의료 기록 생성의 정확성을 향상하고 의사의 시간을 절약하는 일반 진단 의학을 포함하여 여러 산업에서 Qianfan 플랫폼의 적용 사례를 시연했습니다. State Grid는 Wenxin 대규모를 기반으로 전력 산업에서 AI 애플리케이션을 탐색하고 있습니다. 모델로 활동하며 놀라운 결과를 얻었습니다. 또한 XiLing 4.0 플랫폼 업그레이드를 통해 3D 디지털 인간 이미지를 생성하고 전문적인 비디오를 제작할 수 있어 짧은 비디오 제작 비용이 크게 절감됩니다.
Baidu Intelligent Cloud는 Qianfan 및 Baige 플랫폼을 통해 새로운 AI 인프라를 구축하여 기업의 지능 수준과 효율성을 향상시키기 위해 다양한 산업에 대형 모델 기술 적용을 촉진했습니다.
바이두는 이번에 애플리케이션 외에도 하드웨어도 출시했다. 회의에서 Baidu Group 부사장이자 Xiaodu Technology CEO인 Li Ying은 "중국 대형 모델이 장착된 최초의 네이티브 AI 안경"인 Xiaodu AI 안경을 출시했습니다.
샤오두 AI 안경 │ 이미지 출처 : 바이두
Li Ying은 인간을 위한 1인칭 관점 장치로서 시각, 소리, 위치 및 기타 정보를 캡처하는 AI 안경의 능력이 전례 없는 인간의 감각 확장을 가져올 것이며 또한 인간-컴퓨터로의 더 효율적이고 편리한 입구가 될 것이라고 말했습니다. 상호 작용.
Wenxin 대형 모델과 DuerOS AI 기본 운영 체제를 기반으로 Xiaodu AI는 1인칭 시점 촬영, 걷는 동안 질문하기, 칼로리 인식, 물체 인식 백과사전, 시청각 번역, 스마트 메모 등의 기능을 실현할 수 있습니다.
장치와 클라우드를 대형 모델과 결합함으로써 Xiaodu AI 안경은 독립적으로 사용하거나 APP와 페어링할 수 있습니다. 안경에는 중국어 한 줄이 내장되어 있으며 사용자의 질문에 실시간으로 응답할 수 있습니다.
하드웨어 측면에서 Xiaodu AI 안경에는 소리를 인식하는 4개의 마이크 배열, 개방형 누수 방지 스피커 디자인, 1600만 화소 초광각 렌즈 및 AI 손떨림 방지 알고리즘이 탑재되어 있습니다. 30분 만에 충전, 56시간 대기, 5시간 이상 연속 사용이 가능합니다. 전체 기계의 무게는 업계 평균인 49g보다 낮은 45g에 불과합니다.
샤오두 AI 안경은 내년 상반기에 판매될 예정이다. 가격은 아직 공개되지 않았지만 부스 직원은 가격이 2000위안 안팎이 될 것이라고 말했다.
Robin Li는 회의에서 AI 산업이 지난 24개월 동안 상당한 변화를 겪었다고 언급했는데, 그 중 가장 눈에 띄는 것은 대형 모델이 기본적으로 환각 현상을 제거했다는 것입니다. 이러한 변화는 AI를 원래의 "심각한 넌센스"에서 사용 가능하고 신뢰할 수 있는 수준으로 만듭니다. 대형 모델은 본질적으로 확률 모델이며, 이것이 생성하는 콘텐츠에는 어느 정도 불확실성이 있습니다. 그러나 RAG 기술을 채택함으로써 대형 모델은 검색된 정보를 활용하여 텍스트 또는 답변 생성을 안내함으로써 콘텐츠의 품질과 정확성을 크게 향상시킬 수 있습니다.
이미지 생성 시 환각 문제를 해결하기 위해 바이두는 올해 초 검색 강화 빈센트 그래프 기술인 iRAG(Image based RAG) 기술을 개발했습니다. 이전에는 전적으로 대규모 언어 모델을 기반으로 한 Vincentian 그래프 시스템에서 생성된 그림의 품질이 낮고 심지어 비논리적이었습니다. Baidu의 iRAG 기술은 Baidu Search의 10억 레벨 이미지 리소스와 강력한 기본 모델 기능을 결합하여 다양한 초현실적인 이미지를 생성하며 전체적인 효과는 기본 Vincentian 시스템을 훨씬 능가하며 기계 생성의 흔적을 제거합니다.
AI 생성 이미지의 활용성이 크게 향상됨에 따라 활용 공간도 크게 확대되었습니다. 예를 들어, 브랜드 홍보 시나리오에서 과거에는 포스터 세트를 제작하는 데 수십만 위안의 비용이 들었지만 지금은 제작 비용이 거의 0에 가깝습니다. 요컨대, iRAG의 상업적 가치는 환상이 없음, 초현실성, 저비용 및 즉각적인 가용성 측면에서 반영됩니다.
컨퍼런스에 참석한 로빈 리 이미지 출처: Baidu |
기본 모델 기능이 성숙되면 AI 애플리케이션의 번영기가 도래합니다. 그렇다면 AI 애플리케이션은 어디에서 왔으며 어디로 갈까요? 두 가지 주요 방향이 있습니다. 하나는 지능형 에이전트이고 다른 하나는 산업용 애플리케이션입니다.
미래에는 AI 응용의 전성기가 실제로 도래할 때 AI는 '산업 혁명 수준의 기회'라는 사명을 진정으로 실현하고 사회적 경제에 생산성을 무한하게 확장할 수 있습니다.