Baidu Group 특허업무부 총책임자 Cui Lingling은 '2024년 Baidu 10대 기술 개척 발명품'을 발표했습니다. Baidu의 인공지능 분야 최첨단 특허 발명품은 기본 알고리즘부터 응용까지 전면적인 혁신을 다룹니다. 시나리오. 올해 4월 국가산업정보보호개발연구센터와 공업정보화부 전자지적재산권센터가 발표한 '차세대 인공지능 특허기술 분석 보고서'에 따르면, 바이두는 2023년 말 기준으로 바이두는 인공지능 전 분야에 걸쳐 19,308건의 특허를 출원하고 9,260건의 특허를 부여했다. 바이두는 대형 모델을 핵심으로 하는 차세대 AI 분야에서 6년 연속 중국 1위를 차지했으며, 바이두는 1,432건의 특허를 출원하고 651건을 승인했다. 기술 혁신과 특허 레이아웃의 리더가 됩니다. 특허 데이터베이스 조직인 IFIclaims가 발표한 생성적 인공 지능 특허 환경 통찰력에 따르면 Baidu의 생성적 인공 지능 특허 출원은 세계 10위 안에 들며 목록에 포함된 유일한 중국 혁신 주제이며 특허 기술은 텍스트를 다루고 있습니다. , 이미지, 음성, 영상 등 대규모 기본 분야에서는 이 4개 분야를 종합적으로 구성해 세계 4대 기업 중 하나로 자리매김했다.
11월 12일, 'Applications Are Here'라는 주제로 Baidu World 2024가 상하이에서 개최됩니다. 올해의 세간의 이목을 끄는 기술 컨퍼런스인 Baidu는 최신 결과도 발표하여 다시 한 번 눈길을 끄는 기술 혁신과 제품 출시를 선보일 예정입니다.
바이두가 선정한 2024년 10대 첨단 기술 발명품은 다음과 같습니다.
1. 생성적 대형 모델 기반 에이전트 기술
본 발명 기술은 사고 모델을 혁신적으로 도입하여 에이전트가 작업 계획, 도구 호출, 지식 강화, 반사적 진화와 같은 다양한 기능을 가질 수 있도록 합니다. 핵심 기능의 체계적인 설계와 방향성 최적화를 통해 대규모 시뮬레이션 기능을 구축하여 다양한 애플리케이션 시나리오에서 에이전트의 대규모 구축 및 배포를 저렴한 비용으로 지원할 수 있으며 에이전트 구축 및 배포를 가속화할 수 있습니다. 이 기술 시스템은 Wenxin 지능형 플랫폼, 판매자 지능형 에이전트, Wenxin 퀵 코드 등과 같은 많은 주요 시나리오에서 성공적으로 사용되어 지능형 에이전트의 연구 개발 효율성을 크게 향상시키고 연구 개발 임계값을 낮췄습니다. 그 중 상인 에이전트는 계획 + 전문 다중 모델 협업 기술 및 대규모 시뮬레이션 기술을 사용하여 도구를 반영, 발전 및 사용하는 능력을 향상시키고 AI 마케팅 기능을 구축합니다. Wenxin Kuaicode는 코드 추천 및 에이전트 시스템을 사용하여 통합합니다. 전통적인 DevOps 도구 체인의 유기적인 조합은 인간-기계 협업 쌍 프로그래밍의 심층적인 탐색 및 구현을 촉진합니다.
2. 대형 모델 효율적 학습 프레임워크 기반 다중 모델 공진화 기술
이 독창적인 기술은 공학적 관점과 알고리즘적 관점 모두에서 일련의 어려운 문제를 극복합니다. 엔지니어링 아키텍처 측면에서 다방면의 혁신적인 혁신에는 하이브리드 병렬 전략, 통신 효율성, 컴퓨팅 및 스토리지 최적화가 포함됩니다. 이는 대규모 언어 모델의 교육 성능을 크게 향상하고 전 세계적으로 Wenxin의 전체 모델 시리즈에 대한 효율적이고 안정적인 교육을 지원합니다. 프로세스. 알고리즘 전략 측면에서는 크고 작은 모델 협업을 위한 사전 훈련 기술을 개발하여 모델 간 지식 상속이 어려운 기술적 문제를 극복하고 기존 모델의 훈련 패러다임을 바꾸고 새로운 모델 훈련 비용을 절감했습니다. 본 발명을 기반으로 다양한 크기의 모델에 대한 기술적 장벽이 구축되어 Wenxin 대형 모델의 훈련 처리량이 작년에 4.1배 증가했으며 Wenxin Yiyan이 다양한 요구 사항을 가진 광범위한 비즈니스를 효율적으로 충족하고 권한을 부여할 수 있도록 지원했습니다. 수천 개의 산업.
3. 대형 모델과 지식 검색 강화 기술을 기반으로 멀티모달 콘텐츠 생성 및 편집을 통합한 지능형 시스템
본 발명의 기술은 지식 강화, 다중 소스 콘텐츠 분석, 통합 편집, 검색 강화 어휘집 등의 기술을 종합적으로 활용하여 전문적인 장문 및 다중 모드 콘텐츠의 취약한 생산 품질, 컨테이너 공유 불가 등의 문제를 해결한다. 작성 및 편집이 부족하고 어휘의 본문이 정확하지 않습니다. 향상된 텍스트 이미지 검색은 사용자 요구에 대한 지능적인 판단을 통해 참조 이미지를 적응적으로 처리하는 것을 목표로 합니다. 혼합 모드 이미지 생성 시스템은 이미지 본문의 일관성을 크게 향상시켜 부정확한 롱테일 콘텐츠 설명의 단점을 효과적으로 보완합니다. . 전반적으로 효과는 Wenshengtu의 기본 시스템을 훨씬 능가합니다. Baidu Wenku는 사용자 지침과 업로드된 콘텐츠를 기반으로 업계 연구 보고서, 프리젠테이션, 마인드맵, 만화책을 실시간으로 생성하는 데 큰 성과를 거두었으며 원스톱 편집, 크로스 모달 변환, 일반/ 개인화 된 도면이 크게 향상되었습니다. 2024년 8월, Aurora의 Yuehu Data는 Baidu Wenku의 스마트 PPT 시장 점유율이 80%에 도달했음을 보여주는 보고서를 발표했습니다. 지난 3개월 동안 사용자 규모의 복합 성장률은 23%에 도달했으며 성장률은 업계 수준을 훨씬 초과했습니다. .
4. 대규모 자율주행 측위 및 차선별 지도 생성 기술 지원
이 독창적인 기술은 기존 모델의 효율성과 비용 문제를 돌파하고 지도 제작 비용을 95% 절감하며 차선별 도로 주행 거리가 360만km가 넘고 41,000개 이상의 도시와 농촌을 완벽하게 커버할 수 있습니다. 전국의 도시. 지도 데이터를 기반으로 더욱 구축된 멀티모달 센서 융합을 기반으로 한 자율주행을 위한 고정밀 측위 기술은 센티미터 수준의 정확도를 가져 대량 생산을 크게 향상시키고 차량 측 측위가 의존하는 지도 패키지의 부피를 줄입니다. 97.5%, 신뢰도는 99.9999%에 달해 Luobo Kuaipao의 현재 대규모 완전 자율 주행 운영을 완벽하게 지원하고 고가교 아래, 다층 도로 및 터널과 같이 복잡하고 어려운 다양한 시나리오에서 완전 자율 주행을 실현합니다.
5. 대규모 모델 지능을 위한 개인화된 메모리 메커니즘
본 발명 기술은 메모리 처리, 저장, 관리, 트리거링 및 활용의 5개 모듈을 포괄하는 포괄적인 메모리 메커니즘 세트를 혁신적으로 제안하여 대형 모델에 개인화된 메모리 기능을 제공합니다. 메모리 처리는 인간의 해마 메커니즘을 활용하여 모든 시나리오에서 사용자 정보를 심층적으로 이해하고 정확하게 처리합니다. 메모리 관리는 사용자의 적극적인 추가, 삭제 및 수정과 시스템의 자동 추가, 삭제 및 수정을 지원합니다. 메모리 뱅크의 시간 업데이트 및 정확성, 메모리 트리거 및 활용, 관련 메모리의 추측 생성을 통해 보다 의인화되고 개인화된 응답을 생성하도록 대형 모델을 지원합니다. 본 발명 기술은 지능형 AI 비서, 디지털 휴먼 등의 시나리오에 널리 사용됐다.
6. 대형 모델을 기반으로 한 초현실적인 디지털 휴먼 모델링, 구동 및 생성 시스템
이 독창적인 기술은 초현실적인 디지털 인간 모델링, 운전 및 생성 솔루션의 완전한 세트를 제안합니다. 실제 디지털 피플을 위해 자연스럽고 사실적인 디지털 휴먼 콘텐츠 제작을 위해 데이터 기반 인물 모델링, 크로스 모달 구동, 대형 인물 영상 생성 모델을 개발했으며, 대규모 액션 및 오클루전 장면에서 라이브 인물 복제를 독점적으로 지원합니다. 최초의 전신 지능형 라이브 방송실이 구현되었습니다. 초현실적인 3D 디지털 휴먼을 위해 Wenxin 대형 모델을 기반으로 모달 마이그레이션 및 다중 에이전트 협업 기술을 개발하여 영화 및 TV 블록버스터와 비교할 수 있는 초현실적인 디지털 휴먼 이미지 및 운영 콘텐츠의 분 단위 제작을 달성했습니다. 3A 게임. 본 발명의 기술은 디지털 휴먼 라이브 방송, 영상 제작, 지능체 등 많은 실존 인물 및 3D 디지털 휴먼 제품에 널리 사용되어 왔다.
7. 대형 모델 기반의 생성적 광고 검색 시스템
본 발명 기술은 전통적인 "인덱스-리콜-정렬" 프로세스를 변경하고, 시스템 퍼널을 평탄화하고, 정보 손실을 줄였으며, "인덱스로서의 모델"을 달성하고 대규모 데이터의 힘을 활용하기 위해 인덱스 학습 작업을 구축하여 비즈니스 정보를 모델 매개변수로 인코딩했습니다. 모델 이해 및 추론 기능을 통해 "생성 및 검색"을 실현하는 새로운 패러다임은 시스템 방향 효율성을 120% 향상시킵니다. 본 발명과 관련된 프로젝트는 업계 최초로 구현되어 대규모 산업 응용을 실현했습니다. 생성형 대형 모델은 상업 검색 시나리오와 결합되어 다양한 기술 혁신을 달성하고 창의적 품질을 향상시켰습니다. 92% 증가했으며 상당한 비즈니스 이점과 광범위한 기술적 영향력을 얻었습니다.
8. 대용량 모델 데이터 플라이휠 기술
이 발명된 기술은 사용자 피드백, 실행 피드백, 자기 지도 피드백 등 다양한 소스와 형태의 정보를 통합하여 모델 결함을 자동으로 식별하고 고품질의 다양한 훈련 데이터를 효율적으로 합성합니다. 동시에 다중 소스 피드백과 결합된 강화 학습 방법은 모델 훈련 효과를 크게 향상시킵니다. 이 혁신적인 기술은 자체적으로 지속적으로 개선할 수 있는 데이터 플라이휠을 구축하여 대형 모델의 데이터 병목 현상을 효과적으로 해결하고 데이터 수집 비용을 절감하며 대형 모델의 적응성과 견고성을 향상하고 다양한 작업 시나리오에서 모델의 성능을 향상시켜 일반화 능력을 가속화합니다. 대형 모델의 지속적인 진화.
9. 대형 모델 효율적 추론 기술
본 발명 기술이 제안하는 효율적인 추론 기술인 기본 모델 계층은 Flying Paddle Framework를 기반으로 추론 아키텍처 방향으로 주류 PrefixCaching, Lookahead, PagedAttention, PD 분리 등의 방향으로 계속 혁신하고 있습니다. 다양한 기술을 효율적으로 결합하여 모델 처리량과 성능을 크게 향상시킵니다. 대형 모델 압축 측면에서 회사는 대형 모델 무손실 양자화 기술을 채택하고 적응형 분할 평활화 및 가중치 연결 재배열과 같은 방법을 활성화하여 수백억, 수백 개의 대형 모델에 대한 효율적인 무손실 압축을 달성합니다. 수십억. 본 발명은 다양한 대형 모델 압축 및 추론 가속화 방법을 지원하며 Baidu Intelligent Cloud Qianfan 대형 모델 플랫폼과 같은 핵심 비즈니스에 사용되어 모델 추론의 리소스 소비를 줄이고 대형 모델 배포 비용을 50% 이상 절감하며 모델 성능과 모델 처리량이 3~5배 향상됩니다.
10. 사용자 데이터 피드백에 의한 검색 생성 시스템
본 발명의 기술이 제안하는 검색 생성 시스템은 사용자 행동 피드백 신호를 결합하여 신속한 자기 강화를 달성할 수 있다. 만족도 모델링 및 강화 학습을 통해 사용자 선호도를 직접 조정하고 사용자 피드백을 사용하여 신속한 시스템 반영을 트리거하여 기존 데이터 애플리케이션에서 사용자 선호도 모델링의 어려움과 전문가 피드백 효율성이 낮은 문제를 해결합니다. 이 프레임워크를 기반으로 한 검색 생성 시스템은 검색 트래픽의 18%를 처리했으며 텍스트, 비디오, 이미지 및 기타 검색 시나리오에서 널리 사용됩니다. 다중 사용자 피드백의 대규모 및 재활용 가능 특성을 통해 시스템은 데이터, 제품 및 환경의 변화에 신속하게 적응할 수 있으며 시스템이 자동으로 최적화를 추구하도록 돕고 시스템의 이상적인 상태로의 진화를 가속화합니다. 시장 경쟁력.