百度集團專利事務部總經理崔玲玲發布「2024百度十大科技前沿發明」:百度人工智慧領域的前沿專利發明,涵蓋了從基礎演算法到應用情境的全方位突破。根據國家工業資訊安全發展研究中心、工信部電子智慧財產權中心今年4月發布的《新一代人工智慧專利技術分析報告》顯示,截至2023年底,百度在人工智慧全領域專利申請量19,308件、授權量9,260件,連續六年位居國內第一;在以大模型為核心的新一代AI領域,百度專利申請1432件、授權651件,成為技術創新和專利佈局領導者。根據專利資料庫機構IFIclaims發布的生成式人工智慧專利圖景洞察,百度生成式人工智慧專利申請量躋身全球TOP10,是唯一進入該榜單的中國創新主體,並且專利技術涵蓋文字、圖像、語音、視訊四大基礎領域,成為這四個領域全面佈局的全球四家公司之一。
11月12日,以「應用程式來了(Applications Are Here)」為主題的百度世界2024即將在上海舉辦。身為一年中備受矚目的科技發表會,百度也將發表最新成果,再次帶來令人矚目的技術突破與產品發表。
百度2024十大科技前沿發明,具體如下:
一、基於生成式大模型的智能體技術
該發明技術創新地引入了思考模型,使智能體具備了任務規劃、工具呼叫、知識增強和反思進化等多重能力。透過系統化的設計與核心能力的定向優化,能夠低成本地支援不同應用場景下智能體的規模化建設與部署;透過建構大規模模擬能力,加速智能體建構與分發。此技術系統已成功應用於文心智能體平台、商家智能體、文心快碼等多個重點場景,顯著提升了智能體的研發效率,降低了研發門檻。其中,商家智能體透過規劃+專家的多模型協同技術和大規模模擬技術,提升反思、進化和使用工具的能力,建構AI行銷能力;文心快碼依托程式碼推薦和智能體系統,與傳統DevOps工具鏈有機結合,推動人機協同配對程式設計的深度探索與落地。
二、基於大模型高效訓練框架的多模型協同演化技術
該發明技術從工程和演算法兩個角度攻克系列難題。工程架構上,從混合平行策略、通訊效率、運算儲存優化全方位創新突破,大幅提升大語言模型訓練效能,支撐文心全系列模型全流程高效穩定訓練。在演算法策略上,研發了大小模型協同的預訓練技術,攻克了模型間知識難以繼承的技術難題,改變了傳統模型的訓練範式,降低了新模型訓練成本。基於此發明建構了各規模模型的技術壁壘,使文心大模型訓練吞吐速度在過去一年提升了4.1倍,支持文心一言高效滿足不同需求的廣泛業務,賦能千行萬業。
三、基於大模型與知識檢索增強技術的多模態內容創編一體的智慧系統
本發明技術綜合運用知識增強、多源內容解析、融合式編輯、檢索增強文生圖等技術,解決了專業長文及多模態內容生成質量弱、創編無法共享容器、文生圖主體準確性差等問題。檢索增強文生圖,旨在透過智慧判斷使用者需求自適應處理參考圖,進而基於混合模態的生圖系統顯著提升了生圖主體的一致性,有效彌補長尾內容刻畫不準確的短板,整體效果遠超過文生圖原生系統。百度文庫已經在基於用戶指令及上傳內容實時生成行業研報、演示文稿、思維導圖、畫本漫畫並支持一站式編輯、跨模態轉換、通用/個性化生圖等複雜任務方面取得了顯著的效果提升。 2024年8月,極光旗下月狐數據發布報告顯示,百度文庫智慧PPT市佔率已達八成,近3月用戶規模複合成長率達23%,成長速度遠超業界水準。
四、支援規模化的自動駕駛定位和車道級地圖生成技術
該發明技術突破了傳統模式的效率和成本問題,降低了地圖製圖成本95%,車道級道路里程超過360萬公里,實現全國超過41000個城鄉鎮道路的全覆蓋。基於地圖資料進一步建構的多模態感測器融合的自動駕駛高精定位技術,精度達到厘米級,極大提高了可量產性,將車端定位依賴的地圖包體積降低97.5%,可靠性達到99.9999 %,全面支撐目前蘿蔔快跑全無人駕駛的規模化運營,在高架橋下、多層路、隧道等各種複雜困難場景實現全無人駕駛。
五、面向大模型智能化的個人化記憶機制
這項發明技術創新地提出了一套全面的記憶機制,涵蓋記憶加工、儲存、管理、觸發和利用五大模組,賦予大模型個人化記憶能力。記憶加工借鑒人類海馬體機制,實現了對全場景使用者資訊的深度理解和精準加工;記憶管理支援使用者主動與系統自動的增刪改查,確保了記憶庫的即時更新與準確;記憶觸發和利用,透過相關記憶的推測生成,輔助大模型產生更擬人和個人化的回應。該發明技術已廣泛應用於智慧ai助理、數位人等場景。
六、基於大模型的超擬真數位人建模、驅動與生成系統
該發明技術提出了一整套的超擬真數位人建模、驅動和生成方案。針對真人數位人,研發了數據驅動的人像建模、跨模態驅動和人像視頻生成大模型,實現了自然、擬真的數位人內容生產,獨家支持大幅動作&遮擋場景的直播人像克隆,並實現了首個全身智慧驅動直播間落地。針對超寫實3D數位人,基於文心大模型研發了模態遷移和多智能體協作技術,實現了分鐘級製作媲美影視大片、3A遊戲的超寫實數位人形象及營運內容。本發明技術已廣泛應用於數位人直播、視訊生產、智能體等眾多真人及3D數位人的產品。
七、基於大模型的生成式商業檢索系統
該發明技術變革了傳統的“索引-召回-排序”流程,扁平化系統漏斗,減少信息損失,通過構建索引學習任務,將商業信息編碼進模型參數,實現“模型即索引”,利用大模型的理解和推理能力,實現“生成即檢索”,新範式顯著提升系統定向效率120%。該發明所涉及專案業界率先落地,實現大規模工業化應用,生成式大模型結合商業搜尋場景取得多項技術創新,創意豐富度提升37倍,創意品質提升92%,獲得了顯著的業務收益和廣泛技術影響力。
八、大模型資料飛輪技術
該發明技術透過整合使用者回饋、執行回饋和自監督回饋等多來源和形式的信息,自動識別模型缺陷並高效合成高品質、多樣化的訓練數據。同時結合多源回饋的強化學習方法,顯著提升了模型訓練效果。這項創新技術建構了一個能夠持續自我改進的數據飛輪,有效突破了大模型的數據瓶頸,降低了數據獲取成本,提高了大模型的適應性和穩健性,提升了模型在不同任務場景下的泛化能力,加速大模型持續進化。
九、大模型高效推理技術
此發明技術提出的高效推理技術,底層模型層基於飛槳框架,在推理架構方向,結合主流的PrefixCaching、Lookahead、PagedAttention、PD分離等方向持續創新,並將各項技術高效結合,大幅提昇模型吞吐和性能。在大模型壓縮方面,採用大模型無損量化技術,透過啟動自適應分段平滑與權重連動重排等方法,在業界率先實現了對百億千億級大模型的高效無損壓縮。該發明支援多種大模型壓縮和推理加速手段,目前已應用於百度智能雲千帆大模型平台等核心業務,減少模型推理的資源消耗,節省大模型部署成本超50%,提升模型性能,模型吞吐提升3-5倍。
十、使用者資料回饋驅動的檢索生成系統
此發明技術提出的檢索生成系統,能夠結合使用者行為回饋訊號,實現快速自我強化。透過滿意度建模和強化學習直接對齊使用者偏好,並利用使用者回饋觸發系統快速反思,解決了傳統資料應用時專家回饋效率低和使用者偏好建模困難的問題。基於此框架的檢索生成系統已涵蓋18%的搜尋流量,廣泛應用於文字、影片、圖片等搜尋場景。多元用戶回饋的規模大、可循環的特性,使系統能夠快速適應數據、產品和環境的變化,幫助系統自動化尋優,加速系統向理想狀態演進,具備極高的實用價值和市場競爭力。