百度グループ特許事務部長の崔玲玲氏は「2024年の百度トップ10技術フロンティア発明」を発表した。これは、基本的なアルゴリズムから応用までオールラウンドなブレークスルーをカバーする、人工知能分野における百度の最先端の特許発明である。シナリオ。国家産業情報セキュリティ開発研究センターと工業情報化部電子知的財産センターが今年4月に発表した「新世代人工知能特許技術分析報告書」によると、百度は2023年末時点で、 Baidu は人工知能の全分野で 19,308 件の特許を申請し、9,260 件の特許を取得しており、大型モデルを中心とした新世代 AI 分野では 1,432 件の特許を申請し、651 件の特許を取得しています。技術革新と特許レイアウトのリーダーとなる。特許データベース組織IFIclaimsが発表した生成人工知能の特許状況に関する洞察によると、百度の生成人工知能特許出願は世界のトップ10にランクインしており、リストに入っている唯一の中国のイノベーションであり、特許技術はテキストをカバーしている。 、画像、音声、ビデオという大規模な基本分野において、これら4つの分野を包括的に展開する企業の1つとなっています。
11月12日、上海で「Applications Are Here」をテーマにしたBaidu World 2024が開催される。今年の注目度の高いテクノロジーカンファレンスとして、Baidu は最新の結果も発表し、再び目を引く技術的進歩と製品の発売をもたらします。
2024 年の百度の最先端技術発明トップ 10 は以下のとおりです。
1. 生成大規模モデルに基づくエージェント技術
この発明のテクノロジーは、思考モデルを革新的に導入し、エージェントがタスク計画、ツールの呼び出し、知識の強化、反射的進化などの複数の機能を持つことを可能にします。コア機能の体系的な設計と方向性の最適化を通じて、さまざまなアプリケーション シナリオにおけるエージェントの大規模な構築と展開を低コストでサポートできます。大規模なシミュレーション機能を構築することで、エージェントの構築と配布を加速できます。この技術システムは、Wenxin Intelligent Platform、Merchant Intelligent Agent、Wenxin Quick Code などの多くの主要なシナリオで成功裏に使用されており、インテリジェント エージェントの研究開発効率が大幅に向上し、研究開発の敷居が低くなりました。その中で、マーチャントエージェントは、計画と専門家のマルチモデルコラボレーションテクノロジーと大規模シミュレーションテクノロジーを使用して、ツールを反映、進化、使用する能力を向上させ、Wenxin Kuaicode と統合するコードレコメンデーションとエージェントシステムに依存しています。従来の DevOps ツール チェーンの有機的な組み合わせにより、人間とマシンの協調的なペア プログラミングの詳細な探索と実装が促進されます。
2. 大規模モデルの効率的な学習フレームワークに基づくマルチモデル共進化技術
この独創的なテクノロジーは、エンジニアリングとアルゴリズムの両方の観点から一連の困難な問題を克服します。エンジニアリング アーキテクチャの点では、ハイブリッド並列戦略、通信効率、コンピューティングとストレージの最適化など、包括的な革新的なブレークスルーが含まれています。これにより、大規模な言語モデルのトレーニング パフォーマンスが大幅に向上し、Wenxin の一連のモデル全体の効率的かつ安定したトレーニングがサポートされます。プロセス。アルゴリズム戦略の面では、大規模モデルと小規模モデルのコラボレーションのための事前トレーニング技術を開発し、モデル間の知識の継承が難しいという技術的問題を克服し、従来のモデルのトレーニングパラダイムを変更し、新しいモデルのトレーニングコストを削減しました。この発明に基づいて、さまざまなサイズのモデルに対する技術的障壁が構築され、過去 1 年間で Wenxin の大型モデルのトレーニング スループットが 4.1 倍に増加しました。これにより、Wenxin Yiyan がさまざまなニーズを持つ幅広いビジネスに効率的に対応できるようになり、力が強化されました。何千もの産業。
3. 大規模モデルと知識検索強化技術に基づいたマルチモーダルコンテンツの作成と編集を統合したインテリジェントシステム
本発明の技術は、知識強化、マルチソースコンテンツ分析、統合編集、検索強化語彙集などの技術を総合的に利用して、専門的な長文記事やマルチモーダルコンテンツの制作品質が低い、コンテンツ作成時にコンテナを共有できないなどの問題を解決する。作成と編集、および辞書本体の精度の低さ。強化されたテキスト画像の取得は、ユーザーのニーズをインテリジェントに判断して参照画像を適応的に処理することを目的としています。混合モード画像生成システムは、画像本体の一貫性を大幅に向上させ、不正確なロングテール コンテンツ記述の欠点を効果的に補います。 . 全体的には文生図のネイティブシステムをはるかに上回る効果があります。 Baidu Wenku は、ユーザーの指示やアップロードされたコンテンツに基づいて、業界調査レポート、プレゼンテーション、マインド マップ、漫画ブックをリアルタイムで生成することに大きな成果を上げており、ワンストップ編集、クロスモーダル変換、一般/パーソナライズされた描画のパフォーマンスが大幅に向上します。 2024年8月、AuroraのYuehu Dataは、Baidu WenkuのスマートPPT市場シェアが過去3か月で80%に達し、ユーザー規模の複合成長率が23%に達し、その成長率は業界レベルをはるかに上回っていることを示すレポートを発表しました。 。
4. 大規模な自動運転測位と車線レベルの地図生成技術をサポート
この独創的なテクノロジーは、従来のモデルの効率とコストの問題を打破し、地図作成コストを 95% 削減し、車線レベルの道路走行距離が 360 万キロメートルを超え、41,000 以上の都市部および地方部を完全にカバーします。全国の町々。地図データを基にさらに構築されたマルチモーダルセンサーフュージョンによる自動運転向け高精度測位技術は、センチメートルレベルの精度を実現し、量産性を大幅に向上させ、車両側測位に依存する地図パッケージの体積を削減します。信頼性は97.5%、信頼性は99.9999%に達し、Luobo Kuaipaoの完全自動運転の大規模運用を完全にサポートし、高架下、多層道路、トンネルなどのさまざまな複雑で困難なシナリオでの完全自動運転を実現します。
5. 大規模モデルインテリジェンスのためのパーソナライズされたメモリメカニズム
本発明の技術は、メモリ処理、ストレージ、管理、トリガおよび利用の 5 つのモジュールをカバーする包括的なメモリ メカニズムのセットを革新的に提案し、大規模モデルにパーソナライズされたメモリ機能を提供します。メモリ処理は人間の海馬のメカニズムを利用して、あらゆるシナリオでユーザー情報の深い理解と正確な処理を実現します。メモリ管理は、ユーザーによるアクティブな追加、削除、変更とシステムの自動追加、削除、変更をサポートし、確実にデータを保存します。メモリバンクの時間更新と精度、メモリのトリガーと利用、関連するメモリの投機的生成を通じて、より擬人化されたパーソナライズされた応答を生成する大規模モデルを支援します。この発明の技術は、インテリジェント AI アシスタントやデジタル ヒューマンなどのシナリオで広く使用されています。
6.大型モデルに基づく超リアルなデジタルヒューマンモデリング、駆動、生成システム
この独創的なテクノロジーは、超現実的なデジタル ヒューマン モデリング、運転、および生成ソリューションの完全なセットを提案します。実際のデジタル ピープル向けに、データ駆動型のポートレート モデリング、クロスモーダル駆動、および大規模なポートレート ビデオ生成モデルを開発し、自然でリアルなデジタル ヒューマン コンテンツ制作を実現します。大規模なアクションおよびオクルージョン シーンでのライブ ポートレート クローン作成を独占的にサポートします。初の全身インテリジェント駆動ライブブロードキャストルームが実装されました。超リアルな 3D デジタル ヒューマンについては、Wenxin ラージ モデルに基づいたモーダル マイグレーションおよびマルチエージェント コラボレーション技術を開発し、映画やテレビの大ヒット作に匹敵する超リアルなデジタル ヒューマン画像と操作コンテンツの分刻みの制作を実現しました。 3Aの試合。本発明の技術は、デジタルヒューマンライブブロードキャスト、ビデオ制作、知的体などの多くの現実の人物および3Dデジタルヒューマン製品に広く使用されている。
7. 大規模モデルに基づく生成的商用検索システム
この発明のテクノロジーは、従来の「インデックス-リコール-ソート」プロセスを変更し、システムファネルを平坦化し、情報損失を削減し、インデックス学習タスクを構築することでビジネス情報をモデルパラメータにエンコードして、「インデックスとしてのモデル」を実現し、大きな力を利用します。モデルの理解と推論機能、「生成と検索」を実現する新しいパラダイムにより、システムの方向性の効率が 120% 大幅に向上します。この発明に関係するプロジェクトは、業界で初めて実装され、大規模な産業応用を実現し、複数の技術革新を達成するために、創造的な豊かさ、創造的な品質を実現しました。 92% 増加し、ビジネス上の大きな利益と広範囲にわたる技術的影響が達成されました。
8. 大規模モデルデータフライホイール技術
この発明された技術は、ユーザー フィードバック、実行フィードバック、自己教師ありフィードバックなどの複数のソースや形式からの情報を統合することにより、モデルの欠陥を自動的に特定し、高品質で多様なトレーニング データを効率的に合成します。同時に、強化学習法とマルチソースフィードバックを組み合わせることで、モデルのトレーニング効果が大幅に向上します。この革新的なテクノロジーは、継続的に改善できるデータ フライホイールを構築し、大規模モデルのデータ ボトルネックを効果的に突破し、データ取得コストを削減し、大規模モデルの適応性と堅牢性を向上させ、さまざまなタスク シナリオでのモデルのパフォーマンスを向上させます。大型モデルの継続的な進化。
9. 大規模モデルの効率的な推論技術
本発明の技術によって提案される効率的な推論技術は、基礎となるモデル層がフライング・パドル・フレームワークに基づいており、推論アーキテクチャの方向において、主流のPrefixCaching、Lookahead、PagedAttendant、PD分離などの方向に革新を続けています。さまざまなテクノロジーを効率的に組み合わせて、モデルのスループットとパフォーマンスを大幅に向上させます。大規模モデルの圧縮に関しては、同社は大規模モデルの可逆量子化技術を採用し、適応セグメンテーション平滑化や重みリンケージ再配置などの手法を有効にし、業界で初めて数百億、数百の大規模モデルの効率的な可逆圧縮を実現しました。何十億も。本発明は、さまざまな大規模モデルの圧縮および推論加速方法をサポートしており、Baidu Intelligent Cloud Qianfan 大規模モデル プラットフォームなどのコア ビジネスで使用され、モデル推論のリソース消費を削減し、大規模モデルの展開コストを 50% 以上節約し、モデルのパフォーマンスとモデルのスループットが 3 ~ 5 倍向上しました。
10. ユーザーデータのフィードバックによる検索生成システム
本発明の技術によって提案される検索生成システムは、ユーザ行動フィードバック信号を組み合わせて、迅速な自己強化を達成することができる。満足度モデリングと強化学習を通じてユーザーの好みを直接調整し、ユーザーのフィードバックを使用して迅速なシステム反映をトリガーすることで、専門家のフィードバック効率が低く、従来のデータ アプリケーションにおけるユーザーの好みモデリングの難しさの問題を解決します。このフレームワークに基づく検索生成システムは、検索トラフィックの 18% をカバーしており、テキスト、ビデオ、画像、その他の検索シナリオで広く使用されています。複数のユーザーからのフィードバックの大規模かつリサイクル可能な特性により、システムはデータ、製品、環境の変化に迅速に適応し、システムが自動的に最適化を模索し、理想的な状態へのシステムの進化を加速することができます。これには非常に高い実用的価値があり、市場競争力。