本当にAI応用時代が到来するのか?
今年のBaidu World Conferenceのテーマは「アプリケーションがやってくる」。11月初旬の時点で、Baidu Wenxinの大型モデルの1日の平均コール数は15億件を超え、最初に公表された年間5,000万件と比較すると約30倍に増加している。前。ロビン・リー氏は、「この急成長曲線は、過去 2 年間に中国で大規模モデル アプリケーションが爆発的に増加したことを表しています。」と述べました。
AIアプリケーションの最も主流の形態として、インテリジェントエージェントは限界点に達しようとしている、とロビン・リー氏は「AIネイティブ時代におけるコンテンツ、情報、サービスの新たなキャリアとなるだろう」と強調した。
これは、「エージェントを作成するためのしきい値が十分に低い一方で、エージェントの上限は非常に強力なアプリケーションを作成できるほど十分に高いためです。複数のエージェントの連携により、より複雑な問題も解決できます。」 。" 質問。"
Robin Li 氏は会議で、企業エージェント、役割エージェント、ツール エージェント、業界エージェントを含む 4 つの異なるタイプのエージェントをデモンストレーションしました。その中でも、同社の公式インテリジェンスは、公式ウェブサイトに取って代わり、消費者にとって最も直接的なインターフェースとなる可能性が高い。
「企業様エージェントは、AI時代の企業公式ウェブサイトに相当します。企業様エージェントは、企業紹介、製品写真やパラメーターの表示、オフライン店舗の場所など、従来の公式ウェブサイトが持つすべての機能を備えています。従来の Web サイトには積極的に推奨する機能がなく、タイムリーな応答や 1 対 1 のサービス機能も、同社のインテリジェント エージェントで利用できます。」
Robin Li 氏はまた、コードフリー ツール「Miaida」をリリースしました。これは、コードを書かずにあらゆるアイデアを実現できる大規模なモデルとエージェントで構成されるソフトウェアです。これには、コードフリー プログラミング、マルチ エージェントのコラボレーション、さまざまなこのツールの大規模な呼び出しが含まれます。他の機能は、「これまでの人類史上で最も複雑なマルチエージェントコラボレーションツール」です。
「Miaoda」の助けを借りて、ユーザーは自然言語対話を通じてシステム全体の構築を完了することができ、また、基本的なモデル機能の向上とMiaoda自身の技術力の進化により、あらゆるシナリオでさまざまなアプリケーションを実行できるようになります。 「これは、プロジェクト マネージャー、デザイナー、開発者、テスターなどを採用する必要がなく、複数のエージェントに協力してタスクを完了するように指示できることを意味します。」チーム。
ロビン・リー氏の言葉を借りれば、Miaoda によって「アイデアに頼るだけでお金を稼げる時代」が到来します。
Baidu Netdisk の C サイド事業が 9 月に Mobile Ecosystem Group (MEG) に再分類され、Baidu 副社長兼 Baidu Library および Baidu Netdisk の責任者である Wang Ying に引き継がれた後、この世界カンファレンスで、Baidu ネットワーク ディスクはとライブラリがさらに統合されました。
Wang Ying 氏はカンファレンスで、コンテンツの制作と消費における Baidu の新たな変化の一部を共有しました。彼女は、現在のコンテンツの作成と消費は、複雑なツール、長い制作サイクル、低い消費効率など、多くの課題に直面していると述べました。この目的を達成するために、Baidu Wenku と Netdisk は AI テクノロジーを導入し、ツールやモーダル境界の制約を打ち破り、より自由で効率的なコンテンツ エクスペリエンスを実現しました。
Baidu Wenku のインテリジェントな PPT 生成、AI 論文作成、AI 絵本制作、AI 検索機能、AI 小説およびコミック生成により、コンテンツ消費の観点から、コンテンツ制作の効率と品質が大幅に向上しました。スキャン、簡単なディクテーション、AI ビデオ要約などのシンプルなツールにより、ユーザーは情報を処理して理解することが大幅に容易になります。
具体的には、オフィス シナリオでは、Baidu Wenku がスマート PPT とスマートな調査およびレポート機能を提供し、Baidu Netdisk は学習シナリオでシンプルなリスニング ノートなどの機能を提供し、ユーザーは Baidu Wenku のスマート ドローイング ブックや写真検索を使用できます。 Baidu Netdisk はビデオ解釈や Panpan 語彙などの補助学習ツールを提供し、エンターテインメントの面では、Baidu Wenku はスマート ノベルやスマート コミックを提供し、Baidu Netdisk は AI 写真編集などの機能を備えています。 Baidu Wenku と Netdisk の統合により、ユーザーのアプリケーション シナリオが広がり、コンテンツのインテリジェンスと多様化が実現し、ユーザー エクスペリエンスがさらに向上します。
無料のキャンバス機能|画像出典:Baidu
さらに、Baidu Wenku と Netdisk は共同で、新しいコンテンツ オペレーティング システムである Free Canvas を発売しました。このシステムは、ユーザーが情報の検索から編集、生成、共有までのすべてのタスクを完了できるように支援するだけでなく、複数の形式でのフルフォーマットの入出力をサポートするだけでなく、要素レベルのコンテンツの活用、高度な作成と共有も可能にします。自由。
Robin Li 氏の言葉を借りると、「フリー キャンバスは、Wenxin のマルチモーダル大型モデルによって恩恵を受けたユニバーサル ホワイトボードです。」これらのイノベーションは、コンテンツ分野における AI テクノロジーの大きな可能性を実証するだけでなく、将来のコンテンツの制作と消費のさらなる可能性を予告します。
カンファレンスでは、Baidu Group の執行副社長兼 Baidu Intelligent Cloud Business Group の社長である Shen Dou 氏が、大規模モデルと AI ネイティブ アプリケーションにおける Baidu Intelligent Cloud の最新の進歩について共有しました。 Shen Dou氏は、ラージモデルテクノロジーは技術変革から産業変革に移行しており、人々がデジタル世界や物理世界と対話する方法を再定義し、企業が競争力を強化するための重要な要素となっていると述べた。
Shen Dou は、大規模モデルの微調整とアプリケーション開発のためのプラットフォームである Qianfan プラットフォームに焦点を当てました。これは、豊富なツール チェーンを提供し、AI ネイティブ アプリケーション開発の敷居を大幅に下げます。 Qianfan プラットフォームは、エンタープライズ レベルのアプリケーションの高度なカスタマイズ可能、大規模、高可用性、高セキュリティの要件を満たすだけでなく、ワークフロー エージェントもリリースします。このイノベーションは、大規模モデルの意図の理解と一般化機能を活用して、複雑なワークフローを柔軟なエージェントに変え、企業の効率を大幅に向上させます。たとえば、中国太平洋保険は Qianfan プラットフォームを使用して「ゴールド メダル販売」代理店を生み出し、自動車保険更新のサービス効率とユーザー エクスペリエンスを大幅に向上させました。
Baidu Smart Cloud Qianfan|画像出典:Baidu
さらに、Baige プラットフォームは、クラスターの作成からモデルのトレーニングと推論に至るまで、効率的な大規模モデル関連のコンピューティング サービスを提供し、安定した非常に高速なパフォーマンスを保証します。このプラットフォームは、大規模なクラスター展開における主要な問題を解決し、効率的な運用をサポートし、さまざまな顧客のコンピューティング能力のニーズを満たします。
Shen Dou 氏はまた、一般診断医療を含む複数の業界での Qianfan プラットフォームの応用事例を実証しました。State Grid は、Wenxin の大型データに基づいて電力業界での AI アプリケーションを検討しています。をモデル化し、目覚ましい成果を上げています。さらに、XiLing 4.0 プラットフォームのアップグレードにより、3D デジタル人物画像の生成とプロフェッショナルなビデオの制作が可能になり、短編ビデオ制作のコストが大幅に削減されます。
Baidu Intelligent Cloud は、Qianfan および Baige プラットフォームを通じて新しい AI インフラストラクチャを構築し、さまざまな業界での大規模モデル テクノロジーの適用を促進し、企業のインテリジェンス レベルと効率を向上させています。
百度は今回、アプリケーションに加えてハードウェアもリリースした。会議では、Baidu Groupの副社長兼Xiaodu TechnologyのCEOであるLi Ying氏が、「中国の大型モデルを搭載した初のネイティブAIグラス」であるXiaodu AIグラスを発表した。
Xiaodu AI メガネ|画像出典:Baidu
リー・イン氏は、人間のための一人称視点のデバイスとして、視覚、音声、位置、その他の情報を捕捉するAIグラスの能力は、人々の感覚に前例のない拡張をもたらし、人間とコンピューターへのより効率的かつ便利な入り口にもなると述べた。交流。
Wenxin 大型モデルと DuerOS AI ネイティブ オペレーティング システムに基づいて、Xiaodu AI は、一人称視点の撮影、歩きながらの質問、カロリー認識、物体認識百科事典、視聴覚翻訳、スマート メモなどの機能を実現できます。
デバイスとクラウドを大規模なモデルと組み合わせることで、Xiaodu AI メガネは単独で使用することも、APP と組み合わせて使用することもでき、中国語のワンライナーが組み込まれており、ユーザーの質問にリアルタイムで応答できます。
ハードウェアに関しては、Xiaodu AI メガネには、音声を認識するための 4 つのマイク アレイ、漏れ防止のオープン スピーカー設計、16 メガピクセルの超広角レンズ、および AI 手ぶれ補正アルゴリズムが搭載されています。 30 分で充電でき、スタンバイ時間は 56 時間、連続使用時間は 5 時間以上です。マシン全体の重量はわずか 45 グラムで、業界平均の 49 グラムよりも軽いです。
Xiaodu AIグラスは来年上半期に発売される予定で、価格はまだ発表されていないが、ブーススタッフによると2,000元程度になるのではないかとのこと。
ロビン・リー氏は会議で、AI業界が過去24カ月で大きな変化を遂げた、その最も顕著な変化は大型モデルによって幻覚現象が基本的に排除されたことであると述べた。この変更により、AI は元の「重大なナンセンス」から、使いやすく信頼できるものになりました。大規模モデルは本質的に確率モデルであり、生成されるコンテンツにはある程度の不確実性があります。ただし、RAG テクノロジーを採用することで、大規模なモデルは取得した情報を活用してテキストや回答を生成することができ、コンテンツの品質と精度が大幅に向上します。
画像生成における幻覚の問題を解決するために、Baidu は今年の初めに、検索機能を強化したヴィンセント グラフ テクノロジーである iRAG (Image based RAG) というテクノロジーを開発しました。これ以前は、完全に大規模な言語モデルに基づいた Vincentian グラフ システムによって生成された画像は、多くの場合、品質が低く、非論理的ですらありました。 Baidu の iRAG テクノロジーは、Baidu Search の 10 億レベルの画像リソースと強力な基本モデル機能を組み合わせて、さまざまな超リアルな画像を生成します。全体的な効果はネイティブの Vincentian システムをはるかに上回り、機械生成の痕跡が排除されます。
AI生成画像の利便性は大幅に向上し、その応用範囲も大幅に拡大しました。たとえば、ブランドプロモーションのシナリオでは、以前はポスター一式の制作に数十万元がかかっていたかもしれませんが、現在では制作コストはほぼゼロになっています。つまり、iRAG の商業的価値は、錯覚がない、超現実的、低コスト、すぐに利用できるという側面に反映されています。
カンファレンスでのロビン・リー 画像出典: Baidu |
基本的なモデルの機能が成熟すると、AI アプリケーションの隆盛期が到来します。では、AI アプリケーションはどこから来て、どこへ向かうのでしょうか?主に 2 つの方向性があります。1 つはインテリジェント エージェントであり、もう 1 つは産業アプリケーションです。
将来、おそらく本当に AI 応用の隆盛期が到来するとき、AI はその使命である「産業革命レベルの機会」を真に実現し、社会経済に無限の生産性拡大をもたらすことができるでしょう。