スーパーアプリはいつ登場しますか?これは、過去 1 年間で AI 業界で最も一般的な不安かもしれません。
人工知能を PC インターネットまたはモバイル インターネットと比較するのは簡単です。両者の出現から数年後、それらには人気のあるスーパー アプリケーションが登場しました。しかし、人工知能は産業革命レベルの技術の波であり、人工知能のスーパーアプリケーションの出現時期は、蒸気機関や電気の出現後のスーパーアプリケーションの出現時期に匹敵します。
1776 年に実用的な価値を持つ最初の蒸気エンジンが製造され、人類社会を「蒸気の時代」へと導く万能の原動力となりました。蒸気エンジンが鉄道や船舶に広く使用されるようになったのは 1800 年代になってからです。セクター。熱力学の第 2 法則はほぼ 100 年後に出現し、電気革命も進化の過程であり、発電所、電灯、組立ラインなどはすべて電気の後に登場しました。 . 数十年かけて徐々に進化してきた新しい業態。
したがって、人工知能時代のスーパーアプリケーションは必ず登場しますが、その時代はまだ到来していません。ここ 1 年、AI 業界はいわゆる「スーパー アプリケーション」を追求してきましたが、これは少し早い成功を求める傾向にあるようです。
大型モデルは基礎技術として実用価値を直接生み出すものではありません。基本となる大きなモデルをベースに構築される様々なアプリケーションがモデルの存在意義となります。 AI アプリケーション開発者や起業家にとって、最善の戦略は明らかに、AGI や「スーパー アプリケーション」に固執するのではなく、小さなステップを踏み、反復し続けて非常に便利なアプリケーションを作成することです。
最近、2024 年の Baidu 世界会議で、Baidu は Wenxin Big Model の最新データを発表しました。半年前、Wenxin Big Model の 1 日あたりの API コールは 2 億件でしたが、現在では 15 億件を超え、7.5 倍に増加しています。わずか6か月。これは中国における AI アプリケーションの爆発的な拡大の縮図であるだけでなく、大規模なモデルがアプリケーションに真の実用的な価値を生み出していることも示しています。
長い間、国産の大型モデルを他の業界に販売するのは困難であった、ある業界関係者はかつて36Krに次のように語った。大規模なモデルの世代は非常に貧弱で、どこにでも幻想があるため、請求額を支払います。」マルチモーダル機能の開発により制限されているため、生成型人工知能の初期のユーザー エクスペリエンスは単純な会話型ボットのユーザー エクスペリエンスに近くなります。最初は、ユーザーは早期導入者を必要としていますが、エクスペリエンスが平凡であるため、定着率は低くなります。
この1年での大型モデルの最大の変化は、基本的に「幻想」がなくなり、使えるモデルになったことだ。大規模なモデルは本質的に確率モデルであり、テキスト生成では次に可能性の高いテキストが自動的に生成されるため、AI はしばしば「幻覚」、いわゆる「重大なナンセンス」を経験します。
大規模なモデルに基づいてアプリケーションを開発したい場合は、「幻想」を排除する必要があります。 AI 業界は通常、検索拡張テクノロジー (RAG、検索拡張生成) を使用して、大規模なモデルによって生成されるテキストの錯覚を基本的に排除し、大規模なモデルに実用的な価値を持たせます。マルチモーダル技術が実用化されるためには、AI 応用空間を拡大するための精度と制御性も必要です。
Baidu は、この世界会議で、検索を強化した画像ベースのテクノロジーである新しい iRAG (画像ベースの RAG) をリリースしました。今年の初めに、百度は、「幻想」のマルチモーダルな生成の問題を解決し、ヴィンセントの写真も幻想を排除できるようにすることを決定し、映画やテレビ作品、漫画作品、漫画本、ポスターの分野に進出することを決定しました。生産およびその他の分野。
たとえば、自動車産業はマーケティングに大きく依存しており、完璧な写真を作成するためには、多くの人的、財政的、物的リソースを必要とすることがよくあります。 iRAG テクノロジーを使用することで、自動車会社は、非常に低コストかつ迅速に優れた視覚パフォーマンスを備えた写真を取得できます。それは視覚的にさらに素晴らしいかもしれません。
現在、生成型人工知能の技術的ルートは基本的に 2 つの流派に分かれています。1 つは基本的な大規模モデルを通じて一般的な人工知能を実現することを夢見る AGI 流派であり、もう 1 つはアプリケーション駆動型の流派です。アプリケーションのニーズと用途からフィードバック モデルを適用して革新します。
Baidu は、大規模な基礎モデルの継続的な研究開発に基づいて、アプリケーション駆動型の開発をより重視しています。 iRAG が使用されるのは、アプリケーションが正確な画像を生成する必要があるためです。たとえば、会社のロゴを変形したり、色を歪めたりすることはできないため、正確なマルチモーダル機能が必要となります。 1 年近くの努力を経て、この技術は実用化されました。アプリケーションの進捗は、モデル自体の研究開発にもフィードバックできます。
2 年が経過し、生成 AI はギアを切り替える重要な時期を迎えています。 36Krは以前、国内のAI新興企業2社が過去2日間で大規模モデルの事前トレーニングを停止したことを明らかにしており、スケーリング法が「投資収益率の減少」に達しているかどうかについての業界の議論が激化している。
実際、地球規模ではすでに変化が始まっています。 OpenAI、Microsoft、Google などの世界的なテクノロジー大手は、相次いで撤退し、インテリジェント エージェントを導入しました。 9月中旬、OpenAI研究者のノーム・ブラウン氏はソーシャルメディアで、新しいマルチエージェント研究チームに機械学習エンジニアを募集していると発表した。 MicrosoftのナデラCEO兼会長は、自らのAIの新たな進歩を個人的に発表し、10人の新しいビジネスインテリジェンスエージェントを一度にリリースし、グループを結成してデビューした。ほぼ同時に、Google もインテリジェント エージェントをリリースする予定であるというニュースがありました。Google は、最新の AI 開発成果である Jarvis の「内部プレビュー バージョン」を「誤って」漏洩しました。インターネットを閲覧し、情報インテリジェンスを独自に検索します。
Baidu は中国のスマート エージェントのトレンドをリードしています。今回の百度世界会議イベントでは、インテリジェントエージェントが主役となった。 Baidu は、企業タイプ、役割タイプ、ツールタイプ、業界タイプの 4 つのタイプのエージェントに焦点を当てています。
例えば、ツール型エージェント「Free Canvas」は、百度の初期の図書館事業の長期蓄積をベースに、生成型人工知能技術を重ね合わせることで、大きな飛躍を遂げた。
初期の頃、図書館を利用する人々のニーズは、既製の文書を見つけることでした。しかし、生成型人工知能テクノロジーが登場したとき、Baidu は、人々の最も基本的なニーズは、既成のドキュメントを見つけることではなく、より自分に合ったコンテンツを作成することであることに気づきました。
このようなニーズに応えるために、Baidu は、人々が既成の文書に基づいて、または物質的な根拠なしに、より良いものを作成できるようにする方法を考え始め、この道に従って、初期の Baidu ライブラリが再構築されました。その後、Baidu がワンクリックで長い記事を生成できる独立した製品 Orange Pian をリリースしましたが、Free Canvas の誕生もこのロジックに基づいており、平たく言えば、人々がより便利に「自分の考えを伝える」ことができるということです。自分の内なる考えをより便利かつ正確に表現します。
Baidu の創設者である Robin Li 氏は、「エージェントは AI アプリケーションの最も主流の形式であり、その爆発点を迎えようとしている」と考えています。エージェントを作ることは、PC 時代の Web サイトの構築やセルフ メディアの構築に似ています。モバイル時代のアカウント。違いは、エージェントがより人間らしく、よりインテリジェントで、営業、顧客サービス、アシスタントに似ていることです。エージェントは、AI ネイティブ時代におけるコンテンツ、情報、サービスの新たな担い手となる可能性があります。
OpenAI CEOのサム・アルトマン氏も、先月Redditでの質問に答えた際、AIエージェント開発者に頼る可能性を表明した。 「私たちは今後もより優れたモデルを開発していくでしょうが、次の大きな進歩は AI エージェントになると思います。」 NVIDIA の Jen-Hsun Huang 氏も、NVIDIA には将来 1 億人のインテリジェント エージェントが存在するだろうと述べました。
インテリジェントエージェントの特徴は、敷居が十分に低く、天井が十分に高いことであり、何年も前に大学生によって設立された Google や Meta のように、非常に強力な企業に成長することができます。世界で最も強力なテクノロジー巨人。ある意味、今インテリジェント エージェントを構築しないのは、20 年前に Web サイトを構築しなかったり、10 年前に APP を構築しなかったりするのと同じです。
世界的な人工知能開発の人材、リソース、技術ノードにおいて、Baidu ほど重要な役割を果たしている中国企業はほとんどありません。その背景には、創業者の AI に対する信念とこだわりが切り離せません。業界では、ロビン・リーの古典的な格言があります。「1 元を持っているときは、テクノロジーに投資します。1 億を持っているときは、テクノロジーに投資します。100 億を持っているときも、テクノロジーに投資します。」 。
Baidu の AI の取り組みは、10 年以上前の有名なオークションにまで遡ることができます。 2012年12月のある日、米国ネバダ州タホ湖南のスキー山の麓で秘密オークションが開催された。競売にかけられた資産は実際には「AIのゴッドファーザー」ジェフリー・E・ヒントン教授とその教え子2人の「3人」だった。
Baidu、Google、Microsoft、DeepMind の代表者が頻繁に入札額を引き上げ、この時点で参加者に残ったのは Baidu と Google だけでした。百度は上限なしでオークションに参加したが、最終的には落札されなかった。
これにより、ロビン・リー氏はディープラーニングや自動運転などの技術を自ら開発する必要があると認識し、その後、百度アメリカ研究所を設立し、ン・エンダ氏をはじめとする世界的な人材の採用に積極的に取り組んできました。 、ダリオ・アモデイなど世界のトップタレントが参加。
次の 10 年間で、Baidu は、チップ、フレームワーク、モデルからアプリケーション層に至るまで、人工知能テクノロジーのフルスタックの自己研究期間を開始し、それらを 1 つずつ克服しました。 Baiduは自動運転オープンプラットフォーム「Apollo」を相次いでリリースし、ディープラーニングフレームワーク「PaddlePaddle」をオープンソース化し、さらに2019年初めにはWenxin大型モデルのバージョン1.0をリリースした。
しかし、ChatGPT が誕生するまで、AI 技術の応用は転換点を見つけることができず、業界では底なしの金塊とみなされ、実用化にはまだ遠い状況でした。
粘り強さは必ず報われます。反転は 2023 年 3 月に起こりました。Wenxin 大型モデルのバージョン 3.0 に基づいて、Baidu は世界で初めて ChatGPT のベンチマーク製品である Wenxin Yiyan をリリースしました。この時点で、10年間の沈黙の投資がついに報われました。
2023 年後半に入り、Baidu は基本モデルが引き続きリードしていることを確認しながら、大規模モデルの均質な競争が莫大なリソースの無駄を引き起こしていることに突然気づきました。ロビン・リーは「アプリケーションを回転させるのではなく、アプリケーションを回転させるように」と何度も公に呼びかけてきました。 」と社内で全製品を大型模型で再現する初の企業になるよう要望した。 2023 年の世界会議で、Baidu は検索、地図、ネットワーク ディスクなどの重要なアプリケーションの再構成結果を外部に示しました。今年の世界会議では、Baidu のテーマは直接「アプリケーションが登場します」に設定され、外部の世界に公開されました。 「知的体、産業応用、その他の分野で生み出される莫大な価値」の大規模モデルを参照してください。
過去を振り返ると、過去 10 年間にバイドゥが世界的な人工知能の開発におけるあらゆる重要なノードで正しい選択を行ってきたことを理解するのは難しくありません。ロビン・リー氏は、長期的な将来的には、AI がすべての一般人に真に利用され、誰もがプログラマーの能力を持てるようになることを望んでいます。
Baidu World Conference では、Robin Li 氏も One More Thing - Miaida をリリースしました。これは、コードプログラミングが不要で、マルチエージェントのコラボレーション、マルチツールの呼び出しを備えたソフトウェアです。
Miaida は、ユーザーがコードを理解する必要がないという点で、これまでの補助コード生成ツールとは大きく異なります。対照的に、生産性ツールとしての以前の AI ツールは、ピラミッドの頂点にあるエリートの能力を強化することを目的としていました。たとえば、米国ではエンジニアが不足しているため、シリコンバレーでは補助コード生成が非常に重要です。補助ツールは効率を向上させ、ピラミッドの頂点に立つ人々をより強力にすることができます。
しかし、AI は一部の人が使用する特許ではなく、誰もが恩恵を受けることができるものであるべきです。
基本モデルとエージェントの機能が徐々に向上するにつれて、Baidu はこれらの技術機能を統合して、コード行を理解できない実際の一般人がプログラマーの機能を持てるようにします。
想像してみてください。何億人、または 10 億人以上の人々がこの能力を持ったとき、それは巨大な市場空間、特に補助コード生成ツールなどのテクノロジーでは匹敵しない創造性の爆発に相当するでしょう。百度は、すべての一般人がピラミッドの頂点に立つ人々と同じ能力を持つことができるようにすることを望んでおり、その重要性は当然より深いものになります。
ロビン・リー氏はカンファレンスで、「百度は『スーパーアプリケーション』をローンチするつもりはないが、より多くの人々とより多くの企業が何百万もの『超便利な』アプリケーションを作成できるよう支援し続ける」と述べた。
AI 時代には、ますます多くの人々が新しい製品やサービスの作成を学び、創造的で敷居の低いアクションである自然言語プログラミングを使用して、突飛なアイデアを実現し、無数の価値のある製品を作成できるようになると想像してみてください。これがテクノロジーの真の包括性です。