Wann erscheinen Super-Apps? Dies ist möglicherweise die häufigste Sorge in der KI-Branche im letzten Jahr.
Für Menschen ist es einfach, künstliche Intelligenz mit dem PC-Internet oder dem mobilen Internet zu vergleichen. Einige Jahre nach dem Aufkommen beider gibt es beliebte Superanwendungen. Künstliche Intelligenz ist jedoch eine Technologiewelle auf industrieller Revolutionsebene. Die Entstehungszeit von Superanwendungen für künstliche Intelligenz ist eher mit der Entstehungszeit von Superanwendungen nach dem Aufkommen von Dampfmaschinen und Elektrizität vergleichbar.
Im Jahr 1776 wurde die erste Dampfmaschine mit praktischem Nutzen hergestellt und wurde zu einer universellen Antriebsmaschine, die die menschliche Gesellschaft in das „Dampfzeitalter“ führte. Erst im 18. Jahrhundert wurden Dampfmaschinen in verschiedenen Industriezweigen weit verbreitet eingesetzt Sektoren. Der zweite Hauptsatz der Thermodynamik erschien fast 100 Jahre später; die Erfindung der elektrischen Energie leitete den Höhepunkt der zweiten industriellen Revolution ein . Ein neues Geschäftsformat, das sich über Jahrzehnte weiterentwickelt hat.
Daher wird es im Zeitalter der künstlichen Intelligenz definitiv Superanwendungen geben, aber die Zeit ist noch nicht gekommen. Im vergangenen Jahr verfolgte die KI-Branche sogenannte „Superanwendungen“, die offenbar etwas auf schnellen Erfolg bedacht zu sein scheinen.
Als Basistechnologie erzeugen große Modelle keinen unmittelbaren praktischen Nutzen. Die verschiedenen Anwendungen, die auf dem grundlegenden großen Modell basieren, sind der Sinn der Existenz des Modells. Für Entwickler und Unternehmer von KI-Anwendungen besteht die beste Strategie offensichtlich nicht darin, bei AGI oder „Superanwendungen“ zu bleiben, sondern kleine Schritte zu unternehmen und weiter zu iterieren, um äußerst nützliche Anwendungen zu erstellen.
Kürzlich gab Baidu auf der Baidu-Weltkonferenz 2024 die neuesten Daten für sein Wenxin Big Model bekannt: Vor einem halben Jahr beliefen sich die täglichen API-Aufrufe des Wenxin Big Model auf 200 Millionen, und jetzt sind es über 1,5 Milliarden, ein Anstieg um das 7,5-fache nur sechs Monate. Dies ist nicht nur ein Mikrokosmos der Explosion von KI-Anwendungen in China, sondern zeigt auch, dass große Modelle tatsächlich einen praktischen Nutzen für Anwendungen geschaffen haben.
Lange Zeit war es schwierig, große inländische Modelle an andere Branchen zu verkaufen. Ein Brancheninsider sagte einmal zu 36Kr: „Ob es sich um intelligente Hardware oder KI-Agenten handelt, die Nachfrage in der Branche ist sehr groß, aber nur wenige Menschen sind wirklich dazu bereit.“ . Bezahlen Sie die Rechnung, weil die große Modellgeneration so arm ist und es überall Illusionen gibt.“ Aufgrund der Entwicklung multimodaler Fähigkeiten ähnelt die anfängliche Benutzererfahrung der generativen künstlichen Intelligenz eher der eines einfachen Konversations-Bots. Zunächst besteht ein Bedarf an Early Adopters, aber aufgrund der mittelmäßigen Erfahrung ist die Bindung gering.
Die größte Veränderung bei großen Modellen im vergangenen Jahr besteht darin, dass die „Illusion“ im Grunde genommen beseitigt wurde und die Modelle nutzbar geworden sind. Das große Modell ist im Wesentlichen ein probabilistisches Modell. Bei der Textgenerierung wird automatisch der nächstwahrscheinlichste Text generiert, was dazu führt, dass die KI häufig „Halluzinationen“ erlebt, was den sogenannten „schwerwiegenden Unsinn“ darstellt.
Wer Anwendungen auf Basis großer Modelle entwickeln möchte, muss „Illusionen“ eliminieren. Die KI-Branche verwendet im Allgemeinen die Retrieval-Enhancement-Technologie (RAG, Retrieval-Augmented Generation), um die Illusion von Text, der von großen Modellen generiert wird, grundsätzlich zu beseitigen, wodurch große Modelle einen praktischen Wert haben. Um praktisch zu sein, benötigt die multimodale Technologie auch Genauigkeit und Steuerbarkeit, um den Anwendungsbereich der KI zu erweitern.
Baidu stellte auf dieser Weltkonferenz ein neues iRAG (image based RAG) vor – eine verbesserte bildbasierte Retrieval-Technologie. Zu Beginn dieses Jahres beschloss Baidu, das Problem der multimodalen Erzeugung von „Illusionen“ zu lösen, sodass Vincent-Bilder auch Illusionen beseitigen können, und landete so in den Bereichen Film- und Fernsehwerke, Comic-Werke, Comic-Bücher und Plakate Produktion und anderen Bereichen.
Beispielsweise ist die Automobilindustrie stark auf Marketing angewiesen und erfordert häufig eine große Anzahl hochwertiger Fotos. Um ein perfektes Bild zu erstellen, sind viele personelle, finanzielle und materielle Ressourcen erforderlich. Mithilfe der iRAG-Technologie können Automobilhersteller zu sehr geringen Kosten und in kürzerer Zeit ein Foto mit bemerkenswerter visueller Leistung erhalten. Möglicherweise ist es optisch sogar noch beeindruckender.
Derzeit ist der technische Weg der generativen künstlichen Intelligenz im Wesentlichen in zwei Schulen unterteilt. Die eine ist die AGI-Schule, die davon träumt, in wenigen Jahren allgemeine künstliche Intelligenz durch grundlegende große Modelle zu erreichen von Anwendungsanforderungen und -verwendungen. Wenden Sie Feedback-Modelle an, um Innovationen zu schaffen.
Auf der Grundlage kontinuierlicher Forschung und Entwicklung groß angelegter zugrunde liegender Modelle legt Baidu mehr Wert auf anwendungsgesteuerte Entwicklung. Es versteht sich, dass iRAG verwendet wird, weil Anwendungen genaue Bilder erzeugen müssen. Beispielsweise darf das Logo eines Unternehmens nicht deformiert oder farblich verzerrt werden, was präzise multimodale Fähigkeiten erfordert. Nach fast einem Jahr harter Arbeit ist diese Technologie praxistauglich geworden. Der Fortschritt der Anwendung kann auch in die Forschung und Entwicklung des Modells selbst einfließen.
Nach zwei Jahren befindet sich die generative KI in einer kritischen Phase des Gangwechsels. 36Kr gab zuvor bekannt, dass zwei inländische KI-Startups das Vortraining großer Modelle ausgesetzt haben. In den letzten zwei Tagen hat sich die Debatte in der Branche darüber, ob das Skalierungsgesetz zu „sinkenden Kapitalrenditen“ geführt hat, intensiviert.
Tatsächlich haben auf globaler Ebene bereits Veränderungen begonnen. Globale Technologiegiganten wie OpenAI, Microsoft und Google sind nach und nach zurückgetreten und haben intelligente Agenten eingesetzt. Mitte September gab der OpenAI-Forscher Noam Brown in den sozialen Medien bekannt, dass er Ingenieure für maschinelles Lernen für das neue Multi-Agenten-Forschungsteam rekrutiert. Nadella, CEO und Vorsitzender von Microsoft, kündigte persönlich die neuen Fortschritte seiner eigenen KI an, veröffentlichte auf einmal zehn neue Business-Intelligence-Agenten und gründete eine Gruppe zum Debüt. Fast zeitgleich gab es die Nachricht, dass Google auch einen intelligenten Agenten veröffentlichen würde. Bald veröffentlichte Google „aus Versehen“ eine „interne Vorschauversion“ des neuesten KI-Entwicklungsergebnisses Jarvis, bei dem es sich um eine künstliche Intelligenz vom Typ Agent handelt Durchsuchen Sie das Internet und suchen Sie selbstständig nach Informationen.
Baidu ist führend im Smart-Agent-Trend in China. Bei dieser Veranstaltung der Baidu-Weltkonferenz wurde der intelligente Agent zum Protagonisten. Baidu konzentriert sich auf vier Arten von Agenten: Unternehmenstyp, Rollentyp, Werkzeugtyp und Branchentyp.
Zum Beispiel der Tool-ähnliche Agent „Free Canvas“: Basierend auf Baidus langfristigem Aufbau des Bibliotheksgeschäfts in den Anfangsjahren und überlagert mit generativer künstlicher Intelligenztechnologie hat er einen großen Schöpfungssprung erzielt.
In den Anfangsjahren bestand das Bedürfnis der Menschen bei der Nutzung von Bibliotheken darin, vorgefertigte Dokumente zu finden. Als jedoch die Technologie der generativen künstlichen Intelligenz aufkam, entdeckte Baidu, dass das grundlegendste Bedürfnis der Menschen nicht darin besteht, ein fertiges Dokument zu finden, sondern Inhalte zu erstellen, die für sie besser geeignet sind.
Um diesen Bedürfnissen gerecht zu werden, begann Baidu darüber nachzudenken, wie man es den Menschen ermöglichen könnte, besser auf der Grundlage vorgefertigter Dokumente oder ohne materielle Grundlage zu erstellen. Auf diesem Weg wurde die früheste Baidu-Bibliothek rekonstruiert. Später veröffentlichte Baidu ein unabhängiges Produkt, Orange Pian, das mit einem Klick lange Artikel generieren kann. Die Geburt von Free Canvas basiert ebenfalls auf dieser Logik und ermöglicht es den Menschen, ihre Ideen bequemer zu kommunizieren um Ihre inneren Gedanken bequemer und genauer auszudrücken.
Robin Li, Gründer von Baidu, glaubt, dass „Agenten die am weitesten verbreitete Form von KI-Anwendungen sind und kurz davor stehen, ihren Höhepunkt einzuläuten.“ Die Analogie zur Herstellung von Agenten ist der Aufbau einer Website im PC-Zeitalter oder der Aufbau eines Self-Media Konto im mobilen Zeitalter. Der Unterschied besteht darin, dass der Agent menschlicher, intelligenter und Ihrem Vertrieb, Kundenservice und Assistenten ähnlicher ist. Agenten könnten im KI-nativen Zeitalter zum neuen Träger von Inhalten, Informationen und Diensten werden.
Sam Altman, CEO von OpenAI, äußerte bei der Beantwortung einer Frage auf Reddit letzten Monat auch die Möglichkeit, sich an die Entwickler von KI-Agenten zu wenden. „Wir werden immer bessere Modelle haben, aber ich denke, der nächste große Durchbruch werden KI-Agenten sein.“ Jen-Hsun Huang von NVIDIA sagte auch, dass NVIDIA in Zukunft über 100 Millionen intelligente Agenten verfügen wird.
Das Merkmal eines intelligenten Agenten ist, dass die Schwelle niedrig genug und die Obergrenze hoch genug ist und er sich zu einem sehr mächtigen Unternehmen entwickeln kann, genau wie Google und Meta, die vor vielen Jahren von Studenten gegründet wurden die mächtigsten Technologiegiganten der Welt. Bis zu einem gewissen Grad ist es so, als hätte man heute keinen intelligenten Agenten erstellt, als hätte man vor zwanzig Jahren keine Website oder vor zehn Jahren keine APP erstellt.
Es gibt nur wenige chinesische Unternehmen, die eine so wichtige Rolle in den Talent-, Ressourcen- und Technologieknotenpunkten der globalen Entwicklung künstlicher Intelligenz gespielt haben wie Baidu. Dahinter steckt untrennbar der Glaube und die Beharrlichkeit des Gründers an KI. Robin Li hat in der Branche ein klassisches Sprichwort: „Wenn ich 1 Yuan habe, werde ich in Technologie investieren; wenn ich 100 Millionen habe, werde ich in Technologie investieren; wenn ich 10 Milliarden habe, werde ich immer noch in Technologie investieren.“ .
Baidus KI-Arbeit lässt sich auf die berühmte Auktion vor mehr als zehn Jahren zurückführen. Eines Tages im Dezember 2012 fand am Fuße eines Skibergs südlich von Lake Tahoe in Nevada, USA, eine geheime Auktion statt. Bei den versteigerten Vermögenswerten handelte es sich tatsächlich um „drei Personen“ – Professor Geoffrey E. Hinton, den „Paten der KI“ und zwei seiner Studenten.
Vertreter von Baidu, Google, Microsoft und DeepMind erhöhten häufig ihre Gebote und das Angebot stieg auf 44 Millionen US-Dollar. Zu diesem Zeitpunkt waren nur noch Baidu und Google unter den Teilnehmern. Obwohl Baidu ohne Obergrenze an der Auktion teilnahm, blieb diese letztlich erfolglos.
Dadurch wurde Robin Li auch klar, dass er selbst Deep Learning, autonomes Fahren und andere Technologien entwickeln musste. Danach gründete er das Baidu America Research Institute und begann, energisch Talente aus der ganzen Welt zu rekrutieren, darunter auch Ng Enda , Dario Amodei usw. Top-Talente aus der ganzen Welt schließen sich an.
In den nächsten zehn Jahren begann Baidu seine umfassende Selbstforschungsphase in der Technologie der künstlichen Intelligenz, von Chips, Frameworks, Modellen bis hin zu Anwendungsschichten, und besiegte diese nacheinander. Baidu hat nacheinander die offene Plattform für autonomes Fahren Apollo, das Open-Source-Deep-Learning-Framework PaddlePaddle und Anfang 2019 sogar Version 1.0 des großen Wenxin-Modells veröffentlicht.
Bis zur Geburt von ChatGPT hatte die Anwendung der KI-Technologie jedoch keinen Wendepunkt gefunden. Sie wurde von der Branche als bodenloses Fass des Geldes angesehen, und ihre praktische Anwendung ist noch weit entfernt.
Beharrlichkeit zahlt sich immer aus. Die Umkehrung erfolgte im März 2023. Basierend auf Version 3.0 des Wenxin-Großmodells war Baidu das erste Unternehmen weltweit, das ein Produkt herausbrachte, das ChatGPT vergleicht: Wenxin Yiyan. An diesem Punkt zahlten sich zehn Jahre stiller Investition endlich aus.
Ab der zweiten Hälfte des Jahres 2023 wurde Baidu plötzlich klar, dass der homogene Wettbewerb großer Modelle zu einer enormen Ressourcenverschwendung geführt hat " und forderte innerhalb des Unternehmens, als erstes Unternehmen alle Produkte anhand großer Modelle nachzubilden. Auf der Weltkonferenz 2023 zeigte Baidu der Außenwelt die Rekonstruktionsergebnisse wichtiger Anwendungen wie Suche, Karten und Netzwerkfestplatten. Auf der diesjährigen Weltkonferenz wurde das Thema von Baidu direkt auf „Anwendungen kommen“ festgelegt, was der Außenwelt dies ermöglichte Sehen Sie sich das Großmodell in „Der enorme Mehrwert, der in den Bereichen intelligente Körper, industrielle Anwendungen und anderen Bereichen geschaffen wird“ an.
Wenn man auf die Vergangenheit zurückblickt, ist es nicht schwer zu erkennen, dass Baidu im letzten Jahrzehnt an jedem wichtigen Knotenpunkt in der Entwicklung der globalen künstlichen Intelligenz die richtigen Entscheidungen getroffen hat. Längerfristig hofft Robin Li, dass KI wirklich von jedem gewöhnlichen Menschen genutzt werden kann, sodass jeder die Fähigkeiten eines Programmierers erlangen kann.
Auf der Baidu-Weltkonferenz veröffentlichte Robin Li außerdem One More Thing – Miaida, eine Software ohne Code-Programmierung, Multi-Agent-Kollaboration und Multi-Tool-Aufruf.
Miaida unterscheidet sich stark von allen früheren Hilfstools zur Codegenerierung, da es nicht erfordert, dass Benutzer den Code verstehen. Im Gegensatz dazu ging es bei früheren KI-Tools als Produktivitätstools eher darum, die Fähigkeiten der Eliten an der Spitze der Pyramide zu stärken. Im Silicon Valley ist beispielsweise die Generierung von Hilfscodes sehr wichtig, da in den Vereinigten Staaten ein Mangel an Ingenieuren herrscht und die Stundenlöhne der Ingenieure sind ebenfalls sehr teuer. Hilfswerkzeuge können die Effizienz verbessern und diejenigen an der Spitze der Pyramide leistungsfähiger machen.
Aber KI sollte etwas sein, von dem jeder profitieren kann, und kein Patent, das von einigen wenigen genutzt wird.
Da sich die Fähigkeiten grundlegender Modelle und Agenten allmählich verbessern, integriert Baidu diese technischen Fähigkeiten, um echten Normalbürgern, die eine Codezeile nicht verstehen können, die Fähigkeiten von Programmierern zu ermöglichen.
Stellen Sie sich vor, wenn Hunderte Millionen oder mehr als eine Milliarde Menschen über diese Fähigkeit verfügen, wird dies einem riesigen Marktraum entsprechen, insbesondere der Explosion der Kreativität, die von Technologien wie Hilfswerkzeugen zur Codegenerierung nicht erreicht wird. Baidu hofft, dass jeder gewöhnliche Mensch die Fähigkeiten derjenigen an der Spitze der Pyramide besitzen kann, und die Bedeutung ist natürlich tiefgreifender.
Robin Li sagte während der Konferenz: „Baidu wird keine ‚Superanwendung‘ auf den Markt bringen, sondern wird weiterhin mehr Menschen und mehr Unternehmen dabei helfen, Millionen von ‚super nützlichen‘ Anwendungen zu erstellen.“
Stellen Sie sich vor, dass im KI-Zeitalter immer mehr Menschen lernen können, neue Produkte und Dienstleistungen zu entwickeln und die Programmierung in natürlicher Sprache, eine kreative und niederschwellige Aktion, zu nutzen, um einige wilde Ideen zu verwirklichen und unzählige wertvolle Produkte anzuwenden. Das ist die wahre Inklusivität der Technologie.