Ist das Zeitalter der KI-Anwendungen wirklich da?
Das Thema der diesjährigen Baidu-Weltkonferenz lautet „Bewerbungen kommen“ – Anfang November überstiegen die durchschnittlichen täglichen Anrufe des großen Modells von Baidu Wenxin 1,5 Milliarden, was einem Anstieg um etwa das 30-fache im Vergleich zu den erstmals veröffentlichten 50 Millionen Malen pro Jahr entspricht vor. Robin Li sagte: „Diese steile Wachstumskurve stellt die Explosion großer Modellanwendungen in China in den letzten zwei Jahren dar.“
Als gängigste Form der KI-Anwendung stehen intelligente Agenten kurz vor einem Bruchpunkt. Robin Li betonte: „Sie werden zu einem neuen Träger von Inhalten, Informationen und Diensten im nativen Zeitalter der KI.“
Dies liegt daran, dass „einerseits die Schwelle für die Erstellung eines Agenten niedrig genug ist und andererseits die Obergrenze eines Agenten hoch genug ist, um sehr leistungsfähige Anwendungen zu erstellen. Durch die Zusammenarbeit mehrerer Agenten können auch komplexere Probleme gelöst werden.“ ." Frage."
Robin Li stellte bei dem Treffen vier verschiedene Arten von Agenten vor, darunter Firmenagenten, Rollenagenten, Tool-Agenten und Branchenagenten. Unter anderem dürften die offiziellen Informationen des Unternehmens die offizielle Website ersetzen und zur direktesten Schnittstelle zu Verbrauchern werden.
„Firmenähnliche Agenten entsprechen im KI-Zeitalter offiziellen Unternehmenswebsites. Firmenähnliche Agenten verfügen über alle Funktionen traditioneller offizieller Websites, z. B. Unternehmensvorstellungen, Produktbilder und Parameteranzeigen, Offline-Geschäftsstandorte usw. Aber Herkömmliche Websites sind nicht in der Lage, proaktiv Empfehlungen, zeitnahe Reaktionen und individuelle Servicefunktionen bereitzustellen, die auch im intelligenten Agenten des Unternehmens verfügbar sind.“
Robin Li veröffentlichte außerdem das codefreie Tool „Miaida“ – eine aus großen Modellen und Agenten bestehende Software, die jede Idee verwirklichen kann, ohne Code zu schreiben, einschließlich codefreier Programmierung, Multi-Agenten-Zusammenarbeit und groß angelegtem Aufruf verschiedener. Dieses Tool und Andere Fähigkeiten seien „das bislang komplexeste Multi-Agenten-Kollaborationstool in der Geschichte der Menschheit“.
Mit Hilfe von „Miaoda“ können Benutzer den Aufbau des gesamten Systems durch Interaktion mit natürlicher Sprache abschließen und auch verschiedene Anwendungen in jedem Szenario durchführen. Durch die Verbesserung der grundlegenden Modellfunktionen und die Weiterentwicklung der eigenen technischen Fähigkeiten von Miaoda ist dies möglich In Zukunft werden komplexere Dinge erledigt: „Das bedeutet, dass Sie keine Projektmanager, Designer, Entwickler, Tester usw. einstellen müssen, sondern mehrere Agenten anweisen können, Aufgaben gemeinsam zu erledigen.“ Team.
In den Worten von Robin Li werden wir mit Miaoda eine „Ära einläuten, in der man Geld verdienen kann, indem man sich einfach auf Ideen verlässt“.
Nachdem das C-Side-Geschäft von Baidu Netdisk im September in die Mobile Ecosystem Group (MEG) umgegliedert und von Wang Ying, Baidu-Vizepräsident und Leiter der Baidu Library & Baidu Netdisk, übernommen wurde, wurde auf dieser Weltkonferenz Baidu The Network Disk und Bibliothek wurden weiter integriert.
Wang Ying stellte auf der Konferenz einige der neuen Änderungen von Baidu bei der Produktion und Nutzung von Inhalten vor. Sie erwähnte, dass die aktuelle Erstellung und Nutzung von Inhalten mit vielen Herausforderungen konfrontiert sei, wie z. B. komplizierten Werkzeugen, langen Produktionszyklen und geringer Verbrauchseffizienz. Zu diesem Zweck haben Baidu Wenku und Netdisk KI-Technologie eingeführt, um die Einschränkungen von Tools und modalen Grenzen zu überwinden und ein freieres und effizienteres Inhaltserlebnis zu erreichen.
Die intelligente PPT-Generierung, die KI-Papiererstellung, die KI-Bilderbuchproduktion, die KI-Suchfunktionen sowie die KI-Roman- und Comic-Generierung haben die Effizienz und Qualität der Inhaltsproduktion gleichzeitig deutlich verbessert, was Baidu Netdisk eingeführt hat Einfache Tools wie Scannen, einfaches Diktieren und KI-Videozusammenfassung erleichtern Benutzern erheblich das Verarbeiten und Verstehen von Informationen.
Insbesondere in Büroszenarien bietet Baidu Wenku intelligente PPT- und intelligente Recherche- und Berichtsfunktionen, während Baidu Netdisk über Funktionen wie einfache Hörnotizen in Lernszenarien verfügt. Benutzer können die intelligenten Zeichenbücher und die Fotosuche von Baidu Wenku verwenden. Baidu Netdisk bietet zusätzliche Lerntools wie Videointerpretation und Panpan-Vokabular; im Bereich Unterhaltung bietet Baidu Wenku intelligente Romane und intelligente Comics und Baidu Netdisk verfügt über Funktionen wie KI-Fotobearbeitung. Die Integration von Baidu Wenku und Netdisk erweitert die Anwendungsszenarien der Benutzer, realisiert die Intelligenz und Diversifizierung von Inhalten und verbessert das Benutzererlebnis weiter.
Kostenlose Canvas-Funktion|Bildquelle: Baidu
Darüber hinaus haben Baidu Wenku und Netdisk gemeinsam ein neues Content-Betriebssystem eingeführt – Free Canvas. Dieses System kann Benutzern dabei helfen, alle Aufgaben von der Suche nach Informationen über die Bearbeitung bis hin zur Generierung und Freigabe zu erledigen. Es unterstützt nicht nur die Eingabe und Ausgabe im Vollformat in mehreren Modalitäten, sondern ermöglicht auch die Nutzung von Inhalten auf Elementebene und bereichert so die Erstellung und Freigabe Freiheit.
In den Worten von Robin Li: „Die freie Leinwand ist ein universelles Whiteboard, das durch das multimodale große Modell von Wenxin gesegnet ist.“ Diese Innovationen verdeutlichen nicht nur das enorme Potenzial der KI-Technologie im Content-Bereich, sondern kündigen auch weitere Möglichkeiten für die Produktion und den Konsum von Inhalten in der Zukunft an.
Auf der Konferenz berichtete Shen Dou, Executive Vice President der Baidu Group und Präsident der Baidu Intelligent Cloud Business Group, über die neuesten Fortschritte der Baidu Intelligent Cloud bei großen Modellen und nativen KI-Anwendungen. Shen Dou sagte, dass die Großmodelltechnologie vom technologischen Wandel zum industriellen Wandel übergehe, die Art und Weise, wie Menschen mit der digitalen und der physischen Welt interagieren, neu definiere und zu einem Schlüsselelement für Unternehmen werde, um ihre Wettbewerbsfähigkeit zu steigern.
Shen Dou konzentrierte sich auf die Qianfan-Plattform, eine Plattform für die Feinabstimmung großer Modelle und die Anwendungsentwicklung. Sie bietet eine umfangreiche Toolkette und senkt die Schwelle für die Entwicklung nativer KI-Anwendungen erheblich. Die Qianfan-Plattform erfüllt nicht nur die hochgradig anpassbaren, umfangreichen, hochverfügbaren und hochsicheren Anforderungen von Anwendungen auf Unternehmensebene, sondern gibt auch Workflow-Agenten frei. Diese Innovation nutzt das Absichtsverständnis und die Generalisierungsfähigkeiten großer Modelle, um komplexe Arbeitsabläufe in flexible Agenten umzuwandeln und so die Unternehmenseffizienz deutlich zu verbessern. Beispielsweise nutzte China Pacific Insurance die Qianfan-Plattform, um einen „Goldmedaillen-Verkauf“-Agenten zu generieren, der die Serviceeffizienz und das Benutzererlebnis bei der Erneuerung von Autoversicherungen erheblich verbesserte.
Baidu Smart Cloud Qianfan|Bildquelle: Baidu
Darüber hinaus bietet die Baige-Plattform effiziente große modellbezogene Rechendienste, von der Clustererstellung bis hin zum Modelltraining und der Inferenz, und sorgt so für eine stabile und extrem schnelle Leistung. Die Plattform löst Schlüsselprobleme bei der Bereitstellung großer Cluster, unterstützt einen effizienten Betrieb und erfüllt die Rechenleistungsanforderungen verschiedener Kunden.
Shen Dou demonstrierte auch Anwendungsfälle der Qianfan-Plattform in mehreren Branchen, darunter die allgemeine Diagnosemedizin, die die Genauigkeit der Erstellung von Krankenakten durch Feinabstimmung von Modellen verbessert und Ärzten Zeit spart, basierend auf der Wenxin-Plattform Modell und hat bemerkenswerte Ergebnisse erzielt. Darüber hinaus ermöglicht das Upgrade der XiLing 4.0-Plattform die Generierung digitaler 3D-Menschenbilder und die Produktion professioneller Videos, wodurch die Kosten für die Produktion kurzer Videos erheblich gesenkt werden.
Baidu Intelligent Cloud hat über die Plattformen Qianfan und Baige eine neue KI-Infrastruktur aufgebaut und fördert die Anwendung großer Modelltechnologie in verschiedenen Branchen, um das Intelligenzniveau und die Effizienz von Unternehmen zu verbessern.
Neben Anwendungen hat Baidu dieses Mal auch Hardware veröffentlicht. Bei dem Treffen stellte Li Ying, Vizepräsident der Baidu Group und CEO von Xiaodu Technology, „die erste native KI-Brille vor, die mit chinesischen Großmodellen ausgestattet ist“ – die Xiaodu AI-Brille.
Xiaodu AI-Brille|Bildquelle: Baidu
Li Ying sagte, dass die Fähigkeit einer KI-Brille, Bild, Ton, Standort und andere Informationen zu erfassen, als Gerät aus der Ich-Perspektive für Menschen eine beispiellose Erweiterung der Sinne der Menschen bewirken und auch einen effizienteren und bequemeren Zugang zum Mensch-Computer darstellen wird Interaktion.
Basierend auf dem großen Wenxin-Modell und dem nativen Betriebssystem DuerOS AI kann Xiaodu AI Funktionen wie Ego-Perspektivaufnahmen, Fragen beim Gehen, Kalorienerkennung, Objekterkennungsenzyklopädie, audiovisuelle Übersetzung und intelligente Memos realisieren.
Durch die Kombination von Gerät und Cloud mit großen Modellen kann die Xiaodu AI-Brille unabhängig oder mit einer APP gekoppelt werden. Die Brille verfügt über integrierte chinesische Einzeiler und kann in Echtzeit auf Fragen der Benutzer reagieren.
In Bezug auf die Hardware sind die Xiaodu AI-Brillen mit einem Vier-Mikrofon-Array zur Erkennung von Geräuschen, einem offenen, auslaufsicheren Lautsprecherdesign, einem 16-Megapixel-Ultraweitwinkelobjektiv und einem AI-Anti-Shake-Algorithmus ausgestattet In 30 Minuten aufgeladen, 56 Stunden im Standby-Modus und mehr als 5 Stunden im Dauerbetrieb. Hören Sie zu, dass das gesamte Gerät nur 45 Gramm wiegt, was weniger als der Branchendurchschnitt von 49 Gramm ist.
Die Xiaodu AI-Brille wird voraussichtlich in der ersten Hälfte des nächsten Jahres in den Handel kommen. Der Preis wurde noch nicht bekannt gegeben, aber das Standpersonal sagte, dass der Preis bei etwa 2.000 Yuan liegen könnte.
Robin Li erwähnte bei dem Treffen, dass die KI-Branche in den letzten 24 Monaten erhebliche Veränderungen erfahren hat, von denen der wichtigste darin besteht, dass große Modelle das Phänomen der Halluzinationen im Wesentlichen beseitigt haben. Diese Änderung macht KI vom ursprünglichen „schwerwiegenden Unsinn“ zu nutzbarer und vertrauenswürdiger KI. Das große Modell ist im Wesentlichen ein Wahrscheinlichkeitsmodell, und der von ihm generierte Inhalt weist ein gewisses Maß an Unsicherheit auf. Durch den Einsatz der RAG-Technologie können große Modelle jedoch die abgerufenen Informationen nutzen, um die Generierung von Texten oder Antworten zu steuern und so die Qualität und Genauigkeit des Inhalts erheblich zu verbessern.
Um das Problem der Halluzinationen bei der Bilderzeugung zu lösen, hat Baidu Anfang dieses Jahres eine Technologie entwickelt – iRAG (Image based RAG), eine abrufbare Vincent-Graph-Technologie. Zuvor waren die Bilder, die von vinzentinischen Graphensystemen generiert wurden, die ausschließlich auf großen Sprachmodellen basierten, oft von schlechter Qualität und sogar unlogisch. Die iRAG-Technologie von Baidu kombiniert die milliardenschweren Bildressourcen und leistungsstarken Grundmodellfunktionen, um eine Vielzahl ultrarealistischer Bilder zu erzeugen. Der Gesamteffekt geht weit über das native Vincentian-System hinaus und eliminiert Spuren maschineller Erzeugung.
Da sich die Benutzerfreundlichkeit von KI-generierten Bildern erheblich verbessert hat, wurde auch ihr Anwendungsbereich erheblich erweitert. Beispielsweise kostete die Herstellung einer Reihe von Plakaten in der Vergangenheit in einem Markenwerbe-Szenario möglicherweise Hunderttausende Yuan, heute liegen die Herstellungskosten jedoch bei nahezu Null. Kurz gesagt, der kommerzielle Wert von iRAG spiegelt sich in den Aspekten Illusionsfreiheit, Ultrarealismus, niedrige Kosten und sofortige Verfügbarkeit wider.
Robin Li auf der Konferenz |. Bildquelle: Baidu
Wenn die Grundfunktionen des Modells ausgereift sind, steht eine florierende Zeit für KI-Anwendungen bevor. Woher kommen also KI-Anwendungen und wohin werden sie gehen? Es gibt zwei Hauptrichtungen: Die eine sind intelligente Agenten und die andere sind industrielle Anwendungen.
In der Zukunft, vielleicht wenn die Blütezeit der KI-Anwendungen wirklich kommt, kann die KI ihre Mission, „Chancen auf industrieller Revolutionsebene“ zu schaffen, wirklich verwirklichen und der Sozialwirtschaft eine unbegrenzte Produktivitätssteigerung bescheren.