Auf der FORCE Motive Power Conference am 18. Dezember 2024 veröffentlichte Volcano Engine ein umfassendes Upgrade der großen Sitzsack-Modellfamilie. Das auffälligste davon ist die Einführung eines neuen visuellen Verständnismodells. Das Modell unterstützt die gleichzeitige Eingabe von Text und Bildern, verfügt über bessere Erkennungs-, Verständnis- und Argumentationsfähigkeiten und bietet Benutzern Dienste zu einem sehr wettbewerbsfähigen Preis. Dieses Upgrade verbessert nicht nur die Anwendungsmöglichkeiten des Beanbao-Großmodells in verschiedenen Bereichen, sondern markiert auch, dass die visuelle Verständnistechnologie in eine neue Entwicklungsstufe eingetreten ist und Unternehmen und Entwicklern bequemere und effizientere KI-Lösungen bietet.
Auf der Volcano Engine FORCE Motive Power Conference am 18. Dezember 2024 kündigte Volcano Engine ein umfassendes Upgrade der großen Sitzsack-Modellfamilie an und veröffentlichte ein brandneues visuelles Verständnismodell.
Tan Dai, Präsident von Volcano Engine, sagte, dass die tägliche durchschnittliche Nutzung von Token des Doubao-Modells in den letzten Monaten schnell gestiegen sei und mehr als 4 Billionen erreicht habe, was einer Steigerung um das 33-fache im Vergleich zur Einführung im Mai entspreche. Dieser wachsende Trend zeigt die weit verbreitete Verwendung großer Sitzsackmodelle in vielfältigen Anwendungsszenarien.
Dieses Mal hat die Volcano Engine ein visuelles Verständnismodell eingeführt, das es Benutzern ermöglicht, gleichzeitig Text- und Bildfragen einzugeben, und das Modell kann umfassend verstehen und genaue Antworten geben. Diese Innovation wird den Anwendungsentwicklungsprozess erheblich vereinfachen und das Potenzial großer Modelle in mehr Szenarien aktivieren.
Das visuelle Verständnismodell verfügt über stärkere Fähigkeiten zur Inhaltserkennung. Es kann nicht nur grundlegende Elemente wie Objektkategorien und Formen in Bildern identifizieren, sondern auch die Beziehung zwischen Objekten, die räumliche Anordnung und die Gesamtbedeutung der Szene verstehen. Zum Beispiel das Erkennen von Schatten, das Erkennen von Naturwissen usw.
Das visuelle Verständnismodell verfügt über stärkere Verständnis- und Argumentationsfähigkeiten. Es kann nicht nur Inhalte besser identifizieren, sondern auch komplexe logische Berechnungen auf der Grundlage der erkannten Text- und Bildinformationen durchführen, wie z. B. grafisches Denken und physikalisches Denken.
Darüber hinaus verfügt es über eine feinere visuelle Beschreibungsfähigkeit, die den Inhalt des Bildes anhand von Bildinformationen detaillierter beschreiben und auch verschiedene literarische Stile erstellen kann, z. B. Bilderstellung, Bildpoesie-Erstellung usw.
Das visuelle Verständnismodell von Doubao zeigt breite Anwendungsaussichten in vielen Bereichen wie Bildung, Tourismus und E-Commerce. Im Bildungsbereich kann das Modell beispielsweise Schülern helfen, ihre Kompositionen und populärwissenschaftlichen Kenntnisse zu optimieren; im Tourismus kann das Modell Touristen mit Übersetzungen ausländischer Speisekarten und Erklärungen zu architektonischem Hintergrundwissen versorgen, es kann Händlern bei der Beschreibung helfen; Produkteigenschaften detailliert darlegen und so die Werbewirksamkeit steigern.
Die Kosten für die Verwendung des visuellen Verständnismodells sind ebenfalls sehr erschwinglich. Der Preis pro tausend Token beträgt 0,003 Yuan, was 85 % niedriger ist als der Branchendurchschnittspreis. Bei diesem Preisniveau kann jeder Dollar bis zu 284 720P-Bilder verarbeiten, was den Eintritt der visuellen Verständnistechnologie in die „Centi-Ära“ markiert. Darüber hinaus bietet Volcano Engine Unternehmen und Entwicklern bis zu 15.000 anfängliche Verkehrsunterstützung, um ihnen zu helfen, diese Technologie besser zu nutzen.
Auf dieser Konferenz veröffentlichte Volcano Engine nicht nur ein visuelles Verständnismodell, sondern verbesserte auch mehrere andere Modelle. Die umfassende Fähigkeit zur Aufgabenverarbeitung von Doubao Universal Model Pro ist im Vergleich zum Mai um 32 % gestiegen, und es gab auch erhebliche Verbesserungen in Bereichen wie logisches Denken, Befolgen von Anweisungen, Kodierung und Mathematik. Gleichzeitig wird das Sitzsack- und Videogenerierungsmodell im Januar 2025 der Öffentlichkeit zugänglich gemacht und Unternehmen können die Nutzung reservieren.
Um die Informationsbeschaffungs- und Suchempfehlungsfunktionen von Unternehmen zu verbessern, hat Volcano Engine außerdem einen globalen KI-Suchdienst eingeführt, der Unternehmen dabei helfen soll, Informationen und Benutzerbedürfnisse besser zu verbinden und die intelligente Transformation verschiedener Branchen zu erleichtern.
Highlight:
Die durchschnittliche tägliche Token-Nutzung des Doubao Big Model erreichte 4 Billionen, ein Anstieg um das 33-fache im Vergleich zum Mai.
Das neu eingeführte visuelle Verständnismodell unterstützt die gleichzeitige Eingabe von Text und Bildern und eignet sich für Bereiche wie Bildung, Tourismus und E-Commerce.
Die Nutzungskosten pro tausend Token betragen nur 0,003 Yuan, was deutlich unter dem Branchendurchschnittspreis liegt.
Kurz gesagt: Das große Bean-Bag-Modell-Upgrade und das neue visuelle Verständnismodell, das Volcano Engine dieses Mal veröffentlicht hat, demonstrieren seine kontinuierliche Innovation im Bereich der künstlichen Intelligenz und sein tiefes Verständnis der Benutzerbedürfnisse und bieten starke technische Unterstützung für die intelligente Transformation verschiedener Branchen.