Google Gemini Version 2.0 ist offiziell veröffentlicht: 2.0 Flash unterstützt jetzt die multimodale Ausgabe

Autor：Eve Cole Aktualisierungszeit：2024-12-20 16:00:02

Google hat sein künstliches Intelligenzmodell Gemini 2.0 der neuesten Generation veröffentlicht und damit einen großen Durchbruch für Google im Bereich allgemeiner Assistenten für künstliche Intelligenz markiert. Gemini 2.0 bietet erhebliche Verbesserungen bei der multimodalen Verarbeitung und Werkzeugnutzung und ermöglicht so ein tieferes Verständnis der Welt und die Ausführung von Benutzerbefehlen. Dieses Modell wurde auf Basis der Gemini-Versionen 1.0 und 1.5 entwickelt und wurde in mehreren Google-Produkten angewendet und bedient Millionen von Nutzern auf der ganzen Welt. In diesem Artikel werden die Funktionen von Gemini 2.0 und seine Auswirkungen auf Google-Produkte und das Entwickler-Ökosystem ausführlich vorgestellt.

Sundar Pichai, CEO von Google und seiner Muttergesellschaft Alphabet, gab bekannt, dass das Unternehmen sein neuestes Modell für künstliche Intelligenz, Gemini 2.0, auf den Markt gebracht hat, was für Google einen wichtigen Schritt beim Aufbau eines universellen KI-Assistenten darstellt. Gemini 2.0 demonstriert bedeutende Fortschritte bei der multimodalen Eingabeverarbeitung und der Verwendung nativer Tools, die es KI-Agenten ermöglichen, ein tieferes Verständnis der Welt um sie herum zu erlangen und unter ihrer Aufsicht Maßnahmen im Namen des Benutzers zu ergreifen.

Gemini2.0 basiert auf seinen Vorgängern Gemini1.0 und 1.5, die erstmals native multimodale Verarbeitungsfunktionen erreichten und eine Vielzahl von Informationstypen verstehen können, darunter Text, Video, Bilder, Audio und Code. Derzeit verwenden Millionen von Entwicklern Gemini für die Entwicklung, was Google dazu veranlasst, seine Produkte, darunter 7 Produkte, die 2 Milliarden Nutzer bedienen, neu zu überdenken und neue Produkte zu entwickeln. NotebookLM ist ein Beispiel für multimodale und lange Kontextfähigkeiten und erfreut sich großer Beliebtheit.

微信截图_20241212080452.png

Die Einführung von Gemini 2.0 läutet den Eintritt von Google in eine neue Agenten-Ära ein. Dieses Modell verfügt über native Bild- und Audioausgabefunktionen sowie native Tool-Nutzungsfunktionen. Google hat damit begonnen, Gemini 2.0 Entwicklern und vertrauenswürdigen Testern zur Verfügung zu stellen und plant, es schnell in Produkte zu integrieren, beginnend mit Gemini und der Suche. Von nun an steht das experimentelle Modell Gemini2.0 Flash allen Gemini-Benutzern offen. Gleichzeitig hat Google auch eine neue Funktion namens „Deep Research“ eingeführt, die erweiterte Argumentations- und Langzeitkontextfunktionen nutzt, um als Forschungsassistent bei der Erforschung komplexer Themen und der Erstellung von Berichten im Namen der Nutzer zu fungieren. Diese Funktion ist derzeit in Gemini Advanced verfügbar.

Die Suche ist eines der Produkte, die am stärksten von KI betroffen sind, und die KI-Übersicht von Google erreicht mittlerweile eine Milliarde Menschen und ermöglicht ihnen, völlig neue Fragen zu stellen, was sich schnell zu einer der beliebtesten Suchfunktionen von Google entwickelt. Als nächsten Schritt wird Google die erweiterten Argumentationsfunktionen von Gemini 2.0 in AI Overview einbringen, um komplexere Themen und mehrstufige Probleme zu lösen, einschließlich fortgeschrittener mathematischer Gleichungen, multimodaler Abfragen und Kodierung. Diese Woche begannen begrenzte Tests, eine umfassendere Einführung ist Anfang nächsten Jahres geplant. Google wird AI Overview im nächsten Jahr auch weiterhin in weitere Länder und Sprachen einführen.

Google demonstrierte auch seine bahnbrechenden Ergebnisse bei der Agentenforschung durch die nativen multimodalen Funktionen von Gemini 2.0. Gemini 2.0 Flash ist eine Verbesserung gegenüber 1.5 Flash, dem bisher beliebtesten Modell unter Entwicklern, mit ähnlich schnellen Reaktionszeiten. Bemerkenswert ist, dass der 2.0 Flash in wichtigen Benchmarks sogar den 1.5 Pro übertraf, indem er doppelt so schnell war. Flash 2.0 bringt auch neue Funktionen mit sich. Neben der Unterstützung multimodaler Eingaben wie Bilder, Video und Audio unterstützt Flash 2.0 jetzt auch multimodale Ausgaben wie nativ generierte Bilder gemischt mit Text und steuerbarem mehrsprachigem Text-to-Speech (TTS)-Audio. Es kann auch nativ Tools wie die Google-Suche, die Codeausführung und benutzerdefinierte Funktionen von Drittanbietern aufrufen.

微信截图_20241212080808.png

Gemini 2.0 Flash steht Entwicklern jetzt als experimentelles Modell zur Verfügung. Die multimodale Eingabe und Textausgabe steht allen Entwicklern über Google AI Studio und die Gemini-API von Vertex AI zur Verfügung, während Text-to-Speech und native Bildgenerierung für Early-Access-Partner verfügbar sind. Die allgemeine Verfügbarkeit sowie weitere Modellgrößen folgen im Januar.

Um Entwicklern beim Erstellen dynamischer und interaktiver Anwendungen zu helfen, hat Google außerdem eine neue multimodale Echtzeit-API mit Echtzeit-Audio- und Video-Streaming-Eingabefunktionen und der Möglichkeit zur Verwendung mehrerer Kombinationstools veröffentlicht.

Ab heute können Gemini-Benutzer auf der ganzen Welt auf eine Chat-optimierte Version des 2.0 Flash-Experiments zugreifen, indem sie diese im Dropdown-Menü „Modell“ auf dem Desktop und im mobilen Web auswählen. Sie wird bald in der mobilen Gemini-App verfügbar sein. Anfang nächsten Jahres wird Google Gemini 2.0 auf weitere Google-Produkte ausweiten.

Alles in allem stellt die Veröffentlichung von Gemini 2.0 einen weiteren Schritt von Google im Bereich KI dar. Seine leistungsstarken multimodalen Funktionen und die Tool-Integration werden Entwicklern und Benutzern ein umfassenderes Erlebnis bieten und die Anwendung der KI-Technologie in mehr Bereichen fördern . Entwicklung und Anwendung. Zukünftig wird Gemini 2.0 weiter in das Produkt-Ökosystem von Google integriert, um den Nutzern intelligentere und komfortablere Dienste zu bieten.