Googles Hauptaufbau der AI -Sprachtechnologie: 2 Minuten Dialog und 3 Sekunden Generation, die die Art und Weise, wie die Interaktion zwischen Mensch und Computer - KI -Artikel - vollständig verändert

Autor：Eve Cole Aktualisierungszeit：2025-02-15 12:48:02

Die neueste Technologie zur Sprachgenerierung von Google hat den Branchenstandard erneut aktualisiert. Diese Durchbruchstechnologie erzeugt nicht nur in 3 Sekunden natürliche Gespräche von bis zu 2 Minuten, sondern stellt auch die Leistung der Sprachkohärenz und der Klangqualität bei mehreren Lautsprechern sicher. Die Technologie wurde in mehreren Google -Produkten wie Gemini Live und Project Astra verwendet und verändert die Art und Weise, wie Menschen mit digitalen Assistenten und KI -Tools auf der ganzen Welt interagieren.

In den letzten Jahren hat sich Google auf Forschung im Bereich der Audiogenerierung konzentriert. Die von ihnen entwickelten Modelle können durch eine Vielzahl von Eingabemethoden wie Text, Rhythmussteuerung und spezifische Geräusche eine qualitativ hochwertige, natürliche Stimme erzeugen. Kürzlich hat Google mit mehreren internen Teams zwei wichtige Funktionen gestartet: Notebooklm -Audioübersicht kann hochgeladene Dokumente in lebendige Gespräche umwandeln.

Diese Durchbrüche basieren auf mehreren früheren Forschungsergebnissen von Google. Von Soundstream -Audio -Codecs von Soundstream bis hin zu Audiolm -Audiosprachenmodellierungsrahmen bis hin zu Soundstorming, das mehr als 30 Sekunden Gespräche erzeugen kann, ist Google ständig innovativ im Bereich der Sprachgenerierung. Der neueste technologische Durchbruch verwendet effizientere Sprachcodecs, die Audio mit einer niedrigen Bitrate von 600 Bit pro Sekunde komprimieren und gleichzeitig die Ausgangsqualität beibehalten können.

Um diesen technologischen Durchbruch zu erreichen, hat Google eine spezielle Transformatorarchitektur entwickelt, mit der Informationshierarchie effizient verarbeitet werden kann. Das Modell wird zunächst auf Hunderttausende von Stunden Sprachdaten vorgeschrieben und dann in einem hochwertigen Konversationsdatensatz, der natürliche Merkmale wie Tone-Pausen in realen Gesprächen enthält, fein abgestimmt. Um die verantwortungsvolle Nutzung der Technologie zu gewährleisten, hat Google auch die Synthid -Technologie integriert, um den von AI generierten Audioinhalten Wasserzeichen hinzuzufügen.

Mit Blick auf die Zukunft arbeitet Google daran, die Glätte und die Klangqualität des Modells zu verbessern und detailliertere Steuerelemente hinzuzufügen. In Kombination mit der Gemini -Modelsreihe wird erwartet, dass diese Technologie eine wichtige Rolle bei der Verbesserung der Bildungserfahrung und der Zugänglichkeit von Inhalten spielt und mehr Möglichkeiten für die Sprachtechnologie einbringt.

Die Bedeutung dieser Technologie liegt nicht nur in ihrer Leistungsverbesserung, sondern auch in der Eröffnung eines neuen Kapitels für die Interaktion zwischen Mensch und Computer. Durch die Umwandlung komplexer technologischer Innovationen in natürliche, intuitive Interaktionsweisen legt Google die Grundlage für die nächste Generation digitaler Erlebnisse.

Details: https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/

Die Google-Sprachgenerierungstechnologie ist nicht nur ein technologischer Sprung, sondern auch ein revolutionärer Fortschritt bei der Interaktion zwischen Mensch und Komputer, wodurch die zukünftige digitale Welt unbegrenzte Möglichkeiten verleiht.