OpenAI ist im Begriff, die mit Spannung erwartete Alpha-Version des Sprachmodus für ChatGPT Plus-Abonnenten auf den Markt zu bringen. Diese Funktion basiert auf seinem Flaggschiffmodell GPT-4o und verbessert das Sprachinteraktionserlebnis erheblich. Das GPT-4o-Modell kann Audioeingaben mit einer Geschwindigkeit verarbeiten, die der menschlichen Reaktion nahe kommt, und kombiniert ein End-to-End-Training von drei Modalitäten: Text, Vision und Audio, was den neuesten Durchbruch von OpenAI auf dem Gebiet der multimodalen KI demonstriert. Zuvor verzögerte sich die Einführung dieser Funktion aufgrund der Notwendigkeit, die Moderation von Modellinhalten und den Aufbau der Infrastruktur zu verbessern. Dieses Update löst nicht nur das Problem übermäßiger Verzögerungen im bestehenden ChatGPT-Sprachmodus, sondern bietet Benutzern auch ein flüssigeres und natürlicheres Sprachgesprächserlebnis.
Als das Flaggschiffmodell GPT-4o (o steht für Omni) von OpenAI im Mai veröffentlicht wurde, erregten seine Fähigkeiten zum Verstehen von Audiodaten viel Aufmerksamkeit. Das GPT-4o-Modell konnte in durchschnittlich 320 Millisekunden auf Audioeingaben reagieren, was der Reaktionszeit von Menschen in einem typischen Gespräch ähnelt.
OpenAI gab außerdem bekannt, dass die Sprachmodusfunktion von ChatGPT die Audiofunktionen des GPT-4o-Modells nutzen wird, um Benutzern ein nahtloses Sprachgesprächserlebnis zu bieten. Bezüglich der Sprachfähigkeiten von GPT-4o schrieb das OpenAI-Team:
Mit GPT-4o haben wir ein brandneues Modell trainiert, das die drei Modalitäten Text, Vision und Audio durchgängig trainiert, d. h. alle Eingaben und Summen werden von demselben neuronalen Netzwerk verarbeitet. Da GPT-4o unser erstes Modell ist, das alle diese Modalitäten kombiniert, haben wir noch immer nur an der Oberfläche des Potenzials und der Grenzen unseres Modells gekratzt.
Im Juni kündigte OpenAI Pläne an, den erweiterten Lingo-Modus in der Alpha-Version zu einem späteren Zeitpunkt für eine kleine Gruppe von ChatGPT Plus-Benutzern einzuführen. Die Pläne wurden jedoch um einen Monat verschoben, da die Fähigkeit des Modells, bestimmte Inhalte zu erkennen und abzulehnen, verbessert werden musste. . Darüber hinaus bereitet OpenAI seine Infrastruktur darauf vor, auf Millionen von Benutzern zu skalieren und gleichzeitig die Reaktionsfähigkeit in Echtzeit aufrechtzuerhalten.
Jetzt bestätigte Sam Altman, CEO von OpenAI, über X, dass die Alpha-Version des Sprachmodus ab nächster Woche für ChatGPT Plus-Abonnenten eingeführt wird.
Der aktuelle ChatGPT-Sprachmodus ist aufgrund der durchschnittlichen Verzögerung von 2,8 Sekunden (GPT3,5) und 5,4 Sekunden (GPT-4) nicht intuitiv zu bedienen. Der kommende erweiterte Sprachmodus auf Basis von GPT-4o ermöglicht ChatGPT-Abonnenten reibungslose Gespräche ohne Verzögerung.
Darüber hinaus hat OpenAI heute auch das mit Spannung erwartete SearchGPT veröffentlicht, einen neuen Ansatz für die Websuche. SearchGPT ist derzeit ein Prototyp und bietet Suchfunktionen mit künstlicher Intelligenz, die schnell genaue Antworten aus klaren und relevanten Quellen liefern können. Mehr erfahren Sie hier.
Alles in allem zeigt die Aktualisierungsreihe von OpenAI, dass es in der Lage ist, im Bereich der künstlichen Intelligenz weiterhin Innovationen voranzutreiben. Insbesondere die Anwendung des GPT-4o-Modells wird das Benutzererlebnis erheblich verbessern, und die Veröffentlichung von SearchGPT läutet eine neue Richtung ein zukünftige Suchmaschinenentwicklung. Wir freuen uns auf weitere überraschende technologische Innovationen, die OpenAI in der Zukunft bringen wird.