OpenAI недавно объявила о важном обновлении своего API в реальном времени, запустив пять новых вариантов голоса и снижение затрат на кэширование, направленное на то, чтобы предоставить разработчикам более доступные решения для приложений голоса на Voice.
Сегодня Openai объявила об обновлении API в реальном времени, который все еще находится в бета-версии. Основным моментом этого обновления является запуск пяти новых вариантов голоса, предназначенные для приложений голоса на Voice, а также снижение сборов с соответствующими сборами в кеш, что делает разработчиков более доступными при их использовании.
Из пяти выпущенных голосов Openai показал три из этих новых звуков в статье о X, Ash, Sters и Bult-Sound Ballad. Мало того, что эти звуки более яркие и регулируемые, они также обеспечивают более естественный опыт общения. OpenAI упомянут в своей документации API, что эта собственная функция голоса к Voice устраняет промежуточную обработку форматирования текста, обеспечивая низкую задержку и более тонкий выход.
Тем не менее, OpenAI также напоминает пользователям, что, поскольку API в реальном времени все еще находится на этапе тестирования, он временно не может обеспечить аутентификацию клиента. Кроме того, на обработку звука в реальном времени может повлиять сетевые условия, которые также создают проблемы при крупномасштабной передаче аудио. OpenAI указывает, что обеспечение надежной передачи звука действительно является сложной задачей, когда сетевые условия нестабильны.
История развития Openai в голосовой технологии также является спорной. В марте они запустили голосовой двигатель, платформу голосового клонирования, которая пыталась конкурировать с ElevenLabs, но была открыта только для нескольких исследователей. С демонстрацией режимов GPT-4O и голоса, Openai приостановил использование голоса под названием «Sky» в мае, когда голливудская актриса Скарлетт Джонсон выразила неудовлетворенность этим, полагая, что это слишком похоже на ее голос.
В сентябре Openai запустила режим Advanced Voice Catgpt для своих платных подписчиков, которые могут использоваться такими пользователями, как Catgpt Plus, Enterprise, Teams и EDU. Благодаря этой технологии голоса к Voice предприятия могут быстрее генерировать ответы в реальном времени, значительно повышая эффективность обслуживания клиентов.
Снизить затраты более чем на 50%Что касается цен на API в реальном времени, то OpenAI стоила 0,06 долл. США в предыдущем выпуске в размере 0,06 долл. США за минуты аудио входа и 0,24 долл. США в виде аудио, что относительно высокое для разработчиков. Однако после этого обновления стоимость использования кэшированного текста будет снижена на 50%, в то время как стоимость кэшированного звукового ввода составит до 80%.
OpenAI объявил о новой функции «быстрого кэширования» в День разработчика, которая может сохранить контекстные подсказки частых запросов в памяти модели, тем самым уменьшая количество токенов, необходимых для создания ответа. Снижая цену ввода, OpenAI надеется привлечь больше разработчиков для использования своего API.
Кроме того, другие компании, такие как Anpropic, запустили аналогичные функции кэширования, чтобы повысить привлекательность своей голосовой технологии.
Ключевые моменты:
Пять новых натуральных голосов добавляются для улучшения опыта голосового применения
API в режиме реального времени снижает затраты на кеш, делая разработчиков более рентабельными
Обработка звука в режиме реального времени влияет на сетевые условия, и на надежность должна быть обращена внимания на
Это обновление OpenAI не только улучшает опыт применения голосовых технологий, но и привлекает больше разработчиков, снижая затраты, дополнительно продвигая популяризацию и разработку голосовых технологий.