подтверждать! Расширенный голосовой режим ChatGPT будет доступен подписчикам ChatGPT Plus на следующей неделе.

Автор：Eve Cole Время обновления：2024-12-18 09:17:38

OpenAI собирается запустить долгожданную альфа-версию голосового режима для подписчиков ChatGPT Plus. Эта функция основана на флагманской модели GPT-4o и значительно улучшает возможности голосового взаимодействия. Модель GPT-4o может обрабатывать аудиовход со скоростью, близкой к реакции человека, и сочетает в себе сквозное обучение трех модальностей: текста, изображения и звука, демонстрируя последний прорыв OpenAI в области мультимодального искусственного интеллекта. Ранее внедрение этой функции было отложено из-за необходимости улучшить модерацию контента модели и построение инфраструктуры. Это обновление не только решит проблему чрезмерной задержки в существующем голосовом режиме ChatGPT, но также обеспечит пользователям более плавный и естественный голосовой разговор.

Когда в мае была выпущена флагманская модель OpenAI GPT-4o (o означает omni), ее возможности распознавания звука привлекли большое внимание. Модель GPT-4o смогла реагировать на аудиовход в среднем за 320 миллисекунд, что аналогично времени реакции человека при обычном разговоре.

OpenAI также объявила, что функция голосового режима ChatGPT будет использовать аудиовозможности модели GPT-4o, чтобы предоставить пользователям беспрепятственный голосовой разговор. Что касается речевых возможностей GPT-4o, команда OpenAI написала:

С помощью GPT-4o мы обучили совершенно новую модель, которая комплексно обучает три модальности текста, изображения и звука, то есть все входные данные и суммы обрабатываются одной и той же нейронной сетью. Поскольку GPT-4o — наша первая модель, сочетающая в себе все эти возможности, мы пока лишь поверхностно рассмотрели потенциал и ограничения нашей модели.

В июне OpenAI объявила о планах позднее развернуть расширенный режим жаргона в альфа-версии для небольшой группы пользователей ChatGPT Plus, но планы были отложены на месяц из-за необходимости улучшить способность модели обнаруживать и отклонять определенный контент. . Кроме того, OpenAI готовит свою инфраструктуру к масштабированию для миллионов пользователей, сохраняя при этом оперативность реагирования в режиме реального времени.

Теперь генеральный директор OpenAI Сэм Альтман подтвердил через X, что альфа-версия голосового режима будет доступна подписчикам ChatGPT Plus, начиная со следующей недели.

Текущий голосовой режим ChatGPT не интуитивно понятен из-за средней задержки 2,8 секунды (GPT3.5) и 5,4 секунды (GPT-4). Предстоящий расширенный голосовой режим на основе GPT-4o позволит подписчикам ChatGPT вести разговор без задержек.

Кроме того, OpenAI сегодня также выпустила долгожданный SearchGPT, который является их новой попыткой использования веб-поиска. В настоящее время это прототип, SearchGPT предоставляет возможности поиска с использованием искусственного интеллекта, которые могут быстро предоставлять точные ответы из понятных и релевантных источников. Вы можете узнать больше здесь.

В целом, серия обновлений OpenAI показывает ее способность продолжать инновации в области искусственного интеллекта. В частности, применение модели GPT-4o значительно улучшит пользовательский опыт, а выпуск SearchGPT открывает новое направление для этого. будущее развитие поисковых систем. Мы с нетерпением ожидаем новых удивительных технологических инноваций, которые принесет OpenAI в будущем.