OpenAI собирается запустить долгожданную альфа-версию голосового режима для подписчиков ChatGPT Plus. Эта функция основана на флагманской модели GPT-4o и значительно улучшает возможности голосового взаимодействия. Модель GPT-4o может обрабатывать аудиовход со скоростью, близкой к реакции человека, и сочетает в себе сквозное обучение трех модальностей: текста, изображения и звука, демонстрируя последний прорыв OpenAI в области мультимодального искусственного интеллекта. Ранее внедрение этой функции было отложено из-за необходимости улучшить модерацию контента модели и построение инфраструктуры. Это обновление не только решит проблему чрезмерной задержки в существующем голосовом режиме ChatGPT, но также обеспечит пользователям более плавный и естественный голосовой разговор.
Когда в мае была выпущена флагманская модель OpenAI GPT-4o (o означает omni), ее возможности распознавания звука привлекли большое внимание. Модель GPT-4o смогла реагировать на аудиовход в среднем за 320 миллисекунд, что аналогично времени реакции человека при обычном разговоре.
OpenAI также объявила, что функция голосового режима ChatGPT будет использовать аудиовозможности модели GPT-4o, чтобы предоставить пользователям беспрепятственный голосовой разговор. Что касается речевых возможностей GPT-4o, команда OpenAI написала:
С помощью GPT-4o мы обучили совершенно новую модель, которая комплексно обучает три модальности текста, изображения и звука, то есть все входные данные и суммы обрабатываются одной и той же нейронной сетью. Поскольку GPT-4o — наша первая модель, сочетающая в себе все эти возможности, мы пока лишь поверхностно рассмотрели потенциал и ограничения нашей модели.
В июне OpenAI объявила о планах позднее развернуть расширенный режим жаргона в альфа-версии для небольшой группы пользователей ChatGPT Plus, но планы были отложены на месяц из-за необходимости улучшить способность модели обнаруживать и отклонять определенный контент. . Кроме того, OpenAI готовит свою инфраструктуру к масштабированию для миллионов пользователей, сохраняя при этом оперативность реагирования в режиме реального времени.
Теперь генеральный директор OpenAI Сэм Альтман подтвердил через X, что альфа-версия голосового режима будет доступна подписчикам ChatGPT Plus, начиная со следующей недели.
Текущий голосовой режим ChatGPT не интуитивно понятен из-за средней задержки 2,8 секунды (GPT3.5) и 5,4 секунды (GPT-4). Предстоящий расширенный голосовой режим на основе GPT-4o позволит подписчикам ChatGPT вести разговор без задержек.
Кроме того, OpenAI сегодня также выпустила долгожданный SearchGPT, который является их новой попыткой использования веб-поиска. В настоящее время это прототип, SearchGPT предоставляет возможности поиска с использованием искусственного интеллекта, которые могут быстро предоставлять точные ответы из понятных и релевантных источников. Вы можете узнать больше здесь.
В целом, серия обновлений OpenAI показывает ее способность продолжать инновации в области искусственного интеллекта. В частности, применение модели GPT-4o значительно улучшит пользовательский опыт, а выпуск SearchGPT открывает новое направление для этого. будущее развитие поисковых систем. Мы с нетерпением ожидаем новых удивительных технологических инноваций, которые принесет OpenAI в будущем.