В последнее время конкуренция между гигантами искусственного интеллекта Google и OpenAI обострилась. Обе стороны жестко конкурируют в разработке и скорости итерации крупномасштабных языковых моделей. Недавно выпущенная модель Gemini-Exp-1121 от Google превзошла GPT-4o от OpenAI по многим ключевым показателям, снова заняв первое место в соревновании по искусственному интеллекту. Редактор Downcodes даст вам глубокое понимание этого «блиц» в области ИИ, а также последних достижений в технологиях и функциональности между обеими сторонами.
В последнее время конкуренция между Google и OpenAI снова обострилась. Всего через день после того, как новая версия GPT-4o возглавила список соревнований по искусственному интеллекту, Google запустила новейшую экспериментальную модель Gemini-Exp-1121, быстро вернув себе первенство. Всего неделю назад Google выпустила Gemini-Exp-1114, что, похоже, указывает на то, что Google очень быстро отреагировал на динамику OpenAI.
Джек Рэй, главный научный сотрудник Google DeepMind, сказал, что это был «блиц», подразумевая, что скорость итерации пост-обучения выше, чем пред-обучения.
Согласно официальной информации, Gemini-Exp-1121 был значительно улучшен во многих аспектах, что в основном выразилось в улучшении возможностей кодирования, рассуждений и возможностей визуального понимания. Кроме того, эта модель достигла уровня, сравнимого с нынешним топом o1-preview и New Sonnet3.5 в стиле управления сложными подсказками.
В реальных тестах Gemini-Exp-1121 также показал лучшие результаты, чем новая версия GPT-4o, в понимании комиксов. Его ответы были более полными, и он мог четко использовать субтитры и жирный акцент для представления информации. В классическом вопросе о логическом рассуждении Animal Crossing River ответ Близнеца-Exp-1121 был полностью правильным, демонстрируя более сильные способности к логическому рассуждению. С другой стороны, новая версия GPT-4o допустила некоторые ошибки.
В то же время OpenAI также активно разрабатывает новые функции. Недавно в последней версии ChatGPT был обнаружен код функции видео «Живая камера», что свидетельствует о ее прогрессе в области распознавания голоса и изображения. Пользователи OpenAI также впервые испытают эту возможность при использовании расширенного режима речи, что свидетельствует о намерении расширить использование этой функции в будущем.
Ожидается, что в следующем году основной метод общения с чат-ботом может постепенно перейти от традиционного текстового диалога к голосовым и более интеллектуальным агентским услугам. Это изменение может быть вызвано запуском функции «живой камеры».
Это соревнование ИИ все еще продолжается, Google и OpenAI гоняются друг за другом, что указывает на то, что технологии ИИ будут продолжать совершать прорывы и инновации в будущем, предоставляя пользователям более удобные и интеллектуальные услуги. Давайте подождем и посмотрим, кто в итоге победит!