Официально выпущен Google Gemini версии 2.0: Flash 2.0 теперь поддерживает мультимодальный вывод

Автор：Eve Cole Время обновления：2024-12-20 16:00:02

Google выпустила модель искусственного интеллекта последнего поколения Gemini 2.0, что ознаменовало крупный прорыв для Google в области общих помощников с искусственным интеллектом. Gemini 2.0 предлагает значительные улучшения в мультимодальной обработке и использовании инструментов, позволяя глубже понимать мир и выполнять пользовательские команды. Эта модель разработана на основе версий Gemini 1.0 и 1.5 и применяется во многих продуктах Google, обслуживающих миллионы пользователей по всему миру. В этой статье подробно представлены функции Gemini 2.0 и их влияние на продукты Google и экосистему разработчиков.

Сундар Пичаи, генеральный директор Google и ее материнской компании Alphabet, объявил, что компания запустила свою новейшую модель искусственного интеллекта Gemini 2.0, что знаменует собой важный шаг для Google в создании универсального помощника с искусственным интеллектом. Gemini 2.0 демонстрирует значительные достижения в мультимодальной обработке ввода и использовании собственных инструментов, позволяющих агентам ИИ глубже понимать окружающий мир и предпринимать действия от имени пользователя под их контролем.

Gemini2.0 разработан на основе своих предшественников Gemini1.0 и 1.5, которые впервые реализовали собственные возможности мультимодальной обработки и могут понимать различные типы информации, включая текст, видео, изображения, аудио и код. В настоящее время миллионы разработчиков используют Gemini для разработки, что побуждает Google переосмысливать свои продукты, в том числе 7 продуктов, которые обслуживают 2 миллиарда пользователей, и создавать новые продукты. NotebookLM является примером мультимодальных и долгоконтекстных возможностей и пользуется широкой популярностью.

微信截图_20241212080452.png

Запуск Gemini 2.0 знаменует вступление Google в новую эру агентов. Эта модель имеет встроенные возможности вывода изображения и звука, а также встроенные возможности использования инструментов. Google начал предоставлять Gemini 2.0 разработчикам и доверенным тестировщикам и планирует быстро интегрировать его в продукты, начиная с Gemini и поиска. Отныне экспериментальная модель Gemini2.0 Flash будет открыта для всех пользователей Gemini. В то же время Google также запустил новую функцию под названием Deep Research, которая использует расширенные возможности рассуждения и длинного контекста, выступая в роли ассистента по исследованиям для изучения сложных тем и составления отчетов от имени пользователей. Эта функция в настоящее время доступна в Gemini Advanced.

Поиск — один из продуктов, на который ИИ больше всего влияет, и обзор ИИ Google в настоящее время охватывает 1 миллиард человек, что позволяет им задавать совершенно новые вопросы, быстро становясь одной из самых популярных функций поиска Google. В качестве следующего шага Google представит расширенные возможности рассуждения Gemini 2.0 в обзоре ИИ для решения более сложных тем и многоэтапных задач, включая сложные математические уравнения, многомодальные запросы и кодирование. Ограниченное тестирование началось на этой неделе, а более широкое внедрение запланировано на начало следующего года. Google также продолжит предоставлять обзор ИИ в большем количестве стран и языков в течение следующего года.

Google также продемонстрировала свои передовые результаты в исследованиях агентов с помощью встроенных мультимодальных возможностей Gemini 2.0. Gemini 2.0 Flash — это усовершенствованная версия Flash 1.5, самой популярной модели среди разработчиков на сегодняшний день, с таким же быстрым временем отклика. Примечательно, что 2.0 Flash даже превзошёл 1.5 Pro в ключевых тестах, оказавшись вдвое быстрее. Flash 2.0 также предоставляет новые возможности. В дополнение к поддержке мультимодального ввода, такого как изображения, видео и аудио, Flash 2.0 теперь поддерживает мультимодальный вывод, например, созданные в собственном коде изображения, смешанные с текстом, и управляемое многоязычное преобразование текста в речь (TTS). Он также может вызывать такие инструменты, как поиск Google, выполнение кода и сторонние пользовательские функции.

微信截图_20241212080808.png

Gemini 2.0 Flash теперь доступен разработчикам в качестве экспериментальной модели с мультимодальным вводом и выводом текста, доступными всем разработчикам через Google AI Studio и Gemini API Vertex AI, а для партнеров с ранним доступом доступны преобразование текста в речь и генерация собственных изображений. Общая доступность появится в январе вместе с моделями дополнительных размеров.

Чтобы помочь разработчикам создавать динамические и интерактивные приложения, Google также выпустила новый мультимодальный API реального времени с возможностями ввода потокового аудио и видео в реальном времени и возможностью использования нескольких комбинированных инструментов.

Начиная с сегодняшнего дня пользователи Gemini по всему миру могут получить доступ к оптимизированной для чата версии эксперимента Flash 2.0, выбрав ее в раскрывающемся меню модели на настольном компьютере и в мобильном Интернете, и вскоре она будет доступна в мобильном приложении Gemini. В начале следующего года Google добавит в Gemini 2.0 больше продуктов Google.

В целом, выпуск Gemini 2.0 представляет собой еще один шаг, сделанный Google в области искусственного интеллекта. Его мощные мультимодальные возможности и интеграция инструментов принесут более богатый опыт разработчикам и пользователям и будут способствовать применению технологий искусственного интеллекта в большем количестве областей. . разработка и применение. В будущем Gemini 2.0 будет дополнительно интегрирован в экосистему продуктов Google, чтобы предоставить пользователям более интеллектуальные и удобные услуги.