Крупный выпуск Gemini 2.0 от Google знаменует собой важный шаг на пути искусственного интеллекта к эпохе агентов. Это обновление не только значительно повышает производительность, но также обеспечивает прорыв в мультимодальных возможностях и использовании собственных инструментов. Gemini 2.0 поддерживает несколько форм ввода, таких как текст, изображение, видео, аудио и т. д., а также впервые поддерживает мультимодальные функции вывода, такие как генерация собственных изображений и преобразование текста в речь, стремясь сделать информацию более полезной. Google планирует быстро интегрировать Gemini 2.0 в свою экосистему продуктов, таких как поиск Google и недавно запущенную функцию «Глубокие исследования», чтобы еще больше улучшить взаимодействие с пользователем.
Сегодня компания Google объявила о выпуске модели искусственного интеллекта последнего поколения Gemini 2.0, самой мощной модели искусственного интеллекта компании на сегодняшний день. Это крупное обновление не только значительно повышает производительность, но и знаменует собой важный шаг для перехода искусственного интеллекта в эпоху агентов.
По словам Сундара Пичаи, генерального директора Google и Alphabet, Gemini 2.0 добилась прорыва как в мультимодальных возможностях, так и в использовании собственных инструментов. Новая модель может не только понимать и обрабатывать различные формы ввода, такие как текст, изображения, видео и аудио, но также впервые поддерживает мультимодальные функции вывода, такие как генерация собственных изображений и преобразование текста в речь.
«Если Gemini 1.0 был ориентирован на организацию и понимание информации, то Gemini 2.0 — на то, чтобы сделать информацию более полезной», — сказал Пичаи. В настоящее время модель открыта для разработчиков и доверенных тестировщиков.
Технологические инновации и повышение производительностиДемис Хассабис, генеральный директор Google DeepMind, сообщил, что первая партия релизов представляет собой экспериментальную версию Gemini 2.0 Flash. В этой версии значительно улучшена производительность при сохранении низкой задержки. Примечательно, что 2.0 Flash даже превзошёл 1.5 Pro в ключевых тестах, будучи в два раза быстрее отзывчивым.
Новая модель работает на аппаратной платформе Google TPU Trillium шестого поколения, которая также является инфраструктурой, поддерживающей 100% обучение и вывод Gemini2.0. В настоящее время эта платформа открыта для клиентов.
Практическое применение и интеграция продуктовGoogle планирует быстро интегрировать Gemini 2.0 в свою продуктовую экосистему. Отныне пользователи Gemini по всему миру смогут использовать экспериментальную версию Flash 2.0 через веб-версию, а версия для мобильных приложений также будет запущена в ближайшее время. Кроме того, функция обзора искусственного интеллекта Google Search также будет интегрировать расширенные возможности рассуждения версии 2.0 для решения более сложных тем и многоэтапных задач.
Стоит отметить, что Google также запустил новую функцию под названием «Глубокие исследования», которая будет доступна в Gemini Advanced и может выступать в качестве помощника по исследованиям для изучения сложных тем и автоматического создания отчетов.
Исследуйте будущее агентов искусственного интеллектаВ этом выпуске Google также продемонстрировала несколько проектов исследовательских прототипов, созданных на базе Gemini 2.0:
Проект Astra: это универсальный прототип помощника с искусственным интеллектом с возможностью многоязычного общения, возможностью использовать такие инструменты, как поиск Google, Lens и Карты, а также функцией памяти разговора до 10 минут. Project Mariner: это прототип взаимодействия с браузером, который может понимать и анализировать различные типы информации в Интернете, а также помогать пользователям выполнять задачи с помощью расширения Chrome. В тесте WebVoyager он показал 83,5% лучших результатов. Жюль: Это агент кода искусственного интеллекта для разработчиков, который можно интегрировать непосредственно в рабочие процессы GitHub, чтобы помочь в решении проблем и выполнении задач. Безопасность и ответственное развитиеПродвигая эти инновации, Google уделяет особое внимание важности безопасности и ответственного развития. Компания приняла ряд мер для обеспечения безопасного использования ИИ-агентов:
Работать с Комитетом по ответственности и безопасности (RSC) для выявления и понимания потенциальных рисков. Улучшить методы красной команды с помощью ИИ для расширения возможностей оценки и снижения рисков. Создать механизмы оценки безопасности и обучения для мультимодального ввода и вывода. Добавить защиту от вредоносных команд в проекте. Перспективы Mariner Mechanism на будущееВыпуск Gemini 2.0 считается важной вехой в развитии искусственного интеллекта. Объединив передовые мультимодальные возможности с возможностями агентов, Google демонстрирует свои амбиции в развитии технологий искусственного интеллекта. Поскольку эти новые функции постепенно интегрируются в различные продукты, пользователи смогут пользоваться более умными и практичными услугами помощников на базе искусственного интеллекта.
Однако в Google также признали, что технология агентов искусственного интеллекта все еще находится на ранней стадии развития и ей необходимо продолжать собирать отзывы посредством сотрудничества с доверенными тестировщиками, чтобы постоянно улучшать и совершенствовать технологию. Компания стремится и дальше ответственно продвигать развитие технологий искусственного интеллекта, обеспечивая стандарты безопасности и этики и одновременно исследуя новые возможности.
Для получения дополнительной информации см. https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ai-game-agents.
В целом, выпуск Gemini 2.0 демонстрирует сильные стороны Google в области искусственного интеллекта и ее дальновидность в отношении будущего развития. Он также указывает на то, что технологии искусственного интеллекта будут и дальше проникать в жизнь людей и предлагать им более удобные и умные услуги. Но в то же время вопросы безопасности и этики по-прежнему требуют постоянного внимания и решения.