Семейство больших моделей Doubao было полностью обновлено, а также были выпущены модель визуального понимания и модель музыки 4.0.

Автор：Eve Cole Время обновления：2024-12-25 13:00:02

На конференции FORCE Motive Power 18 декабря 2024 года компания Volcano Engine представила комплексное обновление семейства больших моделей погремушек. Наиболее примечательным из них является запуск новой модели визуального понимания. Модель поддерживает одновременный ввод текста и изображений, обладает более сильными возможностями распознавания, понимания и рассуждения, а также предоставляет услуги пользователям по очень конкурентоспособной цене. Это обновление не только улучшает возможности применения большой модели Beanbao в различных областях, но также отмечает, что технология визуального понимания вышла на новый этап развития, предлагая предприятиям и разработчикам более удобные и эффективные решения искусственного интеллекта.

На конференции Volcano Engine FORCE Motive Power 18 декабря 2024 года компания Volcano Engine объявила о комплексном обновлении семейства больших моделей Beanbao и выпустила совершенно новую модель визуального понимания.

Тан Дай, президент Volcano Engine, сказал, что среднесуточное использование токенов в модели Doubao быстро выросло за последние несколько месяцев, достигнув более 4 триллионов, что в 33 раза больше по сравнению с моментом, когда она была выпущена в мае. Эта растущая тенденция показывает широкое использование больших моделей погремушек в различных сценариях применения.

На этот раз Volcano Engine запустил модель визуального понимания, позволяющую пользователям одновременно вводить текстовые и графические вопросы, а модель может всесторонне понимать и давать точные ответы. Это нововведение значительно упростит процесс разработки приложений и задействует потенциал больших моделей в большем количестве сценариев.

Модель визуального понимания обладает более сильными возможностями распознавания контента. Она может не только идентифицировать основные элементы, такие как категории объектов и формы на изображениях, но также понимать взаимосвязь между объектами, пространственную компоновку и общий смысл сцены. Например, выявление теней, выявление естественных знаний и т. д.

Модель визуального понимания обладает более сильными возможностями понимания и рассуждения. Она может не только лучше идентифицировать контент, но и выполнять сложные логические вычисления на основе распознанной текстовой и графической информации, такие как графические рассуждения и физические рассуждения.

Кроме того, он также обладает более тонкой способностью визуального описания, которая может более подробно описывать содержание изображения на основе информации об изображении, а также может создавать различные литературные стили, такие как создание изображений, создание поэтических изображений и т. д.

Модель визуального понимания Doubao показывает широкие перспективы применения во многих областях, таких как образование, туризм и электронная коммерция. Например, в сфере образования модель может помочь студентам оптимизировать свои композиции и научно-популярные знания; в сфере туризма модель может предоставить туристам переводы иностранных меню и пояснения к архитектурным знаниям в области маркетинга электронной коммерции, а также помочь продавцам описать; Подробные характеристики продукта, тем самым повышая эффективность рекламы.

Стоимость использования модели визуального понимания также очень близка к народной. Цена за тысячу токенов составляет 0,003 юаня, что на 85% ниже средней цены по отрасли. Этот уровень цен позволяет каждому доллару обрабатывать до 284 изображений 720P, что знаменует вступление технологии визуального понимания в «эру санти». Кроме того, Volcano Engine также предоставляет предприятиям и разработчикам первоначальную поддержку трафика до 15 000, чтобы помочь им лучше использовать эту технологию.

На этой конференции Volcano Engine не только представила модель визуального понимания, но и обновила множество других моделей. Возможности комплексной обработки задач Doubao Universal Model Pro увеличились на 32% по сравнению с маем, а также произошли значительные улучшения в таких областях, как рассуждение, следование инструкциям, кодирование и математика. В то же время модель создания погремушек и видео будет открыта для публики в январе 2025 года, и компании смогут назначить встречу для ее использования.

Чтобы улучшить возможности предприятий по сбору информации и поиску рекомендаций, Volcano Engine также запустил глобальную службу поиска с использованием искусственного интеллекта, которая помогает предприятиям лучше связывать информацию и потребности пользователей, а также способствует интеллектуальной трансформации различных отраслей.

Основные моменты:

Среднесуточное использование токенов Doubao Big Model достигло 4 триллионов, что в 33 раза больше, чем в мае.

Недавно запущенная модель визуального понимания поддерживает одновременный ввод текста и изображений и подходит для таких областей, как образование, туризм и электронная коммерция.

Стоимость использования тысячи токенов составляет всего 0,003 юаня, что значительно ниже средней цены по отрасли.

Короче говоря, обновление модели большого кресла-мешка и новая модель визуального понимания, выпущенные Volcano Engine на этот раз, демонстрируют постоянные инновации в области искусственного интеллекта и глубокое понимание потребностей пользователей, обеспечивая мощную техническую поддержку для интеллектуальной трансформации различных отраслей.