En la Conferencia FORCE Motive Power el 18 de diciembre de 2024, Volcano Engine lanzó una actualización integral de la familia de modelos grandes de pufs. La más llamativa es el lanzamiento de un nuevo modelo de comprensión visual. El modelo admite la entrada simultánea de texto e imágenes, tiene mayores capacidades de reconocimiento, comprensión y razonamiento y brinda servicios a los usuarios a un precio muy competitivo. Esta actualización no solo mejora las capacidades de aplicación del modelo grande de Beanbao en varios campos, sino que también marca que la tecnología de comprensión visual ha entrado en una nueva etapa de desarrollo, brindando soluciones de inteligencia artificial más convenientes y eficientes a empresas y desarrolladores.
En la conferencia Volcano Engine FORCE Motive Power el 18 de diciembre de 2024, Volcano Engine anunció una actualización integral de la familia de modelos grandes Beanbao y lanzó un nuevo modelo de comprensión visual.
Tan Dai, presidente de Volcano Engine, dijo que el uso promedio diario de tokens en el modelo Doubao ha crecido rápidamente en los últimos meses, alcanzando más de 4 billones, un aumento de 33 veces en comparación con el momento de su lanzamiento en mayo. Esta tendencia creciente muestra el uso generalizado de modelos de pufs grandes en múltiples escenarios de aplicación.
Esta vez, Volcano Engine lanzó un modelo de comprensión visual, que permite a los usuarios ingresar preguntas de texto e imágenes al mismo tiempo, y el modelo puede comprender de manera integral y brindar respuestas precisas. Esta innovación simplificará enormemente el proceso de desarrollo de aplicaciones y activará el potencial de los modelos grandes en más escenarios.
El modelo de comprensión visual tiene capacidades de reconocimiento de contenido más sólidas. No solo puede identificar elementos básicos como categorías de objetos y formas en las imágenes, sino que también puede comprender la relación entre los objetos, el diseño espacial y el significado general de la escena. Por ejemplo, identificar sombras, identificar conocimientos naturales, etc.
El modelo de comprensión visual tiene mayores capacidades de comprensión y razonamiento. No solo puede identificar mejor el contenido, sino también realizar cálculos lógicos complejos basados en la información de texto e imagen reconocida, como el razonamiento gráfico y el razonamiento físico.
Además, también tiene una capacidad de descripción visual más delicada, que puede describir el contenido de la imagen con más detalle en función de la información de la imagen, y también puede crear una variedad de estilos literarios, como creación de imágenes, creación de poesía de imágenes, etc.
El modelo de comprensión visual de Doubao muestra amplias perspectivas de aplicación en muchos campos como la educación, el turismo y el comercio electrónico. Por ejemplo, en educación, el modelo puede ayudar a los estudiantes a optimizar sus composiciones y conocimientos científicos populares; en turismo, el modelo puede proporcionar a los turistas traducciones de menús extranjeros y explicaciones de conocimientos arquitectónicos; en marketing de comercio electrónico, puede ayudar a los comerciantes a describir; las características del producto en detalle, mejorando así la eficacia publicitaria.
El costo de utilizar el modelo de comprensión visual también es muy cercano al de la gente. El precio por mil tokens es de 0,003 yuanes, que es un 85% más bajo que el precio promedio de la industria. Este nivel de precio permite que cada dólar procese hasta 284 imágenes 720P, lo que marca la entrada de la tecnología de comprensión visual en la "era centi". Además, Volcano Engine también proporciona a las empresas y desarrolladores hasta 15.000 soporte de tráfico inicial para ayudarles a utilizar mejor esta tecnología.
En esta conferencia, Volcano Engine no solo lanzó un modelo de comprensión visual, sino que también actualizó muchos otros modelos. La capacidad integral de procesamiento de tareas de Doubao Universal Model Pro ha aumentado un 32 % en comparación con mayo, y también ha habido mejoras significativas en áreas como razonamiento, seguimiento de instrucciones, codificación y matemáticas. Al mismo tiempo, el modelo de generación de videos y pufs estará abierto al público en enero de 2025, y las empresas podrán concertar una cita para utilizarlo.
Para mejorar las capacidades de recomendación de búsqueda y adquisición de información de las empresas, Volcano Engine también ha lanzado un servicio global de búsqueda de IA para ayudar a las empresas a conectar mejor la información y las necesidades de los usuarios, y facilitar la transformación inteligente de diversas industrias.
Reflejos:
El uso promedio diario de tokens de Doubao Big Model alcanzó los 4 billones, un aumento de 33 veces en comparación con mayo.
El modelo de comprensión visual recientemente lanzado admite la entrada simultánea de texto e imágenes y es adecuado para campos como la educación, el turismo y el comercio electrónico.
El costo de uso por cada mil tokens es de solo 0,003 yuanes, lo que es significativamente más bajo que el precio promedio de la industria.
En resumen, la actualización del modelo de puf grande y el nuevo modelo de comprensión visual lanzados por Volcano Engine esta vez demuestran su innovación continua en el campo de la inteligencia artificial y su profundo conocimiento de las necesidades de los usuarios, brindando un sólido soporte técnico para la transformación inteligente de diversas industrias.