Este artículo revisa las ocho etapas clave de desarrollo del modelo Beanbao desde su lanzamiento el 15 de mayo de 2024, demostrando su notable desempeño en reconocimiento de voz, creación de música, generación de videos, edición de imágenes, capacidades de programación, comprensión de texto, percepción visual, etc. progreso. Desde el avance inicial en el reconocimiento de voz hasta la realización final del modelo universal Doubao-pro alineado con las capacidades de GPT-4, el modelo Doubao ha logrado resultados notables en solo 230 días, demostrando una gran fortaleza técnica y potencial de desarrollo. El artículo detalla los avances tecnológicos y los escenarios de aplicación en cada etapa, e ilustra algunas de sus funciones con imágenes.
1. Avances en el reconocimiento de voz y la expresión emocionalEl modelo Doubao logró en julio un gran avance en el campo del reconocimiento de voz: puede comprender conversaciones mixtas en más de 20 dialectos y tiene la capacidad de pensar mientras escucha. No solo eso, ha aprendido a expresar emociones en conversaciones, puede intervenir libremente en interacciones e incluso conserva hábitos del lenguaje humano como la deglución y el acento. La tecnología central detrás de esto es el modelo de reconocimiento de voz Seed-ASR y el modelo base de generación de voz Seed-TTS. Estos modelos integran una gama más amplia de datos y cadenas de razonamiento, lo que les otorga capacidades de generalización extremadamente sólidas.
2. El nacimiento de la banda AIEn septiembre, el modelo grande de Doubao implementó creativamente el concepto de "banda AI". Desde la composición de canciones hasta la generación de interpretaciones y el canto vocal, Doubao Master ha dominado más de 10 habilidades de creación musical y puede aportar una inspiración inesperada a la creación musical. La tecnología detrás de esto es el marco Seed-Music, que combina las ventajas de los modelos de lenguaje y los modelos de difusión para implementar un marco universal para la generación de música y tiene una controlabilidad de edición extremadamente alta.
3. Generación de vídeo precisa y control de lentesEn el mismo mes, el modelo de puf rompió aún más los límites de la creación, siendo capaz de seguir palabras complejas, generar videos de alta definición de múltiples temas y controlar con precisión el ángulo de la cámara. Con la ayuda de dos modelos de generación de video, PixelDance y Seaweed, Doubao Big Model puede lograr la generación simultánea de videos y efectos de sonido de alta calidad, brindando a los creadores una experiencia visual más realista y de ensueño.
4. Actualización de las capacidades de edición y creación de imágenes.En noviembre, Doubao Big Model dominó las capacidades de "imagen P de una frase" y "generación de carteles con un clic". Los usuarios sólo necesitan comandos de texto simples para realizar una edición de imágenes y generación de texto precisas. A través del modelo de gráfico Vincent continuamente iterativo SeedEdit, Doubao puede presentar con precisión escenas complejas y proporcionar edición de imágenes basada en lenguaje natural.
5. Un salto en la capacidad de programaciónA partir de diciembre, las capacidades de programación de Doubao han mejorado enormemente y se ha convertido en programador de inteligencia artificial y analista de datos. A través de Doubao MarsCode, los usuarios pueden implementar fácilmente la escritura de código, el procesamiento de datos y el análisis visual. El modelo de código grande de Doubao, Doubao-coder, admite profundamente 16 lenguajes de programación y puede satisfacer las necesidades de programación de pila completa, como el desarrollo front-end y back-end y el aprendizaje automático.
6. Capacidades extremas de comprensión y procesamiento de textos.El modelo grande de Doubao también supera el límite de la ventana de contexto, incrementándola a 3 millones de palabras, capaz de procesar texto más grande y con un retraso de procesamiento de solo 15 segundos por millón de tokens. A través de algoritmos de datos vinculados como STRING, el modelo grande de Beanbao puede adquirir rápidamente conocimiento externo masivo y proporcionar capacidades de comprensión más precisas.
7. Avances en la percepción visual y el pensamiento profundo.A mediados de diciembre, el modelo de puf grande logró la percepción visual y pudo integrar múltiples sentidos para un pensamiento profundo. No solo puede comprender imágenes con precisión, sino también realizar operaciones complejas, como tomar una fotografía de un problema de cálculo matemático, lo que demuestra sus excelentes capacidades de razonamiento y aprendizaje intermodal.
8. Modelo general Doubao-pro totalmente actualizadoA mediados de diciembre, el modelo general Doubao-pro se actualizó por completo, sus capacidades se alinearon completamente con GPT-4 y aprendió a "reflexionar" durante el proceso de respuesta. Esta actualización mejora la precisión de comprensión y la calidad de generación de Doubao-pro, convirtiéndolo en un "guerrero hexagonal" eficiente con un rendimiento equilibrado en varias habilidades y convirtiéndose en otro punto de referencia en el campo de la IA.
Este año, el equipo de Doubao Big Model ha logrado avances significativos en la investigación básica de IA. El equipo ha publicado 57 artículos y ha aparecido en las principales conferencias como ICLR, CVPR y NeurIPS. Además, el equipo de Doubao Big Model mantiene una estrecha cooperación con muchas de las mejores universidades y ha establecido laboratorios conjuntos para promover el desarrollo de la tecnología de IA.
El modelo de puf grande no solo es un gran avance en tecnología, sino que también se usa ampliamente en muchas industrias. A través de Volcano Engine, Doubao Big Model presta servicios a más de 30 industrias, y las llamadas de tokens diarias promedio superan los 4 billones, un aumento de 33 veces desde el momento de su lanzamiento en mayo.
Dirección oficial: https://mp.weixin.qq.com/s/KVfu86njzyK2iK4j6VJONw
Con todo, el rápido desarrollo y la aplicación generalizada del modelo de puf indican el enorme potencial de la tecnología de inteligencia artificial en varios campos, y vale la pena esperar su desarrollo futuro.