8 moments clés de la sortie du grand modèle Doubao en 2024 : de l'étoile montante de l'IA à la percée complète

Auteur：Eve Cole Date de mise à jour：2025-01-01 08:48:01

Cet article passe en revue les huit étapes clés de développement du modèle Beanbao depuis sa sortie le 15 mai 2024, démontrant ses performances remarquables en matière de reconnaissance vocale, de création musicale, de génération de vidéo, d'édition d'images, de capacités de programmation, de compréhension de texte, de perception visuelle, etc. progrès. Depuis la percée initiale de la reconnaissance vocale jusqu'à la réalisation finale du modèle universel Doubao-pro aligné sur les capacités GPT-4, le modèle Doubao a obtenu des résultats remarquables en seulement 230 jours, démontrant une forte solidité technique et un fort potentiel de développement. L'article détaille les avancées technologiques et les scénarios d'application à chaque étape, et illustre certaines de ses fonctions par des images.

1. Percées dans la reconnaissance vocale et l’expression émotionnelle

Le modèle Doubao a réalisé en juillet une avancée majeure dans le domaine de la reconnaissance vocale : il peut comprendre des conversations mixtes dans plus de 20 dialectes et a la capacité de penser tout en écoutant. De plus, il a appris à exprimer ses émotions dans les conversations, à intervenir librement dans les interactions et à conserver même les habitudes du langage humain telles que la déglutition et l'accent. La technologie de base derrière cela est le modèle de reconnaissance vocale Seed-ASR et le modèle de base de génération vocale Seed-TTS. Ces modèles intègrent une gamme plus large de données et de chaînes de raisonnement, ce qui leur confère des capacités de généralisation extrêmement fortes.

2. La naissance du groupe AI

En septembre, le grand modèle Doubao a réalisé de manière créative le concept de « bande IA ». De l'écriture de chansons à la génération de performances en passant par le chant vocal, Doubao Master maîtrise plus de 10 compétences en création musicale et peut apporter une inspiration inattendue à la création musicale. La technologie derrière cela est le framework Seed-Music, qui combine les avantages des modèles de langage et des modèles de diffusion pour mettre en œuvre un cadre universel pour la génération de musique et offre une contrôlabilité d'édition extrêmement élevée.

3. Génération vidéo précise et contrôle de l'objectif

Le même mois, le modèle de pouf a encore repoussé les limites de la création, capable de suivre des mots d'invite complexes, de générer des vidéos haute définition multi-sujets et de contrôler avec précision l'angle de la caméra. Avec l'aide de deux modèles de génération vidéo, PixelDance et Seaweed, Doubao Big Model peut réaliser une génération simultanée d'effets vidéo et sonores de haute qualité, offrant aux créateurs une expérience visuelle plus réaliste et plus rêveuse.

4. Mise à niveau des capacités d'édition et de création d'images

En novembre, Doubao Big Model a maîtrisé les capacités de « image P en une phrase » et de « génération d'affiches en un clic ». Les utilisateurs n'ont besoin que de commandes de texte simples pour effectuer une édition d'image et une génération de texte précises. Grâce au modèle graphique Vincent itératif en continu SeedEdit, Doubao peut présenter avec précision des scènes complexes et fournir une édition d'images basée sur le langage naturel.

5. Un bond en avant dans la capacité de programmation

Depuis décembre, les capacités de programmation de Doubao ont été considérablement améliorées et il est devenu programmeur d'IA et analyste de données. Grâce à Doubao MarsCode, les utilisateurs peuvent facilement mettre en œuvre l'écriture de code, le traitement des données et l'analyse visuelle. Le grand modèle de code de Doubao, Doubao-coder, prend en charge 16 langages de programmation et peut répondre aux besoins de la programmation full-stack tels que le développement front-end et back-end et l'apprentissage automatique.

6. Capacités extrêmes de compréhension et de traitement de texte

Le grand modèle Doubao dépasse également la limite de la fenêtre contextuelle, l'augmentant à 3 millions de mots, capable de traiter des textes plus volumineux et avec un délai de traitement de seulement 15 secondes par million de jetons. Grâce à des algorithmes de données liées tels que STRING, le grand modèle Beanbao peut rapidement acquérir des connaissances externes massives et fournir des capacités de compréhension plus précises.

7. Percées dans la perception visuelle et la réflexion profonde

À la mi-décembre, le grand modèle de pouf a atteint la perception visuelle et a pu intégrer plusieurs sens pour une réflexion approfondie. Il peut non seulement comprendre avec précision les images, mais également effectuer des opérations complexes, telles que prendre une photo d'un problème de calcul mathématique, démontrant ainsi ses excellentes capacités d'apprentissage et de raisonnement multimodaux.

8. Modèle général Doubao-pro entièrement amélioré

À la mi-décembre, le modèle général Doubao Doubao-pro a été entièrement mis à niveau, ses capacités ont été entièrement alignées sur GPT-4 et il a appris à « réfléchir » pendant le processus de réponse. Cette mise à niveau améliore la précision de compréhension et la qualité de génération de Doubao-pro, ce qui en fait un « guerrier hexagonal » efficace avec des performances équilibrées dans diverses capacités et devenant une autre référence dans le domaine de l'IA.

Cette année, l'équipe Doubao Big Model a réalisé des progrès significatifs dans la recherche fondamentale sur l'IA. L'équipe a publié 57 articles et a participé à des conférences de premier plan telles que ICLR, CVPR et NeurIPS. En outre, l'équipe Doubao Big Model entretient une coopération approfondie avec de nombreuses universités de premier plan et des laboratoires communs établis pour promouvoir le développement de la technologie de l'IA.

Le grand modèle de pouf est non seulement une avancée technologique, mais il est également largement utilisé dans de nombreuses industries. Grâce au Volcano Engine, Doubao Big Model dessert plus de 30 secteurs, et le nombre quotidien moyen d'appels de jetons dépasse 4 000 milliards, soit une augmentation de 33 fois depuis sa sortie en mai.

Adresse officielle : https://mp.weixin.qq.com/s/KVfu86njzyK2iK4j6VJONw

Dans l’ensemble, le développement rapide et l’application généralisée du modèle du pouf indiquent l’énorme potentiel de la technologie de l’intelligence artificielle dans divers domaines, et son développement futur mérite d’être attendu.