Deepseek fait un grand pas tard dans la nuit et publie un nouveau modèle multimodal Janus-Pro - articles AI

Auteur：Eve Cole Date de mise à jour：2025-02-06 10:48:02

La société d'IA domestique Deepseek a publié le modèle multimodal Janus-Pro, entrant officiellement dans le domaine des graphiques littéraires et biographiques et obtenant des résultats remarquables. Ce produit, basé sur la mise à niveau du modèle JanusFlow, a dépassé les modèles bien connus tels que Dall-E3 d'OpenAI dans plusieurs repères. La décision de Deepseek marque une percée importante dans la technologie d'IA multimodale et injecte une nouvelle vitalité dans le développement de l'IA domestique.

Le grand modèle domestique Deepseek a publié le nouveau grand modèle multimodal Janus-Pro, entrant officiellement dans le domaine des graphiques littéraires et biographiques. Cette décision marque une percée majeure dans Deepseek dans la technologie d'IA multimodale.

Dans les références Geneval et DPG Bench, Janus-Pro-7b bat non seulement Dall-E3 d'Openai, mais dépasse également les modèles populaires tels que la diffusion stable et la génération EMU3. Janus-PRO adopte le protocole open source du MIT, ce qui signifie qu'il peut être utilisé dans des scénarios commerciaux sans limites. Deepseek a déclaré que Janus-Pro est une version premium du Janusflow Mockup sorti le 13 novembre 2024.

Deepseek sort un nouveau modèle multimodal tard dans la nuit, Performance Crushing Openai

Par rapport aux modèles de génération précédente, Janus-Pro a optimisé la stratégie de formation, élargi les données de formation et l'échelle du modèle était plus grande. Ces améliorations ont permis à Janus-PRO de faire des progrès significatifs dans la compréhension multimodale et les capacités de suivi des instructions du texte à l'image, tout en améliorant la stabilité de la génération de texte à l'image.

Deepseek sort un nouveau modèle multimodal tard dans la nuit, Performance Crushing Openai

Bien que Janus-Pro ne puisse traiter les images qu'avec une résolution 384x384, il est déjà incroyable de pouvoir atteindre un tel niveau compte tenu de sa taille de modèle compacte.

En tant que modèle multimodal, Janus-Pro peut non seulement générer des images, mais également décrire des images, identifier les attractions historiques, identifier le texte dans les images et introduire des connaissances dans les images.

Points:

Deepseek publie un modèle multimodal Janus-Pro pour entrer dans le domaine des graphiques littéraires et biographiques.

Dans Benchmarks, Janus-Pro-7B Performance dépasse les modèles populaires tels que Dall-E3 d'Openai.

Janus-Pro utilise le protocole open source du MIT et peut être utilisé dans des scénarios commerciaux sans restrictions.

L'émergence de Janus-Pro indique que la force technologique des grands modèles domestiques dans le domaine des images littéraires et biographiques augmente rapidement. à!