Le nouveau modèle de langage visuel ScreenAI de Google a fait des progrès révolutionnaires dans plusieurs tâches de compréhension, établissant un nouveau record SOTA. Ce modèle utilise la méthode innovante de génération automatique de données PaLM 2-S, qui améliore efficacement la diversité et la complexité de l'ensemble de données tout en garantissant une efficacité élevée. Grâce à son architecture d'encodeur multimodal, ScreenAI peut parfaitement effectuer des tâches de conversion texte + image en texte et démontrer des performances de pointe dans des tâches telles que l'assurance qualité d'écran, l'infographie et la compréhension de documents, apportant de nouveaux développements dans le domaine des modèles de langage visuel.
Google a récemment publié le modèle de langage visuel ScreenAI, qui utilise PaLM 2-S pour générer automatiquement des données, battant ainsi les records SOTA pour plusieurs tâches de compréhension. Le modèle utilise une architecture d'encodeur multimodale pour réaliser la résolution de tâches texte + image en texte. Les chercheurs utilisent des méthodes automatisées de génération de données pour augmenter la diversité et la complexité des ensembles de données tout en garantissant l’efficacité. Le modèle atteint des performances de pointe dans les tâches d’assurance qualité à l’écran, d’infographie et de compréhension de documents.
L'émergence de ScreenAI marque un progrès significatif dans la technologie des modèles de langage visuel. Sa méthode de génération de données efficace et ses performances de pointe ouvrent une nouvelle direction pour le développement futur de l'IA. La technologie de génération automatique de données fournit également de nouvelles idées et références pour la formation d’autres modèles d’IA. Nous attendons avec impatience que ScreenAI démontre ses puissantes capacités dans des scénarios d'application plus pratiques.