El modelo de lenguaje visual ScreenAI recientemente lanzado por Google ha logrado avances revolucionarios en múltiples tareas de comprensión, estableciendo un nuevo récord SOTA. Este modelo utiliza el innovador método de generación automática de datos PaLM 2-S, que mejora efectivamente la diversidad y complejidad del conjunto de datos al tiempo que garantiza una alta eficiencia. Con su arquitectura de codificador multimodal, ScreenAI puede completar de manera excelente tareas de conversión de texto e imagen a texto y demostrar un rendimiento líder en tareas como control de calidad de pantalla, infografías y comprensión de documentos, aportando nuevos desarrollos al campo de la posibilidad de modelos de lenguaje visual.
Google lanzó recientemente el modelo de lenguaje visual ScreenAI, que utiliza PaLM 2-S para generar datos automáticamente, rompiendo récords SOTA para múltiples tareas de comprensión. El modelo utiliza una arquitectura de codificador multimodal para lograr la resolución de tareas de texto + imagen a texto. Los investigadores utilizan métodos automatizados de generación de datos para aumentar la diversidad y complejidad de los conjuntos de datos y al mismo tiempo garantizar la eficiencia. El modelo logra un rendimiento líder en tareas de control de calidad de pantalla, infografías y comprensión de documentos.
La aparición de ScreenAI marca un progreso significativo en la tecnología de modelos de lenguaje visual. Su método eficiente de generación de datos y su rendimiento líder proporcionan una nueva dirección para el futuro desarrollo de la IA. La tecnología de generación automática de datos también proporciona nuevas ideas y referencias para el entrenamiento de otros modelos de IA. Esperamos que ScreenAI demuestre sus poderosas capacidades en escenarios de aplicaciones más prácticos.