Herramienta de subtítulos Visual Captions, Visual Captions es una poderosa herramienta de subtítulos recientemente lanzada que puede mejorar la visualización de más subtítulos para las reuniones de trabajo de los usuarios y hacer que la comunicación en la oficina sea más conveniente. Los usuarios que lo necesiten pueden venir y unirse a nosotros.
Google demostró un sistema, Visual Captions, en la ACM CHI (Conferencia sobre factores humanos en sistemas informáticos), la principal conferencia sobre interacción persona-computadora, presentando una nueva solución visual en reuniones remotas que puede generar o recuperar imágenes en el contexto de la conversación para mejorar el desempeño de la otra parte. Conocimiento de conceptos complejos o desconocidos.
El sistema Visual Captions se basa en un modelo de lenguaje a gran escala perfeccionado que puede recomendar de forma proactiva elementos visuales relevantes en conversaciones de vocabulario abierto y se ha integrado en el proyecto de código abierto ARChat.
En la encuesta de usuarios, los investigadores invitaron a 26 participantes en el laboratorio y a 10 participantes fuera del laboratorio para evaluar el sistema. Más del 80% de los usuarios básicamente estuvieron de acuerdo en que Video Captions puede proporcionar subtítulos de video en varios escenarios que son útiles y significativos. y mejorar la experiencia de comunicación.
Antes del desarrollo, los investigadores primero invitaron a 10 participantes internos, incluidos ingenieros de software, investigadores, diseñadores de UX, artistas visuales, estudiantes y otros profesionales con experiencia técnica y no técnica, para discutir las necesidades y requisitos específicos de los servicios de mejora visual en tiempo real. esperar.
Después de dos reuniones, basadas en el sistema de texto a imagen existente, se estableció el diseño básico del sistema prototipo esperado, que incluye principalmente ocho dimensiones (indicadas como D1 a D8).
D1: Sincronización, el sistema de mejora visual se puede mostrar de forma sincrónica o asincrónica con el diálogo
D2: Tema que se puede utilizar para expresar y comprender el contenido del discurso.
D3: Visual, utilizando una amplia gama de contenido visual, tipos visuales y fuentes visuales.
D4: Escala, las mejoras visuales pueden variar según el tamaño de la reunión
D5: Espacio, ya sea que la videoconferencia se realice en el mismo lugar o en un entorno remoto
D6: Privacidad; estos factores también influyen en si las imágenes deben mostrarse de forma privada, compartirse entre los participantes o ponerse a disposición de todos.
D7: Estado inicial, los participantes también identificaron diferentes formas en las que les gustaría interactuar con el sistema al entablar una conversación, por ejemplo, diferentes niveles de “iniciativa” donde los usuarios pueden determinar de forma autónoma cuándo interviene el sistema en el chat D8: Interacción, participantes imaginó diferentes métodos de interacción, como la entrada mediante voz o gestos