Outil de sous-titres Visual Captions, Visual Captions est un puissant outil de sous-titres récemment lancé qui peut améliorer l'affichage d'un plus grand nombre de sous-titres pour les réunions de travail des utilisateurs et rendre la communication au bureau plus pratique. Les utilisateurs dans le besoin peuvent venir nous rejoindre.
Google a présenté un système, Visual Captions, à l'ACM CHI (Conference on Human Factors in Computing Systems), la plus grande conférence sur l'interaction homme-machine, introduisant une nouvelle solution visuelle dans les réunions à distance qui peut générer ou récupérer des images dans le contexte de l'interaction homme-machine. conversation pour améliorer les performances de l’autre partie. Connaissance de concepts complexes ou inconnus.
Le système Visual Captions est basé sur un modèle de langage affiné à grande échelle qui peut recommander de manière proactive des éléments visuels pertinents dans des conversations à vocabulaire ouvert, et a été intégré au projet open source ARChat.
Dans l'enquête auprès des utilisateurs, les chercheurs ont invité 26 participants en laboratoire et 10 participants en dehors du laboratoire à évaluer le système. Plus de 80 % des utilisateurs ont essentiellement convenu que les sous-titres vidéo peuvent fournir des recommandations visuelles utiles et significatives dans divers scénarios. , et améliorez l'expérience de communication.
Avant le développement, les chercheurs ont d'abord invité 10 participants internes, dont des ingénieurs logiciels, des chercheurs, des concepteurs UX, des artistes visuels, des étudiants et d'autres praticiens ayant une formation technique et non technique, pour discuter des besoins et exigences spécifiques des services d'amélioration visuelle en temps réel. attendre.
Après deux réunions, basées sur le système texte-image existant, la conception de base du système prototype attendu a été établie, comprenant principalement huit dimensions (notées D1 à D8).
D1 : Timing, le système d'amélioration visuelle peut être affiché de manière synchrone ou asynchrone avec le dialogue
D2 : Sujet pouvant être utilisé pour exprimer et comprendre le contenu de la parole
D3 : Visuel, utilisant un large éventail de contenus visuels, de types visuels et de sources visuelles
D4 : Échelle, les améliorations visuelles peuvent varier en fonction de la taille de la réunion
D5 : Espace, que la vidéoconférence soit colocalisée ou à distance
D6 : Confidentialité : ces facteurs influencent également si les visuels doivent être affichés en privé, partagés entre les participants ou mis à la disposition de tous
D7 : État initial, les participants ont également identifié différentes manières dont ils aimeraient interagir avec le système lorsqu'ils s'engagent dans une conversation, par exemple, différents niveaux « d'initiative » où les utilisateurs peuvent déterminer de manière autonome quand le système intervient dans le chat D8 : Interaction, participants envisagé différentes méthodes d'interaction, telles que la saisie vocale ou gestuelle