Ferramenta de legenda Visual Captions, Visual Captions é uma poderosa ferramenta de legenda recém-lançada que pode melhorar a exibição de mais legendas para reuniões de trabalho dos usuários e tornar a comunicação no escritório mais conveniente. Usuários necessitados podem vir e se juntar a nós.
O Google demonstrou um sistema, Visual Captions, na ACM CHI (Conference on Human Factors in Computing Systems), a principal conferência sobre interação humano-computador, apresentando uma nova solução visual em reuniões remotas que pode gerar ou recuperar imagens no contexto do conversa para melhorar o desempenho da outra parte Conhecimento de conceitos complexos ou desconhecidos.
O sistema Visual Captions é baseado em um modelo de linguagem de grande escala ajustado que pode recomendar proativamente elementos visuais relevantes em conversas de vocabulário aberto e foi integrado ao projeto de código aberto ARChat.
Na pesquisa com usuários, os pesquisadores convidaram 26 participantes do laboratório e 10 participantes fora do laboratório para avaliar o sistema. Mais de 80% dos usuários basicamente concordaram que as legendas de vídeo podem fornecer legendas de vídeo que são úteis e significativas. e aprimorar a experiência de comunicação.
Antes do desenvolvimento, os pesquisadores convidaram primeiro 10 participantes internos, incluindo engenheiros de software, pesquisadores, designers de UX, artistas visuais, estudantes e outros profissionais com formação técnica e não técnica, para discutir as necessidades e requisitos específicos para serviços de aprimoramento visual em tempo real. esperar.
Após duas reuniões, com base no sistema de texto para imagem existente, o projeto básico do sistema protótipo esperado foi estabelecido, incluindo principalmente oito dimensões (denotadas como D1 a D8).
D1: Tempo, o sistema de aprimoramento visual pode ser exibido de forma síncrona ou assíncrona com o diálogo
D2: Tópico, que pode ser usado para expressar e compreender o conteúdo do discurso
D3: Visual, usando uma ampla gama de conteúdo visual, tipos visuais e fontes visuais
D4: Escala, as melhorias visuais podem variar dependendo do tamanho da reunião
D5: Espaço, quer a videoconferência seja co-localizada ou remota
D6: Privacidade, esses fatores também influenciam se os recursos visuais devem ser exibidos de forma privada, compartilhados entre os participantes ou disponibilizados para todos
D7: Estado inicial, os participantes também identificaram diferentes formas como gostariam de interagir com o sistema ao iniciar uma conversa, por exemplo, diferentes níveis de “iniciativa” onde os utilizadores podem determinar autonomamente quando o sistema intervém no chat D8: Interação, participantes imaginaram diferentes métodos de interação, como entrada por voz ou gestos