시각적 캡션 자막 도구인 시각적 캡션은 사용자의 업무 회의에서 더 많은 자막 표시를 개선하고 사무실 커뮤니케이션을 더욱 편리하게 할 수 있는 새로 출시된 강력한 자막 도구입니다. 도움이 필요한 사용자가 와서 우리와 함께 할 수 있습니다.
Google은 인간-컴퓨터 상호 작용에 관한 최고 컨퍼런스인 ACM CHI(Conference on Human Factors in Computing Systems)에서 시각적 캡션이라는 시스템을 시연했으며, 원격 회의에서 상황에 맞게 사진을 생성하거나 검색할 수 있는 새로운 시각적 솔루션을 소개했습니다. 상대방의 성과를 향상시키기 위한 대화 복잡하거나 익숙하지 않은 개념에 대한 지식.
시각적 캡션 시스템은 공개 어휘 대화에서 관련 시각적 요소를 적극적으로 추천할 수 있는 미세 조정된 대규모 언어 모델을 기반으로 하며 오픈 소스 프로젝트 ARChat에 통합되었습니다.
사용자 설문조사에서 연구원들은 시스템을 평가하기 위해 실험실 내 참가자 26명과 실험실 외부 참가자 10명을 초대했습니다. 기본적으로 사용자의 80% 이상이 비디오 캡션이 유용하고 의미 있는 다양한 시각적 권장 사항을 제공할 수 있다는 데 동의했습니다. , 커뮤니케이션 경험을 향상시킵니다.
개발에 앞서 연구원들은 먼저 소프트웨어 엔지니어, 연구원, UX 디자이너, 비주얼 아티스트, 학생 및 기술 및 비기술적 배경을 가진 기타 실무자를 포함한 10명의 내부 참가자를 초대하여 실시간 시각 향상 서비스에 대한 구체적인 요구 사항과 요구 사항을 논의했습니다. 예상하다.
두 번의 회의를 거쳐 기존의 텍스트-이미지 시스템을 기반으로 주로 8차원(D1~D8로 표시)을 포함하는 예상 프로토타입 시스템의 기본 설계가 수립되었습니다.
D1: 타이밍, 시각적 강화 시스템은 대화와 동시에 또는 비동기적으로 표시될 수 있습니다.
D2: 음성 내용을 표현하고 이해하는 데 사용할 수 있는 주제
D3: 시각적, 광범위한 시각적 콘텐츠, 시각적 유형 및 시각적 소스를 사용합니다.
D4: 규모, 시각적 개선은 회의 규모에 따라 달라질 수 있습니다.
D5: 공간(화상 회의가 같은 위치에 있거나 원격 환경에 있는지 여부)
D6: 개인 정보 보호, 이러한 요소는 시각적 요소를 비공개로 표시할지, 참가자 간에 공유할지, 모든 사람이 사용할 수 있도록 할지 여부에도 영향을 미칩니다.
D7: 초기 상태, 참가자는 대화에 참여할 때 시스템과 상호 작용하려는 다양한 방법을 식별했습니다. 예를 들어 시스템이 채팅에 개입할 때 사용자가 자율적으로 결정할 수 있는 다양한 수준의 "이니셔티브" D8: 상호 작용, 참가자 음성이나 제스처를 사용한 입력과 같은 다양한 상호 작용 방법을 구상했습니다.