Visual Captions 字幕ツール、Visual Captions は、ユーザーの仕事会議でより多くの字幕の表示を改善し、オフィスでのコミュニケーションをより便利にする、新しくリリースされた強力な字幕ツールです。困っているユーザーはぜひ参加してください。
Google は、人間とコンピュータのインタラクションに関するトップカンファレンスである ACM CHI (コンピューティング システムにおけるヒューマン ファクターに関するカンファレンス) で、ビジュアル キャプションというシステムをデモンストレーションし、リモート会議で画像を生成または取得できる新しいビジュアル ソリューションを紹介しました。相手のパフォーマンスを向上させるための会話。複雑な概念や馴染みのない概念についての知識。
Visual Captions システムは、語彙の自由な会話において関連する視覚要素を積極的に推奨できる、微調整された大規模な言語モデルに基づいており、オープンソース プロジェクト ARChat に統合されています。
ユーザー調査では、研究者らは研究室の参加者 26 名と研究室外の参加者 10 名を対象にシステムを評価してもらいましたが、80% 以上のユーザーが、ビデオ キャプションがさまざまなシナリオで役立つ視覚的な推奨事項を提供できることに基本的に同意しました。 、コミュニケーション体験を向上させます。
開発前に、研究者らはまず、ソフトウェア エンジニア、研究者、UX デザイナー、ビジュアル アーティスト、学生、および技術的および非技術的背景を持つその他の実践者を含む 10 人の社内参加者を招待し、リアルタイムのビジュアル強化サービスの具体的なニーズと要件について話し合いました。期待する。
2 回の会議の後、既存のテキストから画像へのシステムに基づいて、主に 8 つの次元 (D1 から D8 として表示) を含む、予想されるプロトタイプ システムの基本設計が確立されました。
D1: タイミング、視覚強化システムはダイアログと同期または非同期で表示できます。
D2: スピーチの内容を表現し理解するために使用できるトピック
D3: ビジュアル、幅広いビジュアル コンテンツ、ビジュアル タイプ、ビジュアル ソースを使用
D4: スケール、視覚的な強化は会議の規模に応じて異なる場合があります
D5: スペース (ビデオ会議が同じ場所で行われるか、リモート環境で行われるかに関係なく)
D6: プライバシー。これらの要素は、ビジュアルを非公開で表示するか、参加者間で共有するか、全員が利用できるようにするかにも影響します。
D7: 初期状態。参加者は、会話に参加するときにシステムと対話したいさまざまな方法も識別しました。たとえば、システムがいつチャットに介入するかをユーザーが自律的に決定できるさまざまなレベルの「イニシアチブ」 D8: インタラクション、参加者音声やジェスチャーを使用した入力など、さまざまなインタラクション方法を想定