충격! 당신의 AI 채팅 파트너가 비밀리에 "마음 읽기" 기술을 배웠습니다! —— INFP는 두 사람 간의 대화를 위한 새로운 자세를 잠금 해제하도록 안내합니다.

저자：Eve Cole 업데이트 시간：2024-12-26 18:32:01

최근 몇 년 동안 AI 가상 아바타 기술이 급속도로 발전했지만, 상호작용성은 여전히 적용을 제한하는 주요 병목 현상입니다. 많은 AI 가상 아바타는 대화에서 경직되고 현실성이 부족하며 사용자와 자연스러운 상호 작용을 달성할 수 없습니다. 이를 위해 INFP라는 신기술이 탄생했다. 2인 대화에서 AI 가상 아바타 간의 상호작용이 부족한 문제를 해결해 가상 캐릭터가 실제 사람처럼 자연스럽고 원활하게 감정과 행동을 표현할 수 있도록 하는 것이다. 인간과 컴퓨터의 상호작용 경험을 완전히 바꿔보세요.

최근에는 INFP(Interactive, Natural, Flash, Person-generic)라는 새로운 기술이 큰 주목을 받고 있습니다. 이 기술은 2인 대화에서 현재 AI 가상 아바타 간 상호작용이 부족한 문제를 해결해 가상 캐릭터가 대화 중에 실제 사람처럼 상호작용할 수 있도록 하고, 대화 내용에 따라 표정과 동작을 동적으로 조정하는 것을 목표로 한다.

'스탠드업 코미디'에 작별을 고하고 '더블 코러스'를 환영합니다.

과거 AI 아바타는 '스탠드업 코미디언' 배우처럼 자기 자신에게만 말을 할 수 있었고, '나무 사람'처럼 피드백 없이 멍청하게 듣기만 할 수 있었다. 하지만 우리의 인간적인 대화는 그렇지 않습니다! 우리가 말할 때, 우리는 서로를 바라보고, 고개를 끄덕이고, 심지어 농담을 하기도 합니다. 이것이 진정한 상호작용입니다!

INFP의 등장은 이러한 당황스러운 상황을 완전히 바꿔줄 것입니다! 마치 당신과 AI 사이의 대화 오디오를 기반으로 AI 아바타의 표정과 움직임을 동적으로 조정할 수 있는 "더블 코러스" 지휘자와 같습니다. like 실제 사람과 대화하는 것 같아요!

INFP의 "독특한 비밀": 두 가지 트릭, 하나는 필수입니다!

INFP가 그토록 강력한 이유는 주로 두 가지 "고유한 비밀" 때문입니다.

동작 기반 머리 모방:

먼저 '행동 흉내의 달인'처럼 수많은 실제 대화 영상에서 인간의 표정과 움직임을 학습해 이러한 복잡한 행동을 '행동 코드'로 압축한다.

움직임을 더욱 사실적으로 표현하기 위해 눈과 입의 두 가지 "표정"에도 "클로즈업"을 준 것처럼 세심한 주의를 기울였습니다.

또한 얼굴의 핵심 포인트를 사용하여 표정 생성을 지원하여 움직임의 정확성과 자연스러움을 보장합니다.

그런 다음 이러한 "액션 코드"를 정적 아바타에 적용하여 마법처럼 아바타를 즉시 "살아있게" 만듭니다!

오디오 기반 모션 생성:

이 "생성기"는 "소리를 듣고 위치를 식별"할 수 있는 마스터처럼 사용자와 AI 간의 대화 오디오를 더욱 강력하게 이해할 수 있습니다.

오디오에서 누가 말하고 있고 누가 듣고 있는지 분석한 다음 AI 아바타의 상태를 동적으로 조정하여 수동으로 역할을 전환할 필요 없이 "말하기"와 "듣기" 사이를 자유롭게 전환할 수 있습니다.

언제든지 가장 적절한 행동을 추출하는 두 개의 '보물상자'처럼 각각 '말할 때'와 '들을 때'의 다양한 행동을 저장하는 두 개의 '메모리 뱅크'도 탑재됐다.

또한 음성 스타일에 따라 AI 아바타의 분위기와 태도를 조정할 수 있어 대화가 더욱 활기차고 흥미로워집니다.

마지막으로, "확산 모델"이라는 기술을 사용하여 이러한 움직임을 부드럽고 자연스러운 애니메이션으로 변환하여 지연이 느껴지지 않도록 합니다.

DyConv: "가십"으로 가득한 거대한 대화 데이터 세트!

연구진은 '슈퍼 AI' INFP를 훈련시키기 위해 DyConv라는 초대형 대화 데이터 세트도 특별히 수집했습니다!

이 데이터세트에는 200시간이 넘는 대화 영상이 담겨 있는데, 그 안에는 전 세계에서 온 사람들이 있고, 대화 내용도 그야말로 다양하다.

DyConv 데이터 세트의 비디오 품질은 매우 높아 모든 사람의 얼굴이 선명하게 보입니다.

연구진은 또한 AI 학습을 촉진하기 위해 가장 진보된 음성 분리 모델을 사용하여 각 사람의 음성을 별도로 추출했습니다.

INFP의 "18무술": 말을 할 수 있을 뿐만 아니라...

INFP는 두 사람의 대화에서 자신의 재능을 보여줄 수 있을 뿐만 아니라 다른 시나리오에서도 빛을 발할 수 있습니다.

"듣는 머리 세대" 모드: "잘 듣는" 모범생처럼 상대방의 말에 따라 상응하는 표정과 행동을 할 수 있습니다.

"말하는 머리 생성" 모드: 아바타가 "복화술사" 마스터처럼 오디오를 기반으로 사실적인 입 모양을 만들 수 있습니다.

INFP의 힘을 증명하기 위해 연구자들은 수많은 실험을 수행했으며 그 결과는 다음과 같습니다.

다양한 지표에서 INFP는 영상 품질, 립싱크, 동작 다양성 등 다른 유사한 방법을 압도하며 우수한 결과를 얻었습니다.

사용자 경험 측면에서도 참가자들은 INFP가 생성한 영상이 더 자연스럽고 생생하며 오디오와 더 잘 어울린다는 점에 동의했습니다.

연구원들은 또한 INFP의 모든 모듈이 필수적이라는 것을 증명하기 위해 절제 실험을 수행했습니다.

프로젝트 주소: https://grisoon.github.io/INFP/

INFP 기술의 혁신은 AI 가상 아바타의 상호작용 경험에 혁명적인 변화를 가져와 실제 인간 상호작용 방식에 더욱 가까워졌습니다. 앞으로 INFP 기술은 가상 비서, 온라인 교육, 엔터테인먼트 등 다양한 분야에서 널리 활용되어 사용자에게 더욱 자연스럽고 생생하며 몰입감 있는 상호 작용 경험을 선사할 것으로 예상됩니다.