메타는 최근 멀티모달 모델, 텍스트 생성 음악, 오디오 워터마킹 기술, 데이터 세트 등 다양한 분야를 포괄하는 6가지 주요 AI 연구 결과를 조용히 공개해 인공지능 분야에서 지속적인 혁신과 기술력을 입증했다. 이러한 연구 결과는 AI 분야의 새로운 응용 가능성을 제시할 뿐만 아니라, 향후 기술 발전 방향에 대한 귀중한 참고 자료가 됩니다. 이러한 인상적인 연구 결과는 아래에 자세히 설명되어 있습니다.
최근 Meta는 AI 분야에 새로운 응용 프로그램과 기술 혁신을 가져오는 6가지 연구 결과를 조용히 발표했습니다. 여기에는 다중 모드 모델, 텍스트 생성 음악 모델, 오디오 워터마킹 기술, 데이터 세트 및 기타 프로젝트가 포함됩니다. 이들 연구의 구체적인 결과를 살펴보자.
메타 카멜레온("카멜레온" 모델)
먼저, 출시된 멀티모달 모델 '카멜레온'은 텍스트와 이미지를 동시에 처리할 수 있고, 혼합된 입출력 텍스트를 지원하며, 멀티모달 데이터 처리를 위한 새로운 솔루션을 제공한다.
대부분의 최신 후기 융합 모델은 확산 기반 학습을 사용하지만 Meta Chameleon은 텍스트와 이미지에 토큰화를 사용합니다. 이를 통해 보다 통합된 접근 방식이 가능하고 모델을 보다 쉽게 설계, 유지 관리 및 확장할 수 있습니다.
비디오 예: 이미지에서 창의적인 제목을 생성하거나 텍스트 프롬프트와 이미지를 혼합하여 완전히 새로운 장면을 만듭니다.
Meta는 이제 연구 라이센스에 따라 Chameleon7B 및 34B 모델의 주요 구성 요소를 공개적으로 출시할 예정입니다. 현재 출시된 모델은 보안 조정이 가능하고 혼합 모드 입력 및 일반 텍스트 출력을 지원하며 연구 목적으로 사용할 수 있습니다. 관계자는 카멜레온 이미지 생성 모델은 출시되지 않을 것이라고 강조했다.
제품 입구: https://top.aibase.com/tool/meta-chameleon
다중 토큰 예측
새로운 언어 모델 훈련 방법인 '멀티 토큰 예측'은 모델 성능과 훈련 효율성을 향상시키는 것을 목표로 하며, 한 번에 여러 단어를 예측하도록 모델을 훈련시켜 모델의 예측 정확도를 향상시킵니다.
이 접근 방식을 사용하면 한 번에 하나의 단어를 예측하는 이전 방법이 아닌 여러 미래 단어를 동시에 예측하도록 언어 모델을 훈련할 수 있습니다. 이는 속도를 높이면서 모델 기능과 훈련 효율성을 향상시킵니다. 책임감 있는 개방형 과학의 정신에 따라 사전 훈련된 모델은 비상업적/연구 전용 라이선스에 따라 코드 완성을 위해 출시될 예정입니다.
제품 입구: https://top.aibase.com/tool/multi-token-prediction
텍스트 생성 음악 모델 "JASCO"
MusicGen과 같은 기존 텍스트-음악 모델은 주로 텍스트 입력에 의존하여 음악을 생성하는 반면, Meta의 새로운 모델인 Meta-Joint Audio and Symbol Conditioning for Temporally Controlled Text-to-Music Generation(JASCO)은 다양한 텍스트-음악 생성을 수용할 수 있습니다. 결과적인 음악 출력에 대한 제어를 향상시키기 위해 특정 코드나 비트와 같은 조건 입력. 특히, 정보 병목 계층은 특정 제어와 관련된 정보를 추출하기 위해 시간적 퍼지와 함께 사용될 수 있습니다. 이를 통해 동일한 텍스트-음악 생성 모델에서 기호 및 오디오 기반 조건을 동시에 결합할 수 있습니다.
JASCO는 생성 품질 측면에서 평가 기준과 유사하며 생성된 음악을 보다 효율적이고 유연하게 제어할 수 있습니다. 관계자들은 연구 논문과 예시 페이지를 발표할 예정이며, 이번 달 말에 추론 코드는 MIT 라이선스에 따라 AudioCraft 저장소의 일부로 공개될 예정이며, 사전 훈련된 모델은 CC-BY-NC에 따라 공개될 예정입니다.
코드 입력: https://top.aibase.com/tool/audiocraft
오디오 워터마크 기술 "AudioSeal"
이는 AI 생성 음성의 로컬 감지를 위해 특별히 설계된 최초의 오디오 워터마킹 기술로, 더 긴 오디오 클립 내에서 AI 생성 세그먼트의 정확한 위치를 파악할 수 있습니다. AudioSeal은 스테가노그래피가 아닌 AI 생성 콘텐츠 감지에 중점을 두어 기존 오디오 워터마크를 개선합니다.
복잡한 디코딩 알고리즘에 의존하는 기존 방법과 달리 AudioSeal의 로컬 감지 접근 방식은 더 빠르고 효율적인 감지를 가능하게 합니다. 이 설계는 이전 방법에 비해 감지 속도를 485배 향상시켜 대규모 및 실시간 애플리케이션에 이상적입니다. 우리의 방법은 오디오 워터마크의 견고성과 비가시성 측면에서 최첨단 성능을 달성합니다.
AudioSeal은 상용 라이센스에 따라 출시됩니다.
제품 입구: https://top.aibase.com/tool/audioseal
프리즘 데이터세트
동시에 Meta는 외부 파트너와 협력하여 전 세계 1,500명의 참가자의 대화 데이터와 선호도가 포함된 PRISM 데이터 세트도 공개했습니다. 이는 대규모 언어 모델을 개선하는 데 사용되어 대화의 다양성, 선호도를 향상시킵니다. 모델의 다양성과 사회적 이점.
이 데이터세트는 각 개인의 선호도와 세분화된 피드백을 21개의 LLM과의 8,011개의 실시간 대화에 매핑합니다.
데이터세트 입구: https://huggingface.co/datasets/HannahRoseKirk/prism-alignment
"DIG In" 표시기
텍스트 생성 이미지 모델의 지리적 차이를 평가하는 데 사용되며 모델 개선을 위한 더 많은 참조 데이터를 제공합니다. 다른 지역의 사람들이 지리적 표현을 어떻게 다르게 보는지 이해하기 위해 Meta는 대규모 주석 연구를 수행했습니다. 우리는 텍스트-이미지 모델의 자동 및 인간 평가를 개선하기 위해 매력도, 유사성, 일관성 및 공유 권장 사항을 다루는 각 예에 대해 65,000개 이상의 주석과 20개 이상의 설문 조사 응답을 수집했습니다.
코드 입력: https://top.aibase.com/tool/dig-in
이러한 프로젝트의 출시는 AI 분야에 새로운 기술 혁신과 응용 전망을 가져왔으며 AI 기술의 개발 및 응용을 촉진하는 데 큰 의미가 있습니다.
전체적으로 Meta가 이번에 발표한 6가지 AI 연구 결과는 다중 양식, 텍스트 생성, 오디오 처리 및 데이터 세트 구성 분야에서 선도적인 기술과 미래 지향적인 레이아웃을 보여줍니다. 이러한 기술의 발전은 AI 분야의 추가 개발을 촉진하고 미래 응용 분야에 더 많은 가능성을 가져올 것입니다.