Meta近期低調發布了六項重磅AI研究成果,涵蓋多模態模型、文字生成音樂、音訊浮水印技術以及資料集等多個領域,展現了其在人工智慧領域的持續創新和技術實力。這些研究成果不僅為AI領域的應用提供了新的可能性,也為未來技術發展方向提供了寶貴的參考。以下將詳細介紹這些令人矚目的研究成果。
日前,Meta 低調的發布了六項研究成果,為AI 領域帶來了新的應用和技術突破。其中包括了多模態模型、文字生成音樂模型、音訊浮水印技術、資料集等多個項目。下面一起來看看這些研究成果具體都是哪些。
Meta Chameleon(“變色龍”模型)
首先,發布的多模態模型「Chameleon」 可以同時處理文字和圖像,支援混合輸入和輸出文本,為處理多模態資料提供了全新的解決方案。
雖然大多數目前的後期融合模型使用基於擴散的學習,但Meta Chameleon 對文字和圖像使用標記化。這可以實現更統一的方法,並使模型更易於設計、維護和擴展。
如下影片案例:圖像生成創意標題或使用文字提示和圖像的混合來創建一個全新的場景
目前,Meta將根據研究許可公開發布Chameleon7B 和34B 模型的關鍵組件。其目前發布的模型經過了安全調整,支援混合模式輸入和純文字輸出,可用於研究目的。官方強調不會發布Chameleon 圖像生成模型。
產品入口:https://top.aibase.com/tool/meta-chameleon
Multi-Token Prediction(多詞預測)
新的語言模型訓練方法「Multi-Token Prediction」 旨在提高模型能力和訓練效率,將訓練模型一次預測多個單詞,提升了模型的預測準確性。
使用這種方法,可以訓練語言模型來同時預測多個未來單詞,而不是以前每次預測一個單詞的方法。這提高了模型能力和訓練效率,同時提高了速度。本著負責任的開放科學精神,官方將根據非商業/研究專用許可證發布預訓練模型以供代碼完成。
產品入口:https://top.aibase.com/tool/multi-token-prediction
文本生成音樂模型“JASCO”
雖然現有的文本轉音樂模型(如MusicGen)主要依靠文字輸入來產生音樂,但Meta的新模型「用於時間控製文字轉音樂產生的元聯合音訊和符號條件」(JASCO)能夠接受各種條件輸入,例如特定的和弦或節拍,以改善對產生的音樂輸出的控制。具體來說,可以將資訊瓶頸層與時間模糊結合使用,以提取與特定控制相關的資訊。這允許在同一個文字轉音樂生成模型中同時結合符號和基於音訊的條件。
JASCO 在生成品質方面與評估基準相當,同時允許對生成的音樂進行更好、更靈活的控制。官方將發布研究論文和範例頁面,本月稍後將在MIT 許可下作為AudioCraft儲存庫的一部分發布推理程式碼,並在CC-BY-NC 下發布預訓練模型。
程式碼入口:https://top.aibase.com/tool/audiocraft
音訊浮水印技術“AudioSeal”
這是第一個專為局部偵測AI 產生的語音而設計的音訊浮水印技術,可精確定位較長音訊片段中的AI 所產生的片段。 AudioSeal 透過專注於檢測AI 產生的內容而不是隱寫術來改進傳統的音訊浮水印。
與依賴複雜解碼演算法的傳統方法不同,AudioSeal 的局部檢測方法可以實現更快、更有效率的檢測。與以前的方法相比,這種設計將檢測速度提高了485倍,使其非常適合大規模和即時應用。我們的方法在音頻水印的穩健性和不可感知性方面實現了最先進的性能。
AudioSeal 是根據商業許可發布。
產品入口:https://top.aibase.com/tool/audioseal
PRISM 資料集
同時,Meta 也發布了與外部夥伴合作的PRISM 資料集,包含全球1500名參與者的對話資料和偏好,用於改進大型語言模型,從而提高模型的對話多樣性、偏好多樣性和社會效益。
此資料集將每個人的偏好和細粒度回饋映射到與21位元不同LLM 的8,011次即時對話中。
資料集入口:https://huggingface.co/datasets/HannahRoseKirk/prism-alignment
“DIG In” 指標
用於評估文字生成影像模型中存在的地理差異,為模型改進提供了更多的參考數據。為了了解不同地區的人們對地理表示的看法有何不同,Meta進行了大規模註釋研究。我們為每個範例收集了超過65,000條註釋和超過20份調查回复,涵蓋吸引力、相似性、一致性和共享建議,以改進對文字轉圖像模型的自動和人工評估。
程式碼入口:https://top.aibase.com/tool/dig-in
這些專案的發佈為AI 領域帶來了新的技術突破和應用前景,對於推動AI 技術的發展和應用具有重要意義。
總而言之,Meta 這次發布的六項AI 研究成果,展現了其在多模態、文字生成、音訊處理和資料集建構等方面的領先技術和前瞻性佈局。這些技術的進步將推動AI 領域進一步發展,並為未來的應用帶來更多可能性。