Downcodes小編帶你了解LLM2CLIP:一項提升CLIP模型效能的創新技術! CLIP作為重要的多模態基礎模型,在影像文字檢索等任務中表現出色,但處理長文字方面存在不足。微軟和同濟大學的研究人員為此提出了LLM2CLIP方法,巧妙地利用大型語言模型(LLMs)來增強CLIP的視覺表示學習能力,克服了原有CLIP模型的限制。
CLIP 作為檢索器,能夠支援零- shot 分類、檢測、分割和圖像- 文字檢索等多種任務。同時,作為特徵提取器,它在幾乎所有跨模態表示任務中佔據主導地位,例如圖像理解、視訊理解以及文字到圖像或視訊生成。 CLIP 的強大之處在於它能夠將圖像與自然語言連接,並捕捉人類知識,這得益於其在大規模網路資料上的訓練,其中包含詳細的文字描述。
然而,CLIP 在處理長而複雜的文字說明方面存在一定的限制。為了克服這個問題,微軟和同濟大學的研究人員提出了LLM2CLIP 方法,旨在透過整合大型語言模型(LLMs)來增強視覺表示學習。此方法大膽地取代了原有的CLIP 文字編碼器,利用LLMs 的豐富知識來提升CLIP 的視覺編碼器效能。研究發現,直接將LLMs 整合到CLIP 中會導致效能下降,因此需要解決這項挑戰。
LLM2CLIP 方法透過引入「標題對比微調」 技術,大大提高了LLM 在分離影像標題方面的能力,從而實現了效能的顯著提升。
研究者使用不同大小的資料集進行微調實驗,包括小型的CC-3M、中型的CC-3M 和CC-12M,以及大型的CC-3M、CC-12M、YFCC-15M 和Recaption-1B。結果表明,使用LLM2CLIP 訓練的模型在圖像到文字及文字到圖像檢索任務中表現優於傳統的CLIP 和EVA 模型。
透過與Llava1.5等模型結合進行多模態訓練,LLM2CLIP 在幾乎所有基準測試中表現出色,尤其是在處理長短文本檢索任務時,將先前的EVA02模型性能提升了16.5%。這項創新方法不僅將CLIP 從僅僅處理英文資料轉變為強大的跨語言模型,也為CLIP 訓練的未來研究奠定了基礎。
模型:https://huggingface.co/collections/microsoft/llm2clip-672323a266173cfa40b32d4c
代碼:https://github.com/microsoft/LLM2CLIP/
論文:https://arxiv.org/abs/2411.04997
LLM2CLIP 的出現為多模態模型的發展帶來了新的方向,其在處理長文本和跨語言任務上的突破值得關注。 更多資訊請訪問文中提供的連結。 期待未來更多基於LLM2CLIP的應用程式出現!