在影像檢索領域,如何快速且精準地找到目標圖片一直是研究熱點。傳統的文字為基礎的檢索方法難以應對草圖、藝術畫等多樣化的查詢風格。北京大學袁粒課題組聯合南洋理工大學和清華自動化所的研究人員,突破性地提出了一種「通用風格檢索」方法,並構建了相應的FreestyleRet框架,實現了對不同風格圖像的精準檢索,為影像檢索技術帶來了革命性的進步,極大地提升了檢索效率和準確性,為使用者提供了更便利、更聰明的圖片搜尋體驗。
在數位化時代,我們每天都在與海量圖片打交道。但你有沒有想過,如果能夠透過一張草圖、一幅藝術畫,甚至是一張模糊不清的照片,就迅速找到我們想要的圖片,那將是多麼神奇的體驗?北京大學的袁粒課題組與南洋理工大學、清華自動化所的研究人員們,就給我們帶來了這樣一個驚喜——一種全新的圖像檢索技術,它能夠應對多樣化的查詢風格,無論是草圖、藝術畫還是低解析度影像,都能精準搭配。
這項技術的核心,是他們提出的「通用風格檢索」方法。它不同於傳統的基於文本的圖片檢索,新方法能夠處理多種查詢風格,甚至是組合查詢,如草圖加文本,藝術畫加文本等。這不僅提升了檢索的彈性,也大大提高了檢索的準確性。
為了實現這一目標,研究團隊建立了兩個獨特的資料集:DSR(Diverse-Style Retrieval Dataset)和ImageNet-X。 DSR包含了10,000張自然圖片和四種檢索風格的對應文本,而ImageNet-X則包含了100萬張帶有各種風格標註的自然圖片。這兩個資料集的建立,為新方法提供了豐富的訓練和測試資源。
更令人興奮的是,研究團隊也提出了一個名為FreestyleRet的框架。這個框架透過提取圖片風格並將其註入到檢索模型中,有效解決了現有模型無法相容於不同類型檢索向量的問題。 FreestyleRet框架由三個主要模組組成:風格提取模組、風格空間構建模組和風格啟發的提示微調模組。這些模組共同工作,使得檢索模型能夠理解和處理各種風格的查詢向量。
在實驗中,FreestyleRet框架展現了卓越的性能。它不僅在DSR和ImageNet-X資料集上的Recall@1和Recall@5效能上取得了顯著提升,而且在處理多種不同風格的查詢向量時,也表現出了良好的泛化能力和擴展性。
這項研究的成果已經公開發表,並在arXiv上可以查閱到詳細的論文。同時,相關的程式碼和資料集也已經開源,供有興趣的研究者和開發者進一步探索和應用。
這不僅是影像檢索領域的技術飛躍,更是對我們每個人日常生活的巨大便利。想像一下,未來無論是尋找靈感、進行學術研究或日常娛樂,我們都將能夠更快、準確地找到所需的圖片資源。這正是科技的力量,讓一切變成可能。
論文網址:https://arxiv.org/pdf/2312.02428
這項基於「通用風格檢索」的影像檢索技術為未來圖片搜尋帶來了新的可能性,其開源的程式碼和資料集將促進該領域進一步發展,為更多應用場景提供技術支持,開啟更加便捷高效率的圖片搜尋時代。