谷歌最新發表的人工智慧模式PaliGemma2,具備影像分析和產生標題的能力,並可回答關於照片中人物情感和行為等問題。模型基於Gemma開放模型系列,提供比傳統物件辨識更深入的影像描述,能夠辨識情緒並產生符合情境的詳細描述。然而,這項技術的倫理和社會影響引發了專家們的擔憂,其情緒識別功能的可靠性及潛在的濫用風險成為關注焦點。本文將深入探討PaliGemma2的技術特點、倫理爭議以及未來發展。
谷歌日前發布了其新一代人工智慧模型——PaliGemma2,該技術分析圖像並產生標題,同時回答關於照片中人物的情感和行動等問題。 PaliGemma2基於Google的Gemma 開放模型系列,提供比傳統物體辨識更深刻的影像描述,能夠辨識情緒並產生符合情境的詳細描述。然而,儘管這項技術看似突破性創新,但專家卻對其潛在的倫理和社會影響提出了嚴重警告。
情緒辨識並非PaliGemma2的標準功能,而是透過微調實現的。儘管谷歌表示其已進行了“廣泛測試”,並且在人口統計偏見方面表現優於行業基準,專家們仍對該技術的可靠性表示擔憂。牛津大學的桑德拉·沃赫特教授認為,“通過人工智慧來'讀懂'人類情緒存在重大問題”,並且這一過程過於依賴假設,可能導致誤判和偏見。
情緒辨識技術長期以來一直是技術界爭議的焦點。雖然早期研究如保羅艾克曼的情緒理論提出了六種基本情緒,但後續的研究表明,不同文化和背景下的情緒表達差異巨大。英國瑪麗皇后大學的麥克庫克研究員指出,「情緒體驗的複雜性使得情緒檢測幾乎不可能做到準確」。此外,研究表明,現有的面部表情分析系統常常對某些情緒產生偏見,例如微笑或不同種族面部表情的差異。
隨著情緒辨識技術逐漸商業化,其可能帶來的濫用風險引起了各方關注。部分專家擔心,這類技術可能用於執法、招募等領域,進一步加劇社會的不平等。歐盟的人工智慧法案已經針對情緒辨識技術提出了嚴格的限制,尤其是在高風險環境中的應用。
谷歌則堅稱,PaliGemma2在測試階段已充分考慮了倫理和安全問題,尤其是在兒童和內容安全方面。然而,這些保證是否足夠,仍需受到嚴格審視。 AI Now Institute的Heidy Khlaaf博士表示,情緒辨識不僅是視覺問題,還涉及深層的社會和文化背景,「僅憑臉部特徵無法準確推斷情緒」。
隨著這項技術的公開發布,PaliGemma2不僅將推動人工智慧在圖像理解領域的應用,也將對社會倫理和資料隱私提出新的挑戰,亟需相關監管機構的關注和介入。
PaliGemma2的出現,無疑地推動了人工智慧影像理解技術的發展,但也暴露出情緒辨識技術的限制和潛在風險。 未來,科技的應用需要在創新與倫理之間找到平衡,加強監管,確保其不會被濫用,才能更好地服務社會。