本文探討了語言模型中潛藏的隱性種族主義偏見,特別是針對非裔美國英語(AAE)的歧視。研究發現,即使在表面上表現出正面態度,語言模型在實際應用中仍然會體現出與過去最負面刻板印象高度重合的隱性偏見,例如在工作分配和司法判決中體現出不公平性。這不僅揭示了演算法中反映的人類社會複雜種族態度,也凸顯了在開發和應用語言模型時,必須重視並解決潛在的偏見問題,以確保技術公平與安全。
在當今這個科技快速發展的時代,語言模型已經成為我們生活中不可或缺的工具。從幫助教師制定課程計劃,到回答稅務法律的問題,再到預測病人出院前的死亡風險,這些模型的應用領域可謂廣泛。
然而,隨著它們在決策中的重要性不斷上升,我們也不得不擔心這些模型是否會無意中反映出人類在訓練資料中潛藏的偏見,進而加劇對少數族裔、性別和其他邊緣化群體的歧視。
早期的AI 研究雖然揭示了對種族群體的偏見,但主要集中在顯性種族歧視上,即直接提及某個種族及其相應的刻板印象。隨著社會的發展,社會學家提出了一種新的、更隱密的種族主義觀念,稱為「隱性種族主義」。這種形式不再以直接的種族歧視為特徵,而是以「無色」 種族主義意識形態為基礎,儘管避免提及種族,卻依然抱持著對有色人種的負面信念。
本研究首次揭示了語言模型在某種程度上也傳遞著隱性種族主義的概念,尤其是在對非裔美國英語(AAE)的人進行評判時。 AAE 是一種與美國黑人的歷史和文化密切相關的方言。透過分析語言模型在面對AAE 時的表現,我們發現這些模型在做出決策時展現出一種有害的方言歧視,表現出比任何已記錄的對非裔美國人的負面刻板印像都要更為消極的態度。
在我們研究的過程中,我們使用了一種名為「匹配偽裝」 的方法,透過將AAE 和標準美國英語(SAE)的文本進行對比,探討了語言模型對說不同方言的人的判斷差異。在這過程中,我們發現語言模型不僅在表面上對非裔美國人持有更積極的刻板印象,但在深層的隱性偏見上卻與過去最負面的刻板印象高度重疊。
例如,當模型被要求將工作配對給說AAE 的人時,它們傾向於將這些人分配到較低層級的工作,儘管並沒有被告知這些人的種族。同樣,在一個假設性的案例中,當模型被要求對一名用AAE 作供的謀殺犯做出判決時,它們顯著更傾向於判處死刑。
更令人擔憂的是,當前一些旨在緩解種族偏見的做法,像是透過人類回饋的訓練,實際上加劇了隱性和顯性刻板印象之間的差距,讓潛在的種族主義在表面上看起來不那麼明顯,卻在更深層次繼續存在。
這些發現突顯了語言科技公平和安全使用的重要性,尤其是在其可能對人類生活產生深遠影響的背景下。儘管我們已經採取了措施來消除顯性偏見,但語言模型仍然透過方言特徵,顯示出對講AAE 的人的隱性種族歧視。
這不僅反映了人類社會中複雜的種族態度,也提醒我們在開發和使用這些技術時,必須更加小心和敏感。
參考資料:https://www.nature.com/articles/s41586-024-07856-5
研究結果警告我們,需要進一步深入研究語言模型中的偏見,並發展更有效的去偏見方法。 只有這樣,才能確保人工智慧技術能夠公平、公正地服務於所有人,避免加劇社會不公。