失敗的機器學習 (FML)
失敗的機器學習專案的引人注目的現實例子
「成功不是最終的,失敗也不是致命的。繼續前進的勇氣才是最重要的。 ——溫斯頓邱吉爾
如果您正在尋找機器學習儘管具有令人難以置信的潛力卻為何會失敗的示例,那麼您來對地方了。除了應用機器學習的精彩成功故事之外,這裡還列出了一些失敗的項目,我們可以從中學到很多東西。
內容
- 經典機器學習
- 電腦視覺
- 預測
- 影像生成
- 自然語言處理
- 推薦系統
經典機器學習
標題 | 描述 |
---|
亞馬遜人工智慧招募系統 | 人工智慧驅動的自動招聘系統因存在歧視女性候選人的證據而被取消 |
Genderify - 性別認同工具 | 由於內建偏見和不準確,旨在根據姓名和電子郵件地址等欄位識別性別的人工智慧工具已被關閉 |
基於機器學習的科學中的洩漏和可重複性危機 | 普林斯頓大學的團隊發現了 17 個科學領域的 20 篇評論,發現 329 篇使用基於機器學習的科學論文中存在重大錯誤(例如資料外洩、沒有訓練測試分割) |
COVID-19 診斷與分診模型 | 人們開發了數百種預測模型來更快診斷或分類 COVID-19 患者,但最終沒有一個適合臨床使用,有些可能有害 |
COMPAS累犯演算法 | 佛羅裡達州的累犯風險系統發現種族偏見的證據 |
賓州兒童福利篩檢工具 | 預測演算法(有助於確定社工將調查哪些家庭是否存在虐待和忽視兒童問題)標記了不成比例的黑人兒童進行「強制性」忽視調查。 |
俄勒岡州兒童福利篩檢工具 | 俄勒岡州兒童福利的人工智慧演算法與賓州的預測工具類似,在賓州報告發布一個月後也停止 |
美國醫療保健系統健康風險預測 | 一種廣泛使用的預測醫療保健需求的演算法表現出種族偏見,對於給定的風險評分,黑人患者的病情比白人患者嚴重得多 |
蘋果卡 信用卡 | 蘋果的新信用卡(與高盛合作創建)正在接受金融監管機構的調查,因為客戶抱怨該卡的貸款演算法歧視女性,男性客戶的 Apple Card 提供的信用額度是其男性客戶的 20 倍。 |
電腦視覺
標題 | 描述 |
---|
因弗內斯自動足球攝影機系統 | 用於直播的人工智慧攝影機足球追蹤技術多次將邊裁的光頭誤認為是球本身 |
針對美國國會議員的 Amazon Rekognition | 亞馬遜的臉部辨識技術 (Rekognition) 將 28 名國會議員與犯罪分子的照片進行了錯誤匹配,同時也暴露了演算法中的種族偏見 |
用於執法的 Amazon Rekognition | 亞馬遜的臉部辨識技術(Rekognition)將女性誤識別為男性,尤其是膚色較深的女性 |
浙江交通人臉辨識系統 | 交通攝影機系統(旨在捕捉交通違規)將公車側面的一張臉誤認為是亂穿馬路的人 |
Kneron 欺騙臉部辨識終端 | 耐能團隊利用高品質3D面具欺騙支付寶和微信支付系統進行購買 |
Twitter 智慧裁切工具 | Twitter 用於照片審查的自動裁剪工具顯示出明顯的種族偏見跡象 |
去像素器工具 | 旨在生成去像素臉孔的演算法(基於 StyleGAN)顯示出種族偏見的跡象,圖像輸出偏向白人 |
Google 相簿標記 | Google Photos 中的自動照片標記功能錯誤地將黑人標記為大猩猩 |
GenderShades 性別分類產品評價 | GenderShades 的研究表明,微軟和 IBM 用於識別照片中人物性別的臉部分析服務在分析深色皮膚女性的圖像時經常出錯 |
新澤西州警察臉部識別 | 新澤西州警方的虛假面部識別匹配導致一名無辜黑人(尼傑爾·帕克斯飾)入獄,儘管他距離犯罪現場 30 英里 |
特斯拉在馬車和卡車之間的困境 | 特斯拉的可視化系統將一輛馬車誤認為一輛卡車,後面有一個人走著,這讓特斯拉的可視化系統感到困惑 |
谷歌用於糖尿病視網膜病變檢測的人工智慧 | 視網膜掃描工具在現實生活中的表現比對照實驗中的表現要差得多,存在諸如掃描被拒絕(由於掃描圖像質量差)以及將圖像上傳到雲進行處理時間歇性互聯網連接造成的延遲等問題 |
預測
標題 | 描述 |
---|
谷歌流感趨勢 | 基於谷歌搜尋的流感流行預測模型產生了不準確的高估 |
Zillow iBuying 演算法 | 由於房產估值模型的價格不準確(高估),Zillow 的炒房業務遭受重大損失 |
Tyndaris 機器人對沖基金 | 由名為 K1 的超級電腦控制的人工智慧自動交易系統導致巨額投資損失,最終引發訴訟 |
Sentient Investment 人工智慧對沖基金 | Sentient Investment Management 曾經風光無限的人工智慧基金未能獲利,不到兩年就迅速清算 |
摩根大通的外匯演算法深度學習模型 | 摩根大通已經逐步淘汰了用於外匯演算法執行的深度神經網絡,理由是數據解釋和所涉及的複雜性問題。 |
影像生成
標題 | 描述 |
---|
Playground AI 臉部生成 | 當要求將亞洲人頭像圖像轉換為專業的 LinkedIn 個人資料照片時,人工智慧圖像編輯器產生的輸出具有使其看起來像白人的特徵 |
穩定的擴散文字到圖像模型 | 在彭博社進行的一項實驗中,發現穩定擴散(文字到圖像模型)在數千張生成的與職位和犯罪相關的圖像中表現出種族和性別偏見 |
雙子座影像生成中的歷史錯誤 | 谷歌的雙子座影像生成功能被發現產生不準確的歷史圖像描述,試圖顛覆性別和種族刻板印象,例如在提示生成美國開國元勳時返回非白人人工智慧生成的人 |
自然語言處理
標題 | 描述 |
---|
微軟 Tay 聊天機器人 | 透過其 Twitter 帳戶發布煽動性和攻擊性推文的聊天機器人 |
納布拉聊天機器人 | 使用雲端託管的 GPT-3 實例的實驗聊天機器人(用於醫療建議)建議模擬患者自殺 |
Facebook 談判聊天機器人 | 聊天機器人在談判中停止使用英語並開始使用他們自己創建的語言後,人工智慧系統被關閉 |
OpenAI GPT-3 聊天機器人 Samantha | 獨立遊戲開發者Jason Rohrer 微調了一個GPT-3 聊天機器人來模仿他死去的未婚妻,但由於擔心該聊天機器人存在種族主義或明顯的性傾向,Jason 拒絕了OpenAI 插入自動監控工具的請求,因此該機器人被OpenAI 關閉。 |
亞馬遜 Alexa 播放色情內容 | 在一名幼兒要求亞馬遜的聲控數位助理播放一首兒歌後,它發出了一系列粗俗的語言。 |
卡拉狄加 - Meta 的大型語言模型 | 《卡拉狄加》的一個問題是它無法區分真假,而這是旨在產生科學文本的語言模型的基本要求。人們發現它會編造假論文(有時將其歸於真實作者),並產生有關太空熊歷史的文章,就像有關蛋白質複合物的文章一樣容易。 |
能源公司涉嫌語音模仿詐欺 | 網路犯罪分子使用基於人工智慧的軟體冒充執行長的聲音,要求進行欺詐性轉賬,作為語音欺騙攻擊的一部分 |
當被問及 Covid-19 問題時,衛生部聊天機器人會提供安全性行為建議 | 新加坡衛生部 (MOH) 的「Ask Jamie」聊天機器人在被問及如何管理 COVID-19 陽性結果時提供了有關安全性行為的錯誤答覆後被暫時禁用 |
Google 的 BARD 聊天機器人演示 | 在其第一個公開展示廣告中,巴德在哪顆衛星首先拍攝了地球太陽系外行星的照片方面犯了事實錯誤。 |
ChatGPT 故障類別 | 對迄今為止 ChatGPT 中出現的十類失敗進行了分析,包括推理、事實錯誤、數學、編碼和偏見。 |
抖音用戶吐槽麥當勞搞笑的得來速人工智慧訂單失敗 | 在一些例子中,生產/部署的語音助理無法正確下單,導致麥當勞的品牌/聲譽受損 |
Bing 聊天機器人精神錯亂的情緒行為 | 在某些對話中,Bing 的聊天機器人會做出爭論和情緒化的反應 |
Bing 的 AI 引用了來自 ChatGPT 的 COVID 虛假信息 | Bing 對 COVID-19 反疫苗宣傳的詢問的回應不准確,並且基於來自不可靠來源的虛假信息 |
AI 生成的《宋飛正傳》因跨性別笑話而在 Twitch 上被暫停 | 人工智慧的內容過濾器出現錯誤,導致角色「拉里」進行了一場恐跨性的單口喜劇表演。 |
ChatGPT 引用虛假法律案例 | 一名律師使用 OpenAI 流行的聊天機器人 ChatGPT 來「補充」他自己的發現,但得到的卻是完全捏造的先前不存在的案例 |
加拿大航空聊天機器人提供錯誤訊息 | 加拿大航空的人工智慧機器人給出了與航空公司有關喪親票價的政策不一致的答案。 |
AI機器人進行非法內線交易並對其行為撒謊 | 名為 Alpha 的人工智慧投資管理系統聊天機器人(基於 OpenAI 的 GPT-4,由 Apollo Research 開發)證明,它能夠進行非法金融交易並對其行為撒謊。 |
推薦系統
標題 | 描述 |
---|
IBM 的沃森健康 | 據稱,IBM 的 Watson 為治療癌症患者提供了許多不安全和不正確的建議 |
Netflix - 100 萬美元挑戰 | 贏得 100 萬美元挑戰的推薦系統將建議的基線提高了 8.43%。然而,這種性能提升似乎並不能證明將其引入生產環境所需的工程工作是合理的。 |