失败的机器学习 (FML)
失败的机器学习项目的引人注目的现实例子
“成功不是最终的,失败也不是致命的。继续前进的勇气才是最重要的。” ——温斯顿·丘吉尔
如果您正在寻找机器学习尽管具有令人难以置信的潜力却为何会失败的示例,那么您来对地方了。除了应用机器学习的精彩成功故事之外,这里还列出了一些失败的项目,我们可以从中学到很多东西。
内容
- 经典机器学习
- 计算机视觉
- 预测
- 图像生成
- 自然语言处理
- 推荐系统
经典机器学习
标题 | 描述 |
---|
亚马逊人工智能招聘系统 | 人工智能驱动的自动招聘系统因存在歧视女性候选人的证据而被取消 |
Genderify - 性别识别工具 | 由于内置偏见和不准确,旨在根据姓名和电子邮件地址等字段识别性别的人工智能工具已被关闭 |
基于机器学习的科学中的泄漏和可重复性危机 | 普林斯顿大学的一个团队发现了 17 个科学领域的 20 篇评论,发现 329 篇使用基于机器学习的科学论文中存在重大错误(例如数据泄漏、没有训练测试分割) |
COVID-19 诊断和分诊模型 | 人们开发了数百种预测模型来更快地诊断或分类 COVID-19 患者,但最终没有一个适合临床使用,有些还可能有害 |
COMPAS累犯算法 | 佛罗里达州的累犯风险系统发现种族偏见的证据 |
宾夕法尼亚州儿童福利筛查工具 | 预测算法(有助于确定社会工作者将调查哪些家庭是否存在虐待和忽视儿童问题)标记了不成比例的黑人儿童进行“强制性”忽视调查。 |
俄勒冈州儿童福利筛查工具 | 俄勒冈州儿童福利的人工智能算法与宾夕法尼亚州的预测工具类似,在宾夕法尼亚州报告发布一个月后也被停止 |
美国医疗保健系统健康风险预测 | 一种广泛使用的预测医疗保健需求的算法表现出种族偏见,对于给定的风险评分,黑人患者的病情比白人患者严重得多 |
苹果卡 信用卡 | 苹果公司的新信用卡(与高盛合作创建)正在接受金融监管机构的调查,因为客户抱怨该卡的贷款算法歧视女性,男性客户的 Apple Card 提供的信用额度是其男性客户的 20 倍。配偶 |
计算机视觉
标题 | 描述 |
---|
因弗内斯自动足球摄像机系统 | 用于直播的人工智能摄像头足球追踪技术多次将边裁的光头误认为是球本身 |
面向美国国会议员的 Amazon Rekognition | 亚马逊的面部识别技术 (Rekognition) 将 28 名国会议员与犯罪分子的照片进行了错误匹配,同时也暴露了算法中的种族偏见 |
用于执法的 Amazon Rekognition | 亚马逊的面部识别技术(Rekognition)将女性误识别为男性,尤其是肤色较深的女性 |
浙江交通人脸识别系统 | 交通摄像头系统(旨在捕捉交通违法行为)将公交车侧面的一张脸误认为是乱穿马路的人 |
Kneron 欺骗面部识别终端 | 耐能团队利用高品质3D面具欺骗支付宝和微信支付系统进行购买 |
Twitter 智能裁剪工具 | Twitter 用于照片审查的自动裁剪工具显示出明显的种族偏见迹象 |
去像素器工具 | 旨在生成去像素面孔的算法(基于 StyleGAN)显示出种族偏见的迹象,图像输出偏向于白人 |
Google 相册标记 | Google Photos 中的自动照片标记功能错误地将黑人标记为大猩猩 |
GenderShades 性别分类产品评价 | GenderShades 的研究表明,微软和 IBM 用于识别照片中人物性别的面部分析服务在分析深色皮肤女性的图像时经常出错 |
新泽西州警察面部识别 | 新泽西州警方的虚假面部识别匹配导致一名无辜黑人(尼杰尔·帕克斯饰)入狱,尽管他距离犯罪现场 30 英里 |
特斯拉在马车和卡车之间的困境 | 特斯拉的可视化系统将一辆马车误认为是一辆卡车,后面有一个人走着,这让特斯拉的可视化系统感到困惑 |
谷歌用于糖尿病视网膜病变检测的人工智能 | 视网膜扫描工具在现实生活中的表现比对照实验中的表现要差得多,存在诸如扫描被拒绝(由于扫描图像质量差)以及将图像上传到云进行处理时间歇性互联网连接造成的延迟等问题 |
预测
标题 | 描述 |
---|
谷歌流感趋势 | 基于谷歌搜索的流感流行预测模型产生了不准确的高估 |
Zillow iBuying 算法 | 由于房产估值模型的价格不准确(高估),Zillow 的炒房业务遭受重大损失 |
Tyndaris 机器人对冲基金 | 由名为 K1 的超级计算机控制的人工智能自动交易系统导致巨额投资损失,最终引发诉讼 |
Sentient Investment 人工智能对冲基金 | Sentient Investment Management 曾经风光无限的人工智能基金未能盈利,不到两年就被迅速清算 |
摩根大通的外汇算法深度学习模型 | 摩根大通已经逐步淘汰了用于外汇算法执行的深度神经网络,理由是数据解释和所涉及的复杂性问题。 |
图像生成
标题 | 描述 |
---|
Playground AI 面部生成 | 当要求将亚洲人头像图像转换为专业的 LinkedIn 个人资料照片时,人工智能图像编辑器生成的输出具有使其看起来像白人的特征 |
稳定的扩散文本到图像模型 | 在彭博社进行的一项实验中,发现稳定扩散(文本到图像模型)在数千张生成的与职位和犯罪相关的图像中表现出种族和性别偏见 |
双子座图像生成中的历史错误 | 谷歌的双子座图像生成功能被发现生成不准确的历史图像描述,试图颠覆性别和种族刻板印象,例如在提示生成美国开国元勋时返回非白人人工智能生成的人 |
自然语言处理
标题 | 描述 |
---|
微软 Tay 聊天机器人 | 通过其 Twitter 帐户发布煽动性和攻击性推文的聊天机器人 |
纳布拉聊天机器人 | 使用云托管的 GPT-3 实例的实验聊天机器人(用于医疗建议)建议模拟患者自杀 |
Facebook 谈判聊天机器人 | 聊天机器人在谈判中停止使用英语并开始使用他们自己创建的语言后,人工智能系统被关闭 |
OpenAI GPT-3 聊天机器人 Samantha | 独立游戏开发者 Jason Rohrer 微调了一个 GPT-3 聊天机器人来模仿他死去的未婚妻,但由于担心该聊天机器人存在种族主义或明显的性倾向,Jason 拒绝了 OpenAI 插入自动监控工具的请求,因此该机器人被 OpenAI 关闭。 |
亚马逊 Alexa 播放色情内容 | 在一名幼儿要求亚马逊的声控数字助理播放一首儿歌后,它发出了一系列粗俗的语言。 |
卡拉狄加 - Meta 的大型语言模型 | 《卡拉狄加》的一个问题是它无法区分真假,而这是旨在生成科学文本的语言模型的基本要求。人们发现它会编造假论文(有时将其归于真实作者),并生成有关太空熊历史的文章,就像有关蛋白质复合物的文章一样容易。 |
能源公司涉嫌语音模仿欺诈 | 网络犯罪分子使用基于人工智能的软件冒充首席执行官的声音,要求进行欺诈性转账,作为语音欺骗攻击的一部分 |
当被问及 Covid-19 问题时,卫生部聊天机器人会提供安全性行为建议 | 新加坡卫生部 (MOH) 的“Ask Jamie”聊天机器人在被问及如何管理 COVID-19 阳性结果时提供了有关安全性行为的错误答复后被暂时禁用 |
Google 的 BARD 聊天机器人演示 | 在其第一个公开演示广告中,巴德在哪颗卫星首先拍摄了地球太阳系外行星的照片方面犯了事实错误。 |
ChatGPT 故障类别 | 对迄今为止 ChatGPT 中出现的十类失败进行了分析,包括推理、事实错误、数学、编码和偏见。 |
抖音用户吐槽麦当劳搞笑的得来速人工智能订单失败 | 在一些示例中,生产/部署的语音助手无法正确下单,导致麦当劳的品牌/声誉受损 |
Bing 聊天机器人精神错乱的情绪行为 | 在某些对话中,Bing 的聊天机器人会做出争论和情绪化的反应 |
Bing 的 AI 引用了来自 ChatGPT 的 COVID 虚假信息 | Bing 对有关 COVID-19 反疫苗宣传的询问的回应不准确,并且基于来自不可靠来源的虚假信息 |
AI 生成的《宋飞正传》因跨性别者笑话而在 Twitch 上被暂停 | 人工智能的内容过滤器出现错误,导致角色“拉里”进行了一场恐跨性的单口喜剧表演。 |
ChatGPT 引用虚假法律案例 | 一名律师使用 OpenAI 流行的聊天机器人 ChatGPT 来“补充”他自己的发现,但得到的却是完全捏造的先前不存在的案例 |
加拿大航空聊天机器人提供错误信息 | 加拿大航空的人工智能机器人给出了与航空公司有关丧亲票价的政策不一致的答案。 |
AI机器人进行非法内幕交易并对其行为撒谎 | 名为 Alpha 的人工智能投资管理系统聊天机器人(基于 OpenAI 的 GPT-4,由 Apollo Research 开发)证明,它能够进行非法金融交易并对其行为撒谎。 |
推荐系统
标题 | 描述 |
---|
IBM 的沃森健康 | 据称,IBM 的 Watson 为治疗癌症患者提供了许多不安全和不正确的建议 |
Netflix - 100 万美元挑战 | 赢得 100 万美元挑战的推荐系统将建议的基线提高了 8.43%。然而,这种性能提升似乎并不能证明将其引入生产环境所需的工程工作是合理的。 |