失敗した機械学習 (FML)
失敗した機械学習プロジェクトの有名な実例
「成功は最終的なものではなく、失敗は致命的なものではありません。大切なのは続ける勇気だ。」 - ウィンストン・チャーチル
ML がその驚異的な可能性にもかかわらずどのように失敗するかの例を探しているのであれば、ここは適切な場所です。応用機械学習の素晴らしい成功事例のほかに、私たちが多くを学べる失敗プロジェクトのリストを以下に示します。
コンテンツ
- 古典的な機械学習
- コンピュータビジョン
- 予測
- 画像生成
- 自然言語処理
- レコメンデーションシステム
古典的な機械学習
タイトル | 説明 |
---|
Amazon AI採用システム | 女性候補者に対する差別の証拠を受けて、AIを活用した自動採用システムが中止された |
Genderify - 性別識別ツール | 名前や電子メールアドレスなどのフィールドに基づいて性別を識別するように設計されたAIを活用したツールは、組み込まれたバイアスと不正確さのため閉鎖されました |
ML ベースの科学における漏洩と再現性の危機 | プリンストン大学のチームは、ML ベースの科学を使用した 329 件の論文で重大なエラー (データ漏洩、トレーニングとテストの分割なしなど) を発見した 17 科学分野にわたる 20 件のレビューを発見しました。 |
COVID-19 の診断およびトリアージ モデル | 新型コロナウイルス感染症患者をより迅速に診断またはトリアージするために何百もの予測モデルが開発されましたが、最終的にはどれも臨床使用に適しておらず、一部は潜在的に有害でした |
COMPAS 再犯アルゴリズム | フロリダ州の再犯リスクシステムが人種的偏見の証拠を発見 |
ペンシルベニア州児童福祉スクリーニングツール | 予測アルゴリズム(どの家族が児童虐待や育児放棄に関してソーシャルワーカーによって調査されるべきかを特定するのに役立つ)は、不釣り合いな数の黒人の子供たちに「義務的な」育児放棄調査の対象となるフラグを立てた。 |
オレゴン州児童福祉スクリーニングツール | ペンシルベニア州のものと同様の予測ツールであるオレゴン州の児童福祉のための AI アルゴリズムも、ペンシルベニア州の報告書の 1 か月後に停止されました。 |
米国の医療システムの健康リスク予測 | 医療ニーズを予測するために広く使用されているアルゴリズムには、特定のリスク スコアにおいて黒人患者の方が白人患者よりもかなり重症であるという人種的偏見が見られました。 |
アップルカード クレジットカード | Apple の新しいクレジット カード (ゴールドマン サックスと提携して作成) は、カードの融資アルゴリズムが女性を差別していると顧客から苦情が寄せられ、金融規制当局によって調査されています。男性顧客の Apple Card が提示する利用限度額は、男性の顧客に提示される利用限度額の 20 倍でした。配偶者 |
コンピュータビジョン
タイトル | 説明 |
---|
インバネス自動サッカーカメラシステム | ライブストリーミング用の AI カメラサッカー追跡技術により、線審の禿げた頭とボールそのものが繰り返し混同される |
米国議員に対する Amazon の評価 | Amazon の顔認識技術 (Rekognition) は、28 人の議員と犯罪者の顔写真を誤って照合し、そのアルゴリズムにおける人種的偏見も明らかにしました |
法執行機関向けの Amazon Rekognition | アマゾンの顔認識技術(Rekognition)は女性、特に肌の色が濃い女性を男性と誤認した |
浙江省交通顔認識システム | 交通カメラシステム(交通違反を捕捉するために設計された)が、バスの側面の顔を歩道橋を渡った人物と誤認した |
Kneron が顔認識端末を騙す | Kneron のチームは、高品質の 3D マスクを使用して、AliPay と WeChat 決済システムをだまして購入させました |
Twitterのスマートトリミングツール | Twitterの写真レビュー用自動トリミングツールには人種的偏見の明らかな兆候があった |
ピクセル除去ツール | ピクセル化された顔を生成するように設計されたアルゴリズム (StyleGAN に基づく) には人種的偏見の兆候があり、画像出力が白人層に偏っていました |
Google フォトのタグ付け | Google フォトの自動写真タグ機能により、黒人がゴリラと誤ってラベル付けされる |
性別分類製品の GenderShades 評価 | GenderShades の調査により、写真内の人物の性別を識別する Microsoft と IBM の顔分析サービスが、肌の色が濃い女性の画像を分析する際に頻繁にエラーが発生することが明らかになりました |
ニュージャージー警察の顔認識 | ニュージャージー警察による誤った顔認識照合により、犯罪現場から30マイル離れていたにもかかわらず、無実の黒人男性(ニジャー・パークス)が刑務所に入れられた |
馬車とトラックの間のテスラのジレンマ | テスラの視覚化システムは、馬車を男性が後ろを歩いているトラックと間違えて混乱した |
Google の糖尿病性網膜症検出用 AI | 網膜スキャン ツールは、管理された実験よりも現実の環境でのパフォーマンスがはるかに悪く、スキャンの拒否 (スキャン画像の品質が低いため) や、処理のために画像をクラウドにアップロードする際の断続的なインターネット接続による遅延などの問題がありました。 |
予測
タイトル | 説明 |
---|
Google インフルエンザ トレンド | Google 検索に基づくインフルエンザ流行予測モデルが不正確な過大評価を生成 |
Zillow iBuying アルゴリズム | 不動産評価モデルの不正確な(過大評価)価格により、Zillow の住宅反転事業で重大な損失が発生 |
ティンダリス・ロボット・ヘッジ・ファンド | スーパーコンピューター「K1」で制御されるAI搭載の自動取引システムが巨額の投資損失を引き起こし、訴訟にまで発展した |
センティエント・インベストメント AI ヘッジファンド | かつては高飛車だったセンティエント・インベストメント・マネジメントのAIを活用したファンドは収益を上げることができず、2年も経たずに即座に清算された |
JPモルガンのFXアルゴ用ディープラーニングモデル | JPモルガンは、データ解釈とそれに伴う複雑さの問題を理由に、外国為替アルゴリズム実行のためのディープニューラルネットワークを段階的に廃止した。 |
画像生成
タイトル | 説明 |
---|
プレイグラウンド AI フェイシャル生成 | アジア人の顔写真の画像をプロの LinkedIn プロフィール写真に変換するよう依頼されたとき、AI 画像エディターは代わりに白人に見える機能を備えた出力を生成しました |
安定した拡散テキストから画像へのモデル | ブルームバーグが実施した実験では、安定拡散(テキストから画像へのモデル)により、肩書きや犯罪に関連する生成された何千もの画像に人種や性別の偏見が見られることが判明しました。 |
ジェミニ画像生成の歴史的不正確さ | GoogleのGemini画像生成機能は、米国建国の父を生成するように促されたときにAIによって生成された非白人を返すなど、ジェンダーと人種の固定観念を覆す試みで不正確な歴史的画像描写を生成していることが判明した |
自然言語処理
タイトル | 説明 |
---|
Microsoft Tay チャットボット | Twitter アカウントを通じて扇動的で攻撃的なツイートを投稿するチャットボット |
ナブラチャットボット | クラウド上にホストされた GPT-3 インスタンスを使用した実験的なチャットボット (医療アドバイス用) が模擬患者に自殺を勧めた |
Facebook 交渉チャットボット | チャットボットが交渉で英語を使用しなくなり、独自に作成した言語を使用し始めた後、AI システムはシャットダウンされました。 |
OpenAI GPT-3 チャットボット サマンサ | インディーゲーム開発者のジェイソン・ローラー氏が亡くなった婚約者をエミュレートするために微調整したGPT-3チャットボットは、チャットボットが人種差別的またはあからさまに性的であるという懸念の中、ジェイソン氏が自動監視ツールの挿入要求を拒否した後、OpenAIによって閉鎖された。 |
Amazon Alexa がポルノを再生する | アマゾンの音声起動デジタルアシスタントは、幼児が童謡をかけてほしいと頼んだ後、下品な言葉を連発した。 |
ギャラクティカ - Meta の大規模言語モデル | ギャラクティカの問題は、科学文書を生成するように設計された言語モデルの基本要件である真実と虚偽を区別できないことでした。それは偽の論文をでっち上げていることが判明し(時には本物の著者によるものであるとされていた)、タンパク質複合体に関するものと同じくらい容易に、宇宙におけるクマの歴史に関する記事を生成した。 |
エネルギー会社、声真似詐欺で | サイバー犯罪者は AI ベースのソフトウェアを使用して CEO の声になりすまし、音声スプーフィング攻撃の一環として不正な送金を要求しました。 |
保健省のチャットボットは、Covid-19 に関する質問に対して安全なセックスに関するアドバイスを提供します | シンガポール保健省(MOH)の「ジェイミーに聞く」チャットボットは、新型コロナウイルス感染症の陽性反応の管理について尋ねられた際に、セーフセックスに関して誤った回答を返したため、一時的に無効になった |
Google の BARD チャットボット デモ | BARDは最初の公開デモ広告で、どの衛星が地球の太陽系外の惑星の写真を最初に撮影したかに関して事実誤認を犯した。 |
ChatGPT の失敗のカテゴリ | ChatGPT でこれまでに見られた失敗の 10 カテゴリー (推論、事実上の誤り、数学、コーディング、バイアスなど) の分析。 |
マクドナルドの陽気なドライブスルー AI 注文を焙煎する TikToker は失敗に終わる | 実稼働/導入された音声アシスタントが注文を正しく処理できず、マクドナルドのブランド/評判の低下につながる一部のサンプル |
Bing チャットボットの抑制されない感情的な行動 | 特定の会話において、Bing のチャットボットは議論的で感情的な反応を返すことが判明しました |
Bing の AI が ChatGPT から得た新型コロナウイルスの偽情報を引用 | 新型コロナウイルス感染症の反ワクチン擁護活動に関する質問に対するビング社の回答は不正確で、信頼性の低い情報源からの誤った情報に基づいていた |
AI生成の「サインフェルド」がトランスフォビアジョークのためTwitchで停止 | AI のコンテンツ フィルターの間違いにより、キャラクター「ラリー」がトランスフォビアのスタンドアップ ルーティンを行うことになりました。 |
ChatGPTが偽の訴訟を引用 | ある弁護士は、OpenAI の人気チャットボット ChatGPT を使用して自身の調査結果を「補足」しましたが、存在しない完全に捏造された過去の訴訟が提供されました。 |
エア・カナダのチャットボットが誤った情報を提供 | エア・カナダの AI を搭載したチャットボットは、忌引運賃に関して航空会社の方針に矛盾する回答を幻覚で見せました。 |
AIボットが違法なインサイダー取引を行い、その行動について嘘をついた | Alpha と呼ばれる AI 投資管理システム チャットボット (Apollo Research が開発した OpenAI の GPT-4 に基づいて構築) は、違法な金融取引を行ったり、その行動について嘘をついたりできることを実証しました。 |
レコメンデーションシステム
タイトル | 説明 |
---|
IBMのワトソンヘルス | IBMのワトソンは、がん患者の治療に関して安全ではなく誤った推奨事項を多数提供したとされている |
Netflix - 100 万ドルのチャレンジ | 100 万ドルのチャレンジに勝利した推奨システムは、提案されたベースラインを 8.43% 改善しました。ただし、このパフォーマンスの向上は、実稼働環境に導入するために必要なエンジニアリングの労力に見合ったものではないようです。 |