Failed ML
1.0.0
“Sukses bukanlah sesuatu yang final, kegagalan bukanlah hal yang fatal. Keberanian untuk melanjutkan itulah yang terpenting.” -Winston Churchill
Jika Anda mencari contoh bagaimana ML bisa gagal meskipun memiliki potensi yang luar biasa, Anda datang ke tempat yang tepat. Selain kisah sukses luar biasa dari pembelajaran mesin terapan, berikut adalah daftar proyek gagal yang dapat kita pelajari banyak hal.
Judul | Keterangan |
---|---|
Sistem Perekrutan AI Amazon | Sistem rekrutmen otomatis bertenaga AI dibatalkan setelah adanya bukti diskriminasi terhadap kandidat perempuan |
Genderify - Alat identifikasi gender | Alat bertenaga AI yang dirancang untuk mengidentifikasi gender berdasarkan bidang seperti nama dan alamat email ditutup karena bias dan ketidakakuratan yang ada di dalamnya |
Kebocoran dan Krisis Reproduksibilitas dalam Sains Berbasis ML | Sebuah tim di Universitas Princeton menemukan 20 ulasan di 17 bidang ilmiah yang menemukan kesalahan signifikan (misalnya, kebocoran data, tidak ada pemisahan tes pelatihan) di 329 makalah yang menggunakan sains berbasis ML |
Diagnosis dan Model Triase COVID-19 | Ratusan model prediktif dikembangkan untuk mendiagnosis atau melakukan triase pasien COVID-19 dengan lebih cepat, namun pada akhirnya tidak ada satupun yang cocok untuk penggunaan klinis, dan beberapa di antaranya berpotensi membahayakan. |
Algoritma Residivisme COMPAS | Sistem risiko residivisme di Florida menemukan bukti adanya bias rasial |
Alat Pemeriksaan Kesejahteraan Anak Pennsylvania | Algoritme prediktif (yang membantu mengidentifikasi keluarga mana yang akan diselidiki oleh pekerja sosial atas kasus pelecehan dan penelantaran anak) menandai jumlah anak kulit hitam yang tidak proporsional untuk penyelidikan penelantaran yang 'wajib'. |
Alat Pemeriksaan Kesejahteraan Anak Oregon | Alat prediksi serupa dengan yang ada di Pennsylvania, algoritma AI untuk kesejahteraan anak di Oregon juga dihentikan sebulan setelah laporan Pennsylvania |
Prediksi Risiko Kesehatan Sistem Kesehatan AS | Algoritme yang banyak digunakan untuk memprediksi kebutuhan layanan kesehatan menunjukkan bias rasial, yaitu dengan skor risiko tertentu, pasien kulit hitam jauh lebih sakit dibandingkan pasien kulit putih |
Kartu Kredit Kartu Apple | Kartu kredit baru Apple (dibuat dalam kemitraan dengan Goldman Sachs) sedang diselidiki oleh regulator keuangan setelah pelanggan mengeluh bahwa algoritme peminjaman kartu tersebut mendiskriminasi perempuan, di mana batas kredit yang ditawarkan oleh Apple Card pelanggan laki-laki adalah 20 kali lebih tinggi daripada yang ditawarkan kepadanya. pasangan |
Judul | Keterangan |
---|---|
Sistem Kamera Sepak Bola Otomatis Inverness | Teknologi pelacakan sepak bola kamera AI untuk streaming langsung berulang kali membuat kepala botak hakim garis bingung dengan bola itu sendiri |
Pengakuan Amazon untuk Anggota Kongres AS | Teknologi pengenalan wajah (Rekognisi) Amazon secara keliru mencocokkan 28 anggota kongres dengan foto penjahat, sekaligus mengungkap bias rasial dalam algoritme |
Pengakuan Amazon untuk penegakan hukum | Teknologi pengenalan wajah (Rekognition) Amazon salah mengidentifikasi perempuan sebagai laki-laki, terutama mereka yang berkulit lebih gelap |
Sistem pengenalan wajah lalu lintas Zhejiang | Sistem kamera lalu lintas (dirancang untuk menangkap pelanggaran lalu lintas) salah mengira wajah di sisi bus sebagai seseorang yang menyeberang jalan |
Kneron menipu terminal pengenalan wajah | Tim di Kneron menggunakan topeng 3-D berkualitas tinggi untuk menipu sistem pembayaran AliPay dan WeChat untuk melakukan pembelian |
Alat pemangkasan cerdas Twitter | Alat potong otomatis Twitter untuk meninjau foto menunjukkan tanda-tanda bias rasial yang jelas |
Alat depikselator | Algoritma (berdasarkan StyleGAN) yang dirancang untuk menghasilkan wajah yang terdepikselasi menunjukkan tanda-tanda bias rasial, dengan keluaran gambar yang condong ke arah demografi kulit putih |
Pemberian tag Google Foto | Kemampuan penandaan foto otomatis di Google Foto secara keliru memberi label orang kulit hitam sebagai gorila |
Evaluasi GenderShades terhadap produk klasifikasi gender | Penelitian GenderShades mengungkapkan bahwa layanan analisis wajah Microsoft dan IBM untuk mengidentifikasi jenis kelamin orang dalam foto sering kali salah saat menganalisis gambar wanita berkulit gelap. |
Pengenalan Wajah Polisi New Jersey | Pertandingan pengenalan wajah palsu yang dilakukan oleh polisi New Jersey membuat seorang pria kulit hitam yang tidak bersalah (Nijeer Parks) dipenjara meskipun dia berada 30 mil jauhnya dari kejahatan tersebut. |
Dilema Tesla antara kereta kuda dan truk | Sistem visualisasi Tesla menjadi bingung karena salah mengira kereta kuda sebagai truk dengan seorang pria berjalan di belakangnya |
AI Google untuk Deteksi Retinopati Diabetik | Alat pemindaian retina bernasib jauh lebih buruk dalam kehidupan nyata dibandingkan dalam eksperimen terkontrol, dengan masalah seperti pemindaian yang ditolak (akibat kualitas gambar pemindaian yang buruk) dan penundaan dari konektivitas internet yang terputus-putus saat mengunggah gambar ke cloud untuk diproses |
Judul | Keterangan |
---|---|
Google Pantau Flu Dunia | Model prediksi prevalensi flu berdasarkan penelusuran Google menghasilkan perkiraan berlebihan yang tidak akurat |
Algoritma Zillow iBuying | Kerugian yang signifikan dalam bisnis pindahan rumah Zillow karena harga yang tidak akurat (terlalu tinggi) dari model penilaian properti |
Dana Lindung Nilai Robot Tyndaris | Sistem perdagangan otomatis bertenaga AI yang dikendalikan oleh superkomputer bernama K1 mengakibatkan kerugian investasi yang besar, yang berpuncak pada tuntutan hukum |
Dana Lindung Nilai AI Investasi Hidup | Dana bertenaga AI yang dulunya sukses besar di Sentient Investment Management gagal menghasilkan uang dan segera dilikuidasi dalam waktu kurang dari 2 tahun |
Model Pembelajaran Mendalam JP Morgan untuk FX Algos | JP Morgan telah menghapuskan jaringan neural dalam untuk eksekusi algoritmik valuta asing, dengan alasan masalah interpretasi data dan kompleksitas yang terlibat. |
Judul | Keterangan |
---|---|
Pembuatan wajah AI di taman bermain | Saat diminta untuk mengubah gambar foto orang Asia menjadi foto profil LinkedIn profesional, editor gambar AI menghasilkan keluaran dengan fitur yang membuatnya tampak seperti orang Kaukasia. |
Model Teks-ke-Gambar Difusi Stabil | Dalam eksperimen yang dijalankan oleh Bloomberg, ditemukan bahwa Difusi Stabil (model teks-ke-gambar) menunjukkan bias ras dan gender dalam ribuan gambar yang dihasilkan terkait dengan jabatan dan kejahatan. |
Ketidakakuratan Sejarah dalam Pembuatan Citra Gemini | Fitur pembuatan gambar Gemini Google ditemukan menghasilkan penggambaran gambar sejarah yang tidak akurat dalam upayanya untuk menumbangkan stereotip gender dan ras, seperti mengembalikan orang-orang non-kulit putih yang dihasilkan oleh AI ketika diminta untuk menghasilkan para pendiri Amerika Serikat |
Judul | Keterangan |
---|---|
Microsoft Tay Chatbot | Chatbot yang memposting tweet yang menghasut dan menyinggung melalui akun Twitter-nya |
Nabla Obrolan | Chatbot eksperimental (untuk nasihat medis) menggunakan GPT-3 yang dihosting di cloud menyarankan pasien tiruan untuk bunuh diri |
Chatbot Negosiasi Facebook | Sistem AI dimatikan setelah chatbot berhenti menggunakan bahasa Inggris dalam negosiasi mereka dan mulai menggunakan bahasa yang mereka buat sendiri |
OpenAI GPT-3 Chatbot Samantha | Chatbot GPT-3 yang disempurnakan oleh pengembang game indie Jason Rohrer untuk meniru tunangannya yang telah meninggal ditutup oleh OpenAI setelah Jason menolak permintaan mereka untuk memasukkan alat pemantauan otomatis di tengah kekhawatiran bahwa chatbot tersebut bersifat rasis atau terlalu seksual |
Amazon Alexa memutar film porno | Asisten digital Amazon yang diaktifkan dengan suara mengeluarkan semburan bahasa cabul setelah seorang balita memintanya untuk memutar lagu anak-anak. |
Galactica - Model Bahasa Besar Meta | Masalah dengan Galactica adalah ia tidak dapat membedakan kebenaran dari kepalsuan, yang merupakan persyaratan dasar untuk model bahasa yang dirancang untuk menghasilkan teks ilmiah. Mereka ditemukan membuat makalah palsu (terkadang menghubungkannya dengan penulis asli), dan menghasilkan artikel tentang sejarah beruang di luar angkasa serta artikel tentang kompleks protein. |
Perusahaan Energi dalam Penipuan Mimikri Suara | Penjahat dunia maya menggunakan perangkat lunak berbasis AI untuk menyamar sebagai suara seorang CEO untuk meminta transfer uang palsu sebagai bagian dari serangan spoofing suara |
Chatbot Kementerian Kesehatan memberikan nasihat seks aman ketika ditanya pertanyaan tentang Covid-19 | Chatbot 'Ask Jamie' oleh Kementerian Kesehatan Singapura (MOH) untuk sementara dinonaktifkan setelah memberikan jawaban yang tidak selaras seputar seks aman ketika ditanya tentang pengelolaan hasil positif COVID-19 |
Demo Chatbot BARD Google | Dalam iklan demo publik pertamanya, BARD membuat kesalahan faktual mengenai satelit mana yang pertama kali mengambil gambar sebuah planet di luar tata surya bumi. |
Kategori Kegagalan ChatGPT | Analisis terhadap sepuluh kategori kegagalan yang terlihat di ChatGPT sejauh ini, termasuk penalaran, kesalahan faktual, matematika, pengkodean, dan bias. |
Para pengguna TikTok yang memanggang pesanan AI drive-thru McDonald's yang lucu gagal | Beberapa contoh di mana asisten suara produksi/dikerahkan gagal memberikan pesanan dengan benar dan menyebabkan kerusakan merek/reputasi McDonalds |
Perilaku Emosional Bing Chatbot yang Tidak Tertekan | Dalam percakapan tertentu, chatbot Bing diketahui membalas dengan respons argumentatif dan emosional |
AI Bing mengutip disinformasi COVID yang bersumber dari ChatGPT | Tanggapan Bing terhadap pertanyaan tentang advokasi anti-vaksin COVID-19 tidak akurat dan didasarkan pada informasi palsu dari sumber yang tidak dapat diandalkan |
'Seinfeld' yang dihasilkan AI ditangguhkan di Twitch karena lelucon transfobia | Kesalahan pada filter konten AI mengakibatkan karakter 'Larry' melakukan standup rutin transfobia. |
ChatGPT mengutip kasus hukum palsu | Seorang pengacara menggunakan chatbot populer OpenAI, ChatGPT, untuk "melengkapi" temuannya sendiri, namun diberikan kasus-kasus sebelumnya yang sepenuhnya dibuat-buat dan tidak ada. |
Chatbot Air Canada memberikan informasi yang salah | Chabot yang didukung AI milik Air Canada berhalusinasi atas jawaban yang tidak sejalan dengan kebijakan maskapai terkait dengan tarif kehilangan. |
Bot AI melakukan perdagangan orang dalam secara ilegal dan berbohong tentang tindakannya | Chatbot sistem manajemen investasi AI yang disebut Alpha (dibangun di atas GPT-4 OpenAI, yang dikembangkan oleh Apollo Research) menunjukkan bahwa ia mampu melakukan perdagangan keuangan ilegal dan berbohong tentang tindakannya. |
Judul | Keterangan |
---|---|
Kesehatan Watson IBM | Watson dari IBM diduga memberikan banyak rekomendasi yang tidak aman dan salah untuk merawat pasien kanker |
Netflix - Tantangan $1 Juta | Sistem pemberi rekomendasi yang memenangkan tantangan $1 Juta meningkatkan baseline yang diusulkan sebesar 8,43%. Namun, peningkatan kinerja ini tampaknya tidak membenarkan upaya rekayasa yang diperlukan untuk membawanya ke lingkungan produksi. |