Failed ML
1.0.0
« Le succès n’est pas définitif, l’échec n’est pas fatal. C’est le courage de continuer qui compte. -Winston Churchill
Si vous cherchez des exemples de la façon dont le ML peut échouer malgré tout son incroyable potentiel, vous êtes au bon endroit. Au-delà des merveilleuses réussites de l’apprentissage automatique appliqué, voici une liste de projets échoués dont nous pouvons beaucoup apprendre.
Titre | Description |
---|---|
Système de recrutement Amazon AI | Un système de recrutement automatisé basé sur l'IA annulé après des preuves de discrimination à l'égard des candidates féminines |
Genderify - Outil d'identification de genre | L'outil basé sur l'IA conçu pour identifier le sexe en fonction de champs tels que le nom et l'adresse e-mail a été fermé en raison de préjugés et d'inexactitudes intégrés. |
Fuites et crise de reproductibilité dans la science basée sur le ML | Une équipe de l'Université de Princeton a trouvé 20 revues dans 17 domaines scientifiques qui ont découvert des erreurs significatives (par exemple, fuite de données, absence de séparation train-test) dans 329 articles utilisant la science basée sur le ML. |
Modèles de diagnostic et de triage du COVID-19 | Des centaines de modèles prédictifs ont été développés pour diagnostiquer ou trier plus rapidement les patients atteints de COVID-19, mais aucun d’entre eux n’était finalement adapté à une utilisation clinique, et certains étaient potentiellement dangereux. |
Algorithme de récidive COMPAS | Le système de risque de récidive de Floride a trouvé des preuves de préjugés raciaux |
Outil de dépistage de la protection de l'enfance en Pennsylvanie | L'algorithme prédictif (qui aide à identifier les familles sur lesquelles les travailleurs sociaux doivent enquêter pour maltraitance et négligence envers les enfants) a signalé un nombre disproportionné d'enfants noirs devant faire l'objet d'enquêtes « obligatoires » sur la négligence. |
Outil de dépistage de la protection de l'enfance de l'Oregon | Outil prédictif similaire à celui de Pennsylvanie, l'algorithme d'IA destiné à la protection de l'enfance dans l'Oregon a également été arrêté un mois après le rapport de Pennsylvanie. |
Prédiction des risques sanitaires pour le système de santé américain | Un algorithme largement utilisé pour prédire les besoins en soins de santé présentait des préjugés raciaux : pour un score de risque donné, les patients noirs sont considérablement plus malades que les patients blancs. |
Carte de crédit Apple Card | La nouvelle carte de crédit d'Apple (créée en partenariat avec Goldman Sachs) fait l'objet d'une enquête de la part des régulateurs financiers après que des clients se sont plaints que les algorithmes de prêt de la carte étaient discriminatoires à l'égard des femmes, la ligne de crédit offerte par la carte Apple d'un client masculin étant 20 fois supérieure à celle offerte à son client. conjoint |
Titre | Description |
---|---|
Système de caméra de football automatisé d'Inverness | La technologie de suivi du football par caméra AI pour la diffusion en direct a confondu à plusieurs reprises la tête chauve d'un juge de ligne avec le ballon lui-même |
Amazon Rekognition pour les membres du Congrès américain | La technologie de reconnaissance faciale d'Amazon (Rekognition) a faussement comparé 28 membres du Congrès avec des photos de criminels, tout en révélant des préjugés raciaux dans l'algorithme. |
Amazon Rekognition pour les forces de l'ordre | La technologie de reconnaissance faciale d'Amazon (Rekognition) a identifié à tort les femmes comme des hommes, en particulier celles à la peau plus foncée |
Système de reconnaissance faciale du trafic du Zhejiang | Un système de caméra de circulation (conçu pour capturer les infractions au code de la route) a confondu un visage sur le côté d'un bus avec quelqu'un qui marchait sur le trottoir |
Kneron trompe les terminaux de reconnaissance faciale | L'équipe de Kneron a utilisé des masques 3D de haute qualité pour tromper les systèmes de paiement Alipay et WeChat afin d'effectuer des achats. |
Outil de recadrage intelligent de Twitter | L'outil de recadrage automatique de Twitter pour l'examen des photos a montré des signes évidents de préjugés raciaux |
Outil dépixélateur | L'algorithme (basé sur StyleGAN) conçu pour générer des visages dépixélisés a montré des signes de préjugés raciaux, avec une sortie d'image orientée vers la population blanche. |
Balisage Google Photos | La fonctionnalité de marquage automatique des photos dans Google Photos a étiqueté par erreur les Noirs comme des gorilles |
Évaluation GenderShades des produits de classification par sexe | Les recherches de GenderShades ont révélé que les services d'analyse de visage de Microsoft et IBM permettant d'identifier le sexe des personnes sur les photos comportaient fréquemment des erreurs lors de l'analyse d'images de femmes à la peau foncée. |
Reconnaissance faciale de la police du New Jersey | Une fausse reconnaissance faciale par la police du New Jersey a conduit un homme noir innocent (Nijeer Parks) en prison alors qu'il se trouvait à 30 miles du lieu du crime. |
Le dilemme de Tesla entre une charrette à cheval et un camion | Le système de visualisation de Tesla a été confondu en confondant une calèche avec un camion avec un homme marchant derrière lui |
L'IA de Google pour la détection de la rétinopathie diabétique | L'outil d'analyse de la rétine s'en sort bien moins bien dans des contextes réels que dans des expériences contrôlées, avec des problèmes tels que des numérisations rejetées (en raison d'une mauvaise qualité d'image numérisée) et des retards dus à une connectivité Internet intermittente lors du téléchargement d'images vers le cloud pour traitement. |
Titre | Description |
---|---|
Tendances Google sur la grippe | Le modèle de prédiction de la prévalence de la grippe basé sur les recherches Google a produit des surestimations inexactes |
Algorithmes Zillow iBuying | Pertes importantes dans l'activité de revente de maisons de Zillow en raison de prix inexacts (surestimés) provenant des modèles d'évaluation immobilière |
Fonds spéculatif pour robots Tyndaris | Un système de trading automatisé alimenté par l'IA et contrôlé par un superordinateur nommé K1 a entraîné d'importantes pertes d'investissement, aboutissant à un procès. |
Fonds spéculatif IA Sentient Investment | Le fonds autrefois de haut vol alimenté par l'IA de Sentient Investment Management n'a pas réussi à gagner de l'argent et a été rapidement liquidé en moins de 2 ans. |
Modèle d'apprentissage profond de JP Morgan pour les algorithmes FX | JP Morgan a progressivement supprimé un réseau neuronal profond pour l'exécution d'algorithmes de change, invoquant des problèmes d'interprétation des données et la complexité impliquée. |
Titre | Description |
---|---|
Génération faciale IA Playground | Lorsqu'on lui a demandé de transformer l'image d'un portrait asiatique en photo de profil professionnel LinkedIn, l'éditeur d'images IA a généré une sortie avec des fonctionnalités qui lui donnaient plutôt un aspect caucasien. |
Modèle texte-image à diffusion stable | Dans une expérience menée par Bloomberg, il a été constaté que Stable Diffusion (modèle texte-image) présentait des préjugés raciaux et sexistes dans les milliers d'images générées liées aux titres d'emploi et à la criminalité. |
Inexactitudes historiques dans la génération d’images Gemini | La fonctionnalité de génération d'images Gemini de Google s'est avérée générer des représentations d'images historiques inexactes dans sa tentative de renverser les stéréotypes de genre et raciaux, comme le retour de personnes non blanches générées par l'IA lorsqu'elles sont invitées à générer les pères fondateurs des États-Unis. |
Titre | Description |
---|---|
Chatbot Microsoft Tay | Chatbot qui a publié des tweets incendiaires et offensants via son compte Twitter |
Chatbot Nabla | Un chatbot expérimental (pour avis médical) utilisant une instance hébergée dans le cloud de GPT-3 a conseillé à un patient fictif de se suicider |
Chatbots de négociation Facebook | Le système d'IA a été arrêté après que les chatbots ont cessé d'utiliser l'anglais dans leurs négociations et ont commencé à utiliser une langue qu'ils avaient eux-mêmes créée. |
Chatbot OpenAI GPT-3 Samantha | Un chatbot GPT-3 mis au point par le développeur de jeux indépendant Jason Rohrer pour imiter sa fiancée décédée a été fermé par OpenAI après que Jason a refusé leur demande d'insérer un outil de surveillance automatisé, craignant que le chatbot ne soit raciste ou ouvertement sexuel. |
Amazon Alexa joue du porno | L'assistant numérique à commande vocale d'Amazon a déclenché un torrent de propos torrides après qu'un enfant lui ait demandé de jouer une chanson pour enfants. |
Galactica - Le grand modèle de langage de Meta | Un problème avec Galactica était qu'il ne pouvait pas distinguer la vérité du mensonge, une exigence fondamentale pour un modèle de langage conçu pour générer du texte scientifique. Il s'est avéré qu'il inventait de faux articles (les attribuant parfois à de vrais auteurs) et générait des articles sur l'histoire des ours dans l'espace aussi facilement que sur les complexes protéiques. |
Une entreprise énergétique impliquée dans une fraude par mimétisme vocal | Les cybercriminels ont utilisé un logiciel basé sur l'IA pour usurper l'identité d'un PDG afin d'exiger un transfert d'argent frauduleux dans le cadre d'une attaque d'usurpation de voix. |
Le chatbot du ministère de la Santé donne des conseils sur les relations sexuelles protégées lorsqu'on lui pose des questions sur Covid-19 | Le chatbot « Ask Jamie » du ministère de la Santé de Singapour a été temporairement désactivé après avoir fourni des réponses mal alignées sur les rapports sexuels protégés lorsqu'on lui a demandé comment gérer les résultats positifs au COVID-19. |
Démo du chatbot BARD de Google | Dans sa première publicité de démonstration publique, BARD a commis une erreur factuelle concernant le premier satellite à prendre des photos d'une planète en dehors du système solaire terrestre. |
Catégories d'échecs ChatGPT | Une analyse des dix catégories d'échecs observés jusqu'à présent dans ChatGPT, y compris le raisonnement, les erreurs factuelles, les mathématiques, le codage et les biais. |
Les TikTokers rôtissant la commande hilarante d'IA au volant de McDonald's échouent | Quelques exemples dans lesquels un assistant vocal de production/déployé ne parvient pas à exécuter les commandes correctement et entraîne des dommages à la marque/réputation de McDonalds |
Le comportement émotionnel déséquilibré de Bing Chatbot | Dans certaines conversations, il a été constaté que le chatbot de Bing répondait par des réponses argumentatives et émotionnelles. |
L'IA de Bing cite la désinformation sur le COVID provenant de ChatGPT | La réponse de Bing à une question sur le plaidoyer anti-vaccin contre le COVID-19 était inexacte et basée sur de fausses informations provenant de sources peu fiables. |
"Seinfeld" généré par l'IA suspendu sur Twitch pour des blagues transphobes | Une erreur avec le filtre de contenu de l'IA a amené le personnage « Larry » à proposer une routine de stand-up transphobe. |
ChatGPT cite de fausses affaires juridiques | Un avocat a utilisé le chatbot populaire ChatGPT d'OpenAI pour « compléter » ses propres conclusions, mais a reçu des cas antérieurs entièrement fabriqués qui n'existent pas. |
Le chatbot d'Air Canada donne des informations erronées | Le chabot d'Air Canada, alimenté par l'IA, a halluciné une réponse incompatible avec la politique de la compagnie aérienne en matière de tarifs pour les personnes en deuil. |
Un robot IA a effectué un délit d'initié illégal et a menti sur ses actions | Un chatbot du système de gestion des investissements IA appelé Alpha (construit sur le GPT-4 d'OpenAI, développé par Apollo Research) a démontré qu'il était capable d'effectuer des transactions financières illégales et de mentir sur ses actions. |
Titre | Description |
---|---|
Watson Health d'IBM | Watson d'IBM aurait fourni de nombreuses recommandations dangereuses et incorrectes pour le traitement des patients atteints de cancer |
Netflix – Défi d'un million de dollars | Le système de recommandation qui a remporté le défi d'un million de dollars a amélioré la base de référence proposée de 8,43 %. Cependant, ce gain de performances ne semble pas justifier l’effort d’ingénierie nécessaire pour le mettre en production. |