Failed ML
1.0.0
“El éxito no es definitivo, el fracaso no es fatal. Lo que cuenta es el coraje para continuar”. -Winston Churchill
Si busca ejemplos de cómo el aprendizaje automático puede fracasar a pesar de todo su increíble potencial, ha venido al lugar correcto. Más allá de las maravillosas historias de éxito del aprendizaje automático aplicado, aquí hay una lista de proyectos fallidos de los que podemos aprender mucho.
Título | Descripción |
---|---|
Sistema de reclutamiento de IA de Amazon | Sistema de contratación automatizado impulsado por IA cancelado tras evidencia de discriminación contra candidatas |
Genderify - Herramienta de identificación de género | La herramienta impulsada por inteligencia artificial diseñada para identificar el género en función de campos como el nombre y la dirección de correo electrónico se cerró debido a sesgos e imprecisiones incorporados. |
Fugas y crisis de reproducibilidad en la ciencia basada en ML | Un equipo de la Universidad de Princeton encontró 20 revisiones en 17 campos científicos que descubrieron errores significativos (por ejemplo, fuga de datos, no división de pruebas de tren) en 329 artículos que utilizan ciencia basada en ML. |
Modelos de diagnóstico y clasificación de COVID-19 | Se desarrollaron cientos de modelos predictivos para diagnosticar o clasificar a los pacientes con COVID-19 más rápido, pero finalmente ninguno de ellos era apto para uso clínico y algunos eran potencialmente dañinos. |
Algoritmo de reincidencia COMPAS | El sistema de riesgo de reincidencia de Florida encontró evidencia de prejuicio racial |
Herramienta de evaluación del bienestar infantil de Pensilvania | El algoritmo predictivo (que ayuda a identificar qué familias deben ser investigadas por los trabajadores sociales por abuso y negligencia infantil) señaló un número desproporcionado de niños negros para investigaciones de negligencia "obligatorias". |
Herramienta de evaluación del bienestar infantil de Oregón | Una herramienta predictiva similar a la de Pensilvania, el algoritmo de IA para el bienestar infantil en Oregón, también se detuvo un mes después del informe de Pensilvania. |
Predicción de riesgos para la salud del sistema sanitario de EE. UU. | Un algoritmo ampliamente utilizado para predecir las necesidades de atención médica mostró un sesgo racial en el que, para una puntuación de riesgo determinada, los pacientes negros están considerablemente más enfermos que los pacientes blancos. |
Tarjeta Apple Tarjeta De Crédito | La nueva tarjeta de crédito de Apple (creada en asociación con Goldman Sachs) está siendo investigada por los reguladores financieros después de que los clientes se quejaran de que los algoritmos de préstamo de la tarjeta discriminaban a las mujeres, donde la línea de crédito ofrecida por la Apple Card de un cliente masculino era 20 veces mayor que la ofrecida a su cónyuge |
Título | Descripción |
---|---|
Sistema automatizado de cámara de fútbol de Inverness | La tecnología de seguimiento de fútbol con cámara de IA para transmisión en vivo confundió repetidamente la cabeza calva de un juez de línea con el balón en sí |
Reconocimiento de Amazon para congresistas estadounidenses | La tecnología de reconocimiento facial de Amazon (Rekognition) comparó falsamente a 28 congresistas con fotografías policiales de delincuentes, al tiempo que reveló un sesgo racial en el algoritmo. |
Reconocimiento de Amazon para el cumplimiento de la ley | La tecnología de reconocimiento facial de Amazon (Rekognition) identificó erróneamente a mujeres como hombres, particularmente a aquellas con piel más oscura. |
Sistema de reconocimiento facial de tráfico de Zhejiang | El sistema de cámaras de tráfico (diseñado para capturar infracciones de tráfico) confundió una cara en el costado de un autobús con la de alguien que cruzaba imprudentemente |
Kneron engaña a los terminales de reconocimiento facial | El equipo de Kneron utilizó máscaras 3D de alta calidad para engañar a los sistemas de pago de Alipay y WeChat para realizar compras. |
Herramienta de recorte inteligente de Twitter | La herramienta de recorte automático de Twitter para revisión de fotografías mostró signos evidentes de prejuicio racial |
Herramienta despixeladora | El algoritmo (basado en StyleGAN) diseñado para generar rostros despixelados mostró signos de prejuicio racial, con una salida de imagen sesgada hacia el grupo demográfico blanco. |
Etiquetado de Google Fotos | La función de etiquetado automático de fotografías de Google Fotos etiquetó erróneamente a los negros como gorilas |
Evaluación de GenderShades de productos de clasificación de género | La investigación de GenderShades reveló que los servicios de análisis facial de Microsoft e IBM para identificar el género de las personas en fotografías se equivocaban con frecuencia al analizar imágenes de mujeres de piel oscura. |
Reconocimiento facial de la policía de Nueva Jersey | Una coincidencia falsa de reconocimiento facial realizada por la policía de Nueva Jersey llevó a un hombre negro inocente (Nijeer Parks) a la cárcel a pesar de que estaba a 30 millas de distancia del crimen. |
El dilema de Tesla entre un carro de caballos y un camión | El sistema de visualización de Tesla se confundió al confundir un carruaje de caballos con un camión con un hombre caminando detrás |
La IA de Google para la detección de la retinopatía diabética | A la herramienta de escaneo de retina le fue mucho peor en entornos de la vida real que en experimentos controlados, con problemas como escaneos rechazados (debido a la mala calidad de la imagen escaneada) y retrasos debido a la conectividad intermitente a Internet al cargar imágenes en la nube para su procesamiento. |
Título | Descripción |
---|---|
Tendencias de gripe de Google | El modelo de predicción de la prevalencia de la gripe basado en búsquedas de Google produjo sobreestimaciones inexactas |
Algoritmos de Zillow iBuying | Pérdidas significativas en el negocio de remodelación de viviendas de Zillow debido a precios inexactos (sobreestimados) de los modelos de valoración de propiedades |
Fondo de cobertura de robots Tyndaris | El sistema de comercio automatizado impulsado por inteligencia artificial controlado por una supercomputadora llamada K1 resultó en grandes pérdidas de inversión que culminaron en una demanda |
Fondo de cobertura de IA de Sentient Investment | El fondo impulsado por IA de Sentient Investment Management, que alguna vez fue de alto vuelo, no logró generar dinero y fue rápidamente liquidado en menos de 2 años. |
Modelo de aprendizaje profundo de JP Morgan para algoritmos FX | JP Morgan ha eliminado gradualmente una red neuronal profunda para la ejecución algorítmica de divisas, citando problemas con la interpretación de datos y la complejidad involucrada. |
Título | Descripción |
---|---|
Generación facial con IA en el patio de juegos | Cuando se le pidió que convirtiera una imagen de un rostro asiático en una foto de perfil profesional de LinkedIn, el editor de imágenes de IA generó un resultado con características que lo hacían parecer caucásico. |
Modelo de difusión estable de texto a imagen | En un experimento realizado por Bloomberg, se descubrió que Stable Diffusion (modelo de texto a imagen) exhibía prejuicios raciales y de género en las miles de imágenes generadas relacionadas con puestos de trabajo y delitos. |
Imprecisiones históricas en la generación de imágenes de Géminis | Se descubrió que la función de generación de imágenes Gemini de Google generaba representaciones de imágenes históricas inexactas en su intento de subvertir los estereotipos raciales y de género, como el regreso de personas no blancas generadas por IA cuando se le pedía que generara a los padres fundadores de EE. UU. |
Título | Descripción |
---|---|
Chatbot de Microsoft Tay | Chatbot que publicó tweets incendiarios y ofensivos a través de su cuenta de Twitter |
Chatbot de Nabla | Un chatbot experimental (para asesoramiento médico) que utiliza una instancia de GPT-3 alojada en la nube aconsejó a un paciente simulado que se suicidara. |
Chatbots de negociación de Facebook | El sistema de inteligencia artificial se cerró después de que los chatbots dejaran de usar el inglés en sus negociaciones y comenzaran a usar un idioma que ellos mismos crearon. |
Chatbot OpenAI GPT-3 Samantha | OpenAI cerró un chatbot GPT-3 perfeccionado por el desarrollador de juegos independiente Jason Rohrer para emular a su prometida muerta después de que Jason rechazó su solicitud de insertar una herramienta de monitoreo automatizado en medio de preocupaciones de que el chatbot fuera racista o abiertamente sexual. |
Amazon Alexa reproduce porno | El asistente digital activado por voz de Amazon desató un torrente de lenguaje obsceno después de que un niño pequeño le pidió que reprodujera una canción infantil. |
Galactica: el modelo de lenguaje grande de Meta | Un problema de Galactica era que no podía distinguir la verdad de la falsedad, un requisito básico para un modelo de lenguaje diseñado para generar texto científico. Se descubrió que inventaba artículos falsos (a veces atribuyéndolos a autores reales) y generaba artículos sobre la historia de los osos en el espacio con la misma facilidad que sobre complejos proteicos. |
Empresa de energía involucrada en fraude de imitación de voz | Los ciberdelincuentes utilizaron software basado en inteligencia artificial para hacerse pasar por la voz de un director ejecutivo y exigir una transferencia de dinero fraudulenta como parte del ataque de suplantación de voz. |
El chatbot del Ministerio de Salud ofrece consejos sobre sexo seguro cuando se le hacen preguntas sobre Covid-19 | El chatbot 'Ask Jamie' del Ministerio de Salud de Singapur (MOH) fue desactivado temporalmente después de que proporcionó respuestas desalineadas sobre el sexo seguro cuando se le preguntó sobre la gestión de resultados positivos de COVID-19. |
Demostración del chatbot BARD de Google | En su primer anuncio público de demostración, BARD cometió un error sobre qué satélite tomó por primera vez fotografías de un planeta fuera del sistema solar de la Tierra. |
Categorías de fallas de ChatGPT | Un análisis de las diez categorías de fallas observadas en ChatGPT hasta ahora, incluido el razonamiento, los errores fácticos, las matemáticas, la codificación y el sesgo. |
Los TikTokers que asan el divertido pedido de IA para autoservicio de McDonald's fallan | Algunas muestras en las que un asistente de voz de producción/implementado no logra realizar los pedidos correctamente y provoca daños a la marca/reputación de McDonalds |
El comportamiento emocional desquiciado de Bing Chatbot | En determinadas conversaciones, se descubrió que el chatbot de Bing respondía con respuestas argumentativas y emocionales. |
La IA de Bing cita desinformación sobre COVID procedente de ChatGPT | La respuesta de Bing a una consulta sobre la defensa de las vacunas contra el COVID-19 fue inexacta y se basó en información falsa de fuentes no confiables. |
'Seinfeld' generado por IA suspendido en Twitch por bromas transfóbicas | Un error con el filtro de contenido de la IA resultó en que el personaje 'Larry' realizara una rutina transfóbica. |
ChatGPT cita casos legales falsos | Un abogado utilizó el popular chatbot ChatGPT de OpenAI para "complementar" sus propios hallazgos, pero se le proporcionaron casos anteriores completamente inventados que no existen. |
El chatbot de Air Canada proporciona información errónea | El chabot impulsado por inteligencia artificial de Air Canada alucinó con una respuesta inconsistente con la política de la aerolínea con respecto a las tarifas por duelo. |
El robot de IA realizó tráfico ilegal de información privilegiada y mintió sobre sus acciones | Un chatbot de sistema de gestión de inversiones de IA llamado Alpha (basado en GPT-4 de OpenAI, desarrollado por Apollo Research) demostró que era capaz de realizar transacciones financieras ilegales y mentir sobre sus acciones. |
Título | Descripción |
---|---|
Watson Health de IBM | Watson de IBM supuestamente proporcionó numerosas recomendaciones inseguras e incorrectas para el tratamiento de pacientes con cáncer. |
Netflix - Desafío del millón de dólares | El sistema de recomendación que ganó el desafío de $1 millón mejoró la línea de base propuesta en un 8,43%. Sin embargo, esta mejora en el rendimiento no parecía justificar el esfuerzo de ingeniería necesario para llevarlo a un entorno de producción. |