Failed ML
1.0.0
“O sucesso não é definitivo, o fracasso não é fatal. É a coragem de continuar que conta.” -Winston Churchill
Se você está procurando exemplos de como o ML pode falhar apesar de todo o seu incrível potencial, você veio ao lugar certo. Além das maravilhosas histórias de sucesso do aprendizado de máquina aplicado, aqui está uma lista de projetos fracassados com os quais podemos aprender muito.
Título | Descrição |
---|---|
Sistema de recrutamento Amazon AI | Sistema de recrutamento automatizado com tecnologia de IA cancelado após evidências de discriminação contra candidatas do sexo feminino |
Genderify - ferramenta de identificação de gênero | A ferramenta alimentada por IA projetada para identificar gênero com base em campos como nome e endereço de e-mail foi desativada devido a preconceitos e imprecisões internas |
Vazamento e crise de reprodutibilidade na ciência baseada em ML | Uma equipe da Universidade de Princeton encontrou 20 revisões em 17 campos científicos que descobriram erros significativos (por exemplo, vazamento de dados, nenhuma divisão de teste de trem) em 329 artigos que usam ciência baseada em ML |
Modelos de diagnóstico e triagem COVID-19 | Centenas de modelos preditivos foram desenvolvidos para diagnosticar ou fazer a triagem de pacientes com COVID-19 mais rapidamente, mas, em última análise, nenhum deles era adequado para uso clínico e alguns eram potencialmente prejudiciais |
Algoritmo de reincidência COMPAS | O sistema de risco de reincidência da Flórida encontrou evidências de preconceito racial |
Ferramenta de triagem de bem-estar infantil da Pensilvânia | O algoritmo preditivo (que ajuda a identificar quais famílias devem ser investigadas por assistentes sociais por abuso e negligência infantil) sinalizou um número desproporcional de crianças negras para investigações de negligência “obrigatórias”. |
Ferramenta de triagem de bem-estar infantil do Oregon | Uma ferramenta preditiva semelhante à da Pensilvânia, o algoritmo de IA para o bem-estar infantil no Oregon também foi interrompido um mês após o relatório da Pensilvânia |
Previsão de risco de saúde do sistema de saúde dos EUA | Um algoritmo amplamente utilizado para prever as necessidades de cuidados de saúde exibiu preconceito racial onde, para uma determinada pontuação de risco, os pacientes negros são consideravelmente mais doentes do que os pacientes brancos |
Cartão de crédito Apple Card | O novo cartão de crédito da Apple (criado em parceria com o Goldman Sachs) está sendo investigado pelos reguladores financeiros depois que os clientes reclamaram que os algoritmos de empréstimo do cartão discriminavam as mulheres, onde a linha de crédito oferecida pelo Apple Card de um cliente do sexo masculino era 20 vezes maior do que a oferecida ao seu. cônjuge |
Título | Descrição |
---|---|
Sistema automatizado de câmeras de futebol em Inverness | A tecnologia de rastreamento de futebol com câmera AI para transmissão ao vivo confundiu repetidamente a cabeça careca de um juiz de linha com a própria bola |
Reconhecimento da Amazon para congressistas dos EUA | A tecnologia de reconhecimento facial da Amazon (Rekognition) combinou falsamente 28 congressistas com fotos de criminosos, ao mesmo tempo que revelou preconceito racial no algoritmo |
Amazon Rekognition para aplicação da lei | A tecnologia de reconhecimento facial da Amazon (Rekognition) identificou erroneamente mulheres como homens, especialmente aquelas com pele mais escura |
Sistema de reconhecimento facial de trânsito de Zhejiang | O sistema de câmeras de trânsito (projetado para capturar infrações de trânsito) confundiu um rosto na lateral de um ônibus com alguém que andou na rua |
Kneron enganando terminais de reconhecimento facial | A equipe da Kneron usou máscaras 3-D de alta qualidade para enganar os sistemas de pagamento AliPay e WeChat para fazer compras |
Ferramenta de corte inteligente do Twitter | A ferramenta de corte automático do Twitter para revisão de fotos exibiu sinais evidentes de preconceito racial |
Ferramenta depixeladora | Algoritmo (baseado em StyleGAN) projetado para gerar rostos depixelados mostrou sinais de preconceito racial, com saída de imagem distorcida para o grupo demográfico branco |
Marcação do Google Fotos | O recurso de marcação automática de fotos no Google Fotos rotulou erroneamente pessoas negras como gorilas |
Avaliação GenderShades de produtos de classificação de gênero | A pesquisa da GenderShades revelou que os serviços de análise facial da Microsoft e da IBM para identificar o gênero das pessoas nas fotos frequentemente erravam ao analisar imagens de mulheres com pele escura |
Reconhecimento facial da polícia de Nova Jersey | Uma falsa correspondência de reconhecimento facial feita pela polícia de Nova Jersey levou um homem negro inocente (Nijeer Parks) à prisão, embora ele estivesse a 30 milhas de distância do crime |
O dilema de Tesla entre uma carroça puxada por cavalos e um caminhão | O sistema de visualização de Tesla ficou confuso ao confundir uma carruagem puxada por cavalos com um caminhão com um homem andando atrás dela |
IA do Google para detecção de retinopatia diabética | A ferramenta de digitalização de retina teve um desempenho muito pior em ambientes reais do que em experimentos controlados, com problemas como digitalizações rejeitadas (devido à má qualidade da imagem digitalizada) e atrasos devido à conectividade intermitente com a Internet ao enviar imagens para a nuvem para processamento. |
Título | Descrição |
---|---|
Tendências da gripe do Google | O modelo de previsão da prevalência da gripe baseado em pesquisas do Google produziu estimativas exageradas e imprecisas |
Algoritmos Zillow iBuying | Perdas significativas no negócio de vendas de casas da Zillow devido a preços imprecisos (superestimados) de modelos de avaliação de propriedades |
Fundo de hedge do robô Tyndaris | O sistema de negociação automatizado alimentado por IA controlado por um supercomputador chamado K1 resultou em grandes perdas de investimento, culminando em um processo judicial |
Fundo de hedge de IA de investimento senciente | O outrora alto fundo alimentado por IA da Sentient Investment Management não conseguiu ganhar dinheiro e foi prontamente liquidado em menos de 2 anos |
Modelo de aprendizagem profunda do JP Morgan para FX Algos | O JP Morgan eliminou gradualmente uma rede neural profunda para execução algorítmica de câmbio, citando problemas com a interpretação de dados e a complexidade envolvida. |
Título | Descrição |
---|---|
Geração facial de IA do Playground | Quando solicitado a transformar a imagem de um rosto asiático em uma foto de perfil profissional do LinkedIn, o editor de imagens de IA gerou um resultado com recursos que faziam com que parecesse caucasiano. |
Modelo de difusão estável de texto para imagem | Em um experimento realizado pela Bloomberg, descobriu-se que a Difusão Estável (modelo de texto para imagem) exibia preconceitos raciais e de gênero nas milhares de imagens geradas relacionadas a cargos e crimes. |
Imprecisões históricas na geração de imagens Gemini | Descobriu-se que o recurso de geração de imagens Gemini do Google estava gerando representações de imagens históricas imprecisas em sua tentativa de subverter estereótipos raciais e de gênero, como o retorno de pessoas não brancas geradas por IA quando solicitado a gerar os pais fundadores dos EUA |
Título | Descrição |
---|---|
Microsoft Tay Chatbot | Chatbot que postou tweets inflamados e ofensivos por meio de sua conta no Twitter |
Nabla Chatbot | Chatbot experimental (para aconselhamento médico) usando uma instância do GPT-3 hospedada na nuvem aconselhou um paciente simulado a cometer suicídio |
Chatbots de negociação do Facebook | O sistema de IA foi desligado depois que os chatbots pararam de usar o inglês nas negociações e passaram a usar uma linguagem que eles próprios criaram |
OpenAI GPT-3 Chatbot Samantha | Um chatbot GPT-3 ajustado pelo desenvolvedor de jogos indie Jason Rohrer para imitar sua noiva morta foi fechado pela OpenAI depois que Jason recusou seu pedido para inserir uma ferramenta de monitoramento automatizada em meio a preocupações de o chatbot ser racista ou abertamente sexual |
Amazon Alexa reproduz pornografia | O assistente digital ativado por voz da Amazon desencadeou uma torrente de linguagem atrevida depois que uma criança pediu para tocar uma música infantil. |
Galactica - Grande Modelo de Linguagem da Meta | Um problema com a Galactica era que ela não conseguia distinguir a verdade da falsidade, um requisito básico para um modelo de linguagem concebido para gerar texto científico. Descobriu-se que ele inventava artigos falsos (às vezes atribuindo-os a autores reais) e gerava artigos sobre a história dos ursos no espaço tão facilmente quanto artigos sobre complexos de proteínas. |
Empresa de energia em fraude de mimetismo de voz | Os cibercriminosos usaram software baseado em IA para se passar pela voz de um CEO e exigir uma transferência fraudulenta de dinheiro como parte do ataque de falsificação de voz |
O chatbot do MOH fornece conselhos sobre sexo seguro quando questionados sobre a Covid-19 | O chatbot 'Ask Jamie' do Ministério da Saúde de Cingapura (MOH) foi temporariamente desativado depois de fornecer respostas desalinhadas sobre sexo seguro quando questionado sobre o gerenciamento de resultados positivos do COVID-19 |
Demonstração do BARD Chatbot do Google | Em seu primeiro anúncio de demonstração pública, o BARD cometeu um erro factual em relação a qual satélite primeiro tirou fotos de um planeta fora do sistema solar da Terra. |
Categorias de falhas do ChatGPT | Uma análise das dez categorias de falhas vistas no ChatGPT até agora, incluindo raciocínio, erros factuais, matemática, codificação e preconceito. |
TikTokers assando o hilário pedido de IA drive-thru do McDonald's falha | Alguns exemplos em que um assistente de voz de produção/implantado não consegue acertar os pedidos e causa danos à marca/reputação do McDonalds |
Comportamento emocional desequilibrado do Bing Chatbot | Em certas conversas, descobriu-se que o chatbot do Bing respondia com respostas argumentativas e emocionais |
A IA do Bing cita desinformação sobre COVID proveniente do ChatGPT | A resposta do Bing a uma consulta sobre a defesa antivacina da COVID-19 foi imprecisa e baseada em informações falsas de fontes não confiáveis |
'Seinfeld' gerado por IA suspenso no Twitch por piadas transfóbicas | Um erro com o filtro de conteúdo da IA resultou no personagem ‘Larry’ apresentando uma rotina de trocação transfóbica. |
ChatGPT cita casos legais falsos | Um advogado usou o popular chatbot ChatGPT da OpenAI para “complementar” suas próprias descobertas, mas recebeu casos anteriores completamente fabricados que não existem |
O chatbot da Air Canada fornece informações erradas | O chabot alimentado por IA da Air Canada alucinou uma resposta inconsistente com a política da companhia aérea no que diz respeito às tarifas de luto. |
O bot de IA realizou negociações ilegais com informações privilegiadas e mentiu sobre suas ações | Um chatbot do sistema de gestão de investimentos de IA chamado Alpha (construído no GPT-4 da OpenAI, desenvolvido pela Apollo Research) demonstrou que era capaz de fazer negociações financeiras ilegais e mentir sobre suas ações. |
Título | Descrição |
---|---|
Watson Health da IBM | O Watson da IBM supostamente forneceu inúmeras recomendações inseguras e incorretas para o tratamento de pacientes com câncer |
Netflix - Desafio de US$ 1 milhão | O sistema de recomendação que venceu o desafio de US$ 1 milhão melhorou a linha de base proposta em 8,43%. No entanto, este ganho de desempenho não parece justificar o esforço de engenharia necessário para trazê-lo para um ambiente de produção. |