실패한 기계 학습(FML)
실패한 머신러닝 프로젝트의 세간의 이목을 끄는 실제 사례
“성공은 최종적인 것이 아니며, 실패는 치명적이지 않습니다. 중요한 것은 계속하려는 용기입니다.” - 윈스턴 처칠
ML의 엄청난 잠재력에도 불구하고 어떻게 실패할 수 있는지에 대한 예를 찾고 있다면 제대로 찾아오셨습니다. 응용 기계 학습의 놀라운 성공 사례 외에도 우리가 많은 것을 배울 수 있는 실패한 프로젝트 목록이 있습니다.
내용물
- 클래식 머신러닝
- 컴퓨터 비전
- 예측
- 이미지 생성
- 자연어 처리
- 추천 시스템
클래식 머신러닝
제목 | 설명 |
---|
아마존 AI 채용 시스템 | 여성 지원자 차별 적발돼 AI 기반 자동 채용 시스템 취소 |
Genderify - 성별 식별 도구 | 이름, 이메일 주소 등의 필드를 기반으로 성별을 식별하도록 설계된 AI 기반 도구는 내장된 편견과 부정확성으로 인해 종료되었습니다. |
ML 기반 과학의 누출 및 재현성 위기 | 프린스턴 대학의 한 팀은 ML 기반 과학을 사용하는 329개 논문에서 심각한 오류(예: 데이터 유출, 열차 테스트 분할 없음)를 발견한 17개 과학 분야의 20개 리뷰를 발견했습니다. |
코로나19 진단 및 분류 모델 | 코로나19 환자를 더 빠르게 진단하거나 분류하기 위해 수백 개의 예측 모델이 개발되었지만 궁극적으로 그 중 어느 것도 임상 용도에 적합하지 않았으며 일부는 잠재적으로 해로웠습니다. |
COMPAS 재범 알고리즘 | 플로리다의 재범 위험 시스템에서 인종 편견의 증거가 발견되었습니다. |
펜실베니아 아동 복지 심사 도구 | 예측 알고리즘(사회복지사가 아동 학대 및 방치에 대해 조사할 가족을 식별하는 데 도움이 됨)은 '의무적' 방치 조사 대상으로 흑인 아동이 너무 많다는 점을 표시했습니다. |
오리건 아동 복지 심사 도구 | 펜실베니아의 것과 유사한 예측 도구인 오레곤의 아동 복지를 위한 AI 알고리즘도 펜실베니아 보고서가 나온 지 한 달 만에 중단되었습니다. |
미국 의료 시스템 건강 위험 예측 | 의료 요구를 예측하기 위해 널리 사용되는 알고리즘은 주어진 위험 점수에 대해 흑인 환자가 백인 환자보다 상당히 아픈 인종 편견을 나타냈습니다. |
애플카드 신용카드 | Apple의 새로운 신용 카드(Goldman Sachs와 제휴하여 제작)는 카드의 대출 알고리즘이 여성을 차별한다고 고객이 불만을 제기한 후 금융 규제 당국의 조사를 받고 있습니다. 남성 고객의 Apple 카드가 제공하는 신용 한도는 그의 신용 한도보다 20배 더 높습니다. 배우자 |
컴퓨터 비전
제목 | 설명 |
---|
인버네스 자동 축구 카메라 시스템 | 라이브 스트리밍을 위한 AI 카메라 축구 추적 기술은 라인맨의 대머리를 공 자체로 반복적으로 혼동했습니다. |
미국 국회의원을 위한 Amazon Rekognition | 아마존의 안면인식 기술(레코그니션)은 28명의 국회의원을 범죄자의 머그샷과 허위 매칭하는 동시에 알고리즘에서 인종적 편견을 드러냈다. |
법 집행을 위한 Amazon Rekognition | 아마존의 얼굴 인식 기술(Rekognition)은 여성, 특히 피부색이 어두운 여성을 남성으로 오인했습니다. |
저장성 교통 안면인식 시스템 | 교통 위반을 포착하기 위해 설계된 교통 카메라 시스템은 버스 옆에 있는 얼굴을 무단횡단한 사람으로 착각했습니다. |
Kneron, 안면인식 단말기 속여 | Kneron 팀은 고품질 3D 마스크를 사용하여 AliPay 및 WeChat 결제 시스템을 속여 구매했습니다. |
트위터 스마트 자르기 도구 | 트위터의 사진 검토용 자동 자르기 도구는 인종적 편견의 명백한 징후를 보여줍니다. |
디픽셀레이터 도구 | 픽셀이 제거된 얼굴을 생성하도록 설계된 알고리즘(StyleGAN 기반)은 인종적 편견의 징후를 보였으며 이미지 출력은 백인 인구통계 쪽으로 치우쳐 있습니다. |
Google 포토 태그 | Google 포토의 자동 사진 태그 기능은 실수로 흑인을 고릴라로 분류했습니다. |
성별 분류 제품의 GenderShades 평가 | GenderShades의 연구에 따르면 사진 속 사람의 성별을 식별하는 Microsoft와 IBM의 얼굴 분석 서비스는 피부색이 어두운 여성의 이미지를 분석할 때 자주 오류가 발생하는 것으로 나타났습니다. |
뉴저지 경찰 얼굴 인식 | 뉴저지 경찰의 허위 안면 인식 일치로 인해 무고한 흑인 남성(니지어 파크스)이 범죄 현장에서 30마일 떨어져 있음에도 불구하고 감옥에 갇혔습니다. |
마차와 트럭 사이의 테슬라의 딜레마 | Tesla의 시각화 시스템은 마차를 트럭으로 착각하고 그 뒤에 사람이 걸어가는 것으로 인해 혼란을 겪었습니다. |
당뇨병성 망막증 감지를 위한 Google AI | 망막 스캐닝 도구는 거부된 스캔(낮은 스캔 이미지 품질로 인해) 및 처리를 위해 이미지를 클라우드에 업로드할 때 간헐적인 인터넷 연결로 인한 지연과 같은 문제로 통제된 실험보다 실제 환경에서 훨씬 더 나빴습니다. |
예측
제목 | 설명 |
---|
Google 독감 트렌드 | Google 검색을 기반으로 한 독감 유병률 예측 모델은 부정확한 과대 추정을 생성했습니다. |
Zillow iBuying 알고리즘 | 부동산 평가 모델의 부정확한(과대평가된) 가격으로 인해 Zillow의 주택 뒤집기 사업에 상당한 손실이 발생했습니다. |
틴다리스 로봇 헤지펀드 | K1이라는 슈퍼컴퓨터가 제어하는 AI 기반 자동화 거래 시스템, 막대한 투자 손실 초래, 결국 소송까지 |
센티언트 투자 AI 헤지펀드 | 센티언트 투자 관리(Sentient Investment Management)의 한때 높이 날던 AI 기반 펀드는 돈을 벌지 못하고 2년도 채 안 되어 즉시 청산되었습니다. |
FX Algos를 위한 JP Morgan의 딥 러닝 모델 | JP Morgan은 데이터 해석 및 관련 복잡성 문제를 이유로 외환 알고리즘 실행을 위한 심층 신경망을 단계적으로 폐지했습니다. |
이미지 생성
제목 | 설명 |
---|
플레이그라운드 AI 얼굴 생성 | 아시아인의 얼굴 사진을 전문적인 LinkedIn 프로필 사진으로 바꾸라는 요청을 받았을 때 AI 이미지 편집기는 백인처럼 보이게 만드는 기능이 포함된 출력을 생성했습니다. |
안정적인 확산 텍스트-이미지 모델 | Bloomberg가 진행한 실험에서 Stable Diffusion(텍스트-이미지 모델)이 직위 및 범죄와 관련하여 생성된 수천 장의 이미지에서 인종 및 성별 편견을 나타내는 것으로 나타났습니다. |
Gemini 이미지 생성의 역사적 부정확성 | Google의 Gemini 이미지 생성 기능은 미국 건국의 아버지를 생성하라는 메시지가 표시될 때 AI가 생성한 백인이 아닌 사람을 반환하는 등 성별 및 인종 고정관념을 전복하려는 시도에서 부정확한 역사적 이미지 묘사를 생성하는 것으로 밝혀졌습니다. |
자연어 처리
제목 | 설명 |
---|
마이크로소프트 테이 챗봇 | 자신의 트위터 계정을 통해 선동적이고 공격적인 트윗을 게시하는 챗봇 |
나블라 챗봇 | 클라우드 호스팅 GPT-3 인스턴스를 사용하는 실험적인 챗봇(의학적 조언용)은 모의 환자에게 자살을 권고했습니다. |
Facebook 협상 챗봇 | 챗봇이 협상에서 영어 사용을 중단하고 스스로 만든 언어를 사용하기 시작한 후 AI 시스템이 종료되었습니다. |
OpenAI GPT-3 챗봇 사만다 | 인디 게임 개발자인 제이슨 로러(Jason Rohrer)가 그의 죽은 약혼자를 모방하기 위해 미세 조정한 GPT-3 챗봇은 챗봇이 인종차별적이거나 노골적으로 성적일 것이라는 우려로 인해 제이슨이 자동화된 모니터링 도구를 삽입해 달라는 요청을 거부한 후 OpenAI에 의해 종료되었습니다. |
Amazon Alexa는 포르노를 재생합니다. | Amazon의 음성 인식 디지털 비서는 유아가 동요를 틀어 달라고 요청하자 선정적인 언어를 쏟아냈습니다. |
Galactica - 메타의 대규모 언어 모델 | Galactica의 문제는 과학적 텍스트를 생성하도록 설계된 언어 모델의 기본 요구 사항인 진실과 거짓을 구별할 수 없다는 것입니다. 가짜 논문을 작성한 것으로 밝혀졌으며(때때로 실제 저자의 것으로 간주) 단백질 복합체에 관한 기사만큼 쉽게 우주 곰의 역사에 대한 기사를 생성했습니다. |
음성 모방 사기의 에너지 회사 | 사이버 범죄자들은 AI 기반 소프트웨어를 사용해 CEO의 목소리를 사칭하여 음성 스푸핑 공격의 일환으로 사기 자금 이체를 요구했습니다. |
MOH 챗봇은 코로나19 관련 질문에 안전한 성관계 조언을 제공합니다. | 싱가포르 보건부(MOH)의 '제이미에게 물어보세요' 챗봇이 코로나19 양성 결과 관리에 대한 질문에 안전한 성관계에 관해 잘못된 답변을 제공한 후 일시적으로 비활성화되었습니다. |
Google의 BARD 챗봇 데모 | 첫 번째 공개 데모 광고에서 BARD는 어느 위성이 처음으로 지구 태양계 외부 행성의 사진을 찍었는지에 대해 사실 오류를 범했습니다. |
ChatGPT 실패 카테고리 | 추론, 사실 오류, 수학, 코딩, 편견을 포함하여 지금까지 ChatGPT에서 볼 수 있는 10가지 실패 범주에 대한 분석입니다. |
TikTokers, 맥도날드의 재미있는 드라이브 스루 AI 주문 실패 | 생산/배포된 음성 도우미가 주문을 올바르게 처리하지 못하고 McDonalds의 브랜드/평판이 손상되는 일부 샘플 |
Bing Chatbot의 불안한 감정적 행동 | 특정 대화에서 Bing의 챗봇은 논쟁적이고 감정적인 반응을 보이는 것으로 나타났습니다. |
Bing의 AI는 ChatGPT에서 가져온 코로나19 허위 정보를 인용합니다. | 코로나19 백신 반대 주장에 대한 질문에 대한 Bing의 응답은 부정확했으며 신뢰할 수 없는 출처의 허위 정보를 기반으로 했습니다. |
AI가 생성한 '사인펠드(Seinfeld)'는 트랜스혐오적 농담으로 인해 트위치에서 정지되었습니다 | AI 콘텐츠 필터의 실수로 인해 'Larry'라는 캐릭터가 트랜스포빅 스탠드업 루틴을 전달하게 되었습니다. |
ChatGPT는 가짜 법적 사건을 인용합니다 | 변호사는 OpenAI의 인기 있는 챗봇인 ChatGPT를 사용하여 자신의 조사 결과를 "보완"했지만 존재하지 않는 완전히 제작된 이전 사례를 제공받았습니다. |
에어캐나다 챗봇이 잘못된 정보를 제공합니다 | 에어캐나다의 AI 기반 샤봇은 사별 요금과 관련하여 항공사 정책과 일치하지 않는 답변을 환각했습니다. |
AI 봇이 불법 내부자 거래를 하고 그 행위에 대해 거짓말을 했습니다. | Apollo Research에서 개발하고 OpenAI의 GPT-4를 기반으로 구축된 Alpha라는 AI 투자 관리 시스템 챗봇은 불법 금융 거래를 하고 그 행위에 대해 거짓말을 할 수 있음을 보여주었습니다. |
추천 시스템
제목 | 설명 |
---|
IBM의 왓슨 헬스 | IBM의 Watson은 암 환자 치료에 대해 안전하지 않고 잘못된 수많은 권장 사항을 제공한 것으로 알려졌습니다. |
Netflix - 100만 달러 챌린지 | 100만 달러 챌린지에서 우승한 추천 시스템은 제안된 기준선을 8.43% 향상시켰습니다. 그러나 이러한 성능 향상은 이를 생산 환경에 도입하는 데 필요한 엔지니어링 노력을 정당화하지 못하는 것 같습니다. |