Failed ML
1.0.0
“ความสำเร็จไม่ใช่จุดสิ้นสุด ความล้มเหลวไม่ใช่สิ่งร้ายแรง ความกล้าที่จะดำเนินต่อไปนั้นสำคัญ” - วินสตัน เชอร์ชิลล์
หากคุณกำลังมองหาตัวอย่างว่า ML สามารถล้มเหลวได้อย่างไรแม้จะมีศักยภาพอันน่าทึ่ง คุณมาถูกที่แล้ว นอกเหนือจากเรื่องราวความสำเร็จอันยอดเยี่ยมของ Applied Machine Learning แล้ว นี่คือรายการโครงการที่ล้มเหลวซึ่งเราสามารถเรียนรู้ได้มากมาย
ชื่อ | คำอธิบาย |
---|---|
ระบบจัดหางาน Amazon AI | ระบบรับสมัครอัตโนมัติที่ขับเคลื่อนด้วย AI ถูกยกเลิกหลังพบหลักฐานการเลือกปฏิบัติต่อผู้สมัครหญิง |
Genderify - เครื่องมือระบุเพศ | เครื่องมือที่ขับเคลื่อนด้วย AI ที่ออกแบบมาเพื่อระบุเพศตามฟิลด์ เช่น ชื่อและที่อยู่อีเมล ถูกปิดตัวลงเนื่องจากมีอคติและความไม่ถูกต้องในตัว |
การรั่วไหลและวิกฤตการทำซ้ำในวิทยาศาสตร์ที่ใช้ ML | ทีมงานที่มหาวิทยาลัยพรินซ์ตันพบบทวิจารณ์ 20 รายการในสาขาวิทยาศาสตร์ 17 สาขาที่ค้นพบข้อผิดพลาดที่สำคัญ (เช่น ข้อมูลรั่วไหล ไม่มีการแยกการทดสอบรถไฟ) ในเอกสาร 329 ฉบับที่ใช้วิทยาศาสตร์ที่ใช้ ML |
แบบจำลองการวินิจฉัยและคัดแยกโรคโควิด-19 | แบบจำลองการคาดการณ์หลายร้อยแบบได้รับการพัฒนาขึ้นเพื่อวินิจฉัยหรือคัดแยกผู้ป่วยโควิด-19 ได้เร็วขึ้น แต่ท้ายที่สุดแล้วไม่มีโมเดลใดที่เหมาะกับการใช้งานทางคลินิก และบางโมเดลอาจเป็นอันตราย |
อัลกอริทึมการกระทำซ้ำของ COMPAS | ระบบความเสี่ยงการกระทำผิดซ้ำของฟลอริดาพบหลักฐานของอคติทางเชื้อชาติ |
เครื่องมือคัดกรองสวัสดิการเด็กเพนซิลเวเนีย | อัลกอริธึมการทำนาย (ซึ่งช่วยระบุว่าครอบครัวใดที่ต้องถูกสอบสวนโดยนักสังคมสงเคราะห์ในข้อหาล่วงละเมิดและละเลยเด็ก) ระบุว่ามีเด็กผิวดำจำนวนที่ไม่สมสัดส่วนเนื่องจากการสอบสวนที่ "ได้รับคำสั่ง" ละเลย |
เครื่องมือคัดกรองสวัสดิการเด็กของรัฐออริกอน | เครื่องมือคาดการณ์ที่คล้ายกันกับเครื่องมือในเพนซิลเวเนีย อัลกอริธึม AI สำหรับสวัสดิการเด็กในรัฐโอเรกอนก็หยุดทำงานหนึ่งเดือนหลังจากรายงานของเพนซิลเวเนีย |
การทำนายความเสี่ยงด้านสุขภาพของระบบการดูแลสุขภาพของสหรัฐอเมริกา | อัลกอริธึมที่ใช้กันอย่างแพร่หลายในการทำนายความต้องการด้านการดูแลสุขภาพแสดงให้เห็นอคติทางเชื้อชาติ โดยที่คะแนนความเสี่ยงที่กำหนด ผู้ป่วยผิวดำจะป่วยมากกว่าผู้ป่วยผิวขาวอย่างมาก |
บัตรเครดิตแอปเปิ้ลการ์ด | บัตรเครดิตใหม่ของ Apple (สร้างขึ้นโดยความร่วมมือกับ Goldman Sachs) กำลังถูกตรวจสอบโดยหน่วยงานกำกับดูแลทางการเงิน หลังจากที่ลูกค้าร้องเรียนว่าอัลกอริธึมการให้ยืมของบัตรเลือกปฏิบัติต่อผู้หญิง โดยที่วงเงินเครดิตที่เสนอโดย Apple Card ของลูกค้าชายนั้นสูงกว่าที่เสนอให้แก่ลูกค้าของเขาถึง 20 เท่า คู่สมรส |
ชื่อ | คำอธิบาย |
---|---|
ระบบกล้องฟุตบอลอัตโนมัติอินเวอร์เนส | เทคโนโลยีติดตามฟุตบอลด้วยกล้อง AI สำหรับการสตรีมสดทำให้สับสนซ้ำแล้วซ้ำเล่าว่าไลน์แมนหัวล้านเพราะลูกบอลนั่นเอง |
Amazon Rekognition สำหรับสมาชิกสภาผู้แทนราษฎรแห่งสหรัฐอเมริกา | เทคโนโลยีการจดจำใบหน้าของ Amazon (Rekognition) จับคู่สมาชิกสภาผู้แทนราษฎร 28 คนอย่างไม่ถูกต้องด้วยภาพอาชญากร ขณะเดียวกันก็เผยให้เห็นอคติทางเชื้อชาติในอัลกอริทึม |
Amazon Rekognition สำหรับการบังคับใช้กฎหมาย | เทคโนโลยีการจดจำใบหน้า (Rekognition) ของ Amazon ระบุผู้หญิงว่าเป็นผู้ชาย โดยเฉพาะอย่างยิ่งผู้ที่มีผิวคล้ำ |
ระบบจดจำใบหน้าจราจรของเจ้อเจียง | ระบบกล้องจราจร (ออกแบบมาเพื่อจับภาพการกระทำผิดกฎหมายจราจร) เข้าใจผิดว่าใบหน้าข้างรถบัสเป็นคนเดินข้ามถนน |
Kneron หลอกใช้เครื่องจดจำใบหน้า | ทีมงานที่ Kneron ใช้มาสก์ 3 มิติคุณภาพสูงเพื่อหลอกลวงระบบการชำระเงิน AliPay และ WeChat เพื่อซื้อสินค้า |
เครื่องมือครอบตัดอัจฉริยะของ Twitter | เครื่องมือครอบตัดอัตโนมัติของ Twitter สำหรับการตรวจสอบรูปภาพแสดงสัญญาณที่ชัดเจนของอคติทางเชื้อชาติ |
เครื่องมือ Depixelator | อัลกอริทึม (ตาม StyleGAN) ที่ออกแบบมาเพื่อสร้างใบหน้าที่ไม่มีพิกเซลแสดงสัญญาณของอคติทางเชื้อชาติ โดยที่เอาต์พุตรูปภาพเอียงไปทางกลุ่มประชากรผิวขาว |
การแท็ก Google รูปภาพ | ความสามารถในการแท็กรูปภาพอัตโนมัติใน Google Photos เข้าใจผิดว่าคนผิวดำเป็นกอริลลา |
การประเมิน GenderShades ของผลิตภัณฑ์จำแนกเพศ | การวิจัยของ GenderShades เปิดเผยว่าบริการวิเคราะห์ใบหน้าของ Microsoft และ IBM เพื่อระบุเพศของบุคคลในภาพถ่ายมักเกิดข้อผิดพลาดเมื่อวิเคราะห์ภาพผู้หญิงที่มีผิวสีเข้ม |
การจดจำใบหน้าของตำรวจนิวเจอร์ซีย์ | การจับคู่การจดจำใบหน้าปลอมโดยตำรวจนิวเจอร์ซีย์ทำให้ชายผิวดำผู้บริสุทธิ์ (Nijeer Parks) เข้าคุกแม้ว่าเขาจะอยู่ห่างจากอาชญากรรม 30 ไมล์ |
ภาวะที่กลืนไม่เข้าคายไม่ออกของ Tesla ระหว่างรถม้าและรถบรรทุก | ระบบการมองเห็นของ Tesla เกิดความสับสนโดยเข้าใจผิดว่ารถม้าเป็นรถบรรทุกโดยมีผู้ชายเดินอยู่ข้างหลัง |
AI ของ Google สำหรับการตรวจหาภาวะเบาหวานขึ้นจอประสาทตา | เครื่องมือสแกนเรตินาพบปัญหาในการตั้งค่าในชีวิตจริงได้แย่กว่าการทดลองที่ได้รับการควบคุมมาก โดยมีปัญหาต่างๆ เช่น การสแกนถูกปฏิเสธ (จากคุณภาพของภาพสแกนต่ำ) และความล่าช้าจากการเชื่อมต่ออินเทอร์เน็ตเป็นระยะๆ เมื่ออัปโหลดภาพไปยังระบบคลาวด์เพื่อประมวลผล |
ชื่อ | คำอธิบาย |
---|---|
Google เทรนด์ไข้หวัดใหญ่ | โมเดลการทำนายความชุกของไข้หวัดใหญ่ตามการค้นหาของ Google ทำให้เกิดค่าประมาณที่ไม่ถูกต้องมากเกินไป |
อัลกอริธึม Zillow iBuying | ความสูญเสียที่สำคัญในธุรกิจพลิกบ้านของ Zillow เนื่องจากราคาที่ไม่ถูกต้อง (ประเมินสูงเกินไป) จากแบบจำลองการประเมินมูลค่าทรัพย์สิน |
กองทุนป้องกันความเสี่ยงหุ่นยนต์ Tyndaris | ระบบการซื้อขายอัตโนมัติที่ขับเคลื่อนด้วย AI ซึ่งควบคุมโดยซูเปอร์คอมพิวเตอร์ชื่อ K1 ส่งผลให้เกิดการสูญเสียเงินลงทุนจำนวนมาก ซึ่งนำไปสู่การฟ้องร้อง |
กองทุนเฮดจ์ฟันด์ AI การลงทุนที่มีความรู้สึก | กองทุนที่ขับเคลื่อนด้วย AI ที่บินได้สูงครั้งหนึ่งที่ Sentient Investment Management ล้มเหลวในการสร้างรายได้และถูกชำระบัญชีทันทีในเวลาไม่ถึง 2 ปี |
โมเดลการเรียนรู้เชิงลึกของ JP Morgan สำหรับ FX Algos | JP Morgan ได้ยุติการใช้ Deep Neural Network สำหรับการดำเนินการอัลกอริทึมการแลกเปลี่ยนเงินตราต่างประเทศ โดยอ้างถึงปัญหาเกี่ยวกับการตีความข้อมูลและความซับซ้อนที่เกี่ยวข้อง |
ชื่อ | คำอธิบาย |
---|---|
สนามเด็กเล่นการสร้างใบหน้า AI | เมื่อถูกขอให้เปลี่ยนภาพเฮดช็อตชาวเอเชียให้เป็นรูปโปรไฟล์ LinkedIn แบบมืออาชีพ โปรแกรมแก้ไขรูปภาพ AI จะสร้างผลลัพธ์พร้อมคุณสมบัติที่ทำให้ดูเหมือนเป็นคนผิวขาวแทน |
โมเดลการแพร่กระจายข้อความเป็นรูปภาพที่เสถียร | ในการทดลองที่ดำเนินการโดย Bloomberg พบว่า Stable Diffusion (โมเดลข้อความเป็นรูปภาพ) แสดงอคติทางเชื้อชาติและเพศในภาพนับพันที่สร้างขึ้นที่เกี่ยวข้องกับตำแหน่งงานและอาชญากรรม |
ความไม่ถูกต้องทางประวัติศาสตร์ในการสร้างภาพราศีเมถุน | พบว่าฟีเจอร์การสร้างรูปภาพ Gemini ของ Google สร้างการแสดงรูปภาพในอดีตที่ไม่ถูกต้อง โดยพยายามล้มล้างทัศนคติแบบเหมารวมเรื่องเพศและเชื้อชาติ เช่น การส่งคืนบุคคลที่สร้างโดย AI ที่ไม่ใช่คนผิวขาว เมื่อได้รับแจ้งให้สร้างบิดาผู้ก่อตั้งของสหรัฐอเมริกา |
ชื่อ | คำอธิบาย |
---|---|
ไมโครซอฟต์ เทย์ แชทบอต | Chatbot ที่โพสต์ทวีตที่ยั่วยุและไม่เหมาะสมผ่านบัญชี Twitter |
นาบลา แชทบอต | แชทบอททดลอง (สำหรับคำแนะนำทางการแพทย์) โดยใช้อินสแตนซ์ที่โฮสต์บนคลาวด์ของ GPT-3 แนะนำผู้ป่วยจำลองให้ฆ่าตัวตาย |
แชทบอทการเจรจาต่อรองบน Facebook | ระบบ AI ถูกปิดตัวลงหลังจากแชทบอทหยุดใช้ภาษาอังกฤษในการเจรจาและเริ่มใช้ภาษาที่พวกเขาสร้างขึ้นเอง |
OpenAI GPT-3 Chatbot ซาแมนต้า | แชทบอท GPT-3 ปรับแต่งโดยนักพัฒนาเกมอินดี้ Jason Rohrer เพื่อเลียนแบบคู่หมั้นที่เสียชีวิตของเขาถูกปิดตัวลงโดย OpenAI หลังจากที่เจสันปฏิเสธคำขอของพวกเขาที่จะใส่เครื่องมือตรวจสอบอัตโนมัติ ท่ามกลางความกังวลว่าแชทบอทนั้นเหยียดเชื้อชาติหรือแสดงเรื่องเพศอย่างเปิดเผย |
Amazon Alexa เล่นสื่อลามก | ผู้ช่วยดิจิทัลที่สั่งงานด้วยเสียงของ Amazon ปล่อยภาษาหยาบคายออกมามากมาย หลังจากที่เด็กวัยหัดเดินขอให้เล่นเพลงสำหรับเด็ก |
Galactica - โมเดลภาษาขนาดใหญ่ของ Meta | ปัญหาของกาแลคติกาคือไม่สามารถแยกแยะความจริงออกจากความเท็จได้ ซึ่งเป็นข้อกำหนดพื้นฐานสำหรับแบบจำลองภาษาที่ออกแบบมาเพื่อสร้างข้อความทางวิทยาศาสตร์ พบว่าจัดทำเอกสารปลอม (บางครั้งอ้างว่าเป็นผู้เขียนจริง) และสร้างบทความเกี่ยวกับประวัติศาสตร์ของหมีในอวกาศพอๆ กับบทความเกี่ยวกับโปรตีนเชิงซ้อน |
บริษัทพลังงานในการฉ้อโกงการเลียนแบบเสียง | อาชญากรไซเบอร์ใช้ซอฟต์แวร์ที่ใช้ AI เพื่อเลียนแบบเสียงของ CEO เพื่อเรียกร้องการโอนเงินที่ฉ้อโกงซึ่งเป็นส่วนหนึ่งของการโจมตีด้วยการปลอมแปลงเสียง |
MOH chatbot ให้คำแนะนำเรื่องเพศที่ปลอดภัยเมื่อถามคำถามเกี่ยวกับ Covid-19 | แชทบอต 'Ask Jamie' ของกระทรวงสาธารณสุขของสิงคโปร์ (MOH) ถูกปิดใช้งานชั่วคราวหลังจากตอบกลับไม่ตรงประเด็นเกี่ยวกับการมีเพศสัมพันธ์ที่ปลอดภัย เมื่อถูกถามเกี่ยวกับการจัดการผลลัพธ์ที่เป็นบวกของโควิด-19 |
การสาธิต BARD Chatbot ของ Google | ในการโฆษณาสาธิตสาธารณะครั้งแรก BARD ได้ทำข้อผิดพลาดเกี่ยวกับข้อเท็จจริงว่าดาวเทียมดวงใดถ่ายภาพดาวเคราะห์นอกระบบสุริยะของโลกได้เป็นครั้งแรก |
หมวดหมู่ ChatGPT ของความล้มเหลว | การวิเคราะห์ความล้มเหลว 10 ประเภทที่พบใน ChatGPT จนถึงตอนนี้ รวมถึงการให้เหตุผล ข้อผิดพลาดตามข้อเท็จจริง คณิตศาสตร์ การเขียนโค้ด และอคติ |
TikTokers ทดสอบคำสั่ง AI ไดรฟ์ทรูสุดฮาของ McDonald ล้มเหลว | ตัวอย่างบางส่วนที่ระบบสั่งงานด้วยเสียงที่ใช้งานจริง/ใช้งานจริงล้มเหลวในการรับคำสั่งซื้ออย่างถูกต้อง และนำไปสู่ความเสียหายต่อแบรนด์/ชื่อเสียงของ McDonalds |
พฤติกรรมทางอารมณ์ที่ไร้เหตุผลของ Bing Chatbot | ในการสนทนาบางรายการ พบว่าแชทบอทของ Bing ตอบกลับด้วยการโต้แย้งและโต้ตอบทางอารมณ์ |
AI ของ Bing เสนอราคาข้อมูลบิดเบือนเกี่ยวกับโควิดที่มาจาก ChatGPT | คำตอบของ Bing ต่อคำถามเกี่ยวกับการสนับสนุนต่อต้านวัคซีนป้องกันโควิด-19 นั้นไม่ถูกต้องและอิงจากข้อมูลเท็จจากแหล่งที่มาที่ไม่น่าเชื่อถือ |
'Seinfeld' ที่สร้างโดย AI ระงับ Twitch เนื่องจากมีเรื่องตลกข้ามเพศ | ข้อผิดพลาดกับตัวกรองเนื้อหาของ AI ส่งผลให้ตัวละคร 'Larry' แสดงท่ายืนที่ไม่ชอบข้ามเพศ |
ChatGPT อ้างอิงคดีทางกฎหมายปลอม | ทนายความใช้ Chatbot ChatGPT ยอดนิยมของ OpenAI เพื่อ "เสริม" การค้นพบของเขาเอง แต่กลับมาพร้อมกับกรณีก่อนหน้านี้ที่ผลิตขึ้นมาทั้งหมดซึ่งไม่มีอยู่จริง |
แชทบอทของ Air Canada ให้ข้อมูลผิดพลาด | Chabot ที่ขับเคลื่อนด้วย AI ของ Air Canada เห็นภาพหลอนในคำตอบที่ไม่สอดคล้องกับนโยบายของสายการบินเกี่ยวกับค่าโดยสารสำหรับการเสียชีวิต |
บอท AI ทำการซื้อขายหลักทรัพย์โดยใช้ข้อมูลภายในที่ผิดกฎหมายและโกหกเกี่ยวกับการกระทำของมัน | แชทบอทระบบการจัดการการลงทุน AI ที่เรียกว่า Alpha (สร้างบน GPT-4 ของ OpenAI ซึ่งพัฒนาโดย Apollo Research) แสดงให้เห็นว่ามันสามารถทำการค้าทางการเงินที่ผิดกฎหมายและโกหกเกี่ยวกับการกระทำของมัน |
ชื่อ | คำอธิบาย |
---|---|
สุขภาพวัตสันของไอบีเอ็ม | วัตสันของไอบีเอ็มถูกกล่าวหาว่าให้คำแนะนำที่ไม่ปลอดภัยและไม่ถูกต้องมากมายในการรักษาผู้ป่วยโรคมะเร็ง |
Netflix - ความท้าทาย 1 ล้านเหรียญ | ระบบผู้แนะนำที่ชนะการแข่งขัน 1 ล้านดอลลาร์ได้ปรับปรุงพื้นฐานที่เสนอขึ้น 8.43% อย่างไรก็ตาม ประสิทธิภาพที่เพิ่มขึ้นนี้ดูเหมือนจะไม่สอดคล้องกับความพยายามทางวิศวกรรมที่จำเป็นในการนำมันเข้าสู่สภาพแวดล้อมการผลิต |