กฎของเมอร์ฟี่สำหรับการเรียนรู้ของเครื่องและโครงข่ายประสาทเทียม
ด้วยจิตวิญญาณของ "สิ่งใดก็ตามที่สามารถผิดพลาดได้ย่อมผิดพลาด" กฎหมายเหล่านี้รวบรวมลักษณะเฉพาะและความท้าทายของการทำงานร่วมกับ ML และ Neural Networks ในโลกแห่งความเป็นจริง สิ่งเหล่านี้ได้มาจากปัญหาในทางปฏิบัติที่เราเผชิญเมื่อโมเดลของเราถูกผลักดันไปสู่การใช้งานจริง
กฎหมาย
- Law of Critical Application : ยิ่งแอปพลิเคชั่นมีความสำคัญมากเท่าใด โครงข่ายประสาทเทียมก็จะยิ่งล้มเหลวในการสรุปมากขึ้นเท่านั้น
- กฎแห่งความซับซ้อนมากเกินไป : ความซับซ้อนของโครงข่ายประสาทเทียมจะเกินข้อมูลที่มีอยู่เสมอ
- กฎแห่งการปรับใช้ก่อนกำหนด : โมเดลโครงข่ายประสาทเทียมที่ใช้เวลาหลายสัปดาห์ในการฝึกอบรมจะมีข้อบกพร่องที่ค้นพบภายในไม่กี่นาทีหลังการปรับใช้
- กฎการผกผันของกฎการตีความ : โมเดลที่แม่นยำที่สุดจะตีความได้น้อยที่สุด
- กฎความไม่สอดคล้องกันของพารามิเตอร์ไฮเปอร์พารามิเตอร์ : ไฮเปอร์พารามิเตอร์ที่ทำงานได้ดีที่สุดในโปรเจ็กต์ล่าสุดของคุณจะแย่ที่สุดสำหรับโปรเจ็กต์ปัจจุบันของคุณ
- กฎแห่งความสับสนแบบหลายชั้น ยิ่งเพิ่มชั้นมากเท่าไร ก็ยิ่งเข้าใจน้อยลงเท่านั้น
- กฎการตรวจสอบความถูกต้อง : ความแม่นยำ 99% ในชุดการตรวจสอบของคุณมักจะหมายความว่าคุณลืมที่จะรวมประเภทข้อมูลที่สำคัญ
- Law of Blind Architecture : หากคุณไม่เข้าใจสถาปัตยกรรม การเพิ่มเลเยอร์เข้าไปจะไม่ช่วยอะไร
- Law of Model Obsolescence : ทันทีที่คุณปรับใช้โมเดลที่ล้ำสมัย เอกสารใหม่จะออกมาทำให้โมเดลล้าสมัย
- กฎแห่งความมั่นใจที่วางผิดที่ : ความมั่นใจของโครงข่ายประสาทเทียมในการทำนายนั้นแปรผกผันกับความแม่นยำในช่วงเวลาที่สำคัญที่สุด
- Law of GPU's Last Gasp : GPU จะพังไม่กี่นาทีก่อนสิ้นสุดเซสชั่นการฝึกที่ยาวนานหนึ่งสัปดาห์
- กฎแห่งการปรับแต่งแบบสุ่ม : ยิ่งคุณปรับแต่งโครงข่ายประสาทเทียมมากเท่าไร ยิ่งเข้าใกล้การเป็นตัวสร้างตัวเลขสุ่มมากขึ้นเท่านั้น
- Law of Training Duration's Deception : โมเดลที่ใช้เวลาหลายวันในการฝึกจะมีประสิทธิภาพเหนือกว่าโมเดลที่ง่ายกว่าซึ่งใช้เวลาไม่กี่นาที
- Law of Documentation Lag : เอกสารสำหรับเฟรมเวิร์กโครงข่ายประสาทเทียมล่าสุดจะตามหลังเวอร์ชันเดียวเสมอ
- กฎของความซับซ้อนของโมเดล ประชด : โมเดลที่ซับซ้อนที่สุดของคุณจะมีประสิทธิภาพใกล้เคียงกับการถดถอยเชิงเส้นในข้อมูลเดียวกัน
- Law of Hyperparameter Hindsight : ไฮเปอร์พารามิเตอร์ที่ดีที่สุดมักจะพบหลังจากที่คุณหยุดค้นหา
- กฎแห่งความวิตกกังวลเกี่ยวกับการสืบพันธุ์ : ช่วงเวลาที่คุณไม่สามารถทำซ้ำผลลัพธ์ของคุณได้คือเมื่อเจ้านายของคุณร้องขอ
- กฎของอินพุตที่ไม่คาดคิด : โครงข่ายประสาทเทียมทุกอันมีชุดอินพุตพิเศษที่จะทำให้มันทำงานโดยไม่คาดคิด และคุณจะค้นพบพวกมันได้เฉพาะในการใช้งานจริงเท่านั้น
- กฎแห่งข้อผิดพลาดง่ายๆ : ไม่ว่าแบบจำลองจะก้าวหน้าแค่ไหน ข้อผิดพลาดของมันก็มักจะดูเหมือนเป็นเรื่องง่ายสำหรับมนุษย์เสมอ
- กฎแห่งความลึก : ยิ่งเครือข่ายลึกเท่าไร ปัญหาการไล่ระดับสีที่หายไปจนกว่าจะถึงการใช้งานก็จะยิ่งยากขึ้นเท่านั้น
- กฎการเกิดซ้ำ : RNN ของคุณจะจดจำทุกอย่าง ยกเว้นรูปแบบลำดับเดียวที่สำคัญ
- Law of Gated Memory : เมื่อคุณตัดสินใจว่า LSTM ได้แก้ไขปัญหาลำดับของคุณแล้ว ข้อมูลของคุณก็จะพัฒนาขึ้นเพื่อพิสูจน์ว่าคุณคิดผิด
- กฎแห่งความเป็นสองทิศทาง : เมื่อ BiLSTM เริ่มเข้าใจได้ ลำดับของคุณจะเรียกร้องความสนใจจากที่อื่น
- กฎแห่งการโน้มน้าวใจ : คุณลักษณะที่สำคัญที่สุดจะอยู่นอกขอบเขตการรับข้อมูลของ CNN เสมอ
- กฎการรับในท้องถิ่น : หลังจากปรับขนาดเคอร์เนลของ CNN ของคุณอย่างอุตสาหะ การเปลี่ยนแปลงความละเอียดอินพุตจะทำให้ไม่เกี่ยวข้อง
- กฎแห่งความสนใจ : โมเดลของคุณจะให้ความสำคัญกับทุกสิ่งในลำดับ ยกเว้นส่วนที่เกี่ยวข้องมากที่สุด
- กฎแห่งการเอาใจใส่ตนเอง : ครั้งเดียวที่ Transformer ล้มเหลว มันจะอยู่ในอินพุตที่คุณคาดหวังน้อยที่สุด
- กฎแห่งการเรียนรู้แบบถ่ายทอด : ยิ่งงานของคุณเจาะจงมากเท่าใด โมเดลที่ผ่านการฝึกอบรมล่วงหน้าก็จะยิ่งถ่ายโอนได้น้อยลงเท่านั้น
- กฎแห่งการเสริมแรง : ตัวแทนของคุณจะเชี่ยวชาญทุกกลยุทธ์ ยกเว้นกลยุทธ์ที่ให้รางวัลสูงสุดในโลกแห่งความเป็นจริง
- Law of Environment Dynamics : เมื่อโมเดล RL ของคุณดูสมบูรณ์แบบ สภาพแวดล้อมจะเปลี่ยนไม่นิ่งในทันที
- กฎของโมเดลขนาดใหญ่ : ยิ่งโมเดลใหญ่เท่าไร ความผิดพลาดที่ง่ายที่สุดก็น่าอายมากขึ้นเท่านั้น
- กฎแห่งการกำหนดพารามิเตอร์มากเกินไป : โมเดลที่มีการติดตั้งมากเกินไปที่สุดของคุณจะสรุปได้อย่างสมบูรณ์แบบในระหว่างการทดสอบ แต่จะล้มเหลวอย่างน่าสังเวชในโลกแห่งความเป็นจริง
- กฎของการไหลของการไล่ระดับสี : เลเยอร์ที่คุณต้องการการไล่ระดับสีมากที่สุดคือตำแหน่งที่มันจะหายไป
- Law of Modality Adaptation : เมื่อคุณปรับแต่ง CNN อย่างละเอียดสำหรับข้อมูลที่ไม่ใช่รูปภาพ คุณจะพบชุดข้อมูลที่ ANN แบบธรรมดามีประสิทธิภาพเหนือกว่า
- กฎแห่งสถาปัตยกรรมแบบไดนามิก : ยิ่งเครือข่ายของคุณมีไดนามิกมากเท่าไร การอธิบายความล้มเหลวกะทันหันก็จะยากขึ้นเท่านั้น
- กฎแห่งความแข็งแกร่งของฝ่ายตรงข้าม : การโจมตีของฝ่ายตรงข้ามที่คุณไม่ได้เตรียมไว้จะเป็นครั้งแรกที่คุณเผชิญ
- กฎแห่งความหลากหลาย : เมื่อใดก็ตามที่คุณรวมประเภทข้อมูลเข้าด้วยกัน เครือข่ายจะมีความเป็นเลิศในประเภทหนึ่งและล้มเหลวอย่างมากในอีกประเภทหนึ่ง
- กฎแห่งความกระจัดกระจาย : เครือข่ายที่ถูกตัดแต่งมากที่สุดของคุณจะพลาดการเชื่อมต่อเดียวที่สำคัญ
- กฎของพลาสติกประสาท : วันหลังจากที่คุณนำโครงข่ายประสาทเทียมกลับมาใช้ใหม่คือวันที่เครือข่ายจะโหยหางานดั้งเดิม
- กฎแห่งภาพลวงตาภายใต้การดูแล : ในการเรียนรู้แบบมีผู้สอน ยิ่งแบบจำลองของคุณตรงกับข้อมูลการฝึกแม่นยำมากเท่าใด โมเดลของคุณก็จะยิ่งเชื่อว่าเข้าใจโลกมากขึ้นเท่านั้น จนกว่าจะตรงกับข้อมูลในโลกแห่งความเป็นจริง
- ผลงาน
อย่าลังเลที่จะส่ง PR หากคุณพบ "กฎหมาย" อื่นในประสบการณ์ของคุณ หรือหากคุณมีข้อเสนอแนะหรือการปรับปรุงใดๆ มาสร้างรายชื่อนี้ด้วยกันและนำอารมณ์ขันเล็กๆ น้อยๆ มาสู่ปัญหา ML ประจำวันของเรา
- ใบอนุญาต
พื้นที่เก็บข้อมูลนี้ได้รับอนุญาตภายใต้ใบอนุญาต MIT
รับทราบ
- แรงบันดาลใจจากกฎของเมอร์ฟี่และภูมิปัญญาโดยรวม (และความเจ็บปวด) ของผู้ปฏิบัติงานแมชชีนเลิร์นนิงทุกแห่ง
- ขอขอบคุณเป็นพิเศษสำหรับชุมชน ML สำหรับประสบการณ์และข้อมูลเชิงลึกที่แบ่งปัน
- แรงบันดาลใจจากคอลเลกชันกฎหมายของ Murphy ที่บล็อกของ Angelo State University