Murphys Gesetze für maschinelles Lernen und neuronale Netze
Ganz im Sinne von „Alles, was schief gehen kann, wird auch schief gehen“ erfassen diese Gesetze die Eigenheiten und Herausforderungen der Arbeit mit ML und neuronalen Netzen in der realen Welt. Sie leiten sich aus den praktischen Problemen ab, denen wir gegenüberstehen, wenn unsere Modelle in Produktion gehen.
Die Gesetze
- Gesetz der kritischen Anwendung : Je kritischer die Anwendung, desto wahrscheinlicher ist es, dass das neuronale Netzwerk nicht verallgemeinert.
- Gesetz der übermäßigen Komplexität : Die Komplexität eines neuronalen Netzwerks wird immer die verfügbaren Daten übersteigen.
- Gesetz der vorzeitigen Bereitstellung : Bei einem neuronalen Netzwerkmodell, dessen Training Wochen dauert, wird ein Fehler innerhalb von Minuten nach der Bereitstellung entdeckt.
- Umkehrung des Gesetzes der Interpretierbarkeit : Das genaueste Modell ist am wenigsten interpretierbar.
- Gesetz der Hyperparameter-Inkonsistenz : Hyperparameter, die in Ihrem letzten Projekt am besten funktionierten, werden für Ihr aktuelles Projekt am schlechtesten sein.
- Gesetz der Schichtverwirrung : Je mehr Schichten Sie hinzufügen, desto weniger verstehen Sie.
- Gesetz der Validierungsaufsicht : Eine Genauigkeit von 99 % Ihres Validierungssatzes bedeutet normalerweise, dass Sie vergessen haben, eine kritische Datenklasse einzubeziehen.
- Gesetz der blinden Architektur : Wenn Sie die Architektur nicht verstehen, hilft das Hinzufügen weiterer Ebenen nicht.
- Gesetz der Modellveralterung : Sobald Sie Ihr hochmodernes Modell einsetzen, wird ein neues Papier herauskommen, das es obsolet macht.
- Gesetz des fehlgeleiteten Vertrauens : Das Vertrauen eines neuronalen Netzwerks in seine Vorhersage ist umgekehrt proportional zu seiner Genauigkeit in den kritischsten Momenten.
- Gesetz des letzten Atemzugs der GPU : Die GPU stürzt Minuten vor dem Ende einer einwöchigen Trainingssitzung ab.
- Gesetz der zufälligen Optimierung : Je mehr Sie ein neuronales Netzwerk optimieren, desto näher kommt es der Funktion eines Zufallszahlengenerators.
- Täuschung durch das Gesetz der Trainingsdauer : Das Modell, dessen Training Tage dauerte, wird von einem einfacheren Modell, das Minuten dauerte, übertroffen.
- Gesetz der Dokumentationsverzögerung : Die Dokumentation für das neueste neuronale Netzwerk-Framework wird immer eine Version hinterherhinken.
- Ironie des Gesetzes der Modellkomplexität : Ihr komplexestes Modell wird eine ähnliche Leistung erzielen wie eine lineare Regression für dieselben Daten.
- Gesetz der Hyperparameter im Nachhinein : Die besten Hyperparameter werden immer gefunden, nachdem Sie mit der Suche aufgehört haben.
- Gesetz der Reproduktionsangst : Der Moment, in dem Sie Ihre Ergebnisse nicht reproduzieren können, ist der, in dem Ihr Chef danach fragt.
- Gesetz der unerwarteten Eingaben : Jedes neuronale Netzwerk verfügt über einen speziellen Satz von Eingaben, die dazu führen, dass es sich unerwartet verhält, und Sie werden sie nur in der Produktion entdecken.
- Gesetz der einfachen Fehler : Egal wie fortgeschritten das Modell ist, seine Fehler werden für den Menschen immer töricht einfach erscheinen.
- Gesetz der Tiefe : Je tiefer das Netzwerk, desto schwerer zu fassen ist das Problem des verschwindenden Gradienten bis zur Bereitstellung.
- Gesetz der Wiederholung : Ihr RNN wird sich alles merken, außer dem einen Sequenzmuster, das entscheidend ist.
- Gesetz des Gated Memory : Sobald Sie entscheiden, dass LSTMs Ihre Sequenzprobleme gelöst haben, werden sich Ihre Daten weiterentwickeln, um zu beweisen, dass Sie falsch liegen.
- Gesetz der Bidirektionalität : Wenn ein BiLSTM anfängt, Sinn zu ergeben, werden Ihre Sequenzen an anderer Stelle Aufmerksamkeit erfordern.
- Faltungsgesetz : Das kritischste Merkmal liegt immer knapp außerhalb des Empfangsfeldes Ihres CNN.
- Gesetz der lokalen Rezeption : Nachdem Sie die Kernelgröße Ihres CNN sorgfältig optimiert haben, wird eine Änderung der Eingabeauflösung diese irrelevant machen.
- Gesetz der Aufmerksamkeit : Ihr Modell wird sich nacheinander um alles kümmern, außer um den relevantesten Teil.
- Gesetz der Selbstaufmerksamkeit : Wenn ein Transformer einmal ausfällt, wird er sich an dem Eingang befinden, den Sie am wenigsten erwartet haben.
- Gesetz des Transferlernens : Je spezifischer Ihre Aufgabe, desto weniger übertragbar ist ein vorab trainiertes Modell.
- Gesetz der Verstärkung : Ihr Agent wird jede Strategie beherrschen, außer derjenigen, die die Belohnung in der realen Welt maximiert.
- Gesetz der Umgebungsdynamik : Wenn Ihr RL-Modell einmal perfekt erscheint, wird die Umgebung plötzlich instationär.
- Gesetz der großen Modelle : Je größer das Modell, desto peinlicher ist der einfachste Fehler.
- Gesetz der Überparametrisierung : Ihr am stärksten überangepasstes Modell lässt sich beim Testen perfekt verallgemeinern, scheitert jedoch in der realen Welt kläglich.
- Gesetz des Farbverlaufsflusses : Die Ebene, auf der Sie den Farbverlauf am meisten benötigen, ist dort, wo er verschwindet.
- Gesetz der Modalitätsanpassung : Sobald Sie ein CNN für Nicht-Bilddaten optimieren, werden Sie einen Datensatz vorfinden, bei dem ein einfaches ANN die Leistung übertrifft.
- Gesetz der dynamischen Architektur : Je dynamischer Ihr Netzwerk ist, desto schwieriger wird es, seine plötzlichen Ausfälle zu erklären.
- Gesetz der gegnerischen Robustheit : Der gegnerische Angriff, auf den Sie sich nicht vorbereitet haben, wird der erste sein, dem Sie begegnen.
- Gesetz der Multimodalität : Wann immer Sie Datentypen kombinieren, wird das Netzwerk in einem übertreffen und in dem anderen spektakulär versagen.
- Gesetz der Sparsamkeit : Ihrem am stärksten beschnittenen Netzwerk wird die eine Verbindung fehlen, die entscheidend ist.
- Gesetz der neuronalen Plastizität : Am Tag nach der Umnutzung sehnt sich ein neuronales Netzwerk nach seiner ursprünglichen Aufgabe.
- Gesetz der überwachten Illusion : Beim überwachten Lernen gilt: Je genauer Ihr Modell mit den Trainingsdaten übereinstimmt, desto mehr glaubt es, die Welt zu verstehen – bis es mit den realen Daten übereinstimmt.
? Beiträge
Fühlen Sie sich frei, eine PR einzureichen, wenn Sie in Ihrer Erfahrung auf ein anderes „Gesetz“ gestoßen sind oder wenn Sie Vorschläge oder Verbesserungen haben. Lassen Sie uns diese Liste gemeinsam erweitern und ein wenig Humor in unsere täglichen ML-Kämpfe bringen.
? Lizenz
Dieses Repository ist unter der MIT-Lizenz lizenziert.
Danksagungen
- Inspiriert von Murphys Gesetz und der kollektiven Weisheit (und dem Schmerz) von Praktikern des maschinellen Lernens auf der ganzen Welt.
- Besonderer Dank geht an die ML-Community für die geteilten Erfahrungen und Erkenntnisse.
- Inspiriert von Murphys Gesetzessammlung im Blog der Angelo State University.