Lois de Murphy pour l'apprentissage automatique et les réseaux de neurones
Dans l'esprit « Tout ce qui peut mal tourner tournera mal », ces lois capturent les bizarreries et les défis liés au travail avec le ML et les réseaux de neurones dans le monde réel. Ils découlent des problèmes pratiques auxquels nous sommes confrontés lorsque nos modèles sont mis en production.
Les lois
- Loi d'application critique : plus l'application est critique, plus il est probable que le réseau neuronal ne parvienne pas à se généraliser.
- Loi de la complexité excessive : La complexité d'un réseau de neurones dépassera toujours les données disponibles.
- Loi du déploiement prématuré : un modèle de réseau neuronal dont la formation prend des semaines verra un bug découvert quelques minutes après le déploiement.
- Inverse de la loi de l'interprétabilité : Le modèle le plus précis sera le moins interprétable.
- Loi d'incohérence des hyperparamètres : les hyperparamètres qui ont le mieux fonctionné dans votre dernier projet seront les pires pour votre projet actuel.
- Loi de la confusion en couches : plus vous ajoutez de couches, moins vous comprenez.
- Loi de surveillance de la validation : une précision de 99 % sur votre ensemble de validation signifie généralement que vous avez oublié d'inclure une classe critique de données.
- Loi de l'architecture aveugle : Si vous ne comprenez pas l'architecture, l'ajout de couches supplémentaires ne vous aidera pas.
- Loi de l'obsolescence du modèle : dès que vous déployez votre modèle de pointe, un nouveau document sortira le rendant obsolète.
- Loi de la confiance mal placée : La confiance d'un réseau neuronal dans sa prédiction est inversement proportionnelle à sa précision aux moments les plus critiques.
- Loi du dernier souffle du GPU : Le GPU plantera quelques minutes avant la fin d'une session de formation d'une semaine.
- Loi des ajustements aléatoires : Plus vous modifiez un réseau neuronal, plus il se rapproche d'un générateur de nombres aléatoires.
- Loi de la tromperie sur la durée de l'entraînement : le modèle qui a pris des jours à s'entraîner sera surpassé par un modèle plus simple qui a pris quelques minutes.
- Loi du décalage de la documentation : la documentation du dernier cadre de réseau neuronal sera toujours en retard d'une version.
- Loi de la complexité des modèles Ironie : votre modèle le plus complexe atteindra des performances similaires à celles d'une régression linéaire sur les mêmes données.
- Loi du recul des hyperparamètres : les meilleurs hyperparamètres sont toujours trouvés après avoir arrêté la recherche.
- Loi de l'anxiété de reproduction : Le moment où vous ne pouvez pas reproduire vos résultats, c'est lorsque votre patron vous les demande.
- Loi des entrées inattendues : chaque réseau neuronal possède un ensemble spécial d'entrées qui le feront se comporter de manière inattendue, et vous ne les découvrirez qu'en production.
- Loi des erreurs simples : quel que soit le degré d’avancement du modèle, ses erreurs apparaîtront toujours bêtement simples aux humains.
- Loi de la profondeur : plus le réseau est profond, plus le problème du gradient de disparition jusqu'au déploiement est insaisissable.
- Loi de récurrence : votre RNN se souviendra de tout, sauf du modèle de séquence qui est critique.
- Loi de la mémoire fermée : dès que vous décidez que les LSTM ont résolu vos problèmes de séquence, vos données évolueront pour prouver que vous avez tort.
- Loi de Bidirectionnalité : Lorsqu'un BiLSTM commence à avoir un sens, vos séquences demanderont une attention ailleurs.
- Loi de convolution : la fonctionnalité la plus critique sera toujours juste en dehors du champ de réception de votre CNN.
- Loi de la réception locale : Après avoir minutieusement optimisé la taille du noyau de votre CNN, un changement dans la résolution d'entrée le rendra inutile.
- Loi de l'attention : votre modèle s'occupera de tout dans une séquence, sauf la partie la plus pertinente.
- Loi de l'auto-attention : la seule fois où un transformateur tombe en panne, ce sera sur l'entrée à laquelle vous vous attendiez le moins.
- Loi de l'apprentissage par transfert : Plus votre tâche est spécifique, moins un modèle pré-entraîné sera transférable.
- Loi du Renforcement : Votre agent maîtrisera toutes les stratégies, sauf celle qui maximise la récompense dans le monde réel.
- Loi de la dynamique de l'environnement : La seule fois où votre modèle RL semble parfait, l'environnement deviendra soudainement non stationnaire.
- Loi des grands modèles : Plus le modèle est grand, plus sa plus simple erreur est embarrassante.
- Loi de surparamétrisation : votre modèle le plus surajusté se généralisera parfaitement lors des tests mais échouera lamentablement dans le monde réel.
- Loi du flux de dégradé : le calque où vous avez le plus besoin du dégradé est celui où il disparaîtra.
- Loi d'adaptation modale : dès que vous affinez un CNN pour des données non-image, vous trouverez un ensemble de données où un simple ANN le surpasse.
- Loi de l'architecture dynamique : Plus votre réseau est dynamique, plus il sera difficile d'expliquer ses pannes soudaines.
- Loi de robustesse contradictoire : L'attaque contradictoire à laquelle vous ne vous êtes pas préparé sera la première que vous rencontrerez.
- Loi de la multimodalité : chaque fois que vous combinez des types de données, le réseau excelle dans l'un et échoue de façon spectaculaire dans l'autre.
- Loi de la parcimonie : votre réseau le plus élagué manquera la connexion critique.
- Loi de la plasticité neuronale : Le lendemain de la réutilisation d'un réseau neuronal, c'est le moment où il aspirera à sa tâche initiale.
- Loi de l'illusion supervisée : dans l'apprentissage supervisé, plus votre modèle s'adapte précisément aux données d'entraînement, plus il croit comprendre le monde, jusqu'à ce qu'il rencontre les données du monde réel.
? Cotisations
N'hésitez pas à soumettre un PR si vous avez rencontré une autre « loi » dans votre expérience ou si vous avez des suggestions ou des améliorations. Développons cette liste ensemble et apportons un peu d'humour à nos luttes quotidiennes en matière de ML.
? Licence
Ce référentiel est sous licence MIT.
Remerciements
- Inspiré par la loi de Murphy et la sagesse (et la douleur) collective des praticiens de l'apprentissage automatique du monde entier.
- Un merci spécial à la communauté ML pour les expériences et les idées partagées.
- Inspiré de la collection de lois de Murphy sur le blog de l'Angelo State University.