Leyes de Murphy para el aprendizaje automático y las redes neuronales
Con el espíritu de "Todo lo que pueda salir mal, saldrá mal", estas leyes capturan las peculiaridades y los desafíos de trabajar con ML y redes neuronales en el mundo real. Se derivan de los problemas prácticos que enfrentamos cuando nuestros modelos pasan a producción.
Las leyes
- Ley de aplicación crítica : cuanto más crítica sea la aplicación, es más probable que la red neuronal no pueda generalizarse.
- Ley de la Complejidad Excesiva : La complejidad de una red neuronal siempre excederá los datos disponibles.
- Ley de implementación prematura : a un modelo de red neuronal que tarda semanas en entrenarse se le descubrirá un error a los pocos minutos de su implementación.
- Ley de la inversa de la interpretabilidad : el modelo más preciso será el menos interpretable.
- Ley de inconsistencia de hiperparámetros : los hiperparámetros que funcionaron mejor en su último proyecto serán los peores para su proyecto actual.
- Ley de la confusión en capas : cuantas más capas agregues, menos entenderás.
- Ley de supervisión de la validación : una precisión del 99 % en su conjunto de validación generalmente significa que ha olvidado incluir una clase crítica de datos.
- Ley de la arquitectura ciega : si no comprende la arquitectura, agregar más capas no ayudará.
- Ley de obsolescencia del modelo : en el momento en que implementes tu modelo de última generación, aparecerá un nuevo documento que lo dejará obsoleto.
- Ley de confianza fuera de lugar : la confianza de una red neuronal en su predicción es inversamente proporcional a su precisión en los momentos más críticos.
- Ley del último suspiro de la GPU : La GPU fallará minutos antes del final de una sesión de entrenamiento de una semana de duración.
- Ley de ajustes aleatorios : cuanto más modificas una red neuronal, más se acerca a ser un generador de números aleatorios.
- Ley del engaño de la duración del entrenamiento : el modelo que tardó días en entrenar será superado por un modelo más simple que tardó minutos.
- Ley del retraso en la documentación : la documentación del último marco de red neuronal siempre estará una versión por detrás.
- Ley de la ironía de la complejidad del modelo : su modelo más complejo logrará un rendimiento similar al de una regresión lineal con los mismos datos.
- Ley de los hiperparámetros en retrospectiva : los mejores hiperparámetros siempre se encuentran después de dejar de buscar.
- Ley de la Ansiedad Reproductiva : El momento en que no puedes replicar tus resultados es cuando tu jefe te los pide.
- Ley de entradas inesperadas : cada red neuronal tiene un conjunto especial de entradas que harán que se comporte de manera inesperada y solo las descubrirá en producción.
- Ley de los errores simples : No importa cuán avanzado sea el modelo, sus errores siempre parecerán tontamente simples para los humanos.
- Ley de profundidad : cuanto más profunda es la red, más difícil de alcanzar será el problema del gradiente que desaparece hasta el momento de su implementación.
- Ley de recurrencia : su RNN recordará todo, excepto el patrón de secuencia que es crítico.
- Ley de la memoria cerrada : en el momento en que decida que los LSTM han resuelto sus problemas de secuencia, sus datos evolucionarán para demostrar que está equivocado.
- Ley de bidireccionalidad : cuando un BiLSTM comienza a tener sentido, sus secuencias exigirán atención en otra parte.
- Ley de convolución : la característica más crítica siempre estará justo fuera del campo receptivo de su CNN.
- Ley de recepción local : después de optimizar minuciosamente el tamaño del núcleo de su CNN, un cambio en la resolución de entrada lo hará irrelevante.
- Ley de Atención : Tu modelo atenderá todo en una secuencia excepto la parte más relevante.
- Ley de autoatención : la única vez que falla un transformador, estará en la entrada que menos esperabas.
- Ley del aprendizaje por transferencia : cuanto más específica sea su tarea, menos transferible será un modelo previamente entrenado.
- Ley de refuerzo : tu agente dominará todas las estrategias, excepto la que maximiza la recompensa en el mundo real.
- Ley de la dinámica del entorno : la única vez que su modelo RL parece perfecto, el entorno de repente dejará de estar estacionario.
- Ley de los modelos grandes : cuanto más grande es el modelo, más vergonzoso es su error más simple.
- Ley de sobreparametrización : su modelo más sobreajustado se generalizará perfectamente durante las pruebas, pero fallará estrepitosamente en el mundo real.
- Ley del flujo de degradado : la capa donde más necesitas el degradado es donde desaparecerá.
- Ley de adaptación de la modalidad : en el momento en que ajuste una CNN para datos que no son imágenes, encontrará un conjunto de datos en el que una ANN simple la supera.
- Ley de la arquitectura dinámica : cuanto más dinámica sea su red, más difícil será explicar sus fallas repentinas.
- Ley de robustez adversaria : el ataque adversario para el que no te preparaste será el primero que encuentres.
- Ley de multimodalidad : siempre que combine tipos de datos, la red sobresaldrá en uno y fallará espectacularmente en el otro.
- Ley de dispersión : la red más podada perderá la única conexión que es crítica.
- Ley de plasticidad neuronal : el día después de reutilizar una red neuronal es cuando anhelará su tarea original.
- Ley de la ilusión supervisada : en el aprendizaje supervisado, cuanto más precisamente se ajuste su modelo a los datos de entrenamiento, más cree que comprende el mundo, hasta que se encuentra con los datos del mundo real.
? Contribuciones
No dude en enviar un PR si ha encontrado otra "ley" en su experiencia o si tiene alguna sugerencia o mejora. Hagamos crecer esta lista juntos y aportemos un poco de humor a nuestras luchas diarias de ML.
? Licencia
Este repositorio tiene la licencia MIT.
Expresiones de gratitud
- Inspirado en la Ley de Murphy y la sabiduría (y el dolor) colectivo de los profesionales del aprendizaje automático en todas partes.
- Un agradecimiento especial a la comunidad de ML por las experiencias y conocimientos compartidos.
- Inspirado en la colección de leyes de Murphy en el blog de Angelo State University.