기계 학습 및 신경망에 대한 머피의 법칙
"잘못될 수 있는 모든 것은 잘못될 수 있다"는 정신으로 이러한 법칙은 현실 세계에서 ML 및 신경망을 사용할 때의 문제점과 과제를 포착합니다. 이는 모델을 생산에 투입할 때 직면하는 실제적인 문제에서 파생됩니다.
법률
- 중요한 응용의 법칙 : 응용이 더 중요할수록 신경망이 일반화되지 않을 가능성이 더 높습니다.
- 과도한 복잡성의 법칙 : 신경망의 복잡성은 항상 사용 가능한 데이터를 초과합니다.
- 조기 배포의 법칙 : 훈련하는 데 몇 주가 걸리는 신경망 모델은 배포 후 몇 분 안에 버그가 발견됩니다.
- 해석성의 법칙의 역설 : 가장 정확한 모델은 가장 해석하기 어렵습니다.
- 하이퍼파라미터 불일치의 법칙 : 지난 프로젝트에서 가장 잘 작동했던 하이퍼파라미터는 현재 프로젝트에서는 최악이 될 것입니다.
- 계층적 혼란의 법칙 : 더 많은 계층을 추가할수록 이해하는 것이 줄어듭니다.
- 검증 감독의 법칙 : 검증 세트의 정확도가 99%라는 것은 일반적으로 중요한 데이터 클래스를 포함하는 것을 잊었다는 것을 의미합니다.
- 블라인드 아키텍처의 법칙 : 아키텍처를 이해하지 못하면 레이어를 더 추가하는 것은 도움이 되지 않습니다.
- 모델 진부화의 법칙 : 최첨단 모델을 배포하는 순간 해당 모델을 더 이상 쓸모 없게 만드는 새로운 논문이 나올 것입니다.
- 잘못된 신뢰의 법칙 : 예측에 대한 신경망의 신뢰도는 가장 중요한 순간의 정확도에 반비례합니다.
- GPU의 마지막 헐떡임 법칙 : GPU는 몇 주 동안의 훈련 세션이 끝나기 몇 분 전에 충돌합니다.
- 무작위 조정의 법칙 : 신경망을 더 많이 조정할수록 난수 생성기에 더 가까워집니다.
- 훈련 기간의 속임수 법칙 : 훈련하는 데 며칠이 걸린 모델은 몇 분 밖에 걸리지 않은 단순한 모델보다 성능이 뛰어납니다.
- 문서 지연의 법칙 : 최신 신경망 프레임워크에 대한 문서는 항상 한 버전 뒤쳐집니다.
- 모델 복잡성의 법칙 아이러니 : 가장 복잡한 모델은 동일한 데이터에 대한 선형 회귀와 유사한 성능을 달성합니다.
- 하이퍼파라미터의 법칙 돌이켜보면 최고의 하이퍼파라미터는 항상 검색을 중단한 후에 발견됩니다.
- 재생산 불안의 법칙 : 결과를 재현할 수 없는 순간은 상사가 요구할 때입니다.
- 예기치 않은 입력의 법칙 : 모든 신경망에는 예기치 않게 동작하게 만드는 특수한 입력 세트가 있으며 프로덕션 환경에서만 이를 발견할 수 있습니다.
- 단순 실수의 법칙 : 모델이 아무리 발전하더라도 그 오류는 항상 인간에게 어리석을 정도로 단순해 보입니다.
- 깊이의 법칙 : 네트워크가 깊을수록 배포할 때까지 기울기 소실 문제는 더 파악하기 어렵습니다.
- 재발의 법칙 : RNN은 중요한 시퀀스 패턴을 제외한 모든 것을 기억합니다.
- 게이트 메모리의 법칙 : LSTM이 시퀀스 문제를 해결했다고 결정하는 순간 데이터는 자신이 틀렸다는 것을 증명하기 위해 발전할 것입니다.
- 양방향성의 법칙 : BiLSTM이 이해되기 시작하면 시퀀스가 다른 곳에 주의를 기울여야 합니다.
- 회선의 법칙 : 가장 중요한 기능은 항상 CNN의 수용 필드 바로 외부에 있습니다.
- 로컬 수신의 법칙 : CNN의 커널 크기를 공들여 최적화한 후 입력 해상도를 변경하면 관련성이 없게 됩니다.
- 주의의 법칙 : 모델은 가장 관련성이 높은 부분을 제외하고 순서대로 모든 것에 주의를 기울입니다.
- 자기 주의의 법칙 : Transformer가 실패하면 가장 예상치 못한 입력이 발생합니다.
- 전이 학습의 법칙 : 작업이 구체적일수록 사전 훈련된 모델의 전이 가능성은 낮아집니다.
- 강화의 법칙 : 에이전트는 현실 세계에서 보상을 최대화하는 전략을 제외한 모든 전략을 마스터합니다.
- 환경 역학의 법칙 : RL 모델이 완벽해 보이면 환경이 갑자기 비정상으로 변합니다.
- 대형 모델의 법칙 : 모델이 클수록 가장 단순한 실수도 더욱 당황스럽습니다.
- 과잉 매개변수화의 법칙 : 가장 과대적합된 모델은 테스트 중에는 완벽하게 일반화되지만 실제 세계에서는 비참하게 실패합니다.
- 그라디언트 흐름의 법칙 : 그라디언트가 가장 필요한 레이어는 사라지는 곳입니다.
- 양상 적응의 법칙 : 이미지가 아닌 데이터에 대해 CNN을 미세 조정하는 순간 간단한 ANN이 이를 능가하는 데이터 세트를 찾을 수 있습니다.
- 동적 아키텍처의 법칙 : 네트워크가 동적일수록 갑작스러운 오류를 설명하기가 더 어려워집니다.
- 적대적 강인함의 법칙 : 준비하지 않은 적의 공격이 가장 먼저 마주하게 될 것입니다.
- 다중 양식의 법칙 : 데이터 유형을 결합할 때마다 네트워크는 한 가지 유형에서는 탁월하지만 다른 유형에서는 크게 실패합니다.
- 희소성의 법칙 : 가장 잘 정리된 네트워크는 중요한 연결 하나를 놓치게 됩니다.
- 신경 가소성의 법칙 : 신경망의 용도를 변경한 다음 날은 원래의 작업을 갈망하게 됩니다.
- 지도 환상의 법칙 : 지도 학습에서는 모델이 훈련 데이터에 더 정확하게 맞을수록 실제 데이터를 충족할 때까지 세상을 더 잘 이해한다고 믿습니다.
? 기여
경험 중 또 다른 "법칙"을 접하셨거나 제안 사항이나 개선 사항이 있으시면 언제든지 PR을 제출해 주세요. 이 목록을 함께 늘려 일상적인 ML 문제에 약간의 유머를 더해 봅시다.
? 특허
이 저장소는 MIT 라이선스에 따라 라이선스가 부여됩니다.
감사의 말
- 머피의 법칙과 전 세계 머신러닝 실무자의 집단적 지혜(및 고통)에서 영감을 받았습니다.
- 경험과 통찰력을 공유해 주신 ML 커뮤니티에 특별히 감사드립니다.
- Angelo State University 블로그에 있는 Murphy의 법률 컬렉션에서 영감을 받았습니다.