機械学習とニューラルネットワークに関するマーフィーの法則
「うまくいかない可能性のあるものはすべてうまくいかない」の精神に基づいて、これらの法則は、現実世界で ML とニューラル ネットワークを使用する際の癖と課題を捉えています。これらは、モデルを実稼働環境に移行するときに直面する実際的な問題から派生したものです。
法律
- クリティカル アプリケーションの法則: アプリケーションがクリティカルであればあるほど、ニューラル ネットワークが一般化できない可能性が高くなります。
- 過度の複雑性の法則: ニューラル ネットワークの複雑さは、常に利用可能なデータを超えます。
- 早期展開の法則: トレーニングに数週間かかるニューラル ネットワーク モデルは、展開後数分以内にバグが発見されます。
- 解釈可能性の法則の逆: 最も正確なモデルは、最も解釈しにくくなります。
- ハイパーパラメータの不一致の法則: 前回のプロジェクトで最もうまく機能したハイパーパラメータは、現在のプロジェクトでは最悪になります。
- 階層化された混乱の法則: 階層を追加すると、理解が深まります。
- 検証の監視の法則: 検証セットの精度が 99% であるということは、通常、重要なクラスのデータを含めるのを忘れていることを意味します。
- ブラインド アーキテクチャの法則: アーキテクチャを理解していない場合、レイヤーを追加しても役に立ちません。
- モデルの陳腐化の法則: 最先端のモデルを導入した瞬間に、新しい論文が発表され、それが陳腐化します。
- 見当違いの信頼の法則: ニューラル ネットワークの予測に対する信頼度は、最も重要な瞬間における精度に反比例します。
- GPU の最後のあえぎの法則: GPU は、数週間にわたるトレーニング セッションが終了する数分前にクラッシュします。
- ランダム微調整の法則: ニューラル ネットワークを微調整すればするほど、乱数生成器に近づいていきます。
- トレーニング期間の欺瞞の法則: トレーニングに数日かかったモデルは、数分かかったより単純なモデルよりも優れたパフォーマンスを発揮します。
- ドキュメントの遅れの法則: 最新のニューラル ネットワーク フレームワークのドキュメントは常に 1 バージョン遅れます。
- モデルの複雑さの法則 皮肉: 最も複雑なモデルは、同じデータに対する線形回帰と同様のパフォーマンスを達成します。
- ハイパーパラメータの法則 後知恵: 最適なハイパーパラメータは、検索をやめた後に必ず見つかります。
- 再生産不安の法則: 自分の結果を再現できないのは、上司から結果を求められたときです。
- 予期せぬ入力の法則: すべてのニューラル ネットワークには、予期せぬ動作をさせる特別な入力セットがあり、それらは運用環境でのみ発見されます。
- 単純な間違いの法則: モデルがどれほど高度であっても、そのエラーは常に人間にとって愚かなほど単純に見えます。
- 深さの法則: ネットワークが深くなるほど、勾配消失の問題は展開するまでとらえどころがなくなります。
- 回帰の法則: RNN は、重要な 1 つのシーケンス パターンを除いて、すべてを記憶します。
- ゲートメモリの法則: LSTM がシーケンスの問題を解決したと判断した瞬間、データは進化して、あなたが間違っていたことが証明されます。
- 双方向性の法則: BiLSTM が意味を持ち始めると、シーケンスは別の場所に注目を集めるようになります。
- 畳み込みの法則: 最も重要な特徴は常に CNN の受容野のすぐ外にあります。
- ローカル受信の法則: CNN のカーネル サイズを苦労して最適化した後、入力解像度が変更されると、そのサイズは意味がなくなります。
- 注意の法則: モデルは、最も関連性の高い部分を除くシーケンス内のすべてに注意を払います。
- 自己注意の法則: Transformer が一度失敗すると、それは予想外の入力に発生します。
- 転移学習の法則: タスクが具体的であればあるほど、事前トレーニングされたモデルの移転可能性は低くなります。
- 強化の法則: エージェントは、現実世界での報酬を最大化する戦略を除くすべての戦略を習得します。
- 環境力学の法則: RL モデルが完璧に見えたとしても、環境は突然非定常になります。
- 大規模モデルの法則: モデルが大きければ大きいほど、最も単純な間違いはより恥ずかしいものになります。
- 過剰パラメータ化の法則: 最も過剰適合したモデルは、テスト中には完全に一般化しますが、現実世界では惨めに失敗します。
- グラデーション フローの法則: グラデーションが最も必要なレイヤーは、グラデーションが消える場所です。
- モダリティ適応の法則: 非画像データ用に CNN を微調整すると、単純な ANN がそれを上回るデータセットが見つかるでしょう。
- 動的アーキテクチャの法則: ネットワークが動的であればあるほど、突然の障害を説明するのが難しくなります。
- 敵対的堅牢性の法則: 準備をしていなかった敵対的攻撃が最初に遭遇します。
- マルチモダリティの法則: データ型を組み合わせると、ネットワークは 1 つでは優れていますが、もう 1 つでは見事に失敗します。
- スパースの法則: 最も剪定されたネットワークでは、重要な 1 つの接続が失われます。
- 神経可塑性の法則: ニューラル ネットワークを再利用した翌日には、ニューラル ネットワークは元のタスクを実行できるようになります。
- 教師あり幻想の法則: 教師あり学習では、モデルがトレーニング データに正確に適合するほど、現実世界のデータと一致するまで、モデルは世界を理解していると確信します。
?貢献
あなたの経験の中で別の「法則」に遭遇した場合、または提案や改善点がある場合は、お気軽に PR を送信してください。一緒にこのリストを増やして、日々の ML の苦闘に少しのユーモアを取り入れてみましょう。
?ライセンス
このリポジトリは、MIT ライセンスに基づいてライセンスされています。
謝辞
- マーフィーの法則と、世界中の機械学習実践者の集合的な知恵 (そして痛み) からインスピレーションを受けています。
- 経験と洞察を共有してくれた ML コミュニティに特に感謝します。
- アンジェロ州立大学のブログにあるマーフィーの法則コレクションからインスピレーションを受けています。