自然言語処理: ゼロからヒーローへ!
NLP の理論と実践へようこそ。
このリポジトリでは、トークナイザーからトランスフォーマー アーキテクチャに至るまで、NLP の世界を始めるために必要なもののほぼすべてをカバーしました。これを完了する頃には、NLP の核となる概念をしっかりと理解していることでしょう。
このリポジトリの目的は、核となる直感を提供することであり、これが終わるまでに、物事が長年にわたってどのように進化し、なぜそのようになっているかがわかるようになります。
表意文字によって生成された画像
目次
1.トークン化
2. 前処理
3. 言葉の袋と類似性
4. TF-IDFと文書検索
5. ナイーブベイズテキスト分類
6. LDA トピックモデリング
7. 単語の埋め込み
8. リカレント ニューラル ネットワーク (RNN) と言語モデリング
9. 機械翻訳と注意
10. トランスフォーマー
このリポジトリはどのように使用すればよいですか?
- ML と DL に必要な計算能力を考慮すると、Google Colab または Kaggle カーネルを使用することをお勧めします。
- をクリックすると、Colab でノートブックを開くことができます。
- をクリックすると、Kaggle でノートブックを開くことができます。
- 一部のノートブックでは Kaggle データセットが使用されており、その一部はギガバイト単位です。
- これらのデータセットをより速く読み込むには、対応するタグを使用して Kaggle でデータセットを開くことをお勧めします。
- Kaggle カーネルを開いても、ノートブックに必要なデータセットは直接アタッチされません。
- それぞれのノートブックにリンクが提供されているデータセットを添付する必要があります。このデータセットは、ノートブックを進めていくと見つかります。
-
Tokenization
ノートブックから始めて、順番に進めていきます。 - 時間をかけて概念とコードを理解してください。理解しやすく、自分のペースで行えるように特別に設計されています。
- 始める前に、Python プログラミングの基本を理解していることを確認してください。
- 問題が発生した場合や質問がある場合は、お気軽に GitHub リポジトリで問題を開いてください。
- 役立つと思われる場合は、リポジトリにスターを付けることを忘れないでください。
貢献する
このリポジトリに貢献していただくことを歓迎します。まず、問題を開くか、プル リクエストを送信します。ご質問がございましたら、お気軽に X までご連絡ください。
他の人にとって役立つと思われるリソースがある場合は、お気軽にイシューをオープンするか、プル リクエストを送信してください。
ライセンス
このプロジェクトは MIT ライセンスに基づいてライセンスされています。詳細については、LICENSE ファイルを参照してください。
スターの歴史