Bienvenue dans la théorie et l'expérience pratique de la PNL.
Dans ce référentiel, j'ai couvert presque tout ce dont vous avez besoin pour vous lancer dans le monde de la PNL, des Tokenizers à l'architecture Transformer. Au moment où vous aurez terminé cela, vous aurez une solide maîtrise des concepts fondamentaux de la PNL.
Le but de ce référentiel est de vous donner l'intuition fondamentale et à la fin, vous saurez comment les choses ont évolué au fil des ans et pourquoi elles sont telles qu'elles sont.
Image générée par l'idéogramme
Table des matières
1. Tokenisation
2. Prétraitement
3. Sac de mots et similarité
4. TF-IDF et recherche de documents
5. Classification naïve des textes bayésiens
6. Modélisation de sujets LDA
7. Intégrations de mots
8. Réseaux de neurones récurrents (RNN) et modélisation du langage
9. Traduction automatique et attention
10. Transformateurs
Comment utiliser ce référentiel ?
Compte tenu de la puissance de calcul requise pour ML et DL, il est conseillé d'utiliser Google Colab ou Kaggle Kernels.
Vous pouvez cliquer sur pour ouvrir le notebook dans Colab.
Vous pouvez cliquer sur pour ouvrir le bloc-notes dans Kaggle.
Pour certains ordinateurs portables, des ensembles de données Kaggle sont utilisés, et certains d'entre eux sont en gigaoctets.
Pour un chargement plus rapide de ces ensembles de données, il est conseillé de les ouvrir dans Kaggle en utilisant les balises correspondantes.
L'ouverture du noyau Kaggle n'attache pas directement l'ensemble de données requis pour le bloc-notes.
Vous devez joindre l'ensemble de données dont le lien a été fourni dans les cahiers respectifs, que vous trouverez au fur et à mesure de votre progression.
Commencez par le carnet Tokenization et avancez séquentiellement.
Prenez votre temps pour comprendre les concepts et le code. Il est spécialement conçu pour être facile à comprendre et à réaliser à votre rythme.
Assurez-vous d'avoir une compréhension de base de la programmation Python avant de commencer.
Si vous rencontrez des problèmes ou avez des questions, n'hésitez pas à ouvrir un ticket dans le référentiel GitHub.
N'oubliez pas de mettre en vedette le référentiel si vous le trouvez utile !
Contribuer
Vous êtes plus que bienvenu pour contribuer à ce référentiel. Vous pouvez commencer par ouvrir un ticket ou soumettre une pull request. Si vous avez des questions, n'hésitez pas à me contacter sur X
Si vous disposez de ressources qui, selon vous, pourraient être utiles à d'autres, n'hésitez pas à ouvrir un ticket ou à soumettre une pull request.
Licence
Ce projet est sous licence MIT - voir le fichier LICENSE pour plus de détails.