Willkommen bei Theorie und praktischer Erfahrung von NLP.
In diesem Repository habe ich fast alles behandelt, was Sie für den Einstieg in die Welt des NLP benötigen, angefangen von Tokenizern bis hin zur Transformer-Architektur. Wenn Sie dies abgeschlossen haben, verfügen Sie über ein solides Verständnis der Kernkonzepte von NLP.
Der Zweck dieses Repositorys besteht darin, Ihnen die Kernintuition zu vermitteln und am Ende werden Sie wissen, wie sich die Dinge im Laufe der Jahre entwickelt haben und warum sie so sind, wie sie sind.
Bild generiert von Ideogram
Inhaltsverzeichnis
1. Tokenisierung
2. Vorverarbeitung
3. Beutel voller Wörter und Ähnlichkeit
4. TF-IDF und Dokumentensuche
5. Naive Bayes-Textklassifizierung
6. LDA-Themenmodellierung
7. Worteinbettungen
8. Wiederkehrende neuronale Netze (RNNs) und Sprachmodellierung
9. Maschinelle Übersetzung und Aufmerksamkeit
10. Transformatoren
Wie verwende ich dieses Repository?
Angesichts der für ML und DL erforderlichen Rechenleistung wird die Verwendung von Google Colab oder Kaggle Kernels empfohlen.
Sie können auf klicken, um das Notizbuch in Colab zu öffnen.
Sie können auf klicken, um das Notizbuch in Kaggle zu öffnen.
Für einige Notebooks werden Kaggle-Datensätze verwendet, einige davon liegen in Gigabyte vor.
Um diese Datensätze schneller laden zu können, wird empfohlen, sie mit entsprechenden Tags in Kaggle zu öffnen.
Beim Öffnen des Kaggle-Kernels wird der für das Notebook erforderliche Datensatz nicht direkt angehängt.
Sie müssen den Datensatz anhängen, dessen Link in den jeweiligen Notizbüchern angegeben ist, die Sie beim Durcharbeiten finden.
Beginnen Sie mit dem Tokenization und gehen Sie nacheinander vor.
Nehmen Sie sich Zeit, um die Konzepte und den Code zu verstehen. Es ist speziell so konzipiert, dass es leicht zu verstehen ist und in Ihrem eigenen Tempo durchgeführt werden kann.
Stellen Sie sicher, dass Sie über grundlegende Kenntnisse der Python-Programmierung verfügen, bevor Sie beginnen.
Wenn Sie auf Probleme stoßen oder Fragen haben, können Sie gerne ein Issue im GitHub-Repository öffnen.
Vergessen Sie nicht, das Repository zu markieren, wenn Sie es hilfreich finden!
Mitwirken
Sie sind herzlich willkommen, zu diesem Repository beizutragen. Sie können beginnen, indem Sie ein Problem öffnen oder eine Pull-Anfrage senden. Wenn Sie Fragen haben, können Sie mich gerne unter X kontaktieren
Wenn Sie Ressourcen haben, die Ihrer Meinung nach für andere hilfreich sein könnten, können Sie gerne ein Problem eröffnen oder eine Pull-Anfrage einreichen.
Lizenz
Dieses Projekt ist unter der MIT-Lizenz lizenziert – Einzelheiten finden Sie in der LIZENZ-Datei.