pip install numpy
)pip install pandas
)pip install scikit-learn
)pip install scipy
)pip install statsmodels
)pip install matplotlib
)pip install seaborn
)pip install sympy
)pip install flask
)pip install wtforms
)pip install tensorflow>=1.15
)pip install keras
)pip install pdpipe
)Sie können mit diesem Artikel beginnen, den ich im Heartbeat-Magazin (auf der Medium-Plattform) geschrieben habe:
Jupyter-Notebooks, die ein breites Spektrum an Funktionen und Operationen zu den Themen NumPy, Pandans, Seaborn, Matplotlib usw. abdecken.
Mehrere Möglichkeiten zur Durchführung einer linearen Regression in Python und deren Geschwindigkeitsvergleich (siehe den Artikel, den ich auf freeCodeCamp geschrieben habe)
Multivariate Regression mit Regularisierung
Polynomielle Regression mithilfe der Scikit-Learn-Pipeline-Funktion (siehe den Artikel, den ich über „Towards Data Science“ geschrieben habe)
Entscheidungsbäume und Random Forest-Regression (zeigt, wie der Random Forest als robuster/regulierter Metaschätzer funktioniert, der eine Überanpassung ablehnt)
Detaillierte visuelle Analysen und Anpassungstests für ein lineares Regressionsproblem
Robuste lineare Regression mit HuberRegressor
von Scikit-learn
k -Nächste-Nachbarn-Klassifizierung (Hier ist das Notizbuch)
Entscheidungsbäume und Random-Forest-Klassifizierung (Hier ist das Notizbuch)
Unterstützung der Klassifizierung von Vektormaschinen (Hier ist das Notizbuch) ( siehe den Artikel, den ich in „Towards Data Science“ über SVM und Sortieralgorithmus geschrieben habe)
K – bedeutet Clustering (Hier ist das Notizbuch)
Affinitätsausbreitung (zeigt ihre zeitliche Komplexität und die Wirkung des Dämpfungsfaktors) (Hier ist das Notizbuch)
Mean-Shift-Technik (zeigt ihre zeitliche Komplexität und die Auswirkung von Rauschen auf die Clustererkennung) (Hier ist das Notizbuch)
DBSCAN (zeigt, wie es unabhängig von Clusterformen allgemein Bereiche mit hoher Dichte erkennen kann, was mit k-means nicht möglich ist) (Hier ist das Notizbuch)
Hierarchisches Clustering mit Dendogrammen, das zeigt, wie man die optimale Anzahl von Clustern auswählt (Hier ist das Notizbuch)
So verwenden Sie das Sympy-Paket, um zufällige Datensätze mithilfe symbolischer mathematischer Ausdrücke zu generieren.
Hier ist mein Artikel auf Medium zu diesem Thema: Zufällige Regression und Klassifizierungsproblemgenerierung mit symbolischem Ausdruck
Bereitstellung eines linearen Regressionsmodells über eine einfache HTTP-Serverschnittstelle. Der Benutzer muss Vorhersagen anfordern, indem er ein Python-Skript ausführt. Verwendet Flask
und Gunicorn
.
Bereitstellung eines wiederkehrenden neuronalen Netzwerks (RNN) über eine HTTP-Webseite, komplett mit einem Webformular, in das Benutzer Parameter eingeben und auf eine Schaltfläche klicken können, um Text basierend auf dem vorab trainierten RNN-Modell zu generieren. Verwendet Flask
, Jinja
, Keras
/ TensorFlow
, WTForms
.
Implementieren Sie einige der zentralen OOP-Prinzipien in einem maschinellen Lernkontext, indem Sie Ihren eigenen Scikit-Learn-ähnlichen Schätzer erstellen und ihn verbessern.
Sehen Sie sich meine Artikel auf Medium zu diesem Thema an.
Sehen Sie sich die Dateien und detaillierten Anweisungen im Pytest-Verzeichnis an, um zu verstehen, wie man Unit-Testing-Code/Modul für Machine-Learning-Modelle schreiben sollte
Die Profilierung von Data-Science-Code und ML-Modellen hinsichtlich Speicherbedarf und Rechenzeit ist ein kritischer, aber oft überbewerteter Bereich. Hier sind ein paar Notizbücher, die die Ideen zeigen: