pip install numpy
)pip install pandas
)pip install scikit-learn
)pip install scipy
)pip install statsmodels
)pip install matplotlib
)pip install seaborn
)pip install sympy
)pip install flask
)pip install wtforms
)pip install tensorflow>=1.15
)pip install keras
)pip install pdpipe
)คุณสามารถเริ่มต้นด้วยบทความนี้ที่ฉันเขียนในนิตยสาร Heartbeat (บนแพลตฟอร์มขนาดกลาง):
สมุดบันทึก Jupyter ครอบคลุมฟังก์ชันและการปฏิบัติการที่หลากหลายในหัวข้อ NumPy, Pandans, Seaborn, Matplotlib ฯลฯ
หลายวิธีในการถดถอยเชิงเส้นใน Python และการเปรียบเทียบความเร็ว (ตรวจสอบบทความที่ฉันเขียนใน freeCodeCamp)
การถดถอยหลายตัวแปรด้วยการทำให้เป็นมาตรฐาน
การถดถอยพหุนามโดยใช้ คุณสมบัติไปป์ไลน์ scikit-learn (ตรวจสอบบทความที่ฉันเขียนเกี่ยวกับ Towards Data Science )
แผนผังการตัดสินใจและการถดถอยแบบสุ่มของฟอเรสต์ (แสดงให้เห็นว่า Random Forest ทำงานอย่างไรในฐานะตัวประมาณค่าเมตาดาต้าที่แข็งแกร่ง/สม่ำเสมอ โดยปฏิเสธการติดตั้งมากเกินไป)
การวิเคราะห์ด้วยภาพโดยละเอียดและการทดสอบวินิจฉัยความเหมาะสมสำหรับปัญหาการถดถอยเชิงเส้น
การถดถอยเชิงเส้นที่แข็งแกร่งโดยใช้ HuberRegressor
จาก Scikit-learn
k -การจำแนกเพื่อนบ้านที่ใกล้ที่สุด (นี่คือสมุดบันทึก)
ต้นไม้ตัดสินใจและการจำแนกป่าแบบสุ่ม (นี่คือสมุดบันทึก)
รองรับการจำแนกประเภทเครื่องเวกเตอร์ (นี่คือสมุดบันทึก) ( ตรวจสอบบทความที่ฉันเขียนใน สู่วิทยาศาสตร์ข้อมูล บน SVM และอัลกอริธึมการเรียงลำดับ)
K -หมายถึงการจัดกลุ่ม (นี่คือสมุดบันทึก)
การขยายพันธุ์แบบ Affinity (แสดงความซับซ้อนของเวลาและผลกระทบของปัจจัยการทำให้หมาด ๆ) (นี่คือสมุดบันทึก)
เทคนิคการเปลี่ยนค่าเฉลี่ย (แสดงความซับซ้อนของเวลาและผลกระทบของสัญญาณรบกวนต่อการค้นพบคลัสเตอร์) (นี่คือสมุดบันทึก)
DBSCAN (แสดงให้เห็นว่าสามารถตรวจจับพื้นที่ที่มีความหนาแน่นสูงโดยทั่วไปโดยไม่คำนึงถึงรูปร่างของคลัสเตอร์ ซึ่ง K-mean ไม่สามารถทำได้) (นี่คือสมุดบันทึก)
การจัดกลุ่มแบบลำดับชั้นด้วย Dendograms แสดงวิธีเลือกจำนวนคลัสเตอร์ที่เหมาะสมที่สุด (นี่คือสมุดบันทึก)
วิธีใช้แพ็คเกจ Sympy เพื่อสร้างชุดข้อมูลสุ่มโดยใช้นิพจน์ทางคณิตศาสตร์เชิงสัญลักษณ์
นี่คือบทความของฉันเกี่ยวกับสื่อในหัวข้อนี้: การสร้างปัญหาการถดถอยแบบสุ่มและการจำแนกประเภทด้วยการแสดงออกเชิงสัญลักษณ์
ให้บริการโมเดลการถดถอยเชิงเส้นผ่านอินเทอร์เฟซเซิร์ฟเวอร์ HTTP แบบธรรมดา ผู้ใช้จำเป็นต้องขอการคาดการณ์โดยการรันสคริปต์ Python ใช้ Flask
และ Gunicorn
ให้บริการโครงข่ายประสาทเทียมที่เกิดซ้ำ (RNN) ผ่านหน้าเว็บ HTTP พร้อมด้วยเว็บฟอร์ม ซึ่งผู้ใช้สามารถป้อนพารามิเตอร์และคลิกปุ่มเพื่อสร้างข้อความตามโมเดล RNN ที่ได้รับการฝึกอบรมล่วงหน้า ใช้ Flask
, Jinja
, Keras
/ TensorFlow
, WTForms
การใช้หลักการ OOP หลักบางประการในบริบทของแมชชีนเลิร์นนิงโดยสร้างตัวประมาณค่าที่คล้ายกับ Scikit-learn ของคุณเอง และทำให้ดีขึ้น
ดูบทความของฉันเกี่ยวกับสื่อในหัวข้อนี้
ตรวจสอบไฟล์และคำแนะนำโดยละเอียดในไดเร็กทอรี Pytest เพื่อทำความเข้าใจว่าควรเขียนโค้ด/โมดูลการทดสอบหน่วยสำหรับโมเดลการเรียนรู้ของเครื่องอย่างไร
การทำโปรไฟล์รหัสวิทยาศาสตร์ข้อมูลและโมเดล ML สำหรับขนาดหน่วยความจำและเวลาในการประมวลผลถือเป็นพื้นที่ที่สำคัญแต่มักมีการใช้งานมากเกินไป นี่คือสมุดบันทึกสองสามเครื่องที่แสดงแนวคิด