AI ที่เน้น ข้อมูลเป็นศูนย์กลางที่ยอดเยี่ยม
AI ที่เน้นข้อมูลเป็นศูนย์กลางเป็นแนวทางในการพัฒนา AI ที่ถือว่าชุดข้อมูลการฝึกอบรมเป็นจุดศูนย์กลางของโซลูชันแทนที่จะเป็นแบบจำลอง
พื้นที่เก็บข้อมูลนี้ประกอบด้วยรายการทรัพยากรที่ยอดเยี่ยมที่คัดสรรมาแล้ว เช่น ไลบรารีโอเพ่นซอร์ส บทช่วยสอน และบทความที่จะช่วยให้คุณเข้าใจแนวคิด และเริ่มต้นการเดินทางของคุณในการพัฒนา AI ที่เน้นข้อมูลเป็นศูนย์กลาง
เราให้ความสำคัญกับการทำงานร่วมกันแบบเปิดกว้างและการแบ่งปันความรู้ ดังนั้นเราขอแนะนำว่าอย่าจำกัดตัวเองอยู่เพียงพื้นที่เก็บข้อมูลนี้เพียงอย่างเดียว และตรวจสอบโครงการที่น่าทึ่งอื่นๆ เช่น ศูนย์ทรัพยากรของ Andrew Ng
การทำโปรไฟล์ข้อมูล
- YData Profiling - YData Profiling รองรับทั้ง Pandas และ Spark DataFrames ให้ความเข้าใจข้อมูลภาพที่รวดเร็วและตรงไปตรงมา
- SweetViz - SweetViz เป็นไลบรารี Python แบบโอเพ่นซอร์สที่สร้างการแสดงภาพที่สวยงามและมีความหนาแน่นสูงเพื่อเริ่มต้น EDA (การวิเคราะห์ข้อมูลเชิงสำรวจ) ด้วยโค้ดเพียงสองบรรทัด
- DataPrep.EDA - DataPrep.EDA เป็นเครื่องมือ EDA (Exploratory Data Analysis) ใน Python ที่ช่วยให้คุณเข้าใจ Pandas/Dask DataFrame ด้วยโค้ดไม่กี่บรรทัดในไม่กี่วินาที
- AutoViz - แสดงภาพชุดข้อมูลทุกขนาดโดยอัตโนมัติด้วยโค้ดเพียงบรรทัดเดียว
- Lux - Lux เป็นไลบรารี Python ที่อำนวยความสะดวกในการสำรวจข้อมูลที่รวดเร็วและง่ายดายโดยทำให้กระบวนการแสดงภาพและการวิเคราะห์ข้อมูลเป็นแบบอัตโนมัติ
- ความคาดหวังที่ยอดเยี่ยม - ความคาดหวังที่ยอดเยี่ยมช่วยให้ทีมข้อมูลขจัดหนี้ไปป์ไลน์ ผ่านการทดสอบข้อมูล การจัดทำเอกสาร และการทำโปรไฟล์
- D-Tale - เป็นไลบรารีการแสดงภาพอัตโนมัติของ Python แบบโอเพ่นซอร์สที่ให้วิธีง่ายๆ ในการดูและวิเคราะห์โครงสร้างข้อมูล Pandas มันผสานรวมเข้ากับโน้ตบุ๊ก ipython และเทอร์มินัล python/ipython ได้อย่างราบรื่น
- Data Profiler - DataProfiler เป็นไลบรารี Python ที่ออกแบบมาเพื่อทำให้การวิเคราะห์ข้อมูล การตรวจสอบ และการตรวจจับข้อมูลที่ละเอียดอ่อนเป็นเรื่องง่าย
- whylogs - whylogs เป็นมาตรฐานโอเพ่นซอร์สสำหรับการบันทึกข้อมูล ใช้เทคนิคการทำโปรไฟล์ข้อมูลเพื่อสร้าง โปรไฟล์ Whylogs ซึ่งสามารถใช้เป็นบันทึกเพื่อให้สามารถติดตามและสังเกตได้สำหรับไปป์ไลน์ข้อมูลและโมเดล ML
- ข้อมูลสังเคราะห์
- YData Synthetic - ตัวสร้างข้อมูลสังเคราะห์ที่มีโครงสร้างโดยใช้ Generative Adversarial Networks โดยเฉพาะสำหรับข้อมูลแบบตารางและอนุกรมเวลา
- Synthpop - เครื่องมือสำหรับสร้าง Microdata เวอร์ชันสังเคราะห์ที่มีข้อมูลที่เป็นความลับ เพื่อความปลอดภัยในการเผยแพร่แก่ผู้ใช้เพื่อการวิเคราะห์เชิงสำรวจ
- DataSynthesizer - DataSynthesizer สร้างข้อมูลสังเคราะห์ที่จำลองชุดข้อมูลที่กำหนด ใช้เทคนิคความเป็นส่วนตัวที่แตกต่างกันเพื่อให้บรรลุการรับประกันความเป็นส่วนตัวที่แข็งแกร่ง
- SDV - Synthetic Data Vault (SDV) คือระบบนิเวศการสร้างข้อมูลสังเคราะห์ของไลบรารีที่ช่วยให้ผู้ใช้สามารถเรียนรู้ชุดข้อมูลแบบตารางเดี่ยว หลายตาราง และอนุกรมเวลาได้อย่างง่ายดาย เพื่อสร้างข้อมูลสังเคราะห์ใหม่ที่มีรูปแบบเดียวกันในภายหลัง และคุณสมบัติทางสถิติเป็นชุดข้อมูลดั้งเดิม
- Pomegranate - Pomegranate เป็นแพ็คเกจสำหรับการสร้างแบบจำลองความน่าจะเป็นใน Python ที่นำไปใช้ใน Cython เพื่อความรวดเร็ว โมเดลเหล่านี้ส่วนใหญ่สามารถสุ่มตัวอย่างข้อมูลได้
- Gretel Synthetics - แพ็คเกจ Gretel Synthetics ช่วยให้นักพัฒนาสามารถดื่มด่ำกับการสร้างข้อมูลสังเคราะห์ได้อย่างรวดเร็วผ่านการใช้โครงข่ายประสาทเทียม
- Time-Series-Generator - Time-Series-Generator ช่วยให้นักพัฒนาสามารถสร้างชุดข้อมูลอนุกรมเวลาสังเคราะห์ในลักษณะทั่วไปที่ติดตามแนวโน้มที่แตกต่างกัน เป้าหมายที่นี่คือเพื่อให้มีข้อมูลที่ไม่ละเอียดอ่อนสำหรับการสาธิตโซลูชันและทดสอบประสิทธิภาพของโซลูชันเหล่านั้นและ/ หรืออัลกอริธึม
- Zpy - Zpy แก้ปัญหาการขาดชุดข้อมูลเฉพาะทางธุรกิจสำหรับแอปพลิเคชันที่ใช้คอมพิวเตอร์วิทัศน์ Zpy ใช้ Python และ Blender (ชุดเครื่องมือกราฟิก 3D โอเพ่นซอร์ส) เพื่อสร้างชุดข้อมูลสังเคราะห์ที่เหมาะสำหรับกรณีธุรกิจที่ไม่ซ้ำใคร
- การติดฉลากข้อมูล
- LabelImg - LabelImg เป็นเครื่องมือใส่คำอธิบายประกอบรูปภาพแบบกราฟิก เขียนด้วยภาษา Python และใช้ Qt สำหรับอินเทอร์เฟซแบบกราฟิก
- LabelMe - LabelMe เป็นเครื่องมือใส่คำอธิบายประกอบรูปหลายเหลี่ยมที่ใช้ Python และ Qt
- TagAnamoly - เครื่องมือติดป้ายกำกับการตรวจจับความผิดปกติ โดยเฉพาะสำหรับอนุกรมเวลาหลายรายการ (อนุกรมเวลาเดียวต่อหมวดหมู่)
- EchoML - เล่น แสดงภาพ และใส่คำอธิบายประกอบไฟล์เสียงของคุณ
- LabelStudio - Label Studio เป็นเครื่องมือการติดฉลากข้อมูลโอเพ่นซอร์ส ช่วยให้คุณสามารถติดป้ายกำกับประเภทข้อมูล เช่น เสียง ข้อความ รูปภาพ วิดีโอ และอนุกรมเวลาด้วย UI ที่เรียบง่ายและตรงไปตรงมา และส่งออกไปยังรูปแบบโมเดลต่างๆ
- เครื่องมือคำอธิบายประกอบและการติดป้ายกำกับข้อมูลโอเพ่นซอร์สที่ยอดเยี่ยม - รายการเครื่องมือโอเพ่นซอร์สที่มีให้ใช้งาน (จัดเรียงตามประเภทงาน) สำหรับผู้ที่ต้องการติดป้ายกำกับข้อมูล ระบุเฉพาะเครื่องมือที่ได้รับการบำรุงรักษาอย่างแข็งขันเท่านั้น
การเตรียมข้อมูล
- DataFix - DataFix เป็นเครื่องมือ Python สำหรับการตรวจจับและแก้ไขการเปลี่ยนแปลงการแจกแจงระหว่างการอ้างอิงและชุดข้อมูลคิวรี โดยจะตรวจจับการเปลี่ยนแปลง แปลคุณสมบัติเฉพาะที่รับผิดชอบต่อการเปลี่ยนแปลง และแก้ไขอย่างมีประสิทธิภาพ
บทช่วยสอนและแหล่งข้อมูล
ที่นี่คุณจะพบรายการบทช่วยสอนแบบลงมือปฏิบัติจริงและสื่ออื่นๆ ที่เราใช้บนเว็บไซต์และบล็อกขนาดกลางของเราที่นี่: บทช่วยสอนและแหล่งข้อมูล
- ปัญญาประดิษฐ์ที่เน้นข้อมูลเป็นศูนย์กลาง: แบบสำรวจ - แบบสำรวจนี้เพื่อช่วยให้ผู้อ่านเข้าใจภาพรวมของ AI ที่เน้นข้อมูลเป็นศูนย์กลางได้อย่างมีประสิทธิภาพ โดยครอบคลุมแง่มุมต่างๆ เช่น ความต้องการ คำจำกัดความ และความท้าทายของ AI ที่เน้นข้อมูลเป็นศูนย์กลาง ตลอดจนเทคนิคสำหรับการฝึกอบรมการพัฒนาข้อมูล การพัฒนาข้อมูลเชิงอนุมาน และการบำรุงรักษาข้อมูล นอกจากนี้ การสำรวจยังจัดระเบียบวรรณกรรมที่มีอยู่จากมุมมองของระบบอัตโนมัติและการทำงานร่วมกัน จัดทำเป็นตารางและวิเคราะห์เกณฑ์มาตรฐานเพื่อการบรรลุความเป็นเลิศของข้อมูล มีฉบับสั้นด้วย
- หลักสูตร
- MIT Introduction to Data-Centric AI - ชั้นเรียนนี้ครอบคลุมอัลกอริทึมเพื่อค้นหาและแก้ไขปัญหาทั่วไปในข้อมูล ML และเพื่อสร้างชุดข้อมูลที่ดีขึ้น โดยมุ่งเน้นไปที่ข้อมูลที่ใช้ในงานการเรียนรู้ภายใต้การดูแล เช่น การจำแนกประเภท เนื้อหาทั้งหมดที่สอนในหลักสูตรนี้เป็นแนวทางปฏิบัติในระดับสูง โดยเน้นไปที่แง่มุมที่มีผลกระทบของแอปพลิเคชัน ML ในโลกแห่งความเป็นจริง มากกว่าที่จะให้รายละเอียดทางคณิตศาสตร์เกี่ยวกับวิธีการทำงานของแบบจำลองนั้นๆ คุณสามารถเรียนหลักสูตรนี้เพื่อเรียนรู้เทคนิคเชิงปฏิบัติที่ไม่ครอบคลุมในคลาส ML ส่วนใหญ่ ซึ่งจะช่วยบรรเทาปัญหา “ขยะเข้า ขยะออก” ที่สร้างความเสียหายให้กับแอปพลิเคชัน ML ในโลกแห่งความเป็นจริงจำนวนมาก เว็บไซต์ | วิดีโอบรรยาย | การมอบหมายห้องปฏิบัติการ
- คำเชิญแบบเปิด
เราเปิดรับความร่วมมือ! หากคุณต้องการเริ่มมีส่วนร่วม คุณจะต้องสร้างคำขอดึงข้อมูลที่มีทรัพยากรที่เกี่ยวข้องเท่านั้น เราจะตรวจสอบคำขอดึงแต่ละรายการ
หากคุณพบว่าแหล่งข้อมูลเหล่านี้มีประโยชน์ โปรดตรวจสอบชุมชน AI ที่เน้นข้อมูลเป็นศูนย์กลางของเรา หรือคลิกที่นี่ เพื่อเข้าร่วมเซิร์ฟเวอร์ Discord ของเรา เราหวังว่าจะได้ทักทายกันในอีกด้านหนึ่ง!