AI Berpusat pada Data yang Luar Biasa
AI Berpusat pada Data adalah pendekatan pengembangan AI yang menganggap kumpulan data pelatihan sebagai inti dari solusi, bukan sebagai model.
Repositori ini berisi daftar sumber daya luar biasa yang dikurasi seperti perpustakaan sumber terbuka, tutorial, dan artikel yang akan membantu Anda memahami konsep, dan memulai perjalanan Anda dalam pengembangan AI Berpusat Data.
Kami sangat menghargai kolaborasi terbuka dan berbagi pengetahuan, jadi kami menyarankan untuk tidak membatasi diri Anda pada repositori ini saja dan memeriksa proyek luar biasa lainnya seperti Hub Sumber Daya Andrew Ng.
Profil Data
- YData Profiling - YData Profiling mendukung Pandas dan Spark DataFrames, memberikan pemahaman data visual yang cepat dan mudah.
- SweetViz - SweetViz adalah pustaka Python sumber terbuka yang menghasilkan visualisasi indah dengan kepadatan tinggi untuk memulai EDA (Analisis Data Eksplorasi) hanya dengan dua baris kode.
- DataPrep.EDA - DataPrep.EDA adalah alat EDA (Analisis Data Eksplorasi) dengan Python yang memungkinkan Anda memahami Pandas/Dask DataFrame dengan beberapa baris kode dalam hitungan detik.
- AutoViz - Secara otomatis memvisualisasikan kumpulan data apa pun, ukuran apa pun dengan satu baris kode.
- Lux - Lux adalah pustaka Python yang memfasilitasi eksplorasi data secara cepat dan mudah dengan mengotomatiskan proses visualisasi dan analisis data.
- Great Expectations - Great Expectations membantu tim data menghilangkan utang saluran pipa, melalui pengujian data, dokumentasi, dan pembuatan profil.
- D-Tale - Adalah pustaka visualisasi otomatis python sumber terbuka yang memberi Anda cara mudah untuk melihat & menganalisis struktur data Pandas. Ini terintegrasi secara mulus dengan notebook ipython & terminal python/ipython.
- Data Profiler - DataProfiler adalah pustaka Python yang dirancang untuk memudahkan analisis data, pemantauan, dan deteksi data sensitif.
- Whylogs - Whylogs adalah standar sumber terbuka untuk pencatatan data. Ini menggunakan teknik pembuatan profil data untuk membuat profil Whylogs , yang dapat digunakan sebagai log untuk memungkinkan pemantauan dan observasi untuk saluran data dan model ML.
? Data Sintetis
- YData Synthetic - Generator Data Sintetis Terstruktur menggunakan Jaringan Adversarial Generatif khusus untuk data tabular dan deret waktu.
- Synthpop - Alat untuk memproduksi mikrodata versi sintetik yang berisi informasi rahasia sehingga aman untuk dirilis kepada pengguna untuk analisis eksplorasi.
- DataSynthesizer - DataSynthesizer menghasilkan data sintetis yang menyimulasikan kumpulan data tertentu. Ini menerapkan teknik Privasi Diferensial untuk mencapai jaminan privasi yang kuat.
- SDV - Gudang Data Sintetis (SDV) adalah ekosistem pustaka Pembuatan Data Sintetis yang memungkinkan pengguna mempelajari kumpulan data tabel tunggal, multi-tabel, dan deret waktu dengan mudah untuk kemudian menghasilkan Data Sintetis baru yang memiliki format yang sama dan properti statistik sebagai kumpulan data asli.
- Delima - Delima adalah paket untuk membangun model probabilistik dengan Python yang diimplementasikan di Cython untuk kecepatan. Sebagian besar model ini dapat mengambil sampel data.
- Gretel Synthetics - Paket Gretel Synthetics memungkinkan pengembang dengan cepat mendalami pembuatan data sintetis melalui penggunaan jaringan saraf.
- Time-Series-Generator - Time-Series-Generator memungkinkan pengembang membuat kumpulan data deret waktu sintetis dengan cara umum yang mengikuti tren berbeda. Tujuannya di sini adalah agar data non-sensitif tersedia untuk mendemonstrasikan solusi dan menguji efektivitas solusi tersebut dan/ atau algoritma.
- Zpy - Zpy memecahkan masalah kurangnya kumpulan data khusus bisnis untuk aplikasi berbasis visi komputer. Zpy menggunakan Python dan Blender (perangkat grafik 3D sumber terbuka) untuk membuat kumpulan data sintetis yang cocok untuk kasus bisnis unik.
? Pelabelan Data
- LabelImg - LabelImg adalah alat anotasi gambar grafis. Itu ditulis dengan Python dan menggunakan Qt untuk antarmuka grafisnya.
- LabelMe - LabelMe adalah alat anotasi poligonal gambar yang menggunakan Python dan Qt.
- TagAnamoly - Alat pelabelan deteksi anomali, khusus untuk beberapa deret waktu (satu deret waktu per kategori).
- EchoML - Memutar, memvisualisasikan, dan memberi anotasi pada file audio Anda
- LabelStudio - Label Studio adalah alat pelabelan data sumber terbuka. Ini memungkinkan Anda memberi label tipe data seperti audio, teks, gambar, video, dan deret waktu dengan UI yang sederhana dan lugas serta mengekspor ke berbagai format model.
- Alat Anotasi & Pelabelan Data Sumber Terbuka yang Luar Biasa - Daftar alat sumber terbuka yang tersedia (diurutkan berdasarkan jenis tugas) untuk siapa saja yang ingin memberi label pada data. Hanya alat yang dipelihara secara aktif yang terdaftar.
Persiapan Data
- DataFix - DataFix adalah alat Python untuk mendeteksi dan mengoreksi pergeseran distribusi antara referensi dan kumpulan data kueri. Ini mendeteksi pergeseran, melokalisasi fitur spesifik yang menyebabkan pergeseran tersebut, dan memperbaikinya secara efisien.
Tutorial dan Sumber Daya
Di sini Anda dapat menemukan daftar tutorial praktis dan materi lain yang kami gunakan di situs web dan blog Medium kami di sini: Tutorial dan Sumber Daya.
- Kecerdasan Buatan yang Berpusat pada Data: Sebuah Survei - Survei ini bertujuan untuk membantu pembaca secara efisien memahami gambaran luas tentang AI yang berpusat pada data. Ini mencakup berbagai aspek seperti kebutuhan, definisi, dan tantangan AI yang berpusat pada data, serta teknik untuk pengembangan data pelatihan, pengembangan data inferensi, dan pemeliharaan data. Selain itu, survei ini mengatur literatur yang ada dari perspektif otomatisasi dan kolaborasi, membuat tabulasi dan menganalisis tolok ukur untuk mencapai keunggulan data. Ada juga versi pendeknya.
? Kursus
- Pengantar MIT tentang AI Berpusat pada Data - Kelas ini mencakup algoritme untuk menemukan dan memperbaiki masalah umum dalam data ML dan membuat kumpulan data yang lebih baik, dengan berkonsentrasi pada data yang digunakan dalam tugas pembelajaran yang diawasi seperti klasifikasi. Semua materi yang diajarkan dalam kursus ini sangat praktis, berfokus pada aspek penerapan ML di dunia nyata, bukan detail matematis tentang cara kerja model tertentu. Anda dapat mengikuti kursus ini untuk mempelajari teknik praktis yang tidak dibahas di sebagian besar kelas ML, yang akan membantu mengurangi masalah “sampah masuk, sampah keluar” yang mengganggu banyak aplikasi ML di dunia nyata. Situs web | Video Kuliah | Tugas Lab
? Undangan Terbuka
Kami terbuka untuk berkolaborasi! Jika Anda ingin mulai berkontribusi, Anda hanya perlu membuat pull request dengan sumber daya yang relevan. Kami akan meninjau setiap permintaan penarikan.
Jika Anda merasa sumber daya ini berguna, silakan kunjungi Komunitas AI Pusat Data kami atau klik di sini untuk bergabung dengan server Discord kami. Kami berharap dapat menyapa di sisi lain!