出色的以數據為中心的人工智慧
以資料為中心的人工智慧是一種人工智慧開發方法,它將訓練資料集而不是模型視為解決方案的核心。
此儲存庫包含一系列精彩資源,例如開源程式庫、教學課程和文章,可協助您理解概念並開始以資料為中心的 AI 開發之旅。
我們確實重視開放協作和知識共享,因此我們建議不要將自己限制在這個儲存庫,並查看其他令人驚嘆的項目,例如 Andrew Ng 的資源中心。
數據分析
- YData Profiling - YData Profiling 支援 Pandas 和 Spark DataFrame,提供快速、直接的視覺化資料理解。
- SweetViz - SweetViz 是一個開源 Python 函式庫,它可以產生漂亮的高密度視覺化效果,只需兩行程式碼即可啟動 EDA(探索性資料分析)。
- DataPrep.EDA - DataPrep.EDA 是 Python 中的 EDA(探索性資料分析)工具,可讓您在幾秒鐘內透過幾行程式碼理解 Pandas/Dask DataFrame。
- AutoViz - 使用一行程式碼自動視覺化任何大小的資料集。
- Lux - Lux 是一個 Python 函式庫,可透過自動化視覺化和資料分析流程來促進快速、輕鬆的資料探索。
- 遠大期望 - 遠大期望透過資料測試、文件和分析幫助資料團隊消除管道債務。
- D-Tale - 是一個開源 python 自動視覺化函式庫,為您提供一種查看和分析 Pandas 資料結構的簡單方法。它與 ipython 筆記本和 python/ipython 終端無縫整合。
- Data Profiler - DataProfiler 是一個 Python 函式庫,旨在簡化資料分析、監控和敏感資料偵測。
- Whylogs - Whylogs 是資料記錄的開源標準。它使用數據分析技術來創建whylogs配置文件,該配置文件可以用作日誌來啟用數據管道和ML模型的監視和可觀察性。
?綜合數據
- YData Synthetic - 使用產生對抗網路的結構化綜合資料產生器,專門用於表格和時間序列資料。
- Synthpop - 一種工具,用於產生包含機密資訊的微資料的合成版本,以便將它們安全地發佈給使用者進行探索性分析。
- DataSynthesizer - DataSynthesizer 產生模擬給定資料集的合成資料。它應用差分隱私技術來實現強有力的隱私保證。
- SDV - 綜合資料庫 (SDV) 是一個綜合資料生成庫生態系統,可讓使用者輕鬆學習單表、多表和時間序列資料集,以便稍後產生具有相同格式的新綜合資料和原始資料集的統計屬性。
- Pomegranate - Pomegranate 是一個用於在 Python 中建立機率模型的包,在 Cython 中實現以提高速度。大多數這些模型都可以取樣資料。
- Gretel Synthetics - Gretel Synthetics 套件允許開發人員透過使用神經網路快速沉浸在合成資料生成中。
- 時間序列產生器 - 時間序列產生器允許開發人員以遵循不同趨勢的通用方式建立合成時間序列資料集。演算法.
- Zpy -Zpy 解決了基於電腦視覺的應用程式缺乏業務特定資料集的問題。 Zpy 使用 Python 和 Blender(開源 3D 圖形工具集)創建適合獨特業務案例的合成資料集。
?數據標籤
- LabelImg - LabelImg 是一個圖形影像註解工具。它是用 Python 編寫的,並使用 Qt 作為其圖形介面。
- LabelMe - LabelMe 是一個使用 Python 和 Qt 的圖片多邊形註解工具。
- TagAnamoly - 異常偵測標記工具,專門用於多個時間序列(每個類別一個時間序列)。
- EchoML - 播放、視覺化和註釋您的音訊文件
- LabelStudio - Label Studio 是一個開源資料標記工具。它允許您使用簡單直觀的 UI 來標記音訊、文字、圖像、視訊和時間序列等資料類型,並匯出為各種模型格式。
- 很棒的開源資料註釋和標籤工具 - 任何想要標記資料的人都可以使用的開源工具清單(按任務類型排序)。僅列出積極維護的工具。
資料準備
- DataFix - DataFix 是一個 Python 工具,用於偵測和修正參考資料集和查詢資料集之間的分佈變化。它可以檢測偏移,定位導致偏移的特定特徵,並有效地糾正它們。
教程和資源
您可以在這裡找到我們在我們的網站和 Medium 部落格上使用的實踐教學和其他材料的清單:教學和資源。
- 以數據為中心的人工智慧:一項調查 - 這項調查旨在幫助讀者有效地掌握以數據為中心的人工智慧的整體情況。它涵蓋了以資料為中心的人工智慧的需求、定義和挑戰等各個方面,以及訓練資料開發、推理資料開發和資料維護的技術。此外,該調查還從自動化和協作的角度整理了現有文獻,列出並分析了實現卓越數據的基準。還有一個簡短的版本。
?課程
- 麻省理工學院以數據為中心的 AI 簡介 - 本課程涵蓋用於查找和修復 ML 數據中常見問題以及構建更好的數據集的演算法,重點關注分類等監督學習任務中使用的數據。本課程教授的所有材料都非常實用,重點關注現實世界中機器學習應用的有影響力的方面,而不是特定模型如何運作的數學細節。您可以參加本課程來學習大多數 ML 課程中未涵蓋的實用技術,這將有助於緩解困擾許多現實世界 ML 應用程式的「垃圾輸入,垃圾輸出」問題。網站 |講座影片|實驗室作業
?公開邀請
我們對合作持開放態度!如果您想開始貢獻,您只需建立包含相關資源的拉取請求。我們會審查每一個拉取請求。
如果您發現這些資源有用,請隨時查看我們的以數據為中心的人工智慧社群或按此處加入我們的 Discord 伺服器。我們希望在另一邊打個招呼!