素晴らしいデータ中心の AI
データ中心 AI は、モデルではなくトレーニング データセットをソリューションの中心とみなす AI 開発のアプローチです。
このリポジトリには、概念を理解し、データ中心の AI 開発への取り組みを開始するのに役立つ、オープンソース ライブラリ、チュートリアル、記事などの素晴らしいリソースの厳選されたリストが含まれています。
私たちはオープンなコラボレーションと知識の共有を重視しているため、このリポジトリだけに限定せず、Andrew Ng の Resources Hub などの他の素晴らしいプロジェクトをチェックすることをお勧めします。
データプロファイリング
- YData Profiling - YData Profiling は Pandas と Spark DataFrames の両方をサポートしており、高速かつ簡単な視覚的なデータ理解を提供します。
- SweetViz - SweetViz は、わずか 2 行のコードで EDA (探索的データ分析) を開始するための美しく高密度のビジュアライゼーションを生成するオープンソース Python ライブラリです。
- DataPrep.EDA - DataPrep.EDA は、Python の EDA (探索的データ分析) ツールで、数行のコードで Pandas/Dask DataFrame を数秒で理解できます。
- AutoViz - 1 行のコードであらゆるサイズのデータセットを自動的に視覚化します。
- Lux - Lux は、視覚化とデータ分析プロセスを自動化することで、迅速かつ簡単なデータ探索を促進する Python ライブラリです。
- Great Expectations - Great Expectations は、データ テスト、文書化、プロファイリングを通じて、データ チームがパイプライン負債を排除するのに役立ちます。
- D-Tale - Pandas データ構造を簡単に表示および分析できるオープンソースの Python 自動視覚化ライブラリです。 ipython ノートブックおよび python/ipython ターミナルとシームレスに統合されます。
- Data Profiler - DataProfiler は、データ分析、監視、機密データの検出を容易にするために設計された Python ライブラリです。
- Whylogs - Whylogs は、データ ログのオープン ソース標準です。データ プロファイリング技術を使用して、 Whylogs プロファイルを作成します。これは、データ パイプラインと ML モデルの監視と可観測性を可能にするログとして使用できます。
?合成データ
- YData Synthetic - 特に表形式および時系列データに特化した敵対的生成ネットワークを使用した構造化合成データ ジェネレーター。
- Synthpop - 機密情報を含むマイクロデータの合成バージョンを作成し、探索的分析のためにユーザーに安全に公開できるようにするツール。
- DataSynthesizer - DataSynthesizer は、指定されたデータセットをシミュレートする合成データを生成します。差分プライバシー技術を適用して、強力なプライバシー保証を実現します。
- SDV - Synthetic Data Vault (SDV) は、ライブラリの合成データ生成エコシステムであり、ユーザーが単一テーブル、複数テーブル、および時系列データセットを簡単に学習して、後で同じ形式の新しい合成データを生成できるようにします。元のデータセットとしての統計的プロパティ。
- Pomegranate - Pomegranate は、速度向上のために Cython で実装された Python で確率モデルを構築するためのパッケージです。これらのモデルのほとんどはデータをサンプリングできます。
- Gretel Synthetics - Gretel Synthetics パッケージを使用すると、開発者はニューラル ネットワークを使用して合成データの生成にすぐに取り組むことができます。
- 時系列ジェネレーター - 時系列ジェネレーターを使用すると、開発者はさまざまな傾向に従う一般的な方法で合成時系列データセットを作成できます。ここでの目標は、ソリューションをデモし、それらのソリューションの有効性をテストするために非機密データを利用できるようにすることです。またはアルゴリズム。
- Zpy - Zpy は、コンピューター ビジョン ベースのアプリケーション用のビジネス固有のデータセットが不足しているという問題を解決します。 Zpy は、Python と Blender (オープンソース 3D グラフィックス ツールセット) を使用して、固有のビジネス ケースに適した合成データセットを作成します。
?データのラベル付け
- LabelImg - LabelImg は、グラフィカル画像注釈ツールです。これは Python で書かれており、グラフィカル インターフェイスとして Qt を使用します。
- LabelMe - LabelMe は、Python と Qt を使用した画像ポリゴン注釈ツールです。
- TagAnamoly - 特に複数の時系列 (カテゴリごとに 1 つの時系列) 用の異常検出ラベル付けツール。
- EchoML - オーディオ ファイルを再生、視覚化し、注釈を付ける
- LabelStudio - Label Studio は、オープンソースのデータラベル付けツールです。シンプルでわかりやすい UI を使用して、オーディオ、テキスト、画像、ビデオ、時系列などのデータ タイプにラベルを付け、さまざまなモデル形式にエクスポートできます。
- 素晴らしいオープンソース データの注釈およびラベル付けツール - データにラベルを付けたい人が利用できるオープンソース ツールのリスト (タスク タイプごとに分類)。アクティブにメンテナンスされているツールのみがリストされています。
データの準備
- DataFix - DataFix は、参照データセットとクエリ データセットの間の分布のずれを検出および修正するための Python ツールです。シフトを検出し、シフトの原因となる特定の特徴を特定し、それらを効率的に修正します。
チュートリアルとリソース
ここでは、実践的なチュートリアルと、当社の Web サイトおよび Medium ブログで使用するその他の資料のリストを見つけることができます:「チュートリアルとリソース」。
- データ中心の人工知能: 調査 - この調査は、読者がデータ中心の AI の全体像を効率的に把握できるようにすることを目的としています。データ中心の AI のニーズ、定義、課題だけでなく、トレーニング データの開発、推論データの開発、データ メンテナンスの手法など、さまざまな側面をカバーしています。さらに、この調査では自動化とコラボレーションの観点から既存の文献を整理し、優れたデータを実現するためのベンチマークを表にして分析しています。ショートバージョンもあります。
?コース
- MIT データ中心 AI 入門 - このクラスでは、ML データの一般的な問題を見つけて修正し、分類などの教師あり学習タスクで使用されるデータに焦点を当てて、より優れたデータセットを構築するためのアルゴリズムについて説明します。このコースで教えられる内容はすべて非常に実践的であり、特定のモデルがどのように機能するかの数学的な詳細ではなく、現実世界の ML アプリケーションの影響力のある側面に焦点を当てています。このコースを受講すると、ほとんどの ML クラスではカバーされていない実践的なテクニックを学ぶことができます。これは、現実世界の ML アプリケーションの多くを悩ませる「ガベージ イン、ガベージ アウト」問題を軽減するのに役立ちます。ウェブサイト |講義ビデオ |研究室の課題
?オープンな招待状
コラボレーションを歓迎します!コントリビュートを開始したい場合は、関連リソースを含むプル リクエストを作成するだけです。私たちはすべてのプルリクエストを一つ一つレビューします。
これらのリソースが役立つと思われた場合は、お気軽にデータ中心 AI コミュニティをチェックするか、ここをクリックして Discord サーバーに参加してください。向こう側でもご挨拶させていただきたいと思います!