Потрясающий ИИ, ориентированный на данные
Data-Centric AI — это подход к разработке ИИ, который рассматривает набор обучающих данных как центральную часть решения, а не модели.
Этот репозиторий содержит тщательно подобранный список замечательных ресурсов, таких как библиотеки с открытым исходным кодом, учебные пособия и статьи, которые помогут вам понять концепции и начать свой путь в разработке дата-ориентированного искусственного интеллекта.
Мы ценим открытое сотрудничество и обмен знаниями, поэтому рекомендуем не ограничиваться одним этим репозиторием и проверить другие замечательные проекты, такие как Центр ресурсов Эндрю Нга.
Профилирование данных
- Профилирование YData. Профилирование YData поддерживает как Pandas, так и Spark DataFrames, обеспечивая быстрое и простое визуальное понимание данных.
- SweetViz — SweetViz — это библиотека Python с открытым исходным кодом, которая генерирует красивые визуализации высокой плотности для запуска EDA (исследовательский анализ данных) с помощью всего двух строк кода.
- DataPrep.EDA — DataPrep.EDA — это инструмент EDA (исследовательский анализ данных) на Python, который позволяет вам понять DataFrame Pandas/Dask с помощью нескольких строк кода за секунды.
- AutoViz — автоматическая визуализация любого набора данных любого размера с помощью одной строки кода.
- Lux — Lux — это библиотека Python, которая обеспечивает быстрое и простое исследование данных за счет автоматизации процесса визуализации и анализа данных.
- «Большие надежды» — «Большие надежды» помогают командам по работе с данными устранить задолженность по конвейеру посредством тестирования данных, документирования и профилирования.
- D-Tale — это библиотека автоматической визуализации Python с открытым исходным кодом, которая предоставляет вам простой способ просмотра и анализа структур данных Pandas. Он легко интегрируется с ноутбуками ipython и терминалами python/ipython.
- Data Profiler — DataProfiler — это библиотека Python, предназначенная для упрощения анализа, мониторинга и обнаружения конфиденциальных данных.
- Whylogs —Whylogs — это стандарт с открытым исходным кодом для регистрации данных. Он использует методы профилирования данных для создания профилейWhylogs , которые можно использовать в качестве журналов для обеспечения мониторинга и наблюдения за конвейерами данных и моделями машинного обучения.
? Синтетические данные
- YData Synthetic — генераторы структурированных синтетических данных, использующие генеративно-состязательные сети специально для табличных данных и данных временных рядов.
- Synthpop — инструмент для создания синтетических версий микроданных, содержащих конфиденциальную информацию, чтобы их можно было безопасно передать пользователям для предварительного анализа.
- DataSynthesizer — DataSynthesizer генерирует синтетические данные, которые имитируют заданный набор данных. Он применяет методы дифференциальной конфиденциальности для достижения надежной гарантии конфиденциальности.
- SDV — Synthetic Data Vault (SDV) — это экосистема библиотек генерации синтетических данных, которая позволяет пользователям легко изучать однотабличные, многотабличные наборы данных и наборы данных временных рядов, чтобы в дальнейшем генерировать новые синтетические данные того же формата. и статистические свойства в качестве исходного набора данных.
- Pomegranate — Pomegranate — это пакет для построения вероятностных моделей на Python, который для скорости реализован на Cython. Большинство этих моделей могут осуществлять выборку данных.
- Gretel Synthetics — пакет Gretel Synthetics позволяет разработчикам быстро погрузиться в генерацию синтетических данных за счет использования нейронных сетей.
- Генератор временных рядов — генератор временных рядов позволяет разработчикам создавать синтетические наборы данных временных рядов общим способом, который следует различным тенденциям. Целью здесь является наличие неконфиденциальных данных, доступных для демонстрационных решений и проверки эффективности этих решений и / или алгоритмы.
- Zpy — Zpy решает проблему нехватки наборов конкретных бизнес-данных для приложений на основе компьютерного зрения. Zpy использует Python и Blender (набор инструментов для 3D-графики с открытым исходным кодом) для создания синтетических наборов данных, подходящих для уникальных бизнес-кейсов.
? Маркировка данных
- LabelImg — LabelImg — это инструмент для графических аннотаций изображений. Он написан на Python и использует Qt в качестве графического интерфейса.
- LabelMe — LabelMe — это инструмент для создания многоугольных аннотаций изображений, использующий Python и Qt.
- TagAnamoly — инструмент маркировки обнаружения аномалий, специально для нескольких временных рядов (по одному временному ряду на категорию).
- EchoML — Воспроизведение, визуализация и аннотирование ваших аудиофайлов.
- LabelStudio — Label Studio — это инструмент маркировки данных с открытым исходным кодом. Он позволяет маркировать типы данных, такие как аудио, текст, изображения, видео и временные ряды, с помощью простого и понятного пользовательского интерфейса, а также экспортировать в различные форматы моделей.
- Потрясающие инструменты аннотирования и маркировки данных с открытым исходным кодом — список доступных инструментов с открытым исходным кодом (отсортированный по типу задач) для всех, кто хочет маркировать данные. В списке перечислены только активно поддерживаемые инструменты.
Подготовка данных
- DataFix — DataFix — это инструмент Python для обнаружения и исправления сдвигов распределения между эталоном и набором данных запроса. Он обнаруживает сдвиги, локализует конкретные особенности, ответственные за сдвиг, и эффективно их корректирует.
Учебники и ресурсы
Здесь вы можете найти список практических руководств и других материалов, которые мы используем на нашем веб-сайте и в блогах Medium здесь: Учебники и ресурсы.
- Искусственный интеллект, ориентированный на данные: опрос. Этот опрос призван помочь читателям эффективно понять широкую картину искусственного интеллекта, ориентированного на данные. Он охватывает различные аспекты, такие как потребности, определения и проблемы ИИ, ориентированного на данные, а также методы разработки обучающих данных, разработки данных для вывода и обслуживания данных. Кроме того, в исследовании систематизирована существующая литература с точки зрения автоматизации и сотрудничества, путем составления таблиц и анализа контрольных показателей для достижения качества данных. Есть и короткая версия.
? Курсы
- Введение в ИИ, ориентированный на данные. В этом классе рассматриваются алгоритмы для поиска и устранения распространенных проблем в данных ML, а также для создания более качественных наборов данных с упором на данные, используемые в контролируемых задачах обучения, таких как классификация. Весь материал, преподаваемый в этом курсе, очень практичен и сосредоточен на эффективных аспектах реальных приложений машинного обучения, а не на математических деталях работы конкретных моделей. Вы можете пройти этот курс, чтобы изучить практические приемы, не рассматриваемые в большинстве курсов по машинному обучению, которые помогут смягчить проблему «мусор на входе и выходе», от которой страдают многие реальные приложения машинного обучения. Веб-сайт | Видео лекций | Лабораторные задания
? Открытое приглашение
Мы открыты к сотрудничеству! Если вы хотите начать вносить свой вклад, вам нужно всего лишь создать запрос на включение с соответствующими ресурсами. Мы проверим каждый запрос на включение.
Если эти ресурсы оказались для вас полезными, посетите наше сообщество Data-Centric AI Community или нажмите здесь, чтобы присоединиться к нашему серверу Discord. Мы надеемся передать привет с другой стороны!