出色的以数据为中心的人工智能
以数据为中心的人工智能是一种人工智能开发方法,它将训练数据集而不是模型视为解决方案的核心。
该存储库包含一系列精彩资源,例如开源库、教程和文章,可帮助您理解概念并开始以数据为中心的 AI 开发之旅。
我们确实重视开放协作和知识共享,因此我们建议不要将自己仅限于这个存储库,并查看其他令人惊叹的项目,例如 Andrew Ng 的资源中心。
数据分析
- YData Profiling - YData Profiling 支持 Pandas 和 Spark DataFrame,提供快速、直接的可视化数据理解。
- SweetViz - SweetViz 是一个开源 Python 库,它可以生成漂亮的高密度可视化效果,只需两行代码即可启动 EDA(探索性数据分析)。
- DataPrep.EDA - DataPrep.EDA 是 Python 中的 EDA(探索性数据分析)工具,可让您在几秒钟内通过几行代码理解 Pandas/Dask DataFrame。
- AutoViz - 使用一行代码自动可视化任何大小的数据集。
- Lux - Lux 是一个 Python 库,可通过自动化可视化和数据分析过程来促进快速、轻松的数据探索。
- 远大期望 - 远大期望通过数据测试、文档和分析帮助数据团队消除管道债务。
- D-Tale - 是一个开源 python 自动可视化库,为您提供一种查看和分析 Pandas 数据结构的简单方法。它与 ipython 笔记本和 python/ipython 终端无缝集成。
- Data Profiler - DataProfiler 是一个 Python 库,旨在简化数据分析、监控和敏感数据检测。
- Whylogs - Whylogs 是数据记录的开源标准。它使用数据分析技术来创建whylogs配置文件,该配置文件可以用作日志来启用数据管道和ML模型的监视和可观察性。
?综合数据
- YData Synthetic - 使用生成对抗网络的结构化综合数据生成器,专门用于表格和时间序列数据。
- Synthpop - 一种工具,用于生成包含机密信息的微数据的合成版本,以便将它们安全地发布给用户进行探索性分析。
- DataSynthesizer - DataSynthesizer 生成模拟给定数据集的合成数据。它应用差分隐私技术来实现强有力的隐私保证。
- SDV - 综合数据库 (SDV) 是一个综合数据生成库生态系统,允许用户轻松学习单表、多表和时间序列数据集,以便稍后生成具有相同格式的新综合数据和原始数据集的统计属性。
- Pomegranate - Pomegranate 是一个用于在 Python 中构建概率模型的包,在 Cython 中实现以提高速度。大多数这些模型都可以采样数据。
- Gretel Synthetics - Gretel Synthetics 包允许开发人员通过使用神经网络快速沉浸在合成数据生成中。
- 时间序列生成器 - 时间序列生成器允许开发人员以遵循不同趋势的通用方式创建合成时间序列数据集。这里的目标是让非敏感数据可用于演示解决方案并测试这些解决方案的有效性和/或算法。
- Zpy -Zpy 解决了基于计算机视觉的应用程序缺乏业务特定数据集的问题。 Zpy 使用 Python 和 Blender(开源 3D 图形工具集)创建适合独特业务案例的合成数据集。
?数据标签
- LabelImg - LabelImg 是一个图形图像注释工具。它是用 Python 编写的,并使用 Qt 作为其图形界面。
- LabelMe - LabelMe 是一个使用 Python 和 Qt 的图像多边形注释工具。
- TagAnamoly - 异常检测标记工具,专门用于多个时间序列(每个类别一个时间序列)。
- EchoML - 播放、可视化和注释您的音频文件
- LabelStudio - Label Studio 是一个开源数据标记工具。它允许您使用简单直观的 UI 来标记音频、文本、图像、视频和时间序列等数据类型,并导出为各种模型格式。
- 很棒的开源数据注释和标签工具 - 任何想要标记数据的人都可以使用的开源工具列表(按任务类型排序)。仅列出积极维护的工具。
数据准备
- DataFix - DataFix 是一个 Python 工具,用于检测和纠正参考数据集和查询数据集之间的分布变化。它可以检测偏移,定位导致偏移的特定特征,并有效地纠正它们。
教程和资源
您可以在这里找到我们在我们的网站和 Medium 博客上使用的实践教程和其他材料的列表:教程和资源。
- 以数据为中心的人工智能:一项调查 - 这项调查旨在帮助读者有效地掌握以数据为中心的人工智能的整体情况。它涵盖了以数据为中心的人工智能的需求、定义和挑战等各个方面,以及训练数据开发、推理数据开发和数据维护的技术。此外,该调查还从自动化和协作的角度整理了现有文献,列出并分析了实现卓越数据的基准。还有一个简短的版本。
?课程
- 麻省理工学院以数据为中心的 AI 简介 - 本课程涵盖用于查找和修复 ML 数据中常见问题以及构建更好的数据集的算法,重点关注分类等监督学习任务中使用的数据。本课程教授的所有材料都非常实用,重点关注现实世界中机器学习应用的有影响力的方面,而不是特定模型如何工作的数学细节。您可以参加本课程来学习大多数 ML 课程中未涵盖的实用技术,这将有助于缓解困扰许多现实世界 ML 应用程序的“垃圾输入,垃圾输出”问题。网站 |讲座视频|实验室作业
?公开邀请
我们对合作持开放态度!如果您想开始贡献,您只需创建包含相关资源的拉取请求。我们会审查每一个拉取请求。
如果您发现这些资源有用,请随时查看我们的以数据为中心的人工智能社区或单击此处加入我们的 Discord 服务器。我们希望在另一边打个招呼!