뛰어난 데이터 중심 AI
데이터 중심 AI는 훈련 데이터 세트를 모델이 아닌 솔루션의 중심으로 간주하는 AI 개발 접근 방식입니다.
이 리포지토리에는 개념을 이해하고 데이터 중심 AI 개발 여정을 시작하는 데 도움이 되는 오픈 소스 라이브러리, 튜토리얼, 기사와 같은 멋진 리소스의 선별된 목록이 포함되어 있습니다.
우리는 개방형 협업과 지식 공유를 중요하게 생각하므로 이 저장소에만 국한하지 말고 Andrew Ng의 Resources Hub와 같은 다른 놀라운 프로젝트를 확인하는 것이 좋습니다.
데이터 프로파일링
- YData Profiling - YData Profiling은 Pandas와 Spark DataFrames를 모두 지원하여 빠르고 직접적인 시각적 데이터 이해를 제공합니다.
- SweetViz - SweetViz는 단 두 줄의 코드로 EDA(탐색적 데이터 분석)를 시작하기 위해 아름다운 고밀도 시각화를 생성하는 오픈 소스 Python 라이브러리입니다.
- DataPrep.EDA - DataPrep.EDA는 몇 초 안에 몇 줄의 코드만으로 Pandas/Dask DataFrame을 이해할 수 있는 Python의 EDA(탐색적 데이터 분석) 도구입니다.
- AutoViz - 코드 한 줄로 모든 크기, 모든 데이터세트를 자동으로 시각화합니다.
- Lux - Lux는 시각화 및 데이터 분석 프로세스를 자동화하여 빠르고 쉽게 데이터 탐색을 촉진하는 Python 라이브러리입니다.
- Great Expectations - Great Expectations는 데이터 테스트, 문서화 및 프로파일링을 통해 데이터 팀이 파이프라인 부채를 제거하는 데 도움이 됩니다.
- D-Tale - Pandas 데이터 구조를 쉽게 보고 분석할 수 있는 방법을 제공하는 오픈 소스 Python 자동 시각화 라이브러리입니다. ipython 노트북 및 python/ipython 터미널과 완벽하게 통합됩니다.
- 데이터 프로파일러(Data Profiler) - DataProfiler는 데이터 분석, 모니터링 및 민감한 데이터 감지를 쉽게 수행할 수 있도록 설계된 Python 라이브러리입니다.
- Whylogs - Whylogs는 데이터 로깅을 위한 오픈 소스 표준입니다. 데이터 프로파일링 기술을 사용하여 데이터 파이프라인 및 ML 모델에 대한 모니터링 및 관찰을 가능하게 하는 로그로 사용할 수 있는 Whylogs 프로필을 생성합니다.
? 합성 데이터
- YData Synthetic - 특히 표 형식 및 시계열 데이터를 위해 생성적 적대 네트워크를 사용하는 구조화된 합성 데이터 생성기입니다.
- Synthpop - 탐색적 분석을 위해 사용자에게 안전하게 공개될 수 있도록 기밀 정보가 포함된 마이크로데이터의 합성 버전을 생성하는 도구입니다.
- DataSynthesizer - DataSynthesizer는 주어진 데이터 세트를 시뮬레이션하는 합성 데이터를 생성합니다. 강력한 개인정보 보호를 보장하기 위해 차등 개인정보 보호 기술을 적용합니다.
- SDV - SDV(Synthetic Data Vault)는 사용자가 단일 테이블, 다중 테이블 및 시계열 데이터 세트를 쉽게 학습하여 나중에 동일한 형식의 새로운 합성 데이터를 생성할 수 있는 라이브러리의 합성 데이터 생성 생태계입니다. 및 통계 속성을 원본 데이터 세트로 사용합니다.
- Pomegranate - Pomegranate는 속도를 위해 Cython에서 구현되는 Python으로 확률 모델을 구축하기 위한 패키지입니다. 이러한 모델의 대부분은 데이터를 샘플링할 수 있습니다.
- Gretel Synthetics - Gretel Synthetics 패키지를 사용하면 개발자가 신경망을 사용하여 합성 데이터 생성에 빠르게 몰입할 수 있습니다.
- 시계열 생성기 - 시계열 생성기를 사용하면 개발자가 다양한 추세를 따르는 일반적인 방식으로 합성 시계열 데이터세트를 생성할 수 있습니다. 여기서 목표는 민감하지 않은 데이터를 데모 솔루션에 사용할 수 있도록 하고 해당 솔루션의 효율성을 테스트하는 것입니다. 또는 알고리즘.
- Zpy - Zpy는 컴퓨터 비전 기반 애플리케이션에 대한 비즈니스별 데이터 세트 부족 문제를 해결합니다. Zpy는 Python 및 Blender(오픈 소스 3D 그래픽 도구 세트)를 사용하여 고유한 비즈니스 사례에 적합한 합성 데이터 세트를 만듭니다.
? 데이터 라벨링
- LabelImg - LabelImg는 그래픽 이미지 주석 도구입니다. Python으로 작성되었으며 그래픽 인터페이스로 Qt를 사용합니다.
- LabelMe - LabelMe는 Python과 Qt를 사용하는 이미지 다각형 주석 도구입니다.
- TagAnamoly - 특히 여러 시계열(범주당 하나의 시계열)을 위한 이상 탐지 레이블 지정 도구입니다.
- EchoML - 오디오 파일을 재생하고, 시각화하고, 주석을 답니다.
- LabelStudio - Label Studio는 오픈 소스 데이터 라벨링 도구입니다. 간단하고 간단한 UI를 사용하여 오디오, 텍스트, 이미지, 비디오 및 시계열과 같은 데이터 유형에 레이블을 지정하고 다양한 모델 형식으로 내보낼 수 있습니다.
- 멋진 오픈 소스 데이터 주석 및 레이블 지정 도구 - 데이터에 레이블을 지정하려는 모든 사람이 사용할 수 있는 오픈 소스 도구 목록(작업 유형별로 정렬)입니다. 적극적으로 유지 관리되는 도구만 나열됩니다.
데이터 준비
- DataFix - DataFix는 참조 데이터세트와 쿼리 데이터세트 간의 분포 이동을 감지하고 수정하기 위한 Python 도구입니다. 이는 변화를 감지하고, 변화를 담당하는 특정 기능을 위치화하며, 이를 효율적으로 수정합니다.
튜토리얼 및 리소스
여기에서 당사 웹사이트와 Medium 블로그에서 사용하는 실습 튜토리얼 및 기타 자료 목록을 찾을 수 있습니다: 튜토리얼 및 리소스.
- 데이터 중심 인공 지능: 설문 조사 - 이 설문 조사는 독자가 데이터 중심 AI의 폭넓은 그림을 효율적으로 파악할 수 있도록 돕기 위한 것입니다. 데이터 중심 AI의 요구 사항, 정의, 과제는 물론 훈련 데이터 개발, 추론 데이터 개발, 데이터 유지 관리 기술 등 다양한 측면을 다루고 있습니다. 또한 설문조사는 자동화 및 협업의 관점에서 기존 문헌을 구성하고 데이터 우수성을 달성하기 위한 벤치마크를 표로 작성 및 분석합니다. 짧은 버전도 있습니다.
? 행동
- MIT 데이터 중심 AI 소개 - 이 수업에서는 분류와 같은 지도 학습 작업에 사용되는 데이터에 중점을 두고 ML 데이터에서 일반적인 문제를 찾아 수정하고 더 나은 데이터 세트를 구성하는 알고리즘을 다룹니다. 이 과정에서 가르치는 모든 자료는 매우 실용적이며 특정 모델의 작동 방식에 대한 수학적 세부 사항보다는 실제 ML 애플리케이션의 영향을 미치는 측면에 중점을 둡니다. 이 과정을 통해 대부분의 ML 수업에서 다루지 않는 실용적인 기술을 배울 수 있습니다. 이는 많은 실제 ML 애플리케이션을 괴롭히는 "가비지 인, 가비지 아웃" 문제를 완화하는 데 도움이 됩니다. 웹사이트 | 강의 동영상 | 실습 과제
? 공개 초대
우리는 협력할 준비가 되어 있습니다! 기여를 시작하려면 관련 리소스가 포함된 풀 요청만 생성하면 됩니다. 우리는 모든 풀 요청을 검토할 것입니다.
이러한 리소스가 유용하다고 생각되면 언제든지 데이터 중심 AI 커뮤니티를 확인하거나 여기를 클릭하여 Discord 서버에 가입하세요. 반대편에서 인사드리도록 하겠습니다!