기계 학습 모델 선택을 용이하게 하는 시각적 분석 및 진단 도구입니다.
Yellowbrick은 scikit-learn API를 확장하여 사람이 모델 선택 프로세스를 조정할 수 있도록 하는 "Visualizers"라는 시각적 진단 도구 모음입니다. 간단히 말해서 Yellowbrick은 scikit-learn 문서의 최고의 전통에 따라 scikit-learn과 matplotlib를 결합하지만 기계 학습 워크플로를 위한 시각화를 생성합니다!
Yellowbrick API에 대한 전체 문서, 사용 가능한 시각화 도구 갤러리, 기여자 가이드, 튜토리얼 및 교육 리소스, 자주 묻는 질문(FAQ) 등을 보려면 www.scikit-yb.org의 문서를 방문하세요.
Yellowbrick은 Python 3.4 이상과 호환되며 scikit-learn 및 matplotlib에도 의존합니다. Yellowbrick과 그 종속 항목을 설치하는 가장 간단한 방법은 Python에서 선호하는 패키지 설치 프로그램인 pip를 사용하여 PyPI를 사용하는 것입니다.
$ pip install yellowbrick
Yellowbrick은 활성 프로젝트이며 정기적으로 더 많은 시각화 도구와 업데이트가 포함된 새 릴리스를 게시합니다. Yellowbrick을 최신 버전으로 업그레이드하려면 다음과 같이 pip를 사용하세요.
$ pip install -U yellowbrick
-U
플래그를 사용하여 scikit-learn, matplotlib 또는 Yellowbrick과 잘 작동하는 기타 타사 유틸리티를 최신 버전으로 업데이트할 수도 있습니다.
Anaconda(Windows 사용자에게 권장)를 사용하는 경우 conda 유틸리티를 활용하여 Yellowbrick을 설치할 수 있습니다.
conda install -c districtdatalabs yellowbrick
Yellowbrick API는 scikit-learn과 잘 작동하도록 특별히 설계되었습니다. 다음은 scikit-learn 및 Yellowbrick을 사용한 일반적인 워크플로 시퀀스의 예입니다.
이 예에서는 Rank2D가 특정 측정항목 또는 알고리즘을 사용하여 데이터 세트의 각 기능에 대한 쌍별 비교를 수행한 다음 왼쪽 아래 삼각형 다이어그램으로 순위를 반환하는 방법을 확인합니다.
from yellowbrick . features import Rank2D
visualizer = Rank2D (
features = features , algorithm = 'covariance'
)
visualizer . fit ( X , y ) # Fit the data to the visualizer
visualizer . transform ( X ) # Transform the data
visualizer . show () # Finalize and render the figure
이 예에서는 scikit-learn 분류기를 인스턴스화한 다음 Yellowbrick의 ROCAUC 클래스를 사용하여 분류기의 민감도와 특이도 간의 균형을 시각화합니다.
from sklearn . svm import LinearSVC
from yellowbrick . classifier import ROCAUC
model = LinearSVC ()
visualizer = ROCAUC ( model )
visualizer . fit ( X , y )
visualizer . score ( X , y )
visualizer . show ()
Yellowbrick 시작에 대한 자세한 내용은 설명서의 빠른 시작 가이드와 예제 노트북을 확인하세요.
Yellowbrick은 프로젝트에 기여할 수 있는 모든 기여를 감사하고 겸손하게 받아들이는 커뮤니티의 지원을 받는 오픈 소스 프로젝트입니다. 크든 작든 어떤 기여라도 큰 차이를 만듭니다. 이전에 오픈 소스 프로젝트에 기여한 적이 없다면 Yellowbrick으로 시작해 보시기 바랍니다!
기여에 관심이 있다면 기여자 가이드를 확인하세요. 시각화 도우미를 만드는 것 외에도 기여할 수 있는 방법은 다양합니다.
보시다시피, 참여할 수 있는 방법은 다양하며 여러분이 우리와 함께 하게 되어 매우 기쁩니다! 우리가 요구하는 유일한 것은 Python 소프트웨어 재단 행동 강령에 설명된 대로 개방성, 존중, 타인에 대한 배려의 원칙을 준수하는 것입니다.
자세한 내용은 저장소 루트에 있는 CONTRIBUTING.md
파일을 확인하거나 Yellowbrick에 기여하기에서 자세한 문서를 확인하세요.
Yellowbrick을 사용하면 문서 및 테스트의 예제에 사용되는 여러 데이터 세트에 쉽게 액세스할 수 있습니다. 이러한 데이터 세트는 CDN에서 호스팅되며 사용하려면 다운로드해야 합니다. 일반적으로 사용자가 데이터 로더 함수 중 하나(예: load_bikeshare()
를 호출하면 해당 데이터가 사용자 컴퓨터에 아직 없으면 자동으로 다운로드됩니다. 그러나 개발 및 테스트를 위해 또는 인터넷 접속 없이 작업할 예정이라면 모든 데이터를 한 번에 다운로드하는 것이 더 쉬울 수 있습니다.
데이터 다운로더 스크립트는 다음과 같이 실행할 수 있습니다.
$ python -m yellowbrick.download
그러면 Yellowbrick 사이트 패키지 내부의 조명기 디렉터리에 데이터가 다운로드됩니다. 다운로드 위치를 다운로더 스크립트에 대한 인수로 지정하거나(자세한 내용은 --help
사용) $YELLOWBRICK_DATA
환경 변수를 설정하여 지정할 수 있습니다. 이는 Yellowbrick에 데이터가 로드되는 방식에도 영향을 주기 때문에 선호되는 메커니즘입니다.
참고: v1.0 이전의 Yellowbrick 버전에서 데이터를 다운로드한 개발자는 이전 데이터 형식에서 몇 가지 문제를 경험할 수 있습니다. 이런 일이 발생하면 다음과 같이 데이터 캐시를 지울 수 있습니다.
$ python -m yellowbrick.download --cleanup
그러면 이전 데이터 세트가 제거되고 새 데이터 세트가 다운로드됩니다. --no-download
플래그를 사용하면 데이터를 다시 다운로드하지 않고 캐시를 간단히 지울 수도 있습니다. 데이터 세트에 어려움을 겪는 사용자도 이를 사용할 수 있으며 pip
사용하여 Yellowbrick을 제거하고 다시 설치할 수 있습니다.
귀하의 과학 출판물에 Yellowbrick을 사용하신다면 기쁠 것입니다! 그렇다면 인용 지침을 사용하여 우리를 인용해 주십시오.