pip를 사용하여 kagglehub
패키지를 설치합니다:
pip install kagglehub
인증은 사용자 동의가 필요한 공용 리소스 또는 개인 리소스에 액세스하는 경우 에만 필요합니다.
먼저 Kaggle 계정이 필요합니다. 여기에서 가입할 수 있습니다.
로그인 후 https://www.kaggle.com/settings에서 "API" 섹션 아래의 "새 토큰 만들기" 버튼을 클릭하여 Kaggle API 자격 증명을 다운로드할 수 있습니다.
인증에는 3가지 옵션이 있습니다.
사용자 이름과 토큰을 입력하라는 메시지가 표시됩니다.
import kagglehubkagglehub.login()
Kaggle 사용자 이름과 토큰을 환경으로 내보내도록 선택할 수도 있습니다.
내보내기 KAGGLE_USERNAME=데이터공룡 내보내기 KAGGLE_KEY=xxxxxxxxxxxxxx
kaggle.json
에서 자격 증명 읽기 ~/.kaggle/kaggle.json
에 kaggle.json
자격 증명 파일을 저장하세요.
또는 KAGGLE_CONFIG_DIR
환경 변수를 설정하여 이 위치를 $KAGGLE_CONFIG_DIR/kaggle.json
으로 변경할 수 있습니다.
Windows 사용자를 위한 참고 사항: 기본 디렉터리는 %HOMEPATH%/kaggle.json
입니다.
사용자 이름과 키 토큰을 Colab 비밀번호 KAGGLE_USERNAME
및 KAGGLE_KEY
로 저장하세요.
Colab과 Colab Enterprise 모두에서 비밀번호를 추가하는 방법은 이 도움말에서 확인할 수 있습니다.
다음 예에서는 이 Kaggle 모델의 answer-equivalence-bem
변형을 다운로드합니다. https://www.kaggle.com/models/google/bert/tensorFlow2/answer-equivalence-bem
import kagglehub# 최신 버전을 다운로드하세요.kagglehub.model_download('google/bert/tensorFlow2/answer-equivalence-bem')# 특정 버전을 다운로드하세요.kagglehub.model_download('google/bert/tensorFlow2/answer-equivalence-bem/1 ')# 단일 파일을 다운로드합니다.kagglehub.model_download('google/bert/tensorFlow2/answer-equivalence-bem', path='variables/variables.index')# 이전에 캐시.kagglehub.model_download('google/bert/tensorFlow2/answer-equivalence-bem', force_download=True)에 다운로드한 경우에도 모델 또는 파일을 다운로드합니다.
새 변형(또는 이미 존재하는 경우 새 변형 버전)을 업로드합니다.
import kagglehub# 예를 들어 이 모델에 새 변형을 업로드하려면:# - https://www.kaggle.com/models/google/bert/tensorFlow2/answer-equivalence-bem# # 다음 핸들을 사용합니다. ` google/bert/tensorFlow2/answer-equivalence-bem`handle = '<KAGGLE_USERNAME>/<MODEL>/<FRAMEWORK>/<VARIATION>'local_model_dir = 'path/to/local/model/dir'kagglehub.model_upload(handle, local_model_dir)# 일부 버전 메모를 지정할 수도 있습니다(선택 사항)kagglehub.model_upload(handle, local_model_dir, version_notes='improved Accuracy')# 지정할 수도 있습니다 라이센스 (선택 사항)kagglehub.model_upload(handle, local_model_dir, License_name='Apache 2.0')# 다음을 수행할 수 있습니다. 또한 무시할 파일/디렉토리에 대한 패턴 목록을 지정합니다.# 이러한 패턴은 `kagglehub.models.DEFAULT_IGNORE_PATTERNS`와 결합되어 # 제외할 파일과 디렉터리를 결정합니다. # 전체 디렉터리를 무시하려면 Pattern.kagglehub.model_upload(handle, local_model_dir,ignore_patterns=["original/", "*.tmp"])에 후행 슬래시(/)를 포함합니다.
다음 예에서는 Spotify Recommendation
Kaggle 데이터세트를 다운로드합니다: https://www.kaggle.com/datasets/bricevergnou/spotify-recommendation
import kagglehub# 최신 버전 다운로드.kagglehub.dataset_download('bricevergnou/spotify-recommendation')# 특정 버전 다운로드.kagglehub.dataset_download('bricevergnou/spotify-recommendation/versions/1')# 단일 파일 다운로드kagglehub.dataset_download( 'bricevergnou/spotify-추천', path='data.csv')# 이전에 캐시.kagglehub.dataset_download('bricevergnou/spotify-recommendation', force_download=True)에 다운로드했더라도 데이터 세트 또는 파일을 다운로드합니다.
새 데이터 세트(또는 이미 존재하는 경우 새 버전)를 업로드합니다.
import kagglehub# 예를 들어 새 데이터 세트(또는 버전)를 다음 위치에 업로드하려면:# - https://www.kaggle.com/datasets/bricevergnou/spotify-recommendation# # 다음 핸들을 사용합니다: `bricevergnou/spotify- 추천`handle = '<KAGGLE_USERNAME>/<DATASET>local_dataset_dir = 'path/to/local/dataset/dir'# 새로 생성 Datasetkagglehub.dataset_upload(handle, local_dataset_dir)# 그런 다음 이 기존 데이터세트의 새 버전을 생성하고 버전 메모를 포함할 수 있습니다(선택 사항).kagglehub.dataset_upload(handle, local_dataset_dir, version_notes='improved data')# 목록을 지정할 수도 있습니다 무시할 파일/디렉터리 패턴입니다.# 이러한 패턴은 다음과 결합됩니다. `kagglehub.datasets.DEFAULT_IGNORE_PATTERNS` # 제외할 파일과 디렉터리를 결정합니다. # 전체 디렉터리를 무시하려면 Pattern.kagglehub.dataset_upload(handle, local_dataset_dir,ignore_patterns=["original/", "*.tmp"])에 후행 슬래시(/)를 포함합니다.
다음 예에서는 Digit Recognizer
Kaggle 대회를 다운로드합니다: https://www.kaggle.com/competitions/digit-recognizer
import kagglehub# 최신 버전 다운로드.kagglehub.competition_download('digit-recognizer')# 단일 파일 다운로드kagglehub.competition_download('digit-recognizer', path='train.csv')# 이전 버전이라도 대회 또는 파일을 다운로드합니다. 캐시에 다운로드되었습니다. kagglehub.competition_download('digit-recognizer', force_download=True)
우리는 해치를 사용하여 이 프로젝트를 관리합니다.
설치하려면 다음 지침을 따르세요.
# 현재 Python 버전에 대한 모든 테스트를 실행합니다.hatch test# 모든 Python 버전에 대한 모든 테스트를 실행합니다.hatch test --all# 특정 Python 버전에 대한 모든 테스트를 실행합니다.hatch test -py 3.11# 단일 테스트 파일 실행hatch test 테스트/테스트_ <SOME_FILE>.py
로컬 컴퓨터에서 통합 테스트를 실행하려면 Kaggle API 자격 증명을 설정해야 합니다. 이 문서의 이전 섹션에 설명된 두 가지 방법 중 하나로 이 작업을 수행할 수 있습니다. 다음 섹션을 참조하세요.
환경 변수 사용
자격 증명 파일 사용
이러한 방법 중 하나로 자격 증명을 설정한 후 다음과 같이 통합 테스트를 실행할 수 있습니다.
# 모든 테스트샷 테스트를 실행합니다. Integration_tests
kagglehub
실행# 모델 다운로드 및 경로 해칭 인쇄 run python -c "import kagglehub; print('path: ', kagglehub.model_download('google/bert/tensorFlow2/answer-equivalence-bem'))"
# 린트 체크해치 실행 lint:style 해치 런 린트:입력 Hatch run lint:all # 둘 다에 대해# 형식hatch run lint:fmt
해치 테스트 - 덮개
해치 빌드
hatch
명령 실행이는 일관된 환경에서 실행하고 Python 버전 간에 쉽게 전환하는 데 유용합니다.
다음은 hatch run lint:all
실행하는 방법을 보여 주지만 이는 다른 모든 해치 명령에도 작동합니다.
# Use default Python version ./docker-hatch run lint:all # Use specific Python version (Must be a valid tag from: https://hub.docker.com/_/python) ./docker-hatch -v 3.9 run lint:all # Run test in docker with specific Python version ./docker-hatch -v 3.9 test
권장 확장 프로그램을 설치하세요.
프로젝트 폴더에 가상 환경을 생성하도록 해치를 구성합니다.
hatch config set dirs.env.virtual .env
그런 다음, hatch -e all run tests
실행하여 필요한 모든 Python 환경을 만듭니다.
마지막으로 선택한 환경 중 하나를 사용하도록 vscode를 구성합니다. cmd + shift + p
-> python: Select Interpreter
-> ./.env
에서 폴더 중 하나 선택
Kagglehub 라이브러리는 로그 폴더에 저장되는 자동 로깅을 구성했습니다. 로그 대상은 os.path.expanduser를 통해 확인됩니다.
아래 표에는 가능한 위치가 포함되어 있습니다.
운영 체제 | 로그 경로 |
---|---|
OSX | /user/$USERNAME/.kaggle/logs/kagglehub.log |
리눅스 | ~/.kaggle/logs/kagglehub.log |
창문들 | C:사용자%USERNAME%.kagglelogskagglehub.log |
문제 해결에 도움이 되도록 로그를 포함해 주세요.