kagglehub 다운로드 - kagglehub 소스 코드 다운로드

kagglehub

기타 소스코드

release

다운로드

Kaggle 허브 클라이언트 라이브러리

설치

pip를 사용하여 kagglehub 패키지를 설치합니다:

pip install kagglehub

용법

인증하다

인증은 사용자 동의가 필요한 공용 리소스 또는 개인 리소스에 액세스하는 경우 에만 필요합니다.

먼저 Kaggle 계정이 필요합니다. 여기에서 가입할 수 있습니다.

로그인 후 https://www.kaggle.com/settings에서 "API" 섹션 아래의 "새 토큰 만들기" 버튼을 클릭하여 Kaggle API 자격 증명을 다운로드할 수 있습니다.

인증에는 3가지 옵션이 있습니다.

옵션 1: kagglehub.login() 호출

사용자 이름과 토큰을 입력하라는 메시지가 표시됩니다.

 import kagglehubkagglehub.login()

옵션 2: 환경 변수에서 자격 증명 읽기

Kaggle 사용자 이름과 토큰을 환경으로 내보내도록 선택할 수도 있습니다.

 내보내기 KAGGLE_USERNAME=데이터공룡 내보내기 KAGGLE_KEY=xxxxxxxxxxxxxx

옵션 3: `kaggle.json` 에서 자격 증명 읽기

~/.kaggle/kaggle.json 에 kaggle.json 자격 증명 파일을 저장하세요.

또는 KAGGLE_CONFIG_DIR 환경 변수를 설정하여 이 위치를 $KAGGLE_CONFIG_DIR/kaggle.json 으로 변경할 수 있습니다.

Windows 사용자를 위한 참고 사항: 기본 디렉터리는 %HOMEPATH%/kaggle.json 입니다.

옵션 4: Google Colab 비밀에서 자격 증명 읽기

사용자 이름과 키 토큰을 Colab 비밀번호 KAGGLE_USERNAME 및 KAGGLE_KEY 로 저장하세요.

Colab과 Colab Enterprise 모두에서 비밀번호를 추가하는 방법은 이 도움말에서 확인할 수 있습니다.

모델 다운로드

다음 예에서는 이 Kaggle 모델의 answer-equivalence-bem 변형을 다운로드합니다. https://www.kaggle.com/models/google/bert/tensorFlow2/answer-equivalence-bem

 import kagglehub# 최신 버전을 다운로드하세요.kagglehub.model_download('google/bert/tensorFlow2/answer-equivalence-bem')# 특정 버전을 다운로드하세요.kagglehub.model_download('google/bert/tensorFlow2/answer-equivalence-bem/1 ')# 단일 파일을 다운로드합니다.kagglehub.model_download('google/bert/tensorFlow2/answer-equivalence-bem', path='variables/variables.index')# 이전에 캐시.kagglehub.model_download('google/bert/tensorFlow2/answer-equivalence-bem', force_download=True)에 다운로드한 경우에도 모델 또는 파일을 다운로드합니다.

모델 업로드

새 변형(또는 이미 존재하는 경우 새 변형 버전)을 업로드합니다.

 import kagglehub# 예를 들어 이 모델에 새 변형을 업로드하려면:# - https://www.kaggle.com/models/google/bert/tensorFlow2/answer-equivalence-bem# # 다음 핸들을 사용합니다. ` google/bert/tensorFlow2/answer-equivalence-bem`handle = '<KAGGLE_USERNAME>/<MODEL>/<FRAMEWORK>/<VARIATION>'local_model_dir = 'path/to/local/model/dir'kagglehub.model_upload(handle, local_model_dir)# 일부 버전 메모를 지정할 수도 있습니다(선택 사항)kagglehub.model_upload(handle, local_model_dir, version_notes='improved Accuracy')# 지정할 수도 있습니다 라이센스 (선택 사항)kagglehub.model_upload(handle, local_model_dir, License_name='Apache 2.0')# 다음을 수행할 수 있습니다. 또한 무시할 파일/디렉토리에 대한 패턴 목록을 지정합니다.# 이러한 패턴은 `kagglehub.models.DEFAULT_IGNORE_PATTERNS`와 결합되어 # 제외할 파일과 디렉터리를 결정합니다. # 전체 디렉터리를 무시하려면 Pattern.kagglehub.model_upload(handle, local_model_dir,ignore_patterns=["original/", "*.tmp"])에 후행 슬래시(/)를 포함합니다.

데이터세트 다운로드

다음 예에서는 Spotify Recommendation Kaggle 데이터세트를 다운로드합니다: https://www.kaggle.com/datasets/bricevergnou/spotify-recommendation

 import kagglehub# 최신 버전 다운로드.kagglehub.dataset_download('bricevergnou/spotify-recommendation')# 특정 버전 다운로드.kagglehub.dataset_download('bricevergnou/spotify-recommendation/versions/1')# 단일 파일 다운로드kagglehub.dataset_download( 'bricevergnou/spotify-추천', path='data.csv')# 이전에 캐시.kagglehub.dataset_download('bricevergnou/spotify-recommendation', force_download=True)에 다운로드했더라도 데이터 세트 또는 파일을 다운로드합니다.

데이터세트 업로드

새 데이터 세트(또는 이미 존재하는 경우 새 버전)를 업로드합니다.

 import kagglehub# 예를 들어 새 데이터 세트(또는 버전)를 다음 위치에 업로드하려면:# - https://www.kaggle.com/datasets/bricevergnou/spotify-recommendation# # 다음 핸들을 사용합니다: `bricevergnou/spotify- 추천`handle = '<KAGGLE_USERNAME>/<DATASET>local_dataset_dir = 'path/to/local/dataset/dir'# 새로 생성 Datasetkagglehub.dataset_upload(handle, local_dataset_dir)# 그런 다음 이 기존 데이터세트의 새 버전을 생성하고 버전 메모를 포함할 수 있습니다(선택 사항).kagglehub.dataset_upload(handle, local_dataset_dir, version_notes='improved data')# 목록을 지정할 수도 있습니다 무시할 파일/디렉터리 패턴입니다.# 이러한 패턴은 다음과 결합됩니다. `kagglehub.datasets.DEFAULT_IGNORE_PATTERNS` # 제외할 파일과 디렉터리를 결정합니다. # 전체 디렉터리를 무시하려면 Pattern.kagglehub.dataset_upload(handle, local_dataset_dir,ignore_patterns=["original/", "*.tmp"])에 후행 슬래시(/)를 포함합니다.

대회 다운로드

다음 예에서는 Digit Recognizer Kaggle 대회를 다운로드합니다: https://www.kaggle.com/competitions/digit-recognizer

 import kagglehub# 최신 버전 다운로드.kagglehub.competition_download('digit-recognizer')# 단일 파일 다운로드kagglehub.competition_download('digit-recognizer', path='train.csv')# 이전 버전이라도 대회 또는 파일을 다운로드합니다. 캐시에 다운로드되었습니다. kagglehub.competition_download('digit-recognizer', force_download=True)

개발

전제조건

우리는 해치를 사용하여 이 프로젝트를 관리합니다.

설치하려면 다음 지침을 따르세요.

테스트

 # 현재 Python 버전에 대한 모든 테스트를 실행합니다.hatch test# 모든 Python 버전에 대한 모든 테스트를 실행합니다.hatch test --all# 특정 Python 버전에 대한 모든 테스트를 실행합니다.hatch test -py 3.11# 단일 테스트 파일 실행hatch test 테스트/테스트_ <SOME_FILE>.py

통합 테스트

로컬 컴퓨터에서 통합 테스트를 실행하려면 Kaggle API 자격 증명을 설정해야 합니다. 이 문서의 이전 섹션에 설명된 두 가지 방법 중 하나로 이 작업을 수행할 수 있습니다. 다음 섹션을 참조하세요.

환경 변수 사용
자격 증명 파일 사용

이러한 방법 중 하나로 자격 증명을 설정한 후 다음과 같이 통합 테스트를 실행할 수 있습니다.

 # 모든 테스트샷 테스트를 실행합니다. Integration_tests

소스에서 `kagglehub` 실행

 # 모델 다운로드 및 경로 해칭 인쇄 run python -c "import kagglehub; print('path: ', kagglehub.model_download('google/bert/tensorFlow2/answer-equivalence-bem'))"

린트/형식

 # 린트 체크해치 실행 lint:style
해치 런 린트:입력
Hatch run lint:all # 둘 다에 대해# 형식hatch run lint:fmt

적용 범위 보고서

 해치 테스트 - 덮개

짓다

 해치 빌드

Docker 내에서 `hatch` 명령 실행

이는 일관된 환경에서 실행하고 Python 버전 간에 쉽게 전환하는 데 유용합니다.

다음은 hatch run lint:all 실행하는 방법을 보여 주지만 이는 다른 모든 해치 명령에도 작동합니다.

# Use default Python version
./docker-hatch run lint:all

# Use specific Python version (Must be a valid tag from: https://hub.docker.com/_/python)
./docker-hatch -v 3.9 run lint:all

# Run test in docker with specific Python version
./docker-hatch -v 3.9 test

VS 코드 설정

전제 조건

권장 확장 프로그램을 설치하세요.

지침

프로젝트 폴더에 가상 환경을 생성하도록 해치를 구성합니다.

hatch config set dirs.env.virtual .env

그런 다음, hatch -e all run tests 실행하여 필요한 모든 Python 환경을 만듭니다.

마지막으로 선택한 환경 중 하나를 사용하도록 vscode를 구성합니다. cmd + shift + p -> python: Select Interpreter -> ./.env 에서 폴더 중 하나 선택

지원하다

Kagglehub 라이브러리는 로그 폴더에 저장되는 자동 로깅을 구성했습니다. 로그 대상은 os.path.expanduser를 통해 확인됩니다.

아래 표에는 가능한 위치가 포함되어 있습니다.

운영 체제	로그 경로
OSX	/user/$USERNAME/.kaggle/logs/kagglehub.log
리눅스	~/.kaggle/logs/kagglehub.log
창문들	C:사용자%USERNAME%.kagglelogskagglehub.log

문제 해결에 도움이 되도록 로그를 포함해 주세요.

확장하다

추가 정보

버전 release
유형 기타 소스코드
업데이트 시간 2024-11-05
크기 50MB
출처 Github

kagglehub