Instal paket kagglehub
dengan pip:
pip install kagglehub
Otentikasi hanya diperlukan untuk mengakses sumber daya publik yang memerlukan persetujuan pengguna atau sumber daya pribadi.
Pertama, Anda memerlukan akun Kaggle. Anda dapat mendaftar di sini.
Setelah login, Anda dapat mengunduh kredensial Kaggle API Anda di https://www.kaggle.com/settings dengan mengklik tombol "Buat Token Baru" di bawah bagian "API".
Anda memiliki 3 opsi berbeda untuk diautentikasi.
Ini akan meminta Anda memasukkan nama pengguna dan token Anda:
impor kagglehubkagglehub.login()
Anda juga dapat memilih untuk mengekspor nama pengguna dan token Kaggle Anda ke lingkungan:
ekspor KAGGLE_USERNAME=datadinosaurusekspor KAGGLE_KEY=xxxxxxxxxxxxxx
kaggle.json
Simpan file kredensial kaggle.json
Anda di ~/.kaggle/kaggle.json
.
Alternatifnya, Anda dapat mengatur variabel lingkungan KAGGLE_CONFIG_DIR
untuk mengubah lokasi ini menjadi $KAGGLE_CONFIG_DIR/kaggle.json
.
Catatan untuk pengguna Windows: Direktori defaultnya adalah %HOMEPATH%/kaggle.json
.
Simpan nama pengguna dan token kunci Anda sebagai rahasia Colab KAGGLE_USERNAME
dan KAGGLE_KEY
.
Petunjuk tentang menambahkan rahasia di Colab dan Colab Enterprise dapat ditemukan di artikel ini.
Contoh berikut mendownload variasi answer-equivalence-bem
dari model Kaggle ini: https://www.kaggle.com/models/google/bert/tensorFlow2/answer-equivalence-bem
impor kagglehub# Unduh versi terbaru.kagglehub.model_download('google/bert/tensorFlow2/answer-equivalence-bem')# Unduh versi tertentu.kagglehub.model_download('google/bert/tensorFlow2/answer-equivalence-bem/1 ')# Unduh satu file.kagglehub.model_download('google/bert/tensorFlow2/answer-equivalence-bem', path='variables/variables.index')# Unduh model atau file, meskipun sebelumnya diunduh ke cache.kagglehub.model_download('google /bert/tensorFlow2/answer-equivalence-bem', force_download=True)
Mengupload variasi baru (atau versi variasi baru jika sudah ada).
import kagglehub# Misalnya, untuk mengunggah variasi baru ke model ini:# - https://www.kaggle.com/models/google/bert/tensorFlow2/answer-equivalence-bem# # Anda akan menggunakan pegangan berikut: ` google/bert/tensorFlow2/answer-equivalence-bem`handle = '<KAGGLE_USERNAME>/<MODEL>/<FRAMEWORK>/<VARIATION>'local_model_dir = 'path/to/local/model/dir'kagglehub.model_upload(handle, local_model_dir)# Anda juga dapat menentukan beberapa catatan versi (opsional)kagglehub .model_upload(handle, local_model_dir, version_notes='peningkatan akurasi')# Anda juga dapat menentukan lisensi (opsional)kagglehub.model_upload(handle, local_model_dir, License_name='Apache 2.0')# Anda juga dapat menentukan daftar pola untuk file/dir yang akan diabaikan.# Pola ini digabungkan dengan `kagglehub.models.DEFAULT_IGNORE_PATTERNS` # untuk menentukan file dan direktori mana yang harus dikecualikan. # Untuk mengabaikan seluruh direktori, sertakan garis miring (/) di pattern.kagglehub.model_upload(handle, local_model_dir, mengabaikan_patterns=["original/", "*.tmp"])
Contoh berikut mengunduh kumpulan data Spotify Recommendation
Kaggle: https://www.kaggle.com/datasets/bricevergnou/spotify-recommendation
import kagglehub# Unduh versi terbaru.kagglehub.dataset_download('bricevergnou/spotify-recommendation')# Unduh versi tertentu.kagglehub.dataset_download('bricevergnou/spotify-recommendation/versions/1')# Unduh satu filekagglehub.dataset_download( 'bricevergnou/spotify-rekomendasi', path='data.csv')# Unduh kumpulan data atau file, meskipun sebelumnya diunduh ke cache.kagglehub.dataset_download('bricevergnou/spotify-recommendation', force_download=True)
Mengunggah kumpulan data baru (atau versi baru jika sudah ada).
import kagglehub# Misalnya, untuk mengunggah kumpulan data (atau versi) baru di:# - https://www.kaggle.com/datasets/bricevergnou/spotify-recommendation# # Anda akan menggunakan pegangan berikut: `bricevergnou/spotify- rekomendasi`handle = '<KAGGLE_USERNAME>/<DATASET>local_dataset_dir = 'jalur/ke/lokal/dataset/dir'# Buat kumpulan data barukagglehub.dataset_upload(handle, local_dataset_dir)# Anda kemudian dapat membuat versi baru dari kumpulan data yang ada ini dan menyertakan catatan versi (opsional).kagglehub.dataset_upload(handle, local_dataset_dir, version_notes='data yang ditingkatkan')# Anda juga bisa tentukan daftar pola yang akan diabaikan oleh file/dir.# Pola-pola ini digabungkan dengan `kagglehub.datasets.DEFAULT_IGNORE_PATTERNS` # untuk menentukan file dan direktori mana yang akan dikecualikan. # Untuk mengabaikan seluruh direktori, sertakan garis miring (/) di pattern.kagglehub.dataset_upload(handle, local_dataset_dir, mengabaikan_patterns=["original/", "*.tmp"])
Berikut contoh download kompetisi Digit Recognizer
Kaggle : https://www.kaggle.com/competitions/digit-recognizer
import kagglehub# Unduh versi terbaru.kagglehub.competition_download('digit-recognizer')# Unduh satu filekagglehub.competition_download('digit-recognizer', path='train.csv')# Unduh kompetisi atau file, meskipun sebelumnya diunduh ke cache. kagglehub.competition_download('pengenal digit', force_download=True)
Kami menggunakan hatch untuk mengelola proyek ini.
Ikuti petunjuk ini untuk menginstalnya.
# Jalankan semua tes untuk versi Python saat ini.hatch test# Jalankan semua tes untuk semua versi Python.hatch test --all# Jalankan semua tes untuk versi Python tertentu.hatch test -py 3.11# Jalankan satu file teshatch test test/test_ <SOME_FILE>.py
Untuk menjalankan pengujian integrasi pada mesin lokal, Anda perlu menyiapkan kredensial Kaggle API Anda. Anda dapat melakukannya dengan salah satu dari dua cara yang dijelaskan di bagian awal dokumen ini. Lihat bagian:
Menggunakan variabel lingkungan
Menggunakan file kredensial
Setelah menyiapkan kredensial Anda dengan salah satu metode berikut, Anda dapat menjalankan pengujian integrasi sebagai berikut:
# Jalankan semua testhatch test integrasi_tests
kagglehub
dari sumber# Unduh model & cetak pathhatch, jalankan python -c "import kagglehub; print('path: ', kagglehub.model_download('google/bert/tensorFlow2/answer-equivalence-bem'))"
# Lint checkhatch menjalankan lint:style hatch run lint: mengetik hatch run lint:all # untuk keduanya# Formathatch run lint:fmt
tes penetasan --penutup
pembuatan palka
hatch
di dalam DockerIni berguna untuk dijalankan di lingkungan yang konsisten dan dengan mudah beralih antar versi Python.
Berikut ini menunjukkan cara menjalankan hatch run lint:all
tetapi ini juga berfungsi untuk perintah hatch lainnya:
# Use default Python version ./docker-hatch run lint:all # Use specific Python version (Must be a valid tag from: https://hub.docker.com/_/python) ./docker-hatch -v 3.9 run lint:all # Run test in docker with specific Python version ./docker-hatch -v 3.9 test
Instal ekstensi yang disarankan.
Konfigurasikan hatch untuk membuat virtual env di folder proyek.
hatch config set dirs.env.virtual .env
Setelah itu, buat semua lingkungan python yang diperlukan dengan menjalankan hatch -e all run tests
.
Terakhir, konfigurasikan vscode untuk menggunakan salah satu lingkungan yang dipilih: cmd + shift + p
-> python: Select Interpreter
-> Pilih salah satu folder di ./.env
Pustaka kagglehub telah mengonfigurasi logging otomatis yang disimpan dalam folder log. Tujuan log diselesaikan melalui os.path.expanduser
Tabel di bawah berisi kemungkinan lokasi:
os | jalur log |
---|---|
osx | /pengguna/$USERNAME/.kaggle/logs/kagglehub.log |
linux | ~/.kaggle/logs/kagglehub.log |
jendela | C:Pengguna%USERNAME%.kagglelogskagglehub.log |
Harap sertakan log untuk membantu memecahkan masalah.