Repo ini mencakup semua Koktail Resmi Asosiasi Bartender Internasional (IBA) dalam format CSV dan JSON pada tahun 2023, dari dua sumber berbeda: Situs web IBA dan daftar koktail IBA Wikipedia. Menurut saya, perbedaan antara sumber-sumber ini adalah bahwa situs web IBA lebih "resmi" (bagaimanapun juga, ini adalah daftar mereka), tetapi resep Wikipedia lebih mudah diikuti.
File yang diambil dari situs web IBA yang akan Anda temukan di folder iba-web
:
iba-cocktails-web.csv
: File CSV dengan satu baris per koktail. Ini berarti semua bahan dimasukkan ke dalam satu kolom sebagai daftar yang dipisahkan koma.iba-cocktails-ingredients-web.csv
: File CSV dengan satu baris per bahan koktail. Misalnya, ada tiga baris untuk Margarita (1) tequila, (2) triple sec, dan (3) air jeruk nipis. Di sini setiap deskripsi bahan juga telah diurai secara ringkas berdasarkan quantity
, unit
, dan ingredient
. Misalnya, 15 ml Freshly Squeezed Lime Juice
mempunyai quantity
: 15
, unit
: ml
, dan ingredient
: Freshly Squeezed Lime Juice
.iba-cocktails-web.json
: Daftar JSON dengan satu kamus/objek per koktail. JSON ini mencakup informasi gabungan dari iba-cocktails-web.csv
dan iba-cocktails-ingredients-web.csv
. File diambil dari daftar koktail IBA Wikipedia yang dapat Anda temukan di folder wikipedia
:
iba-cocktails-wiki.csv
: File CSV dengan satu baris per koktail. Bahan-bahannya dimasukkan ke dalam satu kolom sebagai daftar yang dipisahkan koma.iba-cocktails-ingredients-wiki.csv
: File CSV dengan satu baris per bahan koktail. Karena Wikipedia memiliki lebih banyak deskripsi bahan yang "bervariasi" daripada situs web IBA, saya tidak dapat menguraikan deskripsi bahan ini lebih lanjut.iba-cocktails-wiki.json
: Daftar JSON dengan satu kamus/objek per koktail. JSON ini mencakup informasi gabungan dari iba-cocktails-wiki.csv
dan iba-cocktails-ingredients-wiki.csv
.Di sini juga disertakan skrip R yang saya gunakan untuk mengikis data ini. Skrip ini dijamin berfungsi di komputer saya, pada tanggal 5 Pertandingan 2023, setidaknya sekali.
Jika Anda ingin menjalankan skrip pengikisan dan pembersihan dari awal, Anda dapat menjalankan skrip 01_scrape.R
dan 02_clean.R
secara interaktif, dan berharap Anda memiliki versi R yang tepat dan paket yang diperlukan terinstal. Atau, jika Anda telah memasang buruh pelabuhan, Anda dapat menjalankan ./dockerized-scrape-iba-web.sh
dan dockerized-scrape-iba-wikipedia.sh
. Namun, jika Wikipedia berubah atau IBA mengubah situs webnya sedikit saja dibandingkan pada 05-03-2023, maka skrip ini kemungkinan besar akan gagal.
Juga, lihat teijo/iba-cocktails untuk kumpulan data koktail IBA lainnya.