このリポジトリには、IBA Web サイトと Wikipedia の IBA カクテル リストという 2 つの異なるソースからの、2023 年現在のすべての国際バーテンダー協会 (IBA) 公式カクテルが CSV および JSON 形式で含まれています。これらの情報源の違いについての私の見解は、IBA Web サイトの方が「公式」であるが (結局のところ、IBA のリストです)、Wikipedia のレシピの方が理解しやすいということです。
IBA Web サイトからスクレイピングされたファイルは、 iba-web
フォルダー内にあります。
iba-cocktails-web.csv
: カクテルごとに 1 行の CSV ファイル。これは、材料がすべてカンマ区切りのリストとして 1 つの列にまとめられることを意味します。iba-cocktails-ingredients-web.csv
: カクテル材料ごとに 1 行が含まれる CSV ファイル。たとえば、マルガリータには (1) テキーラ、(2) トリプルセック、(3) ライム ジュースの 3 つの行があります。ここでは、各成分の説明もそのquantity
、 unit
、 ingredient
に軽く解析されています。たとえば、 15 ml Freshly Squeezed Lime Juice
には、 quantity
: 15
、 unit
: ml
、 ingredient
: Freshly Squeezed Lime Juice
があります。iba-cocktails-web.json
: カクテルごとに 1 つの辞書/オブジェクトを含む JSON リスト。この JSON にはiba-cocktails-web.csv
とiba-cocktails-ingredients-web.csv
からの情報を組み合わせた情報が含まれています。ウィキペディアの IBA カクテルのリストから抜粋されたファイルは、 wikipedia
フォルダーにあります。
iba-cocktails-wiki.csv
: カクテルごとに 1 行の CSV ファイル。成分はカンマ区切りのリストとして 1 つの列にまとめられます。iba-cocktails-ingredients-wiki.csv
: カクテル材料ごとに 1 行が含まれる CSV ファイル。ウィキペディアには IBA Web サイトよりも「さまざまな」成分の説明があるため、これらの成分の説明をさらに解析することができませんでした。iba-cocktails-wiki.json
: カクテルごとに 1 つの辞書/オブジェクトを含む JSON リスト。この JSON にはiba-cocktails-wiki.csv
とiba-cocktails-ingredients-wiki.csv
からの情報を組み合わせた情報が含まれています。ここには、このデータを収集するために使用した R スクリプトも含まれています。これらのスクリプトは、2023 年の試合の 5 日に少なくとも 1 回は私のコンピューターで動作することが保証されています。
スクレイピングとクリーニングのスクリプトを最初から実行したい場合は、スクリプト01_scrape.R
と02_clean.R
対話的に実行し、たまたま適切なバージョンの R と必要なパッケージがインストールされていることを祈ります。または、docker がインストールされている場合は、 ./dockerized-scrape-iba-web.sh
およびdockerized-scrape-iba-wikipedia.sh
を実行できます。ただし、Wikipedia が変更されたり、IBA が Web サイトを 2023 年 3 月 5 日の状態からほんの少し変更した場合、いずれにせよ、これらのスクリプトは失敗する可能性があります。
また、別の IBA カクテル データセットについては、taijo/iba-cocktails を参照してください。