iba cocktails
1.0.0
此儲存庫包含截至 2023 年所有國際調酒師協會 (IBA) 官方雞尾酒,採用 CSV 和 JSON 格式,來自兩個不同的來源:IBA 網站和維基百科的 IBA 雞尾酒清單。我對這些來源之間差異的看法是,IBA 網站更加「官方」(畢竟這是他們的清單),但維基百科的食譜更容易遵循。
您可以在iba-web
資料夾中找到從 IBA 網站抓取的檔案:
iba-cocktails-web.csv
:每個雞尾酒一行的 CSV 檔案。這意味著所有成分都以逗號分隔的清單的形式集中到一列。iba-cocktails-ingredients-web.csv
:一個 CSV 文件,每種雞尾酒成分佔一行。例如,瑪格麗特 (1) 龍舌蘭酒、(2) 三秒酒和 (3) 酸橙汁共三行。這裡,每種成分的描述也被簡單地解析為它的quantity
、 unit
和ingredient
。例如, 15 ml Freshly Squeezed Lime Juice
的quantity
為: 15
, unit
為: ml
, ingredient
: Freshly Squeezed Lime Juice
。iba-cocktails-web.json
:每個雞尾酒包含一個字典/物件的 JSON 清單。此 JSON 包含iba-cocktails-web.csv
和iba-cocktails-ingredients-web.csv
的組合資訊。從維基百科的 IBA 雞尾酒列表中抓取的文件,您可以在wikipedia
資料夾中找到:
iba-cocktails-wiki.csv
:每個雞尾酒一行的 CSV 檔案。成分以逗號分隔的清單形式擠入一列。iba-cocktails-ingredients-wiki.csv
:一個 CSV 文件,每種雞尾酒成分佔一行。由於維基百科比 IBA 網站有更多「不同」的成分描述,因此我無法進一步解析這些成分描述。iba-cocktails-wiki.json
:每個雞尾酒包含一個字典/物件的 JSON 清單。此 JSON 包含iba-cocktails-wiki.csv
和iba-cocktails-ingredients-wiki.csv
的組合資訊。這裡還包括我用來抓取這些資料的 R 腳本。這些腳本保證在 2023 年比賽 5 日在我的電腦上運行至少一次。
如果您想從頭開始執行抓取和清理腳本,您可以互動執行腳本01_scrape.R
和02_clean.R
,並希望您恰好安裝了正確版本的 R 和所需的軟體包。或者,如果安裝了 docker,則可以運行./dockerized-scrape-iba-web.sh
和dockerized-scrape-iba-wikipedia.sh
。然而,如果維基百科發生變化或 IBA 對其網站的更改與 2023 年 3 月 5 日相比略有變化,那麼這些腳本無論如何都可能會失敗。
另外,請參閱 teijo/iba-cocktails 以了解另一個 IBA 雞尾酒資料集。