iba cocktails
1.0.0
此存储库包含截至 2023 年所有国际调酒师协会 (IBA) 官方鸡尾酒,采用 CSV 和 JSON 格式,来自两个不同的来源:IBA 网站和维基百科的 IBA 鸡尾酒列表。我对这些来源之间差异的看法是,IBA 网站更加“官方”(毕竟这是他们的列表),但维基百科的食谱更容易遵循。
您可以在iba-web
文件夹中找到从 IBA 网站抓取的文件:
iba-cocktails-web.csv
:每个鸡尾酒一行的 CSV 文件。这意味着所有成分都以逗号分隔的列表的形式集中到一列中。iba-cocktails-ingredients-web.csv
:一个 CSV 文件,每种鸡尾酒成分占一行。例如,玛格丽特 (1) 龙舌兰酒、(2) 三秒酒和 (3) 酸橙汁共三行。这里,每种成分的描述也被简单地解析为它的quantity
、 unit
和ingredient
。例如, 15 ml Freshly Squeezed Lime Juice
的quantity
为: 15
, unit
为: ml
, ingredient
: Freshly Squeezed Lime Juice
。iba-cocktails-web.json
:每个鸡尾酒包含一个字典/对象的 JSON 列表。此 JSON 包含iba-cocktails-web.csv
和iba-cocktails-ingredients-web.csv
的组合信息。从维基百科的 IBA 鸡尾酒列表中抓取的文件,您可以在wikipedia
文件夹中找到:
iba-cocktails-wiki.csv
:每个鸡尾酒一行的 CSV 文件。成分以逗号分隔的列表形式挤入一列中。iba-cocktails-ingredients-wiki.csv
:一个 CSV 文件,每种鸡尾酒成分占一行。由于维基百科比 IBA 网站有更多“不同”的成分描述,因此我无法进一步解析这些成分描述。iba-cocktails-wiki.json
:每个鸡尾酒包含一个字典/对象的 JSON 列表。此 JSON 包含iba-cocktails-wiki.csv
和iba-cocktails-ingredients-wiki.csv
的组合信息。这里还包括我用来抓取这些数据的 R 脚本。这些脚本保证在 2023 年比赛 5 日在我的计算机上运行至少一次。
如果您想从头开始运行抓取和清理脚本,您可以交互运行脚本01_scrape.R
和02_clean.R
,并希望您恰好安装了正确版本的 R 和所需的软件包。或者,如果安装了 docker,则可以运行./dockerized-scrape-iba-web.sh
和dockerized-scrape-iba-wikipedia.sh
。然而,如果维基百科发生变化或 IBA 对其网站的更改与 2023 年 3 月 5 日相比略有变化,那么这些脚本无论如何都可能会失败。
另外,请参阅 teijo/iba-cocktails 了解另一个 IBA 鸡尾酒数据集。