В этот репозиторий включены все официальные коктейли Международной ассоциации барменов (IBA) в формате CSV и JSON по состоянию на 2023 год из двух разных источников: веб-сайта IBA и списка коктейлей IBA в Википедии. Я считаю, что разница между этими источниками заключается в том, что веб-сайт IBA более «официальный» (в конце концов, это их список), но рецептам Википедии легче следовать.
Файлы, полученные с веб-сайта IBA, которые вы найдете в папке iba-web
:
iba-cocktails-web.csv
: CSV-файл с одной строкой на коктейль. Это означает, что все ингредиенты объединены в один столбец в виде списка, разделенного запятыми.iba-cocktails-ingredients-web.csv
: CSV-файл с одной строкой для каждого ингредиента коктейля. Например, в ресторане «Маргарита» есть три ряда (1) текилы, (2) трипл-сек и (3) сока лайма. Здесь описание каждого ингредиента также было тщательно разобрано на его quantity
, unit
и ingredient
. Например, 15 ml Freshly Squeezed Lime Juice
quantity
: 15
, unit
: ml
, а ingredient
: Freshly Squeezed Lime Juice
.iba-cocktails-web.json
: список JSON с одним словарем/объектом для каждого коктейля. Этот JSON включает объединенную информацию из iba-cocktails-web.csv
и iba-cocktails-ingredients-web.csv
. Файлы, извлеченные из списка коктейлей IBA в Википедии, которые вы найдете в папке wikipedia
:
iba-cocktails-wiki.csv
: файл CSV с одной строкой на коктейль. Ингредиенты объединены в один столбец в виде списка, разделенного запятыми.iba-cocktails-ingredients-wiki.csv
: CSV-файл с одной строкой для каждого ингредиента коктейля. Поскольку в Википедии больше «разных» описаний ингредиентов, чем на веб-сайте IBA, я не смог дальше анализировать эти описания ингредиентов.iba-cocktails-wiki.json
: список JSON с одним словарем/объектом для каждого коктейля. Этот JSON включает объединенную информацию из iba-cocktails-wiki.csv
и iba-cocktails-ingredients-wiki.csv
.Сюда также включены скрипты R, которые я использовал для очистки этих данных. Эти скрипты гарантированно сработают на моем компьютере 5-го числа 2023 года хотя бы один раз.
Если вы хотите запустить сценарий очистки и очистки с нуля, вы можете запустить сценарии 01_scrape.R
и 02_clean.R
в интерактивном режиме и надеяться, что у вас просто установлена нужная версия R и необходимые пакеты. Или, если у вас установлен Docker, вы можете запустить ./dockerized-scrape-iba-web.sh
и dockerized-scrape-iba-wikipedia.sh
. Однако, если Википедия изменится или IBA изменит свой веб-сайт хоть немного по сравнению с тем, каким он был 5 марта 2023 г., то эти сценарии, скорее всего, в любом случае потерпят неудачу.
Также см. teijo/iba-cocktails для получения другого набора данных по коктейлям IBA.