Ce référentiel comprend tous les cocktails officiels de l'International Bartenders Association (IBA) au format CSV et JSON à partir de 2023, provenant de deux sources différentes : le site Web de l'IBA et la liste Wikipédia des cocktails IBA. Mon point de vue sur la différence entre ces sources est que le site Web de l'IBA est plus « officiel » (c'est leur liste, après tout), mais les recettes Wikipédia sont plus faciles à suivre.
Fichiers récupérés sur le site Web d'IBA que vous trouverez dans le dossier iba-web
:
iba-cocktails-web.csv
: Un fichier CSV avec une ligne par cocktail. Cela signifie que les ingrédients sont tous regroupés dans une seule colonne sous forme de liste séparée par des virgules.iba-cocktails-ingredients-web.csv
: Un fichier CSV avec une ligne par ingrédient du cocktail. Par exemple, il y a trois rangées pour la Margarita's (1) tequila, (2) triple sec et (3) jus de citron vert. Ici, chaque description d'ingrédient a également été légèrement analysée en quantity
, unit
et ingredient
. Par exemple, 15 ml Freshly Squeezed Lime Juice
contiennent quantity
: 15
, unit
: ml
et ingredient
: Freshly Squeezed Lime Juice
.iba-cocktails-web.json
: Une liste JSON avec un dictionnaire/objet par cocktail. Ce JSON inclut les informations combinées de iba-cocktails-web.csv
et iba-cocktails-ingredients-web.csv
. Fichiers extraits de la liste Wikipédia des cocktails IBA que vous trouverez dans le dossier wikipedia
:
iba-cocktails-wiki.csv
: Un fichier CSV avec une ligne par cocktail. Les ingrédients sont regroupés dans une seule colonne sous forme de liste séparée par des virgules.iba-cocktails-ingredients-wiki.csv
: Un fichier CSV avec une ligne par ingrédient du cocktail. Comme Wikipédia propose des descriptions d'ingrédients plus « variées » que le site Web d'IBA, je n'ai pas pu analyser davantage ces descriptions d'ingrédients.iba-cocktails-wiki.json
: Une liste JSON avec un dictionnaire/objet par cocktail. Ce JSON inclut les informations combinées de iba-cocktails-wiki.csv
et iba-cocktails-ingredients-wiki.csv
.Sont également inclus ici les scripts R que j'ai utilisés pour récupérer ces données. Ces scripts sont garantis de fonctionner sur mon ordinateur, le 5 du Match 2023, au moins une fois.
Si vous souhaitez exécuter le script de scraping et de nettoyage à partir de zéro, vous pouvez soit exécuter les scripts 01_scrape.R
et 02_clean.R
de manière interactive, et espérer que vous avez simplement installé la bonne version de R et les packages requis. Ou, si Docker est installé, vous pouvez exécuter ./dockerized-scrape-iba-web.sh
et dockerized-scrape-iba-wikipedia.sh
. Cependant, si Wikipédia change ou si IBA modifie légèrement son site Web par rapport à ce qu'il était le 05/03/2023, ces scripts échoueront probablement de toute façon.
Consultez également teijo/iba-cocktails pour un autre ensemble de données sur les cocktails IBA.