Este repositório inclui todos os coquetéis oficiais da International Bartenders Association (IBA) em formato CSV e JSON a partir de 2023, de duas fontes diferentes: o site da IBA e a lista de coquetéis IBA da Wikipedia. Minha opinião sobre a diferença entre essas fontes é que o site do IBA é mais "oficial" (afinal, é a lista deles), mas as receitas da Wikipedia são mais fáceis de seguir.
Arquivos extraídos do site do IBA que você encontrará na pasta iba-web
:
iba-cocktails-web.csv
: um arquivo CSV com uma linha por coquetel. Isso significa que todos os ingredientes são agrupados em uma única coluna como uma lista separada por vírgulas.iba-cocktails-ingredients-web.csv
: um arquivo CSV com uma linha por ingrediente do coquetel. Por exemplo, existem três linhas para (1) tequila, (2) triple sec e (3) suco de limão da Margarita. Aqui, cada descrição de ingrediente também foi analisada levemente em sua quantity
, unit
e ingredient
. Por exemplo, 15 ml Freshly Squeezed Lime Juice
tem quantity
: 15
, unit
: ml
e ingredient
: Freshly Squeezed Lime Juice
.iba-cocktails-web.json
: uma lista JSON com um dicionário/objeto por coquetel. Este JSON inclui as informações combinadas de iba-cocktails-web.csv
e iba-cocktails-ingredients-web.csv
. Arquivos extraídos da lista de coquetéis IBA da Wikipedia que você encontrará na pasta wikipedia
:
iba-cocktails-wiki.csv
: Um arquivo CSV com uma linha por coquetel. Os ingredientes são comprimidos em uma única coluna como uma lista separada por vírgulas.iba-cocktails-ingredients-wiki.csv
: Um arquivo CSV com uma linha por ingrediente do coquetel. Como a Wikipedia tem mais descrições de ingredientes "variantes" do que o site da IBA, não consegui analisar mais detalhadamente essas descrições de ingredientes.iba-cocktails-wiki.json
: Uma lista JSON com um dicionário/objeto por coquetel. Este JSON inclui as informações combinadas de iba-cocktails-wiki.csv
e iba-cocktails-ingredients-wiki.csv
.Incluídos aqui também estão os scripts R que usei para extrair esses dados. É garantido que esses scripts funcionem no meu computador, no dia 5 do Match 2023, pelo menos uma vez.
Se quiser executar o script de raspagem e limpeza do zero, você pode executar os scripts 01_scrape.R
e 02_clean.R
interativamente e esperar que tenha a versão correta do R e os pacotes necessários instalados. Ou, se você tiver o docker instalado, poderá executar ./dockerized-scrape-iba-web.sh
e dockerized-scrape-iba-wikipedia.sh
. No entanto, se a Wikipedia mudar ou o IBA mudar seu site apenas um pouquinho em relação a como era em 05/03/2023, esses scripts provavelmente irão falhar de qualquer maneira.
Além disso, consulte coquetéis teijo/iba para outro conjunto de dados de coquetéis IBA.