이 리포지토리에는 2023년 기준 CSV 및 JSON 형식의 모든 IBA(국제 바텐더 협회) 공식 칵테일이 포함되어 있으며, IBA 웹사이트와 Wikipedia의 IBA 칵테일 목록이라는 두 가지 소스에서 제공됩니다. 이러한 소스 간의 차이점에 대해 내가 생각하는 바는 IBA 웹사이트가 더 "공식적"이지만(결국 IBA 목록임) Wikipedia 레시피가 따라하기 더 쉽다는 것입니다.
iba-web
폴더에서 찾을 수 있는 IBA 웹 사이트에서 스크랩한 파일:
iba-cocktails-web.csv
: 칵테일당 행이 1개인 CSV 파일입니다. 이는 재료가 모두 쉼표로 구분된 목록으로 단일 열에 정리되어 있음을 의미합니다.iba-cocktails-ingredients-web.csv
: 칵테일 재료당 행이 하나씩 있는 CSV 파일입니다. 예를 들어 마가리타의 경우 (1) 데킬라, (2) 트리플 섹, (3) 라임 주스에 대한 세 개의 행이 있습니다. 여기서 각 성분 설명은 quantity
, unit
및 ingredient
으로 가볍게 분석되었습니다. 예를 들어, 15 ml Freshly Squeezed Lime Juice
quantity
은 15
, unit
는 ml
, ingredient
Freshly Squeezed Lime Juice
입니다.iba-cocktails-web.json
: 칵테일당 하나의 사전/객체가 포함된 JSON 목록입니다. 이 JSON에는 iba-cocktails-web.csv
및 iba-cocktails-ingredients-web.csv
의 결합된 정보가 포함되어 있습니다. wikipedia
폴더에서 찾을 수 있는 Wikipedia의 IBA 칵테일 목록에서 스크랩한 파일:
iba-cocktails-wiki.csv
: 칵테일당 행이 1개인 CSV 파일입니다. 재료는 쉼표로 구분된 목록으로 단일 열에 정리되어 있습니다.iba-cocktails-ingredients-wiki.csv
: 칵테일 재료당 행이 하나씩 있는 CSV 파일입니다. Wikipedia에는 IBA 웹사이트보다 더 "다양한" 성분 설명이 있기 때문에 이러한 성분 설명을 더 이상 분석할 수 없었습니다.iba-cocktails-wiki.json
: 칵테일당 하나의 사전/객체가 포함된 JSON 목록입니다. 이 JSON에는 iba-cocktails-wiki.csv
및 iba-cocktails-ingredients-wiki.csv
의 결합된 정보가 포함되어 있습니다.여기에는 이 데이터를 스크랩하는 데 사용한 R 스크립트도 포함되어 있습니다. 이 스크립트는 Match 2023의 5일에 내 컴퓨터에서 적어도 한 번 작동하도록 보장됩니다.
스크래핑 및 정리 스크립트를 처음부터 실행하려면 01_scrape.R
및 02_clean.R
스크립트를 대화형으로 실행하고 올바른 버전의 R과 필수 패키지가 설치되기를 바랍니다. 또는 docker가 설치되어 있는 경우 ./dockerized-scrape-iba-web.sh
및 dockerized-scrape-iba-wikipedia.sh
실행할 수 있습니다. 그러나 Wikipedia가 변경되거나 IBA가 웹 사이트를 2023년 3월 5일의 방식에서 조금만 변경하면 이러한 스크립트는 어쨌든 실패할 가능성이 높습니다.
또한 다른 IBA 칵테일 데이터세트는 teijo/iba-cocktails를 참조하세요.