유로비전 송 콘테스트는 유로비전 송 콘테스트에 참가한 1735곡의 메타데이터, 콘테스트 순위, 투표 데이터가 포함된 무료로 사용할 수 있는 데이터세트입니다. 향후 릴리스에는 오디오 기능도 포함될 예정입니다.
매년 콘테스트 결과로 데이터세트가 업데이트됩니다. 이 릴리스에는 1956년 처음 개최된 이후 지금까지 유로비전 송 콘테스트에 참가한 1735개 항목의 참가자 메타데이터, 콘테스트 순위 및 투표 데이터가 포함되어 있습니다. 모든 노래에 해당하는 오디오는 YouTube를 통해 스트리밍될 수 있습니다.
메타데이터와 투표 데이터는 EurovisionWorld 팬사이트에서 제공됩니다.
데이터 세트는 여기에서 다운로드할 수 있습니다. 이를 복제하려면 Readme 하단의 지침을 따르십시오.
John Ashley Burgoyne, Janne Spijkervet 및 David John Baker는 ISMIR 2023에 대한 심사위원 수준 데이터, 새로운 오디오 기능 및 통계 분석을 통해 이 데이터 세트를 확장했습니다. 이 저장소에서 해당 데이터와 코드에 액세스할 수 있습니다.
audio.py
파일과 동일한 폴더에 있는 contestants.csv
사용하면 python3 audio.py
실행하여 모든 노래의 YouTube 오디오 스트림을 수집할 수 있습니다. 또는 sh run.sh audio
또는 sh run.sh docker audio
사용하여 로컬로 스크레이핑하거나 Docker 컨테이너를 사용하여 스트림을 스크레이핑할 수 있습니다.
본 자료를 사용하실 때에는 다음 자료를 인용해 주시기 바랍니다. 나는 또한 이 작업을 기반으로 하는 프로젝트에 대해 듣고 싶습니다. janne [dot] spijkervet [at] gmail [dot] com으로 이메일을 보내주십시오.
@inproceedings{burgoyne_mirovision, author = {John Ashley Burgoyne and Janne Spijkervet and David John Baker}, title = {Measuring the {Eurovision Song Contest}: A Living Dataset for Real-World {MIR}}, booktitle = {Proceedings of the 24th International Society for Music Information Retrieval Conference}, year = 2023, address = {Milan, Italy}, url = {https://archives.ismir.net/ismir2023/paper/000097.pdf} } @misc{spijkervet_eurovision, author = {Janne Spijkervet}, title = {{The Eurovision Dataset}}, month = mar, year = 2020, doi = {10.5281/zenodo.4036457}, version = {1.0}, publisher = {Zenodo}, url = {https://zenodo.org/badge/latestdoi/214236225} }
데이터 세트의 초기 아이디어를 얻기 위해 examples
디렉터리에 Jupyter Notebook 예제가 생성됩니다. jupyter notebook
으로 열 수 있습니다. 데이터세트를 복제하려면 아래를 참조하세요.
이 저장소에 포함된 스크래핑 코드를 사용하여 전체 데이터세트를 다운로드할 수 있습니다. 그러면 EurovisionWorld 웹사이트의 데이터를 이 저장소의 릴리스 섹션에서도 사용할 수 있는 csv 파일로 가져와 처리하려고 시도합니다.
votes.csv
contestants.csv
betting_offices.csv
pip3 install -r 요구 사항.txt#은 vote.csv를 생성하고 Contestants.csvpython3 scrape_votes.py#은 betting_offices.csvpython3 scrape_odds.py를 생성합니다.
sh run.sh docker
실행하여 Dockerfile을 빌드하고 컨테이너 내에서 scrape_votes.py
를 실행합니다. 추가 설정이 필요하지 않습니다. 이렇게 하면 콘테스트 contestants.csv
, votes.csv
및 betting_offices.csv
파일 모두 데이터세트가 복제됩니다.
Docker 컨테이너 내부 또는 외부에서 오디오를 추가로 가져올 수 있습니다.
bash run.sh docker audio bash run.sh audio
모든 오디오가 audio
폴더에 있으면 다음을 사용하여 오디오 기능을 추출할 수 있습니다.
sh audio_features.sh
그러면 Essentia의 스트림 음악 추출기가 설치된 Docker 컨테이너가 시작됩니다. 또는 Essentia의 추출기가 PATH 환경에 설치되어 있으면 audio_features.py
실행할 수 있습니다.
대회 순위는 결승전과 준결승 모두 제공됩니다. 국가별 투표 데이터에는 47,007개의 투표 활동이 포함되어 있으며, 2016년 도입된 이후 배심원 투표와 텔레보팅으로 구분됩니다.
열 | 설명 |
---|---|
년도 | 콘테스트 연도 |
to_country_id | 참가자의 국가 ID |
to_country | 참가자의 국가 이름 |
수행자 | 아티스트 |
노래 | 참가자의 노래 제목 |
sf_num | 준결승 1, 2 또는 0에 참가 (2004년부터 2008년까지 준결승은 1번만 있었음) |
running_final | 대회 결승전 방송 순서 |
running_sf | 대회 준결승 방송 순서 |
장소_최종 | 결승 진출 |
포인트_최종 | 결승전 포인트 |
place_sf | 준결승 진출 |
points_sf | 준결승 포인트 |
points_tele_final | 콘테스트 결승전에서 텔레보팅 포인트 |
points_jury_final | 대회 결승전의 심사위원 포인트 |
points_tele_sf | 대회 준결승전 텔레보팅 포인트 |
points_jury_sf | 대회 준결승에서 심사위원 점수 |
가사 | 노래 가사 |
youtube_url | YouTube 동영상 URL |
열 | 설명 |
---|---|
년도 | 콘테스트 연도 |
둥근 | 결승전, 준결승 |
from_country_id | 포인트를 주는 국가의 국가 ID |
to_country_id | 포인트를 받는 국가의 국가 ID |
from_country | 국가 이름 포인트를 주는 국가 |
to_country | 국가명 포인트를 받는 국가 |
전철기 | 주어진 포인트 수 |
sh run.sh docker
실행하여 Docker를 사용하거나 sh run.sh
호출하여 로컬 설치를 사용하는 것이 좋습니다. 오디오도 얻으려면 sh run.sh audio
또는 sh run.sh docker audio
실행하세요.
데이터 세트를 복제하려면 Chrome, Firefox 또는 Safari용 WebDriver(예: Selenium Python 패키지( pip3 install selenium
)와 함께 Chrome용 WebDriver)가 필요합니다. 여기의 지침에 따라 WebDriver를 설정하세요. 프로젝트의 종속성은 다음을 사용하여 설치할 수 있습니다.
pip3 install -r requirements.txt
1956년부터 2023년까지의 모든 Eurovision Song Contests 데이터를 추출하려면 다음 명령을 사용하십시오.
python3 scrape_votes.py --start 1956 --end 2023
그러면 contestants.csv
및 votes.csv
파일이 생성됩니다.
@inproceedings{burgoyne_mirovision, author = {John Ashley Burgoyne and Janne Spijkervet and David John Baker}, title = {Measuring the {Eurovision Song Contest}: A Living Dataset for Real-World {MIR}}, booktitle = {Proceedings of the 24th International Society for Music Information Retrieval Conference}, year = 2023, address = {Milan, Italy}, url = {https://archives.ismir.net/ismir2023/paper/000097.pdf} } @misc{spijkervet_eurovision, author = {Janne Spijkervet}, title = {{The Eurovision Dataset}}, month = mar, year = 2020, doi = {10.5281/zenodo.4036457}, version = {1.0}, publisher = {Zenodo}, url = {https://zenodo.org/badge/latestdoi/214236225} }