ユーロビジョン ソング コンテストは、ユーロビジョン ソング コンテストに出場した 1735 曲のメタデータ、コンテスト ランキング、投票データを含む、無料で利用できるデータセットです。今後のリリースにはオーディオ機能も含まれる予定です。
毎年、データセットはコンテストの結果に基づいて更新されます。このリリースには、1956 年の第 1 回開催から現在までユーロビジョン ソング コンテストに参加した 1735 件の出場者のメタデータ、コンテスト ランキング、および投票データが含まれています。すべての曲に対応するオーディオは YouTube を通じてストリーミングできます。
メタデータと投票データは、EurovisionWorld ファンサイトによって提供されます。
データセットはここからダウンロードできます。これを複製するには、Readme の下部にある指示に従ってください。
John Ashley Burgoyne、Janne Spijkervet、David John Baker は、陪審レベルのデータ、新しいオーディオ機能、ISMIR 2023 の統計分析を使用してこのデータセットを拡張しました。このリポジトリで、彼らのデータとコードにアクセスできます。
audio.py
ファイルと同じフォルダーにcontestants.csv
があり、 python3 audio.py
実行することですべての曲の YouTube オーディオ ストリームを収集できます。あるいは、 sh run.sh audio
またはsh run.sh docker audio
使用してローカルでスクレイピングするか、Docker コンテナを使用してストリームをスクレイピングすることもできます。
これらの資料を使用する場合は、次のリソースを引用してください。また、この研究を基にしたプロジェクトについて知りたいので、お気軽に janne [dot] spijkervet [at] gmail [dot] com まで電子メールを送ってください。
@inproceedings{burgoyne_mirovision, author = {John Ashley Burgoyne and Janne Spijkervet and David John Baker}, title = {Measuring the {Eurovision Song Contest}: A Living Dataset for Real-World {MIR}}, booktitle = {Proceedings of the 24th International Society for Music Information Retrieval Conference}, year = 2023, address = {Milan, Italy}, url = {https://archives.ismir.net/ismir2023/paper/000097.pdf} } @misc{spijkervet_eurovision, author = {Janne Spijkervet}, title = {{The Eurovision Dataset}}, month = mar, year = 2020, doi = {10.5281/zenodo.4036457}, version = {1.0}, publisher = {Zenodo}, url = {https://zenodo.org/badge/latestdoi/214236225} }
データセットの最初のアイデアを得るために、 examples
ディレクトリに Jupyter Notebook のサンプルが作成されます。これはjupyter notebook
で開くことができます。データセットを複製するには、以下を参照してください。
このリポジトリに含まれるスクレイピング コードを使用して、データセット全体をダウンロードできます。これにより、EurovisionWorld Web サイトからデータを取得して CSV ファイルに処理しようとします。この CSV ファイルは、このリポジトリのリリース セクションでも利用可能です。
votes.csv
contestants.csv
betting_offices.csv
pip3 install -rrequirements.txt# は votes.csv を生成し、contestants.csvpython3scrape_votes.py# は betting_offices.csvpython3 scrape_odds.py を生成します。
sh run.sh docker
実行して Dockerfile を構築し、コンテナー内からscrape_votes.py
実行します。追加のセットアップは必要ありません。これにより、データセット ( contestants.csv
、 votes.csv
およびbetting_offices.csv
ファイルの両方) が複製されます。
オーディオは、Docker コンテナの内部または外部からさらにフェッチできます。
bash run.sh docker audio bash run.sh audio
すべてのオーディオがaudio
フォルダーに存在すると、次を使用してオーディオ機能を抽出できます。
sh audio_features.sh
これにより、Essentia のストリーム ミュージック エクストラクターがインストールされた Docker コンテナが起動します。あるいは、Essentia のエクストラクターが PATH 環境にインストールされている場合は、 audio_features.py
を実行することもできます。
対戦ランキングは決勝と準決勝の両方で提供されます。国別投票データには 47,007 件の投票活動が含まれており、2016 年に導入されてからは陪審投票と電話投票に分けられています。
カラム | 説明 |
---|---|
年 | コンテストの年 |
to_country_id | 出場者の国ID |
to_country | 出場者の国名 |
出演者 | アーティスト |
歌 | 出場者の曲のタイトル |
sf_num | 準決勝1、2、または0に出場(2004年から2008年までは準決勝は1回のみ) |
ランニング_ファイナル | コンテストの決勝戦の放送での順位 |
ランニング_SF | コンテストの準決勝の放送での順位 |
場所_最終 | 決勝に進む |
ポイント_最終 | 決勝でのポイント |
場所_SF | 準決勝に進む |
ポイント_SF | 準決勝での得点 |
ポイント_テレ_ファイナル | コンテストの決勝戦でのテレビ投票ポイント |
ポイント_陪審_最終 | コンテストの決勝戦での陪審員投票ポイント |
ポイント_テレ_SF | コンテストの準決勝でのテレビ投票ポイント |
ポイント_jury_sf | コンテストの準決勝での陪審員投票ポイント |
歌詞 | 歌の歌詞 |
youtube_url | YouTube 上のビデオへの URL |
カラム | 説明 |
---|---|
年 | コンテストの年 |
ラウンド | 決勝、準決勝 |
from_country_id | ポイントを付与する国の国ID |
to_country_id | ポイントを受け取る国の国ID |
出身国 | ポイント付与国名 |
to_country | ポイントを受け取る国の国名 |
ポイント | 付与されるポイント数 |
sh run.sh docker
実行して Docker を使用するか、 sh run.sh
呼び出すだけでローカル インストールを使用することをお勧めします。オーディオも取得するには、 sh run.sh audio
またはsh run.sh docker audio
を実行します。
データセットを複製するには、Chrome、Firefox、または Safari の WebDriver が必要です。たとえば、Chrome の WebDriver と Selenium Python パッケージ ( pip3 install selenium
)。ここの手順に従って WebDriver をセットアップします。プロジェクトの依存関係は、以下を使用してインストールできます。
pip3 install -r requirements.txt
次のコマンドを使用して、1956 年から 2023 年までのすべてのユーロビジョン ソング コンテストのデータを抽出します。
python3 scrape_votes.py --start 1956 --end 2023
これにより、 contestants.csv
およびvotes.csv
ファイルが作成されます。
@inproceedings{burgoyne_mirovision, author = {John Ashley Burgoyne and Janne Spijkervet and David John Baker}, title = {Measuring the {Eurovision Song Contest}: A Living Dataset for Real-World {MIR}}, booktitle = {Proceedings of the 24th International Society for Music Information Retrieval Conference}, year = 2023, address = {Milan, Italy}, url = {https://archives.ismir.net/ismir2023/paper/000097.pdf} } @misc{spijkervet_eurovision, author = {Janne Spijkervet}, title = {{The Eurovision Dataset}}, month = mar, year = 2020, doi = {10.5281/zenodo.4036457}, version = {1.0}, publisher = {Zenodo}, url = {https://zenodo.org/badge/latestdoi/214236225} }