مسابقة الأغنية الأوروبية هي مجموعة بيانات متاحة مجانًا تحتوي على بيانات وصفية وتصنيف المسابقة وبيانات التصويت لـ 1735 أغنية تنافست في مسابقات الأغنية الأوروبية. سيحتوي الإصدار القادم أيضًا على ميزات صوتية.
يتم تحديث مجموعة البيانات كل عام بنتائج المسابقة. يحتوي هذا الإصدار على البيانات التعريفية للمتسابقين وتصنيف المسابقة وبيانات التصويت لـ 1735 مشاركة شاركت في مسابقة الأغنية الأوروبية منذ ظهورها لأول مرة في عام 1956 حتى الآن. يمكن دفق الصوت المقابل لكل أغنية عبر YouTube.
يتم توفير البيانات الوصفية وبيانات التصويت من خلال موقع مشجعي EurovisionWorld.
يمكن تنزيل مجموعة البيانات هنا. لنسخه، اتبع الإرشادات الموجودة في الجزء السفلي من الملف التمهيدي.
قام John Ashley Burgoyne وJanne Spijkervet وDavid John Baker بتوسيع مجموعة البيانات هذه ببيانات على مستوى هيئة المحلفين وميزات صوتية جديدة وتحليلات إحصائية لـ ISMIR 2023. يمكنك الوصول إلى بياناتهم ورموزهم في هذا المستودع.
مع وجود contestants.csv
في نفس المجلد الموجود فيه ملف audio.py
، يمكن جمع تدفقات الصوت على YouTube لجميع الأغاني عن طريق تشغيل python3 audio.py
. وبدلاً من ذلك، يمكن استخدام sh run.sh audio
أو sh run.sh docker audio
للاستخراج محليًا أو استخدام حاوية Docker لاستخراج التدفقات.
عند استخدام هذه المواد، يرجى ذكر الموارد التالية. أنا مهتم أيضًا بمعرفة المشاريع المبنية على هذا العمل، فلا تتردد في إرسال بريد إلكتروني إلى: janne [dot] spijkervet [at] gmail [dot] com
@inproceedings{burgoyne_mirovision, author = {John Ashley Burgoyne and Janne Spijkervet and David John Baker}, title = {Measuring the {Eurovision Song Contest}: A Living Dataset for Real-World {MIR}}, booktitle = {Proceedings of the 24th International Society for Music Information Retrieval Conference}, year = 2023, address = {Milan, Italy}, url = {https://archives.ismir.net/ismir2023/paper/000097.pdf} } @misc{spijkervet_eurovision, author = {Janne Spijkervet}, title = {{The Eurovision Dataset}}, month = mar, year = 2020, doi = {10.5281/zenodo.4036457}, version = {1.0}, publisher = {Zenodo}, url = {https://zenodo.org/badge/latestdoi/214236225} }
للحصول على فكرة أولية عن مجموعة البيانات، تم إنشاء مثال Jupyter Notebook في دليل examples
. يمكن فتح هذا باستخدام jupyter notebook
. لتكرار مجموعة البيانات، انظر أدناه:
يمكنك تنزيل مجموعة البيانات بأكملها باستخدام رمز الكشط المضمن في هذا المستودع. سيحاول هذا جلب البيانات من موقع EurovisionWorld ومعالجتها إلى ملفات CSV المتوفرة أيضًا في قسم الإصدار في هذا المستودع:
votes.csv
contestants.csv
betting_offices.csv
pip3 install -r Requirements.txt# سوف يسفر عن الأصوات.csv والمتسابقين.csvpython3 Scrape_votes.py# سوف يسفر عن betting_offices.csvpython3 Scrape_odds.py
قم بتشغيل sh run.sh docker
لإنشاء ملف Dockerfile وتشغيل scrape_votes.py
من داخل الحاوية. لا ينبغي أن يكون هناك أي إعداد إضافي ضروري. سيؤدي هذا إلى تكرار مجموعة البيانات، كل من ملفات contestants.csv
و votes.csv
و betting_offices.csv
.
يمكن أيضًا جلب الصوت من داخل أو خارج حاوية Docker:
bash run.sh docker audio bash run.sh audio
يمكن استخراج ميزات الصوت بمجرد وجود كل الصوت في مجلد audio
باستخدام:
sh audio_features.sh
سيؤدي هذا إلى تشغيل حاوية Docker مع تثبيت مستخرج الموسيقى الدفق الخاص بـ Essentia. وبدلاً من ذلك، يمكن تشغيل audio_features.py
نظرًا لأن مستخرج Essentia مثبت في بيئة PATH.
يتم توفير ترتيب المنافسة لكل من النهائيات ونصف النهائي. تحتوي بيانات التصويت من دولة إلى أخرى على 47007 نشاط تصويت، ويتم فصلها عن طريق هيئة المحلفين والتلفزيون بعد تقديمها في عام 2016.
عمود | وصف |
---|---|
سنة | سنة المسابقة |
to_country_id | معرف بلد المتسابق |
to_country | اسم بلد المتسابق |
المؤدي | فنان |
أغنية | عنوان أغنية المتسابق |
sf_num | شارك في نصف النهائي 1 أو 2 أو 0 (من 2004 إلى 2008 كان هناك نصف نهائي واحد فقط) |
run_final | الترتيب في بث المباراة النهائية للمسابقة |
run_sf | الترتيب في بث نصف نهائي المسابقة |
place_final | مكان في النهائي |
point_final | نقاط في النهائي |
place_sf | مكان في الدور نصف النهائي |
point_sf | نقاط في نصف النهائي |
point_tele_final | نقاط التلفاز في نهائي المسابقة |
point_jury_final | نقاط التصويت في نهائي المسابقة |
point_tele_sf | النقاط المتلفزة في نصف نهائي المسابقة |
point_jury_sf | نقاط تصويت لجنة التحكيم في نصف نهائي المسابقة |
كلمات | كلمات الاغنية |
youtube_url | رابط للفيديو على موقع يوتيوب |
عمود | وصف |
---|---|
سنة | سنة المسابقة |
دائري | النهائي ونصف النهائي |
from_country_id | معرف البلد للبلد إعطاء النقاط |
to_country_id | معرف البلد للبلد المتلقي النقاط |
from_country | اسم البلد البلد إعطاء النقاط |
to_country | اسم البلد البلد المتلقي النقاط |
نقاط | عدد النقاط المعطاة |
يوصى باستخدام Docker عن طريق تشغيل sh run.sh docker
، أو استخدام التثبيت المحلي عن طريق استدعاء sh run.sh
فقط. للحصول على الصوت أيضًا، قم بتشغيل sh run.sh audio
أو sh run.sh docker audio
.
لنسخ مجموعة البيانات، يلزم توفر WebDriver إما لمتصفح Chrome أو Firefox أو Safari، على سبيل المثال WebDriver لمتصفح Chrome، بالإضافة إلى حزمة Selenium Python ( pip3 install selenium
). اتبع التعليمات لإعداد WebDriver هنا. يمكن تثبيت تبعيات المشروع باستخدام:
pip3 install -r requirements.txt
استخدم الأمر التالي لاستخراج بيانات جميع مسابقات الأغنية الأوروبية بين عامي 1956 و2023:
python3 scrape_votes.py --start 1956 --end 2023
سيؤدي هذا إلى إنشاء ملفمسابقات. contestants.csv
وملف votes.csv
.
@inproceedings{burgoyne_mirovision, author = {John Ashley Burgoyne and Janne Spijkervet and David John Baker}, title = {Measuring the {Eurovision Song Contest}: A Living Dataset for Real-World {MIR}}, booktitle = {Proceedings of the 24th International Society for Music Information Retrieval Conference}, year = 2023, address = {Milan, Italy}, url = {https://archives.ismir.net/ismir2023/paper/000097.pdf} } @misc{spijkervet_eurovision, author = {Janne Spijkervet}, title = {{The Eurovision Dataset}}, month = mar, year = 2020, doi = {10.5281/zenodo.4036457}, version = {1.0}, publisher = {Zenodo}, url = {https://zenodo.org/badge/latestdoi/214236225} }