Proyek ini bertujuan untuk menyediakan salinan iklan politik yang dapat dicari dan lengkap di Perpustakaan Iklan Facebook
Sejak 17.08.2023, ini juga berisi iklan yang ditayangkan di UE tidak lebih lama dari tanggal tersebut. Anda dapat melihat kolom tambahan di bawah.
Facebook sudah menyediakan semua data ini melalui antarmuka web mereka. Masalahnya adalah bahwa hal ini sulit untuk dicari dan oleh karena itu tidak ada gunanya untuk Analisis iklan politik. Selain itu, API ini sulit diakses dan dibatasi dalam banyak hal.
Data ini dimaksudkan untuk publik sehingga kumpulan data ini hanya membantu memberikan transparansi yang ingin diberikan oleh Facebook Meta.
Situs untuk mengakses Data Langsung: https://ad-archive.nexxxt.cloud
Data diambil langsung dari API resmi mereka.
Sejak V3, iklan dirayapi menggunakan kueri kosong (*) di semua negara. Kueri ini ternyata cukup andal dan mengembalikan semua iklan di semua halaman
Sebelumnya data yang diunduh oleh page_id diperoleh dari Ad-reports. Ini hanya boleh mencakup halaman-halaman yang berkaitan dengan politik atau isu-isu penting politik tetapi tidak semuanya ditandai dengan jelas.
Karena laporan ini berisi nama_halaman dan penyangkalan yang dibuat pengguna, beberapa nama atau penafian mungkin rusak oleh karakter yang aneh.
Hal lain yang saya sadari adalah bahwa beberapa iklan (atau seluruh halaman?) untuk sementara (atau permanen?) tidak dapat dicari berdasarkan page_id yang menerbitkannya. Anda dapat mengidentifikasinya dengan memeriksa jumlah Iklan yang ditentukan dari laporan vs. jumlah iklan sebenarnya yang dimuat dalam kumpulan data. Seringkali hal ini juga mengakibatkan halaman tampak tidak memiliki iklan. Anda dapat mengidentifikasinya dengan kolom pesan yang kosong (msg="").
Satu masalah lagi adalah iklan dari halaman page_id=0 tidak dapat dirayapi oleh page_idnya. Ini sering kali hanya merujuk pada "Pengguna Instagram dengan beberapa id" atau pengguna Platform Facebook lainnya. Lihat laporan yang saya gunakan untuk informasi lebih lanjut. PEMBARUAN: Mereka dirayapi menggunakan trik kueri kosong. Saya juga kemudian menyadari bahwa ketika merayapi situs yang sangat besar ternyata kosong meskipun harus berisi iklan.
Pada akhirnya hal ini mengakibatkan iklan dalam kumpulan data ini menjadi lebih sedikit dari yang seharusnya menurut laporan. Seharusnya cukup akurat sekarang.
id("_id" pada tabel)
waktu_pembuatan_iklan
ad_creative_bodies
ad_creative_link_captions
deskripsi_link_kreatif_iklan
ad_creative_link_titles
waktu_mulai_pengiriman_iklan
waktu_pengiriman_iklan
bahasa
halaman_id
nama_halaman
penerbit_platform
baris demi baris
mata uang
pengiriman_menurut_wilayah
distribusi_demografis
perkiraan_ukuran_pemirsa
tayangan
membelanjakan
target_lokasi
target_gender
target_usia
eu_total_reach
penerima_pembayar
age_country_gender_reach_breakdown
dirender (menentukan apakah versi yang dirender tersedia) (DIHAPUSKAN sejak V5!)
rendering_started (digunakan untuk mengantri iklan untuk rendering) (DIHAPUSKAN sejak V5!)
hilang (Benar, jika iklan tidak ditemukan saat rendering)
_last_updated (berisi tanggal iklan terakhir dirayapi/diperbarui)
Bidang ad_snapshot_url
tidak dirayapi karena hanya kombinasi id dan token akses Anda:
https://www.facebook.com/ads/archive/render_ad/?id=<id>&access_token=<token>
Untuk membuka iklan jika Anda tidak memiliki token akses apa pun, Anda dapat menggunakan tautan ini:
https://www.facebook.com/ads/library/?id=<id>
Untuk benar-benar merender iklan tanpa token akses, Anda dapat menggunakan pekerja cloudflare saya untuk memproksi data: https://render-facebook-ad.lejo.workers.dev/<id>
Anda mungkin perlu menonaktifkan beberapa pengaturan privasi sebagai browser ( seperti Firefox) memblokir permintaan Facebook lintas situs.
Untuk informasi lebih lanjut, lihat file example.json
atau deskripsi kolom di API resmi.
Script dari folder preview_renderer
digunakan untuk mengambil screenshot elemen yang relevan dari ad_snapshot_url
setiap iklan. Basis data render_queue
terpisah digunakan untuk mengantri iklan untuk rendering. Setelah rendering, gambar disimpan selama satu bulan tetapi dapat dirender ulang kapan saja.
Setelah rendering, Anda dapat melihatnya di sini: https://facebook-ad-previews.nexxxt.cloud/<id>.jpg
Anda dapat mengakses data terkini yang disimpan untuk sebuah iklan kapan saja di: https://ad-archive.nexxxt.cloud/ad/<AD_ID>
. Titik akhir ini juga dapat digunakan untuk pengunduhan informasi iklan secara otomatis dan memungkinkan permintaan lintas asal. Harap perhatikan bahwa mungkin diperlukan waktu beberapa saat agar iklan baru dapat dirayapi dan ditambahkan ke database.
Pada 17.08.2023 semua iklan UE sejak tanggal tersebut muncul di database. Sekarang ukurannya lebih dari dua kali lipat dari sebelumnya. Iklan UE berisi bidang tambahan seperti yang ditentukan di atas.
Bidang yang digunakan untuk rendering telah dihapus (kecuali hilang) dan sekarang ditangani secara terpisah.
Unduh Metadata (02.11.2023) kaggle
Unduh Metadata (01.03.2024) kaggle
Mengunduh database ke dalam file JSON dan mengompresinya membutuhkan waktu yang semakin lama. Itu sebabnya saya beralih ke file BSON terkompresi (bson.gz). Ini adalah asli mongodb dan dapat dibuat lebih cepat dan lebih dapat diandalkan.
Ini dibuat menggunakan alat mongodump dan dapat dimuat ke mongodb Anda sendiri menggunakan mongorestore. Anda juga dapat mengonversinya menjadi file json normal menggunakan alat bsondump mereka.
Selain itu, Anda dapat menggunakan file metadata untuk memulihkan indeks yang digunakan dalam database saya.
Beberapa dari kumpulan data ini juga tersedia di kaggle.
Unduh Metadata (07.09.2022)
Unduh Metadata (22.10.2022) kaggle
Unduh Metadata (30.12.2022) kaggle
Unduh Metadata (15.03.2023) kaggle
Unduh Metadata (06.08.2023) kaggle
Iklan telah dirayapi menggunakan kueri kosong (*) di semua negara. Secara teori seharusnya sekarang memuat semua iklan di perpustakaan.
Bidang rendered
ditambahkan untuk pratinjau.
Tidak ada file koleksi todo.json
karena statistiknya salah dan tidak relevan untuk perayapan ini.
Unduh (09.02.2022)
Unduh (03.04.2022)
Unduh (26.05.2022)
V2 dan lebih lama:
todo.json
-File: berdasarkan Laporan Iklan dan berisi semua halaman yang dirayapi dengan stempel waktu perayapan terakhir dan kursor halaman (setelah)
Juga berisi statistik halaman untuk beberapa penafian dan negara. Halaman besar seharusnya sudah selesai sekarang. Beberapa laporan dari tanggal berbeda digunakan untuk memperbarui.
Unduh
Saya pertama kali menjelajahi Perpustakaan Jerman dan AS, lalu memutuskan untuk membuat penjelajahan penuh.
Untuk perayapan ini todo.json
berisi bidang lang
yang menentukan laporan asal laman. Semua laporan secara otomatis dimuat ke db menggunakan skrip import_reports.py
.
Unduh Laporan
Data negara-negara ini juga tersedia di kaggle.com
Jerman (DE) Unduh Laporan
AS (AS) Unduh Laporan
Sebelumnya perayapan dilakukan berdasarkan laporan resmi dari Facebook. Saya memuatnya ke mongodb dan skrip crawl.py
lama menarik data dari Api dan menambahkannya ke dalam koleksi iklan. Sekarang saya hanya menggunakan trik kueri kosong (*) untuk mengunduh iklan dari semua halaman di semua negara, lihat: crawlall.py
Untuk melakukannya, Anda memerlukan token akses (atau lebih baik lagi). Skrip akan secara otomatis menangani pembatasan kecepatan, tetapi Anda mungkin tidak dapat menggunakan banyak thread jika Anda tidak memiliki cukup token.
Untuk informasi lebih lanjut lihat saja file crawlall.py
.
Jika Anda memiliki informasi lebih lanjut mengenai API/Perpustakaan Facebook atau yakin ada masalah hukum dengan distribusi data ini, silakan hubungi saya: [email protected] atau buka Masalah!