Situs web: policychangeindex.org
Penulis: Julian TszKin Chan dan Weifeng Zhong
Silakan kirim email semua komentar/pertanyaan ke julian.chan [AT] policychangeindex.org atau weifeng.zhong [AT] policychangeindex.org
Proses industrialisasi Tiongkok telah lama merupakan hasil arahan pemerintah, baik berupa perencanaan pusat yang bersifat memaksa atau kebijakan industri yang ambisius. Untuk pertama kalinya dalam literatur, kami mengembangkan indikator kuantitatif mengenai prioritas kebijakan Tiongkok dalam jangka waktu yang panjang, yang kami sebut Indeks Perubahan Kebijakan untuk Tiongkok (PCI-Tiongkok). PCI-China adalah indikator utama yang berjalan dari tahun 1951 hingga kuartal terbaru dan dapat diperbarui di masa mendatang. Dengan kata lain, PCI-Tiongkok tidak hanya membantu kita memahami masa lalu industrialisasi Tiongkok namun juga memungkinkan kita membuat prediksi jangka pendek mengenai arah masa depannya.
Rancangan PCI-China memiliki dua landasan: (1) data masukannya diambil dari teks lengkap Harian Rakyat --- surat kabar resmi Partai Komunis Tiongkok --- sejak didirikan pada tahun 1946; (2) menggunakan serangkaian teknik pembelajaran mesin untuk "membaca" artikel dan mendeteksi perubahan dalam cara surat kabar memprioritaskan isu-isu kebijakan.
Sumber kekuatan prediksi PCI-Tiongkok terletak pada fakta bahwa Harian Rakyat merupakan pusat sistem propaganda Tiongkok dan bahwa perubahan propaganda sering kali mendahului perubahan kebijakan. Sebelum transformasi besar dari perencanaan terpusat di bawah pemerintahan Mao ke program reformasi ekonomi setelah Mao, misalnya, banyak upaya yang dilakukan oleh pemerintah Tiongkok untuk mempromosikan gagasan reformasi, menggerakkan opini publik, dan memobilisasi sumber daya menuju agenda baru. Oleh karena itu, dengan mendeteksi perubahan propaganda (secara real-time), PCI-China secara efektif memprediksi perubahan kebijakan (di masa depan).
Untuk rincian tentang metodologi dan temuan proyek ini, silakan lihat makalah penelitian berikut:
Hasil akan berubah seiring dengan peningkatan model yang mendasarinya. Alasan mendasar untuk mengadopsi metode open source dalam proyek ini adalah agar orang-orang dari semua latar belakang dapat berkontribusi pada model yang digunakan masyarakat kita untuk menilai dan memprediksi perubahan dalam kebijakan publik; ketika perbaikan yang disumbangkan masyarakat digabungkan, model tersebut akan memberikan hasil yang lebih baik.
Langkah pertama bagi semua orang (pengguna dan pengembang) adalah membuka akun GitHub gratis. Dan kemudian Anda dapat menentukan bagaimana Anda ingin "menonton" repositori PCI-China dengan mengklik tombol Tonton di sudut kanan atas halaman utama repositori.
Langkah kedua adalah mengenal repositori PCI-China dengan membaca dokumentasinya.
Jika Anda ingin mengajukan pertanyaan atau melaporkan bug, buat terbitan baru di sini dan kirimkan pertanyaan Anda atau beri tahu kami apa yang menurut Anda salah dengan repositori.
Jika Anda ingin meminta peningkatan, buat terbitan baru di sini dan berikan detail tentang apa yang menurut Anda harus ditambahkan ke repositori.
Pertama, instal dependensi dan atur lingkungan yang sesuai dengan menjalankan perintah berikut di shell:
./PCI-China>conda env create -f environment.yml
Kedua, aktifkan lingkungan baru pci_env
:
./PCI-China>conda activate pci_env
Ketiga, jalankan perintah berikut di lingkungan pci_env
:
./PCI-China>sh run_all.sh
Perintah di atas akan melakukan tugas-tugas berikut: (1) memproses data, (2) melatih model untuk periode bergulir dua, lima, dan sepuluh tahun, (3) mengkompilasi hasil, (4) membuat keluaran teks, dan (5 ) memvisualisasikan hasil.
Jika Anda tidak memiliki data People's Daily, Anda dapat menjalankan pengujian kami yang memperkirakan PCI menggunakan kumpulan data simulasi:
./PCI-China>pytest
Catatan
Python dan skrip R yang tercantum di bawah terdapat dalam file run_all.sh
. Mereka tersedia bagi pengguna untuk melakukan tugas-tugas berikut.
proc_pd.py
: Memproses dan menyiapkan data mentah dari People's Daily untuk membangun model jaringan saraf.pci.py
: Melatih model jaringan saraf untuk membangun PCI-China untuk kuartal tahun tertentu, menggunakan panjang jendela bergulir yang ditentukan.compile_tuning.py
: Kompilasi hasil dari semua model dan ekspor ke file .csv
.create_text_output.py
: Menghasilkan data mentah bersama dengan hasil klasifikasi model untuk setiap artikel dalam kuartal tahun tertentu.gen_figures.R
: Menghasilkan angka.create_plotly.py
: Membuat gambar Plotly interaktif. Untuk file pci.py
, pengguna juga dapat memeriksa deskripsi argumen fungsi menggunakan opsi --help
:
./PCI-China>python pci.py --help
Using TensorFlow backend.
usage: pci.py [-h] [--model MODEL] [--year YEAR] [--month MONTH] [--gpu GPU]
[--iterator ITERATOR] [--root ROOT] [--temperature TEMPERATURE]
[--discount DISCOUNT] [--bandwidth BANDWIDTH]
optional arguments:
-h, --help show this help message and exit
--model MODEL Model name: window_5_years_quarterly,
window_10_years_quarterly, window_2_years_quarterly
--year YEAR Target year
--month MONTH Target month
--gpu GPU Which gpu to use
--iterator ITERATOR Iterator in simulated annealing
--root ROOT Root directory
--temperature TEMPERATURE
Temperature in simulated annealing
--discount DISCOUNT Discount factor in simulated annealing
--bandwidth BANDWIDTH
Bandwidth in simulated annealing
Data mentah People's Daily , yang tidak disediakan dalam repositori ini, harus ditempatkan di sub-folder PCI-China/Input/pd/
. Setiap file dalam subfolder ini harus berisi data satu kuartal tahun, diberi nama berdasarkan tahun kuartal masing-masing, dan dalam format .pkl
. Misalnya, data mentah untuk kuartal pertama tahun 2018 harus ada di file 2018_Q1.pkl
. Di bawah ini adalah daftar nama kolom dan tipe setiap file data mentah:
>>> df1 = pd.read_pickle("./PCI-China/Input/pd/pd_1946_1975.pkl")
>>> df1.dtypes
date datetime64[ns]
year int64
month int64
day int64
page int64
title object
body object
id int64
dtype: object
dimana title
dan body
adalah teks berbahasa Mandarin dari judul dan isi setiap artikel.
Data yang diproses dari People's Daily , yang tidak disediakan dalam repositori ini, harus ditempatkan di sub-folder PCI-China/data/Output/database.db
. Filenya berformat SQLite. Skema database ditampilkan seperti tabel di bawah ini:
import sqlite3
import pandas as pd
conn = sqlite3.connect("data/output/database.db")
pd.read_sql_query("PRAGMA TABLE_INFO(main)", conn)
cid | nama | jenis | bukan nol | dflt_value | pk | |
---|---|---|---|---|---|---|
0 | 0 | tanggal | stempel waktu | 0 | Tidak ada | 0 |
1 | 1 | pengenal | BILANGAN BULAT | 0 | Tidak ada | 0 |
2 | 2 | halaman | NYATA | 0 | Tidak ada | 0 |
3 | 3 | judul | TEKS | 0 | Tidak ada | 0 |
4 | 4 | tubuh | TEKS | 0 | Tidak ada | 0 |
5 | 5 | strata | BILANGAN BULAT | 0 | Tidak ada | 0 |
6 | 6 | judul_seg | TEKS | 0 | Tidak ada | 0 |
7 | 7 | tubuh_seg | TEKS | 0 | Tidak ada | 0 |
8 | 8 | tahun | BILANGAN BULAT | 0 | Tidak ada | 0 |
9 | 9 | seperempat | BILANGAN BULAT | 0 | Tidak ada | 0 |
10 | 10 | bulan | BILANGAN BULAT | 0 | Tidak ada | 0 |
11 | 11 | hari | BILANGAN BULAT | 0 | Tidak ada | 0 |
12 | 12 | hari kerja | BILANGAN BULAT | 0 | Tidak ada | 0 |
13 | 13 | halaman depan | BILANGAN BULAT | 0 | Tidak ada | 0 |
14 | 14 | halaman1 hingga 3 | BILANGAN BULAT | 0 | Tidak ada | 0 |
15 | 15 | judul_len | BILANGAN BULAT | 0 | Tidak ada | 0 |
16 | 16 | tubuh_len | BILANGAN BULAT | 0 | Tidak ada | 0 |
17 | 17 | n_artikel_hari_itu | BILANGAN BULAT | 0 | Tidak ada | 0 |
18 | 18 | n_halaman_hari_itu | NYATA | 0 | Tidak ada | 0 |
19 | 19 | n_frontpage_articles_hari_itu | BILANGAN BULAT | 0 | Tidak ada | 0 |
dimana title_int
dan body_int
adalah kata penyematan (vektor numerik) dari judul dan isi setiap artikel.
Rangkuman statistik data yang diolah dapat dilihat pada file .csv
berikut:
https://github.com/PSLmodels/PCI-China/blob/master/PCI-China/figures/Summary%20statistics.csv
Baik data mentah maupun data olahan Harian Rakyat tidak dapat dirilis oleh penulis. Pengguna yang mempunyai pertanyaan tentang penerapan repositori pada data mereka sendiri dipersilakan untuk menghubungi penulis:
Silakan mengutip sumber PCI-China terbaru melalui website: https://policychangeindex.org.
Untuk karya akademis, silakan kutip makalah penelitian berikut: