الموقع الإلكتروني:policychangeindex.org
المؤلفون: جوليان تسزكين تشان ويفينغ تشونغ
يرجى إرسال جميع التعليقات/الأسئلة بالبريد الإلكتروني إلى julian.chan [AT] Policychangeindex.org أو weifeng.zhong [AT] Policychangeindex.org
كانت عملية التصنيع في الصين لفترة طويلة نتاجاً لتوجيهات الحكومة، سواء كان ذلك التخطيط المركزي القسري أو السياسة الصناعية الطموحة. ولأول مرة في الأدبيات، قمنا بتطوير مؤشر كمي لأولويات سياسة الصين على مدى فترة طويلة من الزمن، وهو ما نطلق عليه مؤشر تغير السياسات في الصين (PCI-China). يعد PCI-China مؤشرًا رائدًا يمتد من عام 1951 إلى الربع الأخير ويمكن تحديثه في المستقبل. وبعبارة أخرى، فإن PCI-China لا يساعدنا على فهم ماضي التصنيع في الصين فحسب، بل يسمح لنا أيضًا بوضع تنبؤات قصيرة المدى حول اتجاهاتها المستقبلية.
يتكون تصميم PCI-China من عنصرين أساسيين: (1) يأخذ النص الكامل لصحيفة الشعب اليومية --- الجريدة الرسمية للحزب الشيوعي الصيني --- منذ تأسيسها في عام 1946، كبيانات مدخلة؛ (2) يستخدم مجموعة من تقنيات التعلم الآلي "لقراءة" المقالات واكتشاف التغييرات في الطريقة التي تحدد بها الصحيفة أولويات قضايا السياسة.
ويعتمد مصدر القوة التنبؤية للحزب الشيوعي الصيني في الصين على حقيقة مفادها أن صحيفة الشعب اليومية تقع في المركز العصبي لنظام الدعاية في الصين وأن التغييرات الدعائية غالباً ما تسبق التغييرات السياسية. قبل التحول الكبير من التخطيط المركزي في عهد ماو إلى برنامج الإصلاح الاقتصادي بعد ماو، على سبيل المثال، بذلت الحكومة الصينية جهودًا كبيرة للترويج لفكرة الإصلاح، وتحريك الرأي العام، وتعبئة الموارد نحو الأجندة الجديدة. لذلك، من خلال الكشف عن التغيرات (في الوقت الحقيقي) في الدعاية، يتنبأ PCI-China بشكل فعال بالتغيرات (المستقبلية) في السياسة.
لمزيد من التفاصيل حول منهجية هذا المشروع ونتائجه، يرجى الاطلاع على الورقة البحثية التالية:
سوف تتغير النتائج مع تحسن النماذج الأساسية. أحد الأسباب الأساسية لاعتماد أساليب مفتوحة المصدر في هذا المشروع هو أن يتمكن الأشخاص من جميع الخلفيات من المساهمة في النماذج التي يستخدمها مجتمعنا لتقييم التغييرات في السياسة العامة والتنبؤ بها؛ وعندما يتم دمج التحسينات التي يساهم بها المجتمع، فإن النموذج سوف يؤدي إلى نتائج أفضل.
الخطوة الأولى للجميع (المستخدمين والمطورين) هي فتح حساب GitHub مجاني. وبعد ذلك يمكنك تحديد الطريقة التي تريد بها "مشاهدة" مستودع PCI-China من خلال النقر على زر المراقبة الموجود في الزاوية العلوية اليمنى من الصفحة الرئيسية للمستودع.
الخطوة الثانية هي التعرف على مستودع PCI-China من خلال قراءة الوثائق.
إذا كنت تريد طرح سؤال أو الإبلاغ عن خطأ ما، فقم بإنشاء مشكلة جديدة هنا وانشر سؤالك أو أخبرنا بما تعتقد أنه خطأ في المستودع.
إذا كنت تريد طلب تحسين، فأنشئ إصدارًا جديدًا هنا وقدم تفاصيل حول ما تعتقد أنه يجب إضافته إلى المستودع.
أولاً، قم بتثبيت التبعيات وإعداد البيئة المناسبة عن طريق تشغيل الأمر التالي في الصدفة:
./PCI-China>conda env create -f environment.yml
ثانيا قم بتفعيل البيئة الجديدة pci_env
:
./PCI-China>conda activate pci_env
ثالثًا، قم بتشغيل ما يلي في بيئة pci_env
:
./PCI-China>sh run_all.sh
سيقوم الأمر أعلاه بتنفيذ المهام التالية: (1) معالجة البيانات، (2) نماذج التدريب للنوافذ المتدرجة لمدة سنتين وخمس وعشر سنوات، (3) تجميع النتائج، (4) إنشاء مخرجات نصية، و (5) ) تصور النتائج.
إذا لم يكن لديك بيانات People's Daily، فيمكنك إجراء اختباراتنا التي تقدر PCI باستخدام مجموعة بيانات محاكاة:
./PCI-China>pytest
ملحوظات
تم تضمين برنامج python والبرنامج النصي R المدرجين أدناه في ملف run_all.sh
. وهي متاحة للمستخدمين لأداء المهام التالية، على التوالي.
proc_pd.py
: معالجة وإعداد البيانات الأولية من People's Daily لبناء نماذج الشبكة العصبية.pci.py
: تدريب نموذج شبكة عصبية لإنشاء PCI-China لربع عام محدد، باستخدام طول نافذة متدحرجة محدد.compile_tuning.py
: تجميع النتائج من كافة النماذج وتصديرها إلى ملف .csv
.create_text_output.py
: قم بإنشاء البيانات الأولية مع نتيجة تصنيف النموذج لكل مقالة في ربع سنة محدد.gen_figures.R
: توليد الأرقام.create_plotly.py
: قم بإنشاء شخصية Plotly تفاعلية. بالنسبة لملف pci.py
، يمكن للمستخدمين أيضًا التحقق من أوصاف الوسائط الخاصة بالوظيفة باستخدام خيار --help
:
./PCI-China>python pci.py --help
Using TensorFlow backend.
usage: pci.py [-h] [--model MODEL] [--year YEAR] [--month MONTH] [--gpu GPU]
[--iterator ITERATOR] [--root ROOT] [--temperature TEMPERATURE]
[--discount DISCOUNT] [--bandwidth BANDWIDTH]
optional arguments:
-h, --help show this help message and exit
--model MODEL Model name: window_5_years_quarterly,
window_10_years_quarterly, window_2_years_quarterly
--year YEAR Target year
--month MONTH Target month
--gpu GPU Which gpu to use
--iterator ITERATOR Iterator in simulated annealing
--root ROOT Root directory
--temperature TEMPERATURE
Temperature in simulated annealing
--discount DISCOUNT Discount factor in simulated annealing
--bandwidth BANDWIDTH
Bandwidth in simulated annealing
يجب وضع البيانات الأولية الخاصة بـ People's Daily ، والتي لم يتم توفيرها في هذا المستودع، في المجلد الفرعي PCI-China/Input/pd/
. يجب أن يحتوي كل ملف في هذا المجلد الفرعي على بيانات ربع سنة واحدة، وأن تتم تسميته حسب ربع السنة المعني، وأن يكون بتنسيق .pkl
. على سبيل المثال، يجب أن تكون البيانات الأولية للربع الأول من عام 2018 موجودة في الملف 2018_Q1.pkl
. فيما يلي قائمة بأسماء الأعمدة وأنواع كل ملف بيانات أولية:
>>> df1 = pd.read_pickle("./PCI-China/Input/pd/pd_1946_1975.pkl")
>>> df1.dtypes
date datetime64[ns]
year int64
month int64
day int64
page int64
title object
body object
id int64
dtype: object
حيث title
body
هما النصان الصينيان لعنوان ونص كل مقالة.
يجب وضع البيانات المعالجة لصحيفة People's Daily ، والتي لم يتم توفيرها في هذا المستودع، في المجلد الفرعي PCI-China/data/Output/database.db
. الملف بتنسيق SQLite. يظهر مخطط قاعدة البيانات كما هو موضح في الجدول أدناه:
import sqlite3
import pandas as pd
conn = sqlite3.connect("data/output/database.db")
pd.read_sql_query("PRAGMA TABLE_INFO(main)", conn)
سيد | اسم | يكتب | notnull | dflt_value | pk | |
---|---|---|---|---|---|---|
0 | 0 | تاريخ | الطابع الزمني | 0 | لا أحد | 0 |
1 | 1 | بطاقة تعريف | عدد صحيح | 0 | لا أحد | 0 |
2 | 2 | صفحة | حقيقي | 0 | لا أحد | 0 |
3 | 3 | عنوان | نص | 0 | لا أحد | 0 |
4 | 4 | جسم | نص | 0 | لا أحد | 0 |
5 | 5 | طبقات | عدد صحيح | 0 | لا أحد | 0 |
6 | 6 | title_seg | نص | 0 | لا أحد | 0 |
7 | 7 | body_seg | نص | 0 | لا أحد | 0 |
8 | 8 | سنة | عدد صحيح | 0 | لا أحد | 0 |
9 | 9 | ربع | عدد صحيح | 0 | لا أحد | 0 |
10 | 10 | شهر | عدد صحيح | 0 | لا أحد | 0 |
11 | 11 | يوم | عدد صحيح | 0 | لا أحد | 0 |
12 | 12 | أيام الأسبوع | عدد صحيح | 0 | لا أحد | 0 |
13 | 13 | الصفحة الأولى | عدد صحيح | 0 | لا أحد | 0 |
14 | 14 | page1to3 | عدد صحيح | 0 | لا أحد | 0 |
15 | 15 | title_len | عدد صحيح | 0 | لا أحد | 0 |
16 | 16 | body_len | عدد صحيح | 0 | لا أحد | 0 |
17 | 17 | n_articles_that_day | عدد صحيح | 0 | لا أحد | 0 |
18 | 18 | n_pages_that_day | حقيقي | 0 | لا أحد | 0 |
19 | 19 | n_frontpage_articles_that_day | عدد صحيح | 0 | لا أحد | 0 |
حيث title_int
و body_int
هما تضمينات الكلمات (المتجهات الرقمية) لعنوان ونص كل مقالة.
يمكن العثور على إحصائيات ملخصة للبيانات المعالجة في ملف .csv
التالي:
https://github.com/PSLmodels/PCI-China/blob/master/PCI-China/figures/Summary%20statistics.csv
لا يمكن للمؤلفين نشر البيانات الأولية أو البيانات المعالجة لصحيفة People's Daily . نرحب بالمستخدمين الذين لديهم أسئلة حول تطبيق المستودع على بياناتهم الخاصة للاتصال بالمؤلفين:
يرجى ذكر مصدر أحدث PCI-China من خلال الموقع الإلكتروني: https://policychangeindex.org.
للعمل الأكاديمي، يرجى الاستشهاد بالورقة البحثية التالية: