Paket R fouRplebsAPI memungkinkan peneliti untuk menanyakan database 4chan yang diarsipkan oleh 4plebs.org. Basis data ini adalah arsip terbesar yang sedang berlangsung dari postingan yang pernah hilang di imageboard 4chan. Dengan paket ini peneliti dapat menggunakan fungsi pencarian terperinci yang ditawarkan oleh 4plebs dan mengambil data terstruktur dari komunikasi di 4chan.
Paket ini didasarkan pada dokumentasi 4plebs API.
Jika fouRplebsAPI berguna untuk penelitian Anda, harap kutip sebagai:
Buehling, K. (2022). fouRplebsAPI: Paket R untuk mengakses postingan 4chan melalui API 4plebs.org (Versi 0.9.0). https://doi.org/10.5281/zenodo.6637440
Anda dapat menginstal fouRplebsAPI dari GitHub dengan:
# install.packages("devtools")
devtools :: install_github( " buehlk/fouRplebsAPI " )
Papan 4chan yang saat ini dicakup oleh 4pleb adalah:
Papan.nama | Singkatan |
---|---|
Salah Secara Politik | polisi |
Resolusi Tinggi | jam |
Permainan Tradisional | tg |
Televisi & Film | televisi |
Paranormal | X |
Sialan 4chan Katanya | s4s |
Mobil | Hai |
Nasihat | kata keterangan |
Bepergian | trv |
Kilatan | F |
Olahraga | sp |
Politik Kecilku | mlpol |
Mekanisme & Otomatis | bulan |
Meskipun paket ini mencakup beberapa fungsi yang memungkinkan peneliti untuk menanyakan dan memeriksa postingan 4chan tertentu (get_4chan_post) atau thread (get_4chan_thread), peneliti yang ingin mengumpulkan data dari arsip 4plebs mungkin akan tertarik untuk mengumpulkan data dalam jumlah yang lebih besar.
Cara pertama mengumpulkan data adalah dengan mengumpulkan thread terbaru di papan tertentu. Katakanlah Anda tertarik pada 20 topik terbaru dari papan “Saran” (tidak termasuk komentar yang menyertai postingan pembuka), salah satu cara untuk menanyakan data adalah:
library( fouRplebsAPI )
recentAdv <- get_4chan_board_range( board = " adv " , page_start = 1 , page_stop = 2 , latest_comments = FALSE )
str( recentAdv , vec.len = 1 , nchar.max = 60 )
# > 'data.frame': 20 obs. of 15 variables:
# > $ thread_id : chr "26681983" ...
# > $ doc_id : chr "12984655" ...
# > $ num : chr "26681983" ...
# > $ subnum : chr "0" ...
# > $ op : num 1 1 ...
# > $ timestamp : int 1655111247 1655110365 ...
# > $ fourchan_date : chr "6/13/22(Mon)5:07" ...
# > $ name : chr "Anonymous" ...
# > $ title : logi NA ...
# > $ referencing_comment: logi NA ...
# > $ comments : chr "I have a very good friend. Maybe one of my "| __truncated__ ...
# > $ poster_country : logi NA ...
# > $ nreplies : logi NA ...
# > $ formatted : logi FALSE ...
# > $ media_link : logi NA ...
Deskripsi keluaran dapat ditemukan di dokumentasi fungsi. Secara teoritis, dimungkinkan untuk mengikis arsip dalam jumlah besar dengan fungsi ini, meskipun API memiliki batas kecepatan API, yang memperlambat proses kueri.
Cara kedua mengumpulkan data 4chan dengan paket ini adalah fungsi pencarian. 4plebs memungkinkan pencarian yang sangat detail dengan banyak filter pencarian. Saya hanya akan menunjukkan contoh sederhana dari data yang dapat dikumpulkan dengan fouRplebsAPI.
Contoh yang saya tunjukkan di sini agak ceria, karena saya ingin menghindari topik yang lebih kontroversial yang membuat 4chan terkenal, terutama dewan /pol/. Para peneliti, misalnya yang tertarik pada komunikasi politik aktor-aktor yang memiliki ideologi kontroversial, akan mudah mengadaptasi contoh ini. Tapi yang ini tentang liburan.
Mari kita temukan komunikasinya di papan “Travel” yang membahas tentang Mallorca, Spanyol.
Pertama, untuk mendapatkan kesan pertama dari hasil pencarian, seseorang dapat memeriksa cuplikan dari 25 postingan terbaru yang mengandung istilah pencarian “mallorca”.
mallorca_snippet <- search_4chan_snippet( boards = " trv " , start_date = " 2021-01-01 " , end_date = " 2022-12-31 " , text = " mallorca " )
# > The 1 - 25 oldest posts of the 78 total search results are shown.
# > Scraping all 78 results would take ~ 1.33 minutes.
str( mallorca_snippet , vec.len = 1 , nchar.max = 60 )
# > 'data.frame': 25 obs. of 15 variables:
# > $ thread_id : chr "1938850" ...
# > $ doc_id : chr "1113628" ...
# > $ num : chr "1938924" ...
# > $ subnum : chr "0" ...
# > $ op : num 0 1 ...
# > $ timestamp : int 1610611412 1611403974 ...
# > $ fourchan_date : chr "1/14/21(Thu)3:03" ...
# > $ name : chr "Anonymous" ...
# > $ title : chr NA ...
# > $ referencing_comment: chr "1938909n" ...
# > $ comments : chr ">got murdered and/or raped in shitholes ove"| __truncated__ ...
# > $ poster_country : logi NA ...
# > $ nreplies : int NA 13 ...
# > $ formatted : logi FALSE ...
# > $ media_link : chr NA ...
Perhatikan bahwa fungsi search_4chan_snippet() juga mencetak jumlah total hasil pencarian dan perkiraan waktu untuk mengambilnya dengan search_4chan(). Estimasi ini didasarkan pada batas API 5 permintaan per menit.
Pengguna yang hanya tertarik pada jumlah hasil dapat mengambilnya dengan mengubah parameter result_type menjadi “results_num”. Sekarang kita dapat membandingkan jumlah postingan yang menyebutkan Mallorca antara periode waktu yang berbeda. Misalnya, sebelum pandemi vs. pasca pandemi:
mallorca_pre <- search_4chan_snippet( boards = " trv " , start_date = " 2018-01-01 " , end_date = " 2019-12-31 " , text = " mallorca " , result_type = " results_num " )
mallorca_post <- search_4chan_snippet( boards = " trv " , start_date = " 2020-01-01 " , end_date = " 2021-12-31 " , text = " mallorca " , result_type = " results_num " )
data.frame ( " Years " = c( " 2018 & 2019 " , " 2020 & 2021 " ),
" Total results " = c( mallorca_pre [ " total_found " ], mallorca_post [ " total_found " ])
)
# > Years Total.results
# > 1 2018 & 2019 86
# > 2 2020 & 2021 99
Tampaknya pulau ini lebih banyak disebut-sebut karena masyarakatnya cenderung tinggal di rumah.
Peneliti yang tertarik untuk mengumpulkan lebih banyak data dari sekedar cuplikan postingan dapat menggunakan fungsi search_4chan(). Dengan melihat contoh postingan yang menyebut Mallorca dari waktu ke waktu, orang mungkin cenderung bertanya, apakah citra Mallorca telah berubah selama pandemi. Selain hanya mendapatkan semua postingan yang menyebutkan istilah pencarian, misalnya saja dimungkinkan untuk memfilter postingan yang berisi data gambar:
mallorca_pre_pics <- search_4chan( boards = " trv " , start_date = " 2018-01-01 " , end_date = " 2019-12-31 " , text = " mallorca " , show_only = " image " )
# > [1] "Approximate time: 0.33 minutes."
mallorca_post_pics <- search_4chan_snippet( boards = " trv " , start_date = " 2018-01-01 " , end_date = " 2019-12-31 " , text = " mallorca " , show_only = " image " )
# > The 1 - 16 oldest posts of the 16 total search results are shown.
# > Scraping all 16 results would take ~ 0.33 minutes.
head( mallorca_post_pics $ media_link )
# > [1] "http://i.4pcdn.org/trv/1521713616876.jpg"
# > [2] "http://i.4pcdn.org/trv/1525249686528.jpg"
# > [3] "http://i.4pcdn.org/trv/1527534752103.jpg"
# > [4] "http://i.4pcdn.org/trv/1527865867839.jpg"
# > [5] "http://i.4pcdn.org/trv/1533082869505.jpg"
# > [6] "http://i.4pcdn.org/trv/1547062117808.jpg"
Kolom media_link menyediakan link gambar yang dapat diunduh dari postingan yang diambil.
Jika fouRplebsAPI berguna untuk penelitian Anda, harap kutip sebagai:
Buehling, K. (2022). fouRplebsAPI: Paket R untuk mengakses postingan 4chan melalui API 4plebs.org (Versi 0.9.0). https://doi.org/10.5281/zenodo.6637440