Alat persiapan korpus NLP. Pengingat hangat bahwa proyek ini hanya digunakan untuk penelitian akademis. Penulis tidak bertanggung jawab atas serangkaian konsekuensi yang disebabkan oleh penggunaannya untuk tujuan lain. Sekitar dua tahun telah berlalu, saya ingin mengupdate proyek ini lagi, hanya demi tanggung jawab dan keyakinan.
/usr/bin
melalui Google;Tampaknya tautan gambar sebelumnya tidak lagi tersedia dan harus langsung dihapus. Saya hanya bisa mengatakan bahwa penyedia server cloud domestik terlalu curang dan pelit. Mereka akan memotong tautan Anda tanpa membayar tidak bagus dan semua yang seharusnya bangkrut sudah bangkrut.
Faktanya, penulis berhenti terlibat dalam NLP dua tahun kemudian. Setelah lulus sekolah pascasarjana, saya terlibat dalam pekerjaan terkait di bidang mengemudi otonom, tetapi saya tidak pernah menyerah pada pekerjaan NLP mengandalkan ketertarikan saya pada NLP. Untuk keperluan ini, saya akan memberikan beberapa informasi menarik terbaru:
Pasar algoritme AI terbesar di Tiongkok: http://manaai.cn
Beberapa forum komunikasi tentang sistem tanya jawab: http://t.manaai.cn
Proyek ini akan terus diperbarui dan dipelihara, terima kasih atas perhatiannya.
Lebih dari dua puluh hari telah berlalu sejak proyek ini dimulai. Lima ratus tahun kemudian, kita akhirnya harus memulainya! ! Proyek ini akan terus diperbarui. Untuk memfasilitasi kontribusi, saya telah meluncurkan kembali proyek: https://github.com/jinfagang/weibo_terminator_workflow.git. Jika Anda ingin berkontribusi pada korpus perayapan bersama-sama, Anda dapat membintangi proyek alur kerja pada saat yang sama. Jika Anda ingin bermain dengan perayap Weibo, Anda dapat terus mengikuti proyek ini.
weibo_terminator Perayap terminator weibo pada dasarnya sudah siap:
Kali ini kami telah memperbarui fitur-fitur berikut:
Jika kamu pikir hanya ini yang kamu punya, kamu akan hancur. Ambillah pakaian dari Sanmu Tanmuzi. Pembaruan yang lebih penting adalah:
realangelababy
. Agar dapat didasarkan pada jaringan besar Weibo, kami meluncurkan Proyek Terminator dan bekerja sama untuk merayapi korpus proyek Weibo Tiongkok. Repo yang diperbarui ini berisi file weibo_id.list
, yang berisi ID hampir 8 juta pengguna yang diklasifikasikan ke dalam kategori. Jangan tanya saya bagaimana hal itu terjadi. Selanjutnya, kami menetapkan ID pada rentang tertentu untuk setiap kontributor, merayapi semua Weibo, dan kemudian mengunggah hasilnya ke disk cloud internal Baidu kami didapat. Pernyataan terakhirnya adalah sebagai berikut. Proyek ini mengacu pada beberapa proyek serupa, tetapi fungsi yang diterapkan oleh proyek ini dan kompleksitas masalah yang dipertimbangkan tidak sebanding dengan proyek di atas. dan banyak proyek lain yang didasarkan pada scrapy. Proyek ini sama sekali tidak menggunakan perpustakaan perayap serupa karena proyek yang dibangun dengan perpustakaan tersebut kurang fleksibel, yang sangat tidak kami sukai. Semoga semua orang mengerti.
Terakhir, semua orang tetap diperbolehkan untuk mengirimkan masalah. Kami akan selalu membuka sumber dan memelihara serta memperbaruinya! !
Kiat kontribusi:
git clone https://github.com/jinfagang/weibo_terminater.git
;settings/config.py
, ikuti instruksi di sana;settings/accounts.py
, Anda dapat menggunakan multi akun sekarang, terminator akan mengirimkannya secara otomatis;python3 main.py -i realangelababy
, hapus pengguna tunggal, setel settings/id_file
untuk memo multi-pengguna;jintianiloveu
, jika Anda ingin berkontribusi, administrator akan membagikan Anda dan id_file yang unik dalam proyek kami;./weibo_detail
, dengan id berbeda secara terpisah.WT & TIANEYE COPYRIGHT
.Kami mendanai beberapa kelompok untuk proyek kami:
QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023
Wechat
add administrator `jintianiloveu` to be added in.
Ini adalah bagian yang hilang dari komit pertama, gunakan bantuan:
# -h see helps
python3 main.py -h
# -i specific an single id or id_file path(with every id as a line.)
python3 main.py -i 167385960
python3 main.py -i ./id_file
# -f specific filter mode, if 0, all weibo are all original, if 1, contains repost one, default is 0
python3 main.py -i 16758795 -f 0
# -d specific debug mode for testing, be aware debug mode only support one single id.
python3 main.py -i 178600077 -d 1
Itu saja, sederhana dan mudah.
Cookies mungkin masih dilarang, jika scraper kami terus mendapatkan informasi dari weibo, itulah tepatnya kami harus menyelesaikan pekerjaan ini di bawah kekuatan orang, tidak ada yang bisa membangun corpora sebesar itu di bawah satu kekuatan jika cookie Anda sudah ketinggalan zaman atau sudah ketinggalan zaman diblokir, kami sangat menyarankan untuk menggunakan akun weibo lain yang bisa menjadi teman Anda atau orang lain, dan melanjutkan memo, satu hal yang harus Anda ingatkan adalah bahwa weibo_terminator kami dapat mengingat kemajuan memo dan akan menghapus dari tempat terakhir kali dihentikan :)
Mengenai sistem dialog obrolan, saya akan membuka proyek sumbernya nanti. Tujuan dari repo ini adalah untuk membangun materi dialog berkualitas tinggi berdasarkan Weibo. Proyek ini akan terus dikembangkan lebih lanjut. ! Selalu sumber terbuka!
Proyek ini didedikasikan untuk memerangi mekanisme anti-perayapan Weibo, mengumpulkan kekuatan semua orang untuk merayapi ribuan korpus komentar Weibo, dan menghasilkan korpus dialog Tiongkok bersumber terbuka dan berkualitas tinggi untuk mempromosikan penelitian dan pengembangan sistem dialog Tiongkok. Sistem ini sekarang telah menerapkan:
Saya berharap lebih banyak sepatu anak-anak yang dapat berkontribusi. Masih banyak pekerjaan yang harus diselesaikan. Selamat mengirimkan PR!
Korpora Tiongkok selalu dikritik, dan tidak ada lembaga atau organisasi yang membuat kumpulan data publik. Sebaliknya, di luar negeri, korpora Inggris cukup banyak dan dibuat dengan sangat akurat.
Penulis korpus Weibo percaya bahwa ini adalah korpus dengan cakupan terluas, paling aktif, dan paling segar. Tidak peduli apakah model tersebut akurat saat menggunakannya untuk membangun sistem dialog, tetapi yang pasti ada kosa kata yang segar.
Format komentar dan komentar pengguna yang ditunjuk adalah sebagai berikut:
E
4月15日#傲娇与偏见# 超前点映,跟我一起去抢光它 [太开心] 傲娇与偏见 8.8元超前点映 顺便预告一下,本周四(13号)下
午我会微博直播送福利,不见不散哦[坏笑] 电影傲娇与偏见的秒拍视频 <200b><200b><200b>
E
F
<哈哈哈哈哈哈狗->: 还唱吗[doge]
<緑麓>: 绿麓!
<哈哈哈哈哈哈狗->: [doge][doge]
<至诚dliraba>: 哈哈哈哈哈哈哈
<五只热巴肩上扛>: 大哥已经唱完了[哆啦A梦吃惊]
<哈哈哈哈哈哈狗->: 大哥[哆啦A梦吃惊]
<独爱Dear>: 10:49坐等我迪的直播[喵喵][喵喵][喵喵]
<四只热巴肩上扛>: 对不起[可怜]我不赶
<四只热巴肩上扛>: 哈狗[哆啦A梦花心][哆啦A梦花心]
<至诚dliraba>: 哈狗来了 哈哈哈
<四只热巴肩上扛>: [摊手]绿林鹿去哪里了!!!!
<哈哈哈哈哈哈狗->: 阿健[哆啦A梦花心]
<至诚dliraba>: 然而你还要赶我出去[喵喵]
<四只热巴肩上扛>: 我也很绝望
<至诚dliraba>: 只剩翻墙而来的我了
<四只热巴肩上扛>: [摊手]我能怎么办
<四只热巴肩上扛>: [摊手]一首歌唱到一半被掐断是一个歌手的耻辱[摊手]
<至诚dliraba>: 下一首
<四只热巴肩上扛>: 最害怕就是黑屋[摊手]
<至诚dliraba>: 我脑海一直是 跨过傲娇与偏见 永恒的信念
F
menjelaskan:
Korpus yang dijelajahi sekarang adalah versi aslinya. Anda dapat mulai dari sini tentang cara menggunakan korpus tersebut. Korpus tersebut dapat digunakan untuk membuat robot komentar topik. Namun, penulis akan terus mengembangkan program pasca-pemrosesan untuk mengubah data mentah Weibo menjadi percakapan bentuk dan open source itu. Tentu saja, sepatu anak-anak yang berminat juga dipersilakan untuk mengirimkan PR kepada saya dan memilih solusi terbaik untuk mendorong kemajuan proyek ini.
Jika Anda memiliki pertanyaan tentang proyek ini, Anda dapat menghubungi saya di wechat: jintianiloveu
.
(c) 2017 Jin Fagang & Tianmu Inc. & weibo_terminator penulis LISENSI Apache 2.0