NLP語料準備工具,溫馨提示,本計畫僅作為學術研究使用,用於其他用途引發的一系列後果本作者不承擔任何責任。大概兩年過去了,再次更新這個項目,只是為了責任和信仰,本次更新如下:
/usr/bin
裡面即可;之前的圖片連結好像都不能用了,直接刪掉,只能說國內的雲端伺服器商太坑爹太摳,不付錢直接斷你的鏈接,也可能是大環境不好,該倒閉的都倒閉了。
其實作者兩年之後已經不搞NLP了,研究生畢業後從事了自動駕駛領域的相關工作,但一直沒有放棄NLP工作的跟進也不妨礙我一直依賴對NLP的興趣,為此特地給大家提供幾個最新的有趣的乾貨:
國內最大的AI演算法市場:http://manaai.cn
關於問答系統的一些交流論壇:http://t.manaai.cn
本計畫會持續更新並維護,感謝大家的關注。
這個計畫從發起到現在已經過了二十多天,五百年了終於得把事情真真正正幹起來了! !這個專案會一直保持更新,為了方便contribute一起貢獻,我重新發起了一個項目:https://github.com/jinfagang/weibo_terminator_workflow.git , 如果想一起貢獻爬取語料可以同時star一下workflow這個項目,如果想play with微博爬蟲可以繼續關注這個專案。
weibo_terminator微博終結者爬蟲基本上準備就緒:
這次我們更新了以下功能:
如果你認為只有這些你就圖樣圖森破了,三木檀木子拿衣服。更重要的更新在於:
realangelababy
;為了基於龐大的微博網絡,我們發起終結者計劃,群策群力爬取微博中文計劃語料,這次更新的repo中一個weibo_id.list
文件,這裡面有分門別類的近800萬用戶的id。 不要問我怎麼來的,接下來我們分配給每個contributor一定區間段的id,對全部微博進行爬取,然後把結果上傳到我們內部的百度雲網盤,所有資料只有所有的contributor以及weibo_terminator authors可以取得。 最後聲明以下,本項目參考了一些類似項目,但是本項目實現的功能,考慮的問題複雜度不是以上這些項目能比擬,我們實現的都是最新的網頁API和Python3,很多其他項目都是基於scrapy建構的,本專案根本使用任何類似的爬蟲庫, 不是別的原因,拿那些庫建置的專案缺乏彈性,我們不太喜歡。希望大家理解。
最後依舊歡迎大家submit issue,我們永遠開源,維護更新! !
Contribution tips:
git clone https://github.com/jinfagang/weibo_terminater.git
;settings/config.py
, follow the instruction there;settings/accounts.py
, you can using multi account now, terminator will automatically dispatch them;python3 main.py -i realangelababy
, scrap single user, set settings/id_file
for multi user scrap;jintianiloveu
, if you want contribute, administrator will hand out you and id_file which is unique in our project;./weibo_detail
, with different id separately.WT & TIANEYE COPYRIGHT
.We fund several group for our project:
QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023
Wechat
add administrator `jintianiloveu` to be added in.
這是第一次commit遺失的部分,使用幫助:
# -h see helps
python3 main.py -h
# -i specific an single id or id_file path(with every id as a line.)
python3 main.py -i 167385960
python3 main.py -i ./id_file
# -f specific filter mode, if 0, all weibo are all original, if 1, contains repost one, default is 0
python3 main.py -i 16758795 -f 0
# -d specific debug mode for testing, be aware debug mode only support one single id.
python3 main.py -i 178600077 -d 1
That's all, simple and easy.
The cookies still maybe banned, if our scraper continues get information from weibo, that is exactly we have to get this job done under people's strength, no one can build such a big corpion padone strength, no one can build such a big corpional out one scorpion. banned, we strongly recommended using another weibo account which can be your friends or anyone else, and continue scrap, one thing you have to remind is that our weibo_terminator can remember scrap pro last 且 scrap last 1ember stit ) from scrapp
關於聊天對話系統我後面會開源一個項目,這個repo目的是基於微博構建一個高品質的對話語料,本項目將繼續更進開發,大家快star! !永遠開源!
這個計畫致力於對抗微博的反爬蟲機制,集合眾人的力量把微博成千上萬的微博評論語料爬取下來並製作成一個開源的高質量中文對話語料,推動中文對話系統的研發。 本系統現已實現:
希望更多童鞋們contribute進來,還有很多工作要做,歡迎提交PR!
中文語料一直備受詬病,沒有機構或組織去建立一些公開的資料集,反觀國外,英文語料相當豐富,而且已經做的非常精準。
微博語料作者認為是覆蓋最廣,最活躍最新鮮的語料,使用之構建對話系統不說模型是否精準,但新鮮的詞彙量是肯定有的。
指定使用者的微博和評論形式如下:
E
4月15日#傲娇与偏见# 超前点映,跟我一起去抢光它 [太开心] 傲娇与偏见 8.8元超前点映 顺便预告一下,本周四(13号)下
午我会微博直播送福利,不见不散哦[坏笑] 电影傲娇与偏见的秒拍视频 <200b><200b><200b>
E
F
<哈哈哈哈哈哈狗->: 还唱吗[doge]
<緑麓>: 绿麓!
<哈哈哈哈哈哈狗->: [doge][doge]
<至诚dliraba>: 哈哈哈哈哈哈哈
<五只热巴肩上扛>: 大哥已经唱完了[哆啦A梦吃惊]
<哈哈哈哈哈哈狗->: 大哥[哆啦A梦吃惊]
<独爱Dear>: 10:49坐等我迪的直播[喵喵][喵喵][喵喵]
<四只热巴肩上扛>: 对不起[可怜]我不赶
<四只热巴肩上扛>: 哈狗[哆啦A梦花心][哆啦A梦花心]
<至诚dliraba>: 哈狗来了 哈哈哈
<四只热巴肩上扛>: [摊手]绿林鹿去哪里了!!!!
<哈哈哈哈哈哈狗->: 阿健[哆啦A梦花心]
<至诚dliraba>: 然而你还要赶我出去[喵喵]
<四只热巴肩上扛>: 我也很绝望
<至诚dliraba>: 只剩翻墙而来的我了
<四只热巴肩上扛>: [摊手]我能怎么办
<四只热巴肩上扛>: [摊手]一首歌唱到一半被掐断是一个歌手的耻辱[摊手]
<至诚dliraba>: 下一首
<四只热巴肩上扛>: 最害怕就是黑屋[摊手]
<至诚dliraba>: 我脑海一直是 跨过傲娇与偏见 永恒的信念
F
說明:
現在爬取的語料是最原始版本,大家對於語料的用途可以從這裡開始,可以用來做話題評論機器人,但作者後面將繼續開發後期處理程序,把微博raw data變成對話形式,並開源。 當然也歡迎有興趣的童鞋們給我提交PR,選取一個最佳方案,推動本計畫的進展。
對於專案有任何疑問的可以聯絡我wechat: jintianiloveu
, 也歡迎提issue
(c) 2017 Jin Fagang & Tianmu Inc. & weibo_terminator authors LICENSE Apache 2.0