weibo_terminater下載 - weibo_terminater原始碼下載

weibo_terminater

Ai源碼

1.0.0

下載

Weibo Terminater

NLP語料準備工具，溫馨提示，本計畫僅作為學術研究使用，用於其他用途引發的一系列後果本作者不承擔任何責任。大概兩年過去了，再次更新這個項目，只是為了責任和信仰，本次更新如下：

增加了一些輔助庫logging更好的顯示訊息，log庫來自於alfred: http://github.com/jinfagang/alfred;
將PhantomJS的driver廢棄了，預設使用FireFox作為代理，這樣導致的結果是你可能需要安裝一下FireFox的selenium插件，叫做geckodriver，Google一下安裝到/usr/bin裡面即可；
刪除了一些不必要的文件。

之前的圖片連結好像都不能用了，直接刪掉，只能說國內的雲端伺服器商太坑爹太摳，不付錢直接斷你的鏈接，也可能是大環境不好，該倒閉的都倒閉了。

其實作者兩年之後已經不搞NLP了，研究生畢業後從事了自動駕駛領域的相關工作，但一直沒有放棄NLP工作的跟進也不妨礙我一直依賴對NLP的興趣，為此特地給大家提供幾個最新的有趣的乾貨：

國內最大的AI演算法市場：http://manaai.cn
關於問答系統的一些交流論壇：http://t.manaai.cn

本計畫會持續更新並維護，感謝大家的關注。

遲來的更新

這個計畫從發起到現在已經過了二十多天，五百年了終於得把事情真真正正幹起來了！！這個專案會一直保持更新，為了方便contribute一起貢獻，我重新發起了一個項目：https://github.com/jinfagang/weibo_terminator_workflow.git ，如果想一起貢獻爬取語料可以同時star一下workflow這個項目，如果想play with微博爬蟲可以繼續關注這個專案。

2017-4-19 重磅更新！！！啟動微博終結者計畫(WT Plan)

weibo_terminator微博終結者爬蟲基本上準備就緒：

這次我們更新了以下功能：

增加了延時策略，每次爬取10個頁面，暫停五分鐘，這樣依舊不能百分百保證帳號不被ban，但我們還有策略！！
現在我們同時使用十幾個帳號同時開爬了，weibo_scraper 會在一個帳號被禁止之後自動切換到下一個帳號！！
不需要設定cookies！！！重要的事情說三遍，我們不需要在手動設定cookies了，只需要在accounts.py裡面設定對應的帳號，WT自動取得cookies，後面也可以設定更新，或是刪掉cookies快取手動更新；

如果你認為只有這些你就圖樣圖森破了，三木檀木子拿衣服。更重要的更新在於：

id不只限於數字id了，一些明星大v的字母id照樣爬，我們這次更新默認的id就是angelababy的微博，她的id為: realangelababy ;
作者完善了從微博內容對話格式提取聊天pair對的腳本，對話的準確率在99%左右(consider copyright issue, we will open source it later)；
作者提交了分門別類的近800萬用戶id的list，全網開爬(Consider weibo official limitations, we can't distributed all list, just for sample, join our contributor team we will give every contri .)；
作者新增了斷點續爬功能，這次更新我們的爬蟲會記住上一次爬取到了哪個地方，第二次會直接從上一次中斷的地方開始爬取，直到爬完整個微博，所以當你的cookies被ban了以後，直接換小號繼續爬即可；
所有工作將在半個月之內完成，建造的語料僅限於contributor使用，歡迎大家為WT貢獻進來。

為了基於龐大的微博網絡，我們發起終結者計劃，群策群力爬取微博中文計劃語料，這次更新的repo中一個weibo_id.list文件，這裡面有分門別類的近800萬用戶的id。不要問我怎麼來的，接下來我們分配給每個contributor一定區間段的id，對全部微博進行爬取，然後把結果上傳到我們內部的百度雲網盤，所有資料只有所有的contributor以及weibo_terminator authors可以取得。最後聲明以下，本項目參考了一些類似項目，但是本項目實現的功能，考慮的問題複雜度不是以上這些項目能比擬，我們實現的都是最新的網頁API和Python3，很多其他項目都是基於scrapy建構的，本專案根本使用任何類似的爬蟲庫，不是別的原因，拿那些庫建置的專案缺乏彈性，我們不太喜歡。希望大家理解。

最後依舊歡迎大家submit issue，我們永遠開源，維護更新！！

Contribution tips：

Clone this repo: git clone https://github.com/jinfagang/weibo_terminater.git ;
Install PhantomJS to enable weibo_terminator auto get cookies, from here get it and set your unzip path to settings/config.py , follow the instruction there;
Set your multi account, inside settings/accounts.py , you can using multi account now, terminator will automatically dispatch them;
Run python3 main.py -i realangelababy , scrap single user, set settings/id_file for multi user scrap;
Contact project administrator via wechat jintianiloveu , if you want contribute, administrator will hand out you and id_file which is unique in our project;
All data will saved into ./weibo_detail , with different id separately.
Collect data to project administrator.
When all the work finished, administrator will distribute all data as one single file to all contributors. Using it under WT & TIANEYE COPYRIGHT .

Research & Discuss Group

We fund several group for our project:

 QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023

Wechat
add administrator `jintianiloveu` to be added in.

Tutorial

這是第一次commit遺失的部分，使用幫助：

 # -h see helps
python3 main.py -h

# -i specific an single id or id_file path(with every id as a line.)
python3 main.py -i 167385960
python3 main.py -i ./id_file

# -f specific filter mode, if 0, all weibo are all original, if 1, contains repost one, default is 0
python3 main.py -i 16758795 -f 0

# -d specific debug mode for testing, be aware debug mode only support one single id.
python3 main.py -i 178600077 -d 1

That's all, simple and easy.

About cookies

The cookies still maybe banned, if our scraper continues get information from weibo, that is exactly we have to get this job done under people's strength, no one can build such a big corpion padone strength, no one can build such a big corpional out one scorpion. banned, we strongly recommended using another weibo account which can be your friends or anyone else, and continue scrap, one thing you have to remind is that our weibo_terminator can remember scrap pro last 且 scrap last 1ember stit ) from scrapp

微博終結者爬蟲

關於聊天對話系統我後面會開源一個項目，這個repo目的是基於微博構建一個高品質的對話語料，本項目將繼續更進開發，大家快star！！永遠開源！

這個計畫致力於對抗微博的反爬蟲機制，集合眾人的力量把微博成千上萬的微博評論語料爬取下來並製作成一個開源的高質量中文對話語料，推動中文對話系統的研發。本系統現已實現：

爬取指定id用戶的微博數，追蹤數，粉絲數，所有微博內容以及所有微博對應的評論；
作者考慮到製作對話系統的可行性以及微博語料的難處理性，爬取過程中，所有微博會保存為可提取的形式，具體可以參考爬取結果保存樣例；
本專案不依賴任何第三方爬取框架，但手動實作了一個多執行緒函式庫，當爬取多用戶時會開啟上百條執行緒工作，爬取速度在每小時百萬層級；
本計畫最終目的是為了充分利用龐大的微博平台建構一個開源高品質的中文對話系統（據作者所知，許多公司對自己的數據視如珍寶，鄙之）；
除此之外，這個專案還可以用於指定用戶評論分析，例如爬取羅永浩的微博可以分析他第二年錘子手機的銷售量（牛逼把）

希望更多童鞋們contribute進來，還有很多工作要做，歡迎提交PR！

為人工智慧而生

中文語料一直備受詬病，沒有機構或組織去建立一些公開的資料集，反觀國外，英文語料相當豐富，而且已經做的非常精準。

微博語料作者認為是覆蓋最廣，最活躍最新鮮的語料，使用之構建對話系統不說模型是否精準，但新鮮的詞彙量是肯定有的。

爬取結果

指定使用者的微博和評論形式如下：

 E
4月15日#傲娇与偏见# 超前点映，跟我一起去抢光它 [太开心]  傲娇与偏见 8.8元超前点映  顺便预告一下，本周四（13号）下
午我会微博直播送福利，不见不散哦[坏笑]   电影傲娇与偏见的秒拍视频 <200b><200b><200b>
E
F
<哈哈哈哈哈哈狗->: 还唱吗[doge]
<緑麓>: 绿麓！
<哈哈哈哈哈哈狗->: [doge][doge]
<至诚dliraba>: 哈哈哈哈哈哈哈
<五只热巴肩上扛>: 大哥已经唱完了[哆啦A梦吃惊]
<哈哈哈哈哈哈狗->: 大哥[哆啦A梦吃惊]
<独爱Dear>: 10:49坐等我迪的直播[喵喵][喵喵][喵喵]
<四只热巴肩上扛>: 对不起[可怜]我不赶
<四只热巴肩上扛>: 哈狗[哆啦A梦花心][哆啦A梦花心]
<至诚dliraba>: 哈狗来了 哈哈哈
<四只热巴肩上扛>: [摊手]绿林鹿去哪里了！！！！
<哈哈哈哈哈哈狗->: 阿健[哆啦A梦花心]
<至诚dliraba>: 然而你还要赶我出去[喵喵]
<四只热巴肩上扛>: 我也很绝望
<至诚dliraba>: 只剩翻墙而来的我了
<四只热巴肩上扛>: [摊手]我能怎么办
<四只热巴肩上扛>: [摊手]一首歌唱到一半被掐断是一个歌手的耻辱[摊手]
<至诚dliraba>: 下一首
<四只热巴肩上扛>: 最害怕就是黑屋[摊手]
<至诚dliraba>: 我脑海一直是 跨过傲娇与偏见 永恒的信念
F

說明：