Wir möchten Sie daran erinnern, dass dieses Projekt nur für die akademische Forschung verwendet wird. Der Autor übernimmt keine Verantwortung für eine Reihe von Konsequenzen, die sich aus der Verwendung für andere Zwecke ergeben. Aus Verantwortungs- und Glaubensgründen möchte ich dieses Projekt erneut aktualisieren.
/usr/bin
über Google.Es scheint, dass die vorherigen Bildlinks nicht mehr verfügbar sind und direkt gelöscht werden sollten. Ich kann nur sagen, dass inländische Cloud-Server-Anbieter zu schummeln und geizig sind. Es kann auch sein, dass die allgemeine Umgebung dies tut nicht gut und alle, die bankrott gehen sollten, sind bankrott gegangen.
Tatsächlich hörte der Autor zwei Jahre später auf, sich mit NLP zu beschäftigen. Nach meinem Abschluss beschäftigte ich mich mit verwandten Arbeiten im Bereich des autonomen Fahrens, aber ich habe die NLP-Arbeit nie aufgegeben Aufgrund meines Interesses an NLP stelle ich Ihnen einige interessante Informationen zur Verfügung:
Der größte Markt für KI-Algorithmen in China: http://manaai.cn
Einige Kommunikationsforen zum Frage- und Antwortsystem: http://t.manaai.cn
Dieses Projekt wird weiterhin aktualisiert und gepflegt. Vielen Dank für Ihre Aufmerksamkeit.
Mehr als zwanzig Tage sind vergangen, seit dieses Projekt ins Leben gerufen wurde. Fünfhundert Jahre später muss es endlich losgehen! ! Dieses Projekt wird auf dem neuesten Stand gehalten. Um Beiträge zu erleichtern, habe ich ein Projekt neu gestartet: https://github.com/jinfagang/weibo_terminator_workflow.git. Wenn Sie gemeinsam zum Crawling-Korpus beitragen möchten, können Sie das Workflow-Projekt starten Wenn Sie gleichzeitig mit dem Weibo-Crawler spielen möchten, können Sie dieses Projekt weiterhin verfolgen.
weibo_terminator Der Weibo-Terminator-Crawler ist im Grunde fertig:
Dieses Mal haben wir die folgenden Funktionen aktualisiert:
Wenn du denkst, dass das alles ist, was du hast, wirst du ruiniert sein. Nimm die Kleidung von Sanmu Tanmuzi. Die wichtigeren Updates sind:
realangelababy
Weibo. Um auf dem riesigen Weibo-Netzwerk zu basieren, haben wir das Terminator-Projekt gestartet und gemeinsam den Korpus des chinesischen Weibo-Projekts gecrawlt. Dieses aktualisierte Repo enthält eine weibo_id.list
Datei, die die IDs von fast 8 Millionen Benutzern enthält, die in Kategorien eingeteilt sind. Fragen Sie mich nicht, wie es dazu kam. Als nächstes weisen wir jedem Mitwirkenden eine ID eines bestimmten Bereichs zu, crawlen alle Weibo-Daten und laden die Ergebnisse dann auf unsere interne Baidu-Cloud-Festplatte hoch erhalten werden. Die abschließende Aussage lautet wie folgt: Dieses Projekt bezieht sich auf einige ähnliche Projekte, die von diesem Projekt implementierten Funktionen und die Komplexität der betrachteten Probleme sind jedoch nicht mit denen der oben genannten Projekte vergleichbar. und viele andere Projekte basieren auf Scrapy. Dieses Projekt verwendet überhaupt keine ähnlichen Crawler-Bibliotheken. Aus keinem anderen Grund mangelt es Projekten, die mit diesen Bibliotheken erstellt wurden, was uns nicht besonders gefällt. Ich hoffe, jeder versteht es.
Schließlich ist jeder weiterhin willkommen, Probleme einzureichen. Wir werden die Quelle immer öffnen und sie pflegen und aktualisieren! !
Beitragstipps:
git clone https://github.com/jinfagang/weibo_terminater.git
;settings/config.py
fest. Befolgen Sie die dortigen Anweisungen.settings/accounts.py
ein. Sie können jetzt Multi-Konten verwenden. Terminator sendet sie automatisch.python3 main.py -i realangelababy
aus, löschen Sie einen einzelnen Benutzer und legen Sie settings/id_file
für den Mehrbenutzer-Ausschuss fest.jintianiloveu
. Wenn Sie einen Beitrag leisten möchten, wird Ihnen der Administrator eine ID-Datei aushändigen, die in unserem Projekt einzigartig ist../weibo_detail
mit unterschiedlichen IDs separat gespeichert.WT & TIANEYE COPYRIGHT
.Wir fördern mehrere Gruppen für unser Projekt:
QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023
Wechat
add administrator `jintianiloveu` to be added in.
Dies ist der fehlende Teil des ersten Commits. Verwenden Sie die Hilfe:
# -h see helps
python3 main.py -h
# -i specific an single id or id_file path(with every id as a line.)
python3 main.py -i 167385960
python3 main.py -i ./id_file
# -f specific filter mode, if 0, all weibo are all original, if 1, contains repost one, default is 0
python3 main.py -i 16758795 -f 0
# -d specific debug mode for testing, be aware debug mode only support one single id.
python3 main.py -i 178600077 -d 1
Das ist alles, einfach und leicht.
Die Cookies sind möglicherweise immer noch verboten. Wenn unser Scraper weiterhin Informationen von Weibo erhält, müssen wir diese Aufgabe genau unter der Leitung der Menschen erledigen. Niemand kann unter einer einzigen Macht ein so großes Korpora aufbauen, wenn Ihre Cookies veraltet sind oder veraltet sind gesperrt, wir empfehlen dringend, ein anderes Weibo-Konto zu verwenden, das Ihre Freunde oder jemand anderes sein kann, und mit dem Schrott fortzufahren. Sie müssen daran denken, dass sich unser weibo_terminator den Schrott-Fortschritt merken kann und dort weiterschrottet, wo er das letzte Mal aufgehört hat :)
Was das Chat-Dialogsystem betrifft, werde ich später ein Projekt öffnen, das auf Weibo basiert. Dieses Projekt wird weiterentwickelt. ! Immer Open Source!
Dieses Projekt widmet sich der Bekämpfung des Anti-Crawler-Mechanismus von Weibo, der Bündelung aller Kräfte zum Crawlen Tausender Weibo-Kommentarkorpuss und der Erstellung eines hochwertigen Open-Source-Dialogkorpus für China, um die Forschung und Entwicklung chinesischer Dialogsysteme zu fördern. Dieses System hat nun Folgendes implementiert:
Ich hoffe, dass noch mehr Kinderschuhe dazu beitragen können. Es gibt noch viel zu tun!
Chinesische Korpora wurden schon immer kritisiert, und es gibt keine Institutionen oder Organisationen, die öffentliche Datensätze erstellen. Im Ausland gibt es dagegen recht viele englische Korpora, die sehr genau erstellt wurden.
Der Autor des Weibo-Korpus glaubt, dass es das umfassendste, aktivste und aktuellste Korpus ist. Beim Aufbau eines Dialogsystems spielt es keine Rolle, ob das Modell korrekt ist, aber es gibt definitiv ein frisches Vokabular.
Die Weibo- und Kommentarformate des designierten Benutzers sind wie folgt:
E
4月15日#傲娇与偏见# 超前点映,跟我一起去抢光它 [太开心] 傲娇与偏见 8.8元超前点映 顺便预告一下,本周四(13号)下
午我会微博直播送福利,不见不散哦[坏笑] 电影傲娇与偏见的秒拍视频 <200b><200b><200b>
E
F
<哈哈哈哈哈哈狗->: 还唱吗[doge]
<緑麓>: 绿麓!
<哈哈哈哈哈哈狗->: [doge][doge]
<至诚dliraba>: 哈哈哈哈哈哈哈
<五只热巴肩上扛>: 大哥已经唱完了[哆啦A梦吃惊]
<哈哈哈哈哈哈狗->: 大哥[哆啦A梦吃惊]
<独爱Dear>: 10:49坐等我迪的直播[喵喵][喵喵][喵喵]
<四只热巴肩上扛>: 对不起[可怜]我不赶
<四只热巴肩上扛>: 哈狗[哆啦A梦花心][哆啦A梦花心]
<至诚dliraba>: 哈狗来了 哈哈哈
<四只热巴肩上扛>: [摊手]绿林鹿去哪里了!!!!
<哈哈哈哈哈哈狗->: 阿健[哆啦A梦花心]
<至诚dliraba>: 然而你还要赶我出去[喵喵]
<四只热巴肩上扛>: 我也很绝望
<至诚dliraba>: 只剩翻墙而来的我了
<四只热巴肩上扛>: [摊手]我能怎么办
<四只热巴肩上扛>: [摊手]一首歌唱到一半被掐断是一个歌手的耻辱[摊手]
<至诚dliraba>: 下一首
<四只热巴肩上扛>: 最害怕就是黑屋[摊手]
<至诚dliraba>: 我脑海一直是 跨过傲娇与偏见 永恒的信念
F
veranschaulichen:
Bei dem jetzt gecrawlten Korpus handelt es sich um die Originalversion. Hier erfahren Sie, wie Sie den Korpus verwenden können, um Themenkommentarroboter zu erstellen. Der Autor wird jedoch weiterhin Nachbearbeitungsprogramme entwickeln, um Weibo-Rohdaten in Konversationsdaten umzuwandeln Form und Open Source. Selbstverständlich können interessierte Kinderschuhe auch gerne eine PR bei mir einreichen und die beste Lösung auswählen, um den Fortschritt dieses Projekts voranzutreiben.
Wenn Sie Fragen zum Projekt haben, können Sie mich über wechat kontaktieren: jintianiloveu
. Auch Probleme sind willkommen.
(c) 2017 Jin Fagang & Tianmu Inc. & weibo_terminator Autoren LIZENZ Apache 2.0