Outil de préparation de corpus PNL. Rappel chaleureux que ce projet est utilisé uniquement à des fins de recherche académique. L'auteur n'assume aucune responsabilité pour une série de conséquences causées par son utilisation à d'autres fins. Environ deux ans se sont écoulés. Je souhaite à nouveau mettre à jour ce projet, juste par souci de responsabilité et de conviction. Cette mise à jour est la suivante :
/usr/bin
via Google ;Il semble que les liens d'images précédents ne soient plus disponibles et devraient être supprimés directement. Je peux seulement dire que les fournisseurs de serveurs cloud nationaux sont trop tricheurs et avares. Ils couperont votre lien sans payer. pas bon et tous ceux qui devraient faire faillite ont fait faillite.
En fait, l'auteur a arrêté de s'engager dans la PNL deux ans plus tard. Après avoir obtenu mon diplôme d'études supérieures, je me suis engagé dans un travail connexe dans le domaine de la conduite autonome, mais je n'ai jamais abandonné le travail en PNL. Le suivi ne m'empêche pas de le faire. m'appuyant sur mon intérêt pour la PNL, je vais vous fournir quelques informations intéressantes :
Le plus grand marché d’algorithmes d’IA en Chine : http://manaai.cn
Quelques forums de communication sur le système de questions/réponses : http://t.manaai.cn
Ce projet continuera à être mis à jour et maintenu, merci de votre attention.
Plus de vingt jours se sont écoulés depuis le lancement de ce projet. Cinq cents ans plus tard, il faut enfin que les choses démarrent ! ! Ce projet sera tenu à jour. Afin de faciliter les contributions, j'ai relancé un projet : https://github.com/jinfagang/weibo_terminator_workflow.git Si vous souhaitez contribuer à l'exploration du corpus ensemble, vous pouvez démarrer le projet de workflow. en même temps. Si vous souhaitez jouer avec le robot Weibo, vous pouvez continuer à suivre ce projet.
weibo_terminator Le robot d'exploration du terminateur Weibo est fondamentalement prêt :
Cette fois, nous avons mis à jour les fonctionnalités suivantes :
Si vous pensez que c'est tout ce que vous avez, vous serez ruiné. Prenez les vêtements de Sanmu Tanmuzi. Les mises à jour les plus importantes sont :
realangelababy
; Afin de nous baser sur l'immense réseau Weibo, nous avons lancé le projet Terminator et travaillé ensemble pour explorer le corpus du projet chinois Weibo. Ce référentiel mis à jour contient un fichier weibo_id.list
, qui contient les identifiants de près de 8 millions d'utilisateurs classés en catégories. Ne me demandez pas comment cela s'est produit. Ensuite, nous attribuons à chaque contributeur un identifiant d'une certaine plage, explorons tous les Weibo, puis téléchargeons les résultats sur notre disque cloud Baidu interne. Toutes les données incluent uniquement tous les contributeurs et les auteurs de weibo_terminator. être obtenu. La déclaration finale est la suivante. Ce projet fait référence à des projets similaires, mais les fonctions implémentées par ce projet et la complexité des problèmes considérés ne sont pas comparables à celles des projets ci-dessus. Ce que nous implémentons sont la dernière API web et Python3, et de nombreux autres projets sont basés sur Scrapy. Ce projet n'utilise aucune bibliothèque de robots similaire, pour la seule raison que les projets construits avec ces bibliothèques manquent de flexibilité, ce que nous n'aimons pas beaucoup. J'espère que tout le monde comprend.
Enfin, tout le monde est toujours invité à soumettre des problèmes. Nous l'ouvrirons toujours, le maintiendrons et le mettrons à jour ! !
Conseils de contribution :
git clone https://github.com/jinfagang/weibo_terminater.git
;settings/config.py
, suivez les instructions ici ;settings/accounts.py
, vous pouvez utiliser plusieurs comptes maintenant, le terminateur les enverra automatiquement ;python3 main.py -i realangelababy
, supprimez un seul utilisateur, définissez settings/id_file
pour la suppression multi-utilisateurs ;jintianiloveu
, si vous souhaitez contribuer, l'administrateur vous remettra un fichier id_file qui est unique dans notre projet ;./weibo_detail
, avec un identifiant différent séparément.WT & TIANEYE COPYRIGHT
.Nous finançons plusieurs groupes pour notre projet :
QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023
Wechat
add administrator `jintianiloveu` to be added in.
C'est la partie manquante du premier commit, utilisez l'aide :
# -h see helps
python3 main.py -h
# -i specific an single id or id_file path(with every id as a line.)
python3 main.py -i 167385960
python3 main.py -i ./id_file
# -f specific filter mode, if 0, all weibo are all original, if 1, contains repost one, default is 0
python3 main.py -i 16758795 -f 0
# -d specific debug mode for testing, be aware debug mode only support one single id.
python3 main.py -i 178600077 -d 1
C'est tout, simple et facile.
Les cookies sont peut-être encore interdits, si notre grattoir continue à obtenir des informations de Weibo, c'est exactement ce que nous devons faire avec la force des gens, personne ne peut construire un si grand corpus sous un seul pouvoir si vos cookies sont obsolètes ou sont. banni, nous vous recommandons fortement d'utiliser un autre compte Weibo qui peut être celui de vos amis ou de n'importe qui d'autre, et de continuer le scrap, une chose que vous devez rappeler est que notre weibo_terminator peut se souvenir de la progression du scrap et il le supprimera là où il s'est arrêté la dernière fois :)
Concernant le système de dialogue de chat, j'ouvrirai un projet plus tard. Le but de ce dépôt est de créer un matériel de dialogue de haute qualité basé sur Weibo. Ce projet continuera à être développé. Tout le monde, s'il vous plaît, jouez. ! Toujours open source !
Ce projet est dédié à la lutte contre le mécanisme anti-crawler de Weibo, en rassemblant les forces de chacun pour explorer des milliers de corpus de commentaires Weibo et en produisant un corpus de dialogue chinois open source de haute qualité pour promouvoir la recherche et le développement de systèmes de dialogue chinois. Ce système a désormais mis en œuvre :
J'espère que davantage de chaussures pour enfants pourront contribuer. Il y a encore beaucoup de travail à faire. Bienvenue pour soumettre des relations publiques !
Les corpus chinois ont toujours été critiqués et il n’existe aucune institution ou organisation pour établir des ensembles de données publiques. En revanche, dans les pays étrangers, les corpus anglais sont assez abondants et ont été constitués avec une grande précision.
L'auteur du corpus Weibo estime qu'il s'agit du corpus ayant la couverture la plus large, le plus actif et le plus récent. Peu importe que le modèle soit précis lorsqu'on l'utilise pour construire un système de dialogue, il existe certainement un nouveau vocabulaire.
Les formats Weibo et commentaires de l’utilisateur désigné sont les suivants :
E
4月15日#傲娇与偏见# 超前点映,跟我一起去抢光它 [太开心] 傲娇与偏见 8.8元超前点映 顺便预告一下,本周四(13号)下
午我会微博直播送福利,不见不散哦[坏笑] 电影傲娇与偏见的秒拍视频 <200b><200b><200b>
E
F
<哈哈哈哈哈哈狗->: 还唱吗[doge]
<緑麓>: 绿麓!
<哈哈哈哈哈哈狗->: [doge][doge]
<至诚dliraba>: 哈哈哈哈哈哈哈
<五只热巴肩上扛>: 大哥已经唱完了[哆啦A梦吃惊]
<哈哈哈哈哈哈狗->: 大哥[哆啦A梦吃惊]
<独爱Dear>: 10:49坐等我迪的直播[喵喵][喵喵][喵喵]
<四只热巴肩上扛>: 对不起[可怜]我不赶
<四只热巴肩上扛>: 哈狗[哆啦A梦花心][哆啦A梦花心]
<至诚dliraba>: 哈狗来了 哈哈哈
<四只热巴肩上扛>: [摊手]绿林鹿去哪里了!!!!
<哈哈哈哈哈哈狗->: 阿健[哆啦A梦花心]
<至诚dliraba>: 然而你还要赶我出去[喵喵]
<四只热巴肩上扛>: 我也很绝望
<至诚dliraba>: 只剩翻墙而来的我了
<四只热巴肩上扛>: [摊手]我能怎么办
<四只热巴肩上扛>: [摊手]一首歌唱到一半被掐断是一个歌手的耻辱[摊手]
<至诚dliraba>: 下一首
<四只热巴肩上扛>: 最害怕就是黑屋[摊手]
<至诚dliraba>: 我脑海一直是 跨过傲娇与偏见 永恒的信念
F
illustrer:
Le corpus exploré maintenant est la version originale. Vous pouvez commencer à partir d'ici sur la façon d'utiliser le corpus. Il peut être utilisé pour créer des robots de commentaires de sujets. Cependant, l'auteur continuera à développer des programmes de post-traitement pour transformer les données brutes de Weibo en données conversationnelles. formez-le et ouvrez-le. Bien entendu, les chaussures pour enfants intéressées sont également invitées à me soumettre un PR et à sélectionner la meilleure solution pour promouvoir l'avancement de ce projet.
Si vous avez des questions sur le projet, vous pouvez me contacter sur wechat : jintianiloveu
.
(c) 2017 Jin Fagang & Tianmu Inc. & auteurs weibo_terminator LICENCE Apache 2.0