Herramienta de preparación de corpus de PNL. Recuerde que este proyecto solo se utiliza para investigación académica. El autor no asume ninguna responsabilidad por una serie de consecuencias derivadas de su uso para otros fines. Han pasado aproximadamente dos años. Quiero actualizar este proyecto nuevamente, solo por responsabilidad y confianza. Esta actualización es la siguiente.
/usr/bin
a través de Google.Parece que los enlaces de las imágenes anteriores ya no están disponibles y deberían eliminarse directamente. Solo puedo decir que los proveedores de servidores en la nube nacionales son demasiado engañosos y tacaños. También pueden cortar su enlace sin pagar. No es bueno y todos los que deberían quebrar, han quebrado.
De hecho, el autor dejó de dedicarse a la PNL dos años después. Después de graduarme de la escuela de posgrado, me dediqué a trabajos relacionados en el campo de la conducción autónoma, pero nunca abandoné el trabajo de PNL. Confiando en mi interés en la PNL, les proporcionaré información sobre las últimas novedades:
El mercado de algoritmos de IA más grande de China: http://manaai.cn
Algunos foros de comunicación sobre el sistema de preguntas y respuestas: http://t.manaai.cn
Este proyecto seguirá siendo actualizado y mantenido, gracias por su atención.
Han pasado más de veinte días desde que se inició este proyecto. Quinientos años después, ¡por fin tenemos que empezar! ! Este proyecto se mantendrá actualizado Para facilitar las contribuciones, he relanzado un proyecto: https://github.com/jinfagang/weibo_terminator_workflow.git Si desean contribuir juntos al rastreo del corpus, pueden iniciar el proyecto de flujo de trabajo. al mismo tiempo, si quieres jugar con el rastreador de Weibo, puedes continuar siguiendo este proyecto.
weibo_terminator El rastreador terminador de Weibo está básicamente listo:
Esta vez hemos actualizado las siguientes características:
Si crees que esto es todo lo que tienes, estarás arruinado. Toma la ropa de Sanmu Tanmuzi. Las actualizaciones más importantes son:
realangelababy
. Para basarnos en la enorme red Weibo, lanzamos el Proyecto Terminator y trabajamos juntos para rastrear el corpus del proyecto chino Weibo. Este repositorio actualizado contiene un archivo weibo_id.list
, que contiene las identificaciones de casi 8 millones de usuarios clasificados en categorías. No me preguntes cómo surgió. A continuación, asignamos a cada contribuyente una ID de un cierto rango, rastreamos todo Weibo y luego cargamos los resultados en nuestro disco interno en la nube de Baidu. Todos los datos solo incluyen a todos los contribuyentes y los autores de weibo_terminator. ser obtenido. La declaración final es la siguiente: Este proyecto se refiere a algunos proyectos similares, pero las funciones implementadas por este proyecto y la complejidad de los problemas considerados no son comparables a los de los proyectos anteriores. Lo que implementamos son las últimas API web y Python3. y muchos otros proyectos se basan en scrapy. Este proyecto no utiliza ninguna biblioteca de rastreo similar por la sencilla razón de que los proyectos creados con esas bibliotecas carecen de flexibilidad, lo cual no nos gusta mucho. Espero que todos entiendan.
Finalmente, todos pueden enviar problemas. ¡Siempre abriremos el código fuente y lo mantendremos y actualizaremos! !
Consejos de contribución:
git clone https://github.com/jinfagang/weibo_terminater.git
;settings/config.py
, siga las instrucciones allí;settings/accounts.py
, puede usar cuenta múltiple ahora, terminator las enviará automáticamente;python3 main.py -i realangelababy
, deseche a un solo usuario, establezca settings/id_file
para el desecho de múltiples usuarios;jintianiloveu
. Si desea contribuir, el administrador le entregará un id_file que es único en nuestro proyecto;./weibo_detail
, con una identificación diferente por separado.WT & TIANEYE COPYRIGHT
.Financiamos varios grupos para nuestro proyecto:
QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023
Wechat
add administrator `jintianiloveu` to be added in.
Esta es la parte que falta en la primera confirmación, utilice la ayuda:
# -h see helps
python3 main.py -h
# -i specific an single id or id_file path(with every id as a line.)
python3 main.py -i 167385960
python3 main.py -i ./id_file
# -f specific filter mode, if 0, all weibo are all original, if 1, contains repost one, default is 0
python3 main.py -i 16758795 -f 0
# -d specific debug mode for testing, be aware debug mode only support one single id.
python3 main.py -i 178600077 -d 1
Eso es todo, simple y fácil.
Las cookies aún pueden estar prohibidas, si nuestro raspador continúa obteniendo información de Weibo, eso es exactamente lo que tenemos que hacer con la fuerza de la gente, nadie puede construir corpus tan grandes con un solo poder si sus cookies están desactualizadas o están desactualizadas. prohibido, recomendamos encarecidamente usar otra cuenta de Weibo, que puede ser la de tus amigos o cualquier otra persona, y continuar con el scrap. Una cosa que debes recordar es que nuestro weibo_terminator puede recordar el progreso del scrap y lo borrará desde donde se detuvo la última vez :)
Con respecto al sistema de diálogo de chat, abriré un proyecto de código fuente más adelante. El propósito de este repositorio es crear material de diálogo de alta calidad basado en Weibo. ¡Este proyecto continuará desarrollándose! ! ¡Siempre código abierto!
Este proyecto está dedicado a combatir el mecanismo anti-rastreo de Weibo, reunir las fuerzas de todos para rastrear miles de corpus de comentarios de Weibo y producir un corpus de diálogo chino de código abierto y de alta calidad para promover la investigación y el desarrollo de sistemas de diálogo chinos. Este sistema ahora ha implementado:
Espero que más zapatos para niños puedan contribuir. ¡Todavía queda mucho trabajo por hacer! ¡Bienvenido a enviar relaciones públicas!
Los corpus chinos siempre han sido criticados y no existen instituciones u organizaciones para establecer algunos conjuntos de datos públicos. En cambio, en países extranjeros, los corpus ingleses son bastante abundantes y se han elaborado con mucha precisión.
El autor del corpus de Weibo cree que es el corpus con la cobertura más amplia, el más activo y el más fresco. No importa si el modelo es preciso al usarlo para construir un sistema de diálogo, pero definitivamente hay un vocabulario nuevo.
Los formatos de comentarios y Weibo del usuario designado son los siguientes:
E
4月15日#傲娇与偏见# 超前点映,跟我一起去抢光它 [太开心] 傲娇与偏见 8.8元超前点映 顺便预告一下,本周四(13号)下
午我会微博直播送福利,不见不散哦[坏笑] 电影傲娇与偏见的秒拍视频 <200b><200b><200b>
E
F
<哈哈哈哈哈哈狗->: 还唱吗[doge]
<緑麓>: 绿麓!
<哈哈哈哈哈哈狗->: [doge][doge]
<至诚dliraba>: 哈哈哈哈哈哈哈
<五只热巴肩上扛>: 大哥已经唱完了[哆啦A梦吃惊]
<哈哈哈哈哈哈狗->: 大哥[哆啦A梦吃惊]
<独爱Dear>: 10:49坐等我迪的直播[喵喵][喵喵][喵喵]
<四只热巴肩上扛>: 对不起[可怜]我不赶
<四只热巴肩上扛>: 哈狗[哆啦A梦花心][哆啦A梦花心]
<至诚dliraba>: 哈狗来了 哈哈哈
<四只热巴肩上扛>: [摊手]绿林鹿去哪里了!!!!
<哈哈哈哈哈哈狗->: 阿健[哆啦A梦花心]
<至诚dliraba>: 然而你还要赶我出去[喵喵]
<四只热巴肩上扛>: 我也很绝望
<至诚dliraba>: 只剩翻墙而来的我了
<四只热巴肩上扛>: [摊手]我能怎么办
<四只热巴肩上扛>: [摊手]一首歌唱到一半被掐断是一个歌手的耻辱[摊手]
<至诚dliraba>: 下一首
<四只热巴肩上扛>: 最害怕就是黑屋[摊手]
<至诚dliraba>: 我脑海一直是 跨过傲娇与偏见 永恒的信念
F
ilustrar:
El corpus rastreado ahora es la versión original. Puede comenzar desde aquí sobre cómo usar el corpus. Puede usarse para crear robots de comentarios de temas. Sin embargo, el autor continuará desarrollando programas de posprocesamiento para convertir los datos sin procesar de Weibo en conversacionales. forma y código abierto. Por supuesto, los zapatos para niños interesados también pueden enviarme un PR y seleccionar la mejor solución para promover el progreso de este proyecto.
Si tiene alguna pregunta sobre el proyecto, puede contactarme en wechat: jintianiloveu
. Los problemas también son bienvenidos.
(c) 2017 Jin Fagang & Tianmu Inc. y autores de weibo_terminator LICENCIA Apache 2.0