Descarga weibo_terminater - Descarga del código fuente weibo

weibo_terminater

Código Fuente de IA

1.0.0

Descargar

Terminador de Weibo

Herramienta de preparación de corpus de PNL. Recuerde que este proyecto solo se utiliza para investigación académica. El autor no asume ninguna responsabilidad por una serie de consecuencias derivadas de su uso para otros fines. Han pasado aproximadamente dos años. Quiero actualizar este proyecto nuevamente, solo por responsabilidad y confianza. Esta actualización es la siguiente.

Se agregaron algunas bibliotecas auxiliares para el registro para mostrar mejor la información. La biblioteca de registro proviene de alfred: http://github.com/jinfagang/alfred;
El controlador de PhantomJS ha sido abandonado y Firefox se utiliza como proxy de forma predeterminada. Como resultado, es posible que necesite instalar el complemento de selenio de Firefox, llamado geckodriver. Simplemente instálelo en /usr/bin a través de Google.
Se eliminaron algunos archivos innecesarios.

Parece que los enlaces de las imágenes anteriores ya no están disponibles y deberían eliminarse directamente. Solo puedo decir que los proveedores de servidores en la nube nacionales son demasiado engañosos y tacaños. También pueden cortar su enlace sin pagar. No es bueno y todos los que deberían quebrar, han quebrado.

De hecho, el autor dejó de dedicarse a la PNL dos años después. Después de graduarme de la escuela de posgrado, me dediqué a trabajos relacionados en el campo de la conducción autónoma, pero nunca abandoné el trabajo de PNL. Confiando en mi interés en la PNL, les proporcionaré información sobre las últimas novedades:

El mercado de algoritmos de IA más grande de China: http://manaai.cn
Algunos foros de comunicación sobre el sistema de preguntas y respuestas: http://t.manaai.cn

Este proyecto seguirá siendo actualizado y mantenido, gracias por su atención.

actualización tardía

Han pasado más de veinte días desde que se inició este proyecto. Quinientos años después, ¡por fin tenemos que empezar! ! Este proyecto se mantendrá actualizado Para facilitar las contribuciones, he relanzado un proyecto: https://github.com/jinfagang/weibo_terminator_workflow.git Si desean contribuir juntos al rastreo del corpus, pueden iniciar el proyecto de flujo de trabajo. al mismo tiempo, si quieres jugar con el rastreador de Weibo, puedes continuar siguiendo este proyecto.

2017-4-19 ¡Gran actualización! ! ! Lanzar el Plan Terminator de Weibo (Plan WT)

weibo_terminator El rastreador terminador de Weibo está básicamente listo:

Esta vez hemos actualizado las siguientes características:

Se agregó una estrategia de demora, que rastrea 10 páginas cada vez y hace una pausa de cinco minutos. Esto todavía no puede garantizar al 100% que la cuenta no será prohibida, ¡pero todavía tenemos estrategias! !
Ahora usamos más de una docena de cuentas para comenzar a rastrear al mismo tiempo. ¡Weibo_scraper cambiará automáticamente a la siguiente cuenta después de que se prohíba una cuenta! !
¡No es necesario configurar cookies! ! ! Hay que decir cosas importantes tres veces. Ya no necesitamos configurar las cookies manualmente. Solo necesitamos configurar la cuenta correspondiente en Accounts.py para obtenerlas automáticamente. También puede configurarlas y actualizarlas más tarde. caché de cookies y actualizarlas manualmente;

Si crees que esto es todo lo que tienes, estarás arruinado. Toma la ropa de Sanmu Tanmuzi. Las actualizaciones más importantes son:

Las identificaciones no se limitan a identificaciones numéricas. Las identificaciones de letras de algunas celebridades aún se están rastreando. La identificación predeterminada que actualizamos esta vez es Weibo de angelababy. Su identificación es: realangelababy .
El autor ha perfeccionado el script para extraer pares de chat del formato de conversación del contenido de Weibo, y la precisión de la conversación es de alrededor del 99% (considere el problema de derechos de autor, lo abriremos más adelante);
El autor envió una lista de casi 8 millones de ID de usuario divididas en categorías y se rastreó toda la red (considere las limitaciones oficiales de Weibo, no podemos distribuir toda la lista, solo como muestra, únase a nuestro equipo de colaboradores, le daremos a cada colaborador información única y parte única de id_file .);
El autor ha agregado una función de reanudación de puntos de interrupción . En esta actualización, nuestro rastreador recordará dónde rastreó la última vez. La segunda vez, rastreará directamente desde el último lugar interrumpido hasta rastrear todo Weibo, de modo que cuando se prohíban sus cookies. , simplemente cambia a una cuenta más pequeña y continúa subiendo;
Todo el trabajo se completará en medio mes. El corpus construido solo está disponible para los contribuyentes. Todos pueden contribuir a WT.

Para basarnos en la enorme red Weibo, lanzamos el Proyecto Terminator y trabajamos juntos para rastrear el corpus del proyecto chino Weibo. Este repositorio actualizado contiene un archivo weibo_id.list , que contiene las identificaciones de casi 8 millones de usuarios clasificados en categorías. No me preguntes cómo surgió. A continuación, asignamos a cada contribuyente una ID de un cierto rango, rastreamos todo Weibo y luego cargamos los resultados en nuestro disco interno en la nube de Baidu. Todos los datos solo incluyen a todos los contribuyentes y los autores de weibo_terminator. ser obtenido. La declaración final es la siguiente: Este proyecto se refiere a algunos proyectos similares, pero las funciones implementadas por este proyecto y la complejidad de los problemas considerados no son comparables a los de los proyectos anteriores. Lo que implementamos son las últimas API web y Python3. y muchos otros proyectos se basan en scrapy. Este proyecto no utiliza ninguna biblioteca de rastreo similar por la sencilla razón de que los proyectos creados con esas bibliotecas carecen de flexibilidad, lo cual no nos gusta mucho. Espero que todos entiendan.

Finalmente, todos pueden enviar problemas. ¡Siempre abriremos el código fuente y lo mantendremos y actualizaremos! !

Consejos de contribución:

Clona este repositorio: git clone https://github.com/jinfagang/weibo_terminater.git ;
Instale PhantomJS para habilitar la obtención automática de cookies de weibo_terminator, consígala desde aquí y configure su ruta de descompresión en settings/config.py , siga las instrucciones allí;
Configure su cuenta múltiple, dentro settings/accounts.py , puede usar cuenta múltiple ahora, terminator las enviará automáticamente;
Ejecute python3 main.py -i realangelababy , deseche a un solo usuario, establezca settings/id_file para el desecho de múltiples usuarios;
Póngase en contacto con el administrador del proyecto a través de wechat jintianiloveu . Si desea contribuir, el administrador le entregará un id_file que es único en nuestro proyecto;
Todos los datos se guardarán en ./weibo_detail , con una identificación diferente por separado.
Recoger datos al administrador del proyecto.
Cuando finalice todo el trabajo, el administrador distribuirá todos los datos como un solo archivo a todos los contribuyentes usándolo bajo WT & TIANEYE COPYRIGHT .

Grupo de investigación y discusión

Financiamos varios grupos para nuestro proyecto:

 QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023

Wechat
add administrator `jintianiloveu` to be added in.

Tutorial

Esta es la parte que falta en la primera confirmación, utilice la ayuda:

 # -h see helps
python3 main.py -h

# -i specific an single id or id_file path(with every id as a line.)
python3 main.py -i 167385960
python3 main.py -i ./id_file

# -f specific filter mode, if 0, all weibo are all original, if 1, contains repost one, default is 0
python3 main.py -i 16758795 -f 0

# -d specific debug mode for testing, be aware debug mode only support one single id.
python3 main.py -i 178600077 -d 1

Eso es todo, simple y fácil.

Acerca de las cookies

Las cookies aún pueden estar prohibidas, si nuestro raspador continúa obteniendo información de Weibo, eso es exactamente lo que tenemos que hacer con la fuerza de la gente, nadie puede construir corpus tan grandes con un solo poder si sus cookies están desactualizadas o están desactualizadas. prohibido, recomendamos encarecidamente usar otra cuenta de Weibo, que puede ser la de tus amigos o cualquier otra persona, y continuar con el scrap. Una cosa que debes recordar es que nuestro weibo_terminator puede recordar el progreso del scrap y lo borrará desde donde se detuvo la última vez :)

Rastreador terminador de Weibo

Con respecto al sistema de diálogo de chat, abriré un proyecto de código fuente más adelante. El propósito de este repositorio es crear material de diálogo de alta calidad basado en Weibo. ¡Este proyecto continuará desarrollándose! ! ¡Siempre código abierto!

Este proyecto está dedicado a combatir el mecanismo anti-rastreo de Weibo, reunir las fuerzas de todos para rastrear miles de corpus de comentarios de Weibo y producir un corpus de diálogo chino de código abierto y de alta calidad para promover la investigación y el desarrollo de sistemas de diálogo chinos. Este sistema ahora ha implementado:

Rastrear la cantidad de publicaciones de Weibo, la cantidad de seguidores, la cantidad de fanáticos, todo el contenido de Weibo y todos los comentarios correspondientes en Weibo del usuario de ID especificado;
El autor considera la viabilidad de crear un sistema de diálogo y la dificultad de procesar el corpus de Weibo. Durante el proceso de rastreo, todo Weibo se guardará en un formato extraíble. Para obtener más detalles, consulte el ejemplo de conservación de resultados de rastreo.
Este proyecto no depende de ningún marco de rastreo de terceros, sino que implementa manualmente una biblioteca de subprocesos múltiples. Al rastrear a varios usuarios, se iniciarán cientos de subprocesos y la velocidad de rastreo es de millones por hora;
El objetivo final de este proyecto es aprovechar al máximo la enorme plataforma Weibo para construir un sistema de diálogo chino de código abierto y de alta calidad (hasta donde sabe el autor, muchas empresas tratan sus propios datos como tesoros y los desprecian);
Además, este proyecto también se puede utilizar para analizar los comentarios de los usuarios designados. Por ejemplo, rastrear Weibo de Luo Yonghao puede analizar sus ventas de teléfonos móviles Smartisan en el segundo año (impresionante).

Espero que más zapatos para niños puedan contribuir. ¡Todavía queda mucho trabajo por hacer! ¡Bienvenido a enviar relaciones públicas!

Nacido para la inteligencia artificial

Los corpus chinos siempre han sido criticados y no existen instituciones u organizaciones para establecer algunos conjuntos de datos públicos. En cambio, en países extranjeros, los corpus ingleses son bastante abundantes y se han elaborado con mucha precisión.

El autor del corpus de Weibo cree que es el corpus con la cobertura más amplia, el más activo y el más fresco. No importa si el modelo es preciso al usarlo para construir un sistema de diálogo, pero definitivamente hay un vocabulario nuevo.

Resultados del rastreo

Los formatos de comentarios y Weibo del usuario designado son los siguientes:

 E
4月15日#傲娇与偏见# 超前点映，跟我一起去抢光它 [太开心]  傲娇与偏见 8.8元超前点映  顺便预告一下，本周四（13号）下
午我会微博直播送福利，不见不散哦[坏笑]   电影傲娇与偏见的秒拍视频 <200b><200b><200b>
E
F
<哈哈哈哈哈哈狗->: 还唱吗[doge]
<緑麓>: 绿麓！
<哈哈哈哈哈哈狗->: [doge][doge]
<至诚dliraba>: 哈哈哈哈哈哈哈
<五只热巴肩上扛>: 大哥已经唱完了[哆啦A梦吃惊]
<哈哈哈哈哈哈狗->: 大哥[哆啦A梦吃惊]
<独爱Dear>: 10:49坐等我迪的直播[喵喵][喵喵][喵喵]
<四只热巴肩上扛>: 对不起[可怜]我不赶
<四只热巴肩上扛>: 哈狗[哆啦A梦花心][哆啦A梦花心]
<至诚dliraba>: 哈狗来了 哈哈哈
<四只热巴肩上扛>: [摊手]绿林鹿去哪里了！！！！
<哈哈哈哈哈哈狗->: 阿健[哆啦A梦花心]
<至诚dliraba>: 然而你还要赶我出去[喵喵]
<四只热巴肩上扛>: 我也很绝望
<至诚dliraba>: 只剩翻墙而来的我了
<四只热巴肩上扛>: [摊手]我能怎么办
<四只热巴肩上扛>: [摊手]一首歌唱到一半被掐断是一个歌手的耻辱[摊手]
<至诚dliraba>: 下一首
<四只热巴肩上扛>: 最害怕就是黑屋[摊手]
<至诚dliraba>: 我脑海一直是 跨过傲娇与偏见 永恒的信念
F

ilustrar:

EE representa el principio y el fin del contenido de Weibo
FF representa el principio y el final de todos los comentarios.
<> en cada comentario es la identificación del usuario que inició el comentario y $$ es la identificación del usuario.

Trabajo futuro

El corpus rastreado ahora es la versión original. Puede comenzar desde aquí sobre cómo usar el corpus. Puede usarse para crear robots de comentarios de temas. Sin embargo, el autor continuará desarrollando programas de posprocesamiento para convertir los datos sin procesar de Weibo en conversacionales. forma y código abierto. Por supuesto, los zapatos para niños interesados también pueden enviarme un PR y seleccionar la mejor solución para promover el progreso de este proyecto.