Download weibo_terminater - download do código-fonte weibo

weibo_terminater

Código-Fonte de IA

1.0.0

Baixar

Exterminador do Weibo

Ferramenta de preparação de corpus de PNL. Lembrete caloroso de que este projeto é utilizado apenas para pesquisas acadêmicas. O autor não se responsabiliza por uma série de consequências causadas por seu uso para outros fins. Cerca de dois anos se passaram. Quero atualizar este projeto novamente, apenas por uma questão de responsabilidade e crença. Esta atualização é a seguinte:

Adicionadas algumas bibliotecas auxiliares para registro para melhor exibição das informações. A biblioteca de registro vem de Alfred: http://github.com/jinfagang/alfred;
O driver do PhantomJS foi abandonado e o FireFox /usr/bin usado como proxy por padrão. Como resultado, pode ser necessário instalar o plug-in Selenium do FireFox, chamado geckodriver.
Removidos alguns arquivos desnecessários.

Parece que os links das imagens anteriores não estão mais disponíveis e devem ser excluídos diretamente. Só posso dizer que os provedores de servidores em nuvem domésticos são muito trapaceiros e mesquinhos. Eles cortarão seu link sem pagar. não é bom e todos os que deveriam ir à falência faliram.

Na verdade, o autor parou de praticar PNL dois anos depois. Depois de me formar na pós-graduação, comecei a trabalhar na área de direção autônoma, mas nunca desisti do trabalho de PNL. contando com meu interesse em PNL, fornecerei algumas informações interessantes:

O maior mercado de algoritmos de IA na China: http://manaai.cn
Alguns fóruns de comunicação sobre o sistema de perguntas e respostas: http://t.manaai.cn

Este projeto continuará sendo atualizado e mantido, obrigado pela atenção.

atualização tardia

Mais de vinte dias se passaram desde que este projeto foi iniciado. Quinhentos anos depois, finalmente precisamos começar! ! Este projeto será mantido atualizado. Para facilitar as contribuições, relançei um projeto: https://github.com/jinfagang/weibo_terminator_workflow.git. Se você quiser contribuir com o crawling corpus juntos, você pode iniciar o projeto de fluxo de trabalho. ao mesmo tempo. Se quiser brincar com o rastreador do Weibo, você pode continuar acompanhando este projeto.

19/04/2017 Grande atualização! ! ! Lançar Plano Weibo Terminator (Plano WT)

weibo_terminator O rastreador terminador do Weibo está basicamente pronto:

Desta vez, atualizamos os seguintes recursos:

Uma estratégia de atraso foi adicionada, rastreando 10 páginas de cada vez e pausando por cinco minutos. Isso ainda não pode garantir 100% que a conta não será banida, mas ainda temos estratégias! !
Agora usamos mais de uma dúzia de contas para começar a rastrear ao mesmo tempo, o weibo_scraper mudará automaticamente para a próxima conta depois que uma conta for banida! !
Não há necessidade de definir cookies! ! ! Coisas importantes precisam ser ditas três vezes. Não precisamos mais definir os cookies manualmente. Só precisamos definir a conta correspondente em accounts.py. Você também pode configurá-los e atualizá-los mais tarde. cache de cookies e atualizá-los manualmente;

Se você acha que isso é tudo que você tem, você estará arruinado. Pegue as roupas de Sanmu Tanmuzi. As atualizações mais importantes são:

Os IDs não estão limitados a IDs numéricos. Os IDs de letras de algumas celebridades ainda estão rastreando. O ID padrão que atualizamos desta vez é o Weibo de realangelababy .
O autor aperfeiçoou o script para extrair pares de bate-papo do formato de conversa do conteúdo do Weibo, e a precisão da conversa é de cerca de 99% (considere a questão dos direitos autorais, abriremos o código mais tarde);
O autor enviou uma lista de quase 8 milhões de IDs de usuários divididos em categorias, e toda a rede foi rastreada (considere as limitações oficiais do Weibo, não podemos distribuir toda a lista, apenas para amostra, junte-se à nossa equipe de colaboradores, daremos a cada colaborador um único e parte única de id_file .);
O autor adicionou uma função de resumo de ponto de interrupção nesta atualização, nosso rastreador lembrará onde rastreou pela última vez, ele rastreará diretamente do último local interrompido até rastrear todo o Weibo, então, quando você rastrear seus cookies, eles serão banidos. , basta mudar para uma conta menor e continuar subindo;
Todo o trabalho será concluído em meio mês. O corpus construído está disponível apenas para contribuidores. Todos são bem-vindos para contribuir com o WT.

Para nos basearmos na enorme rede Weibo, lançamos o Projeto Terminator e trabalhamos juntos para rastrear o corpus do projeto chinês Weibo. Este repositório atualizado contém um arquivo weibo_id.list , que contém os IDs de quase 8 milhões de usuários classificados em categorias. Não me pergunte como isso aconteceu. Em seguida, atribuímos a cada contribuidor um ID de um determinado intervalo, rastreamos todo o Weibo e, em seguida, carregamos os resultados em nosso disco interno da nuvem Baidu. Todos os dados incluem apenas todos os contribuidores e os autores do weibo_terminator. ser obtido. A declaração final é a seguinte. Este projeto refere-se a alguns projetos semelhantes, mas as funções implementadas por este projeto e a complexidade dos problemas considerados não são comparáveis às dos projetos acima. O que implementamos são as APIs web e Python3 mais recentes. e muitos outros projetos são baseados em scrapy. Este projeto não usa nenhuma biblioteca de rastreador semelhante, pelo simples fato de que os projetos construídos com essas bibliotecas carecem de flexibilidade, o que não gostamos muito. Espero que todos entendam.

Finalmente, todos ainda são bem-vindos para enviar problemas. Sempre abriremos o código, manteremos e atualizaremos! !

Dicas de contribuição:

Clone este repositório: git clone https://github.com/jinfagang/weibo_terminater.git ;
Instale o PhantomJS para permitir que o weibo_terminator obtenha cookies automaticamente, obtenha-o aqui e defina seu caminho de descompactação para settings/config.py , siga as instruções lá;
Defina sua conta múltipla, dentro settings/accounts.py , você pode usar várias contas agora, o terminator irá despachá-las automaticamente;
Execute python3 main.py -i realangelababy , descarte um único usuário, defina settings/id_file para descarte de vários usuários;
Entre em contato com o administrador do projeto via wechat jintianiloveu , se você quiser contribuir, o administrador entregará a você e ao id_file que é único em nosso projeto;
Todos os dados serão salvos em ./weibo_detail , com ID diferente separadamente.
Colete dados para o administrador do projeto.
Quando todo o trabalho terminar, o administrador distribuirá todos os dados como um único arquivo para todos os contribuidores. Usando-os sob WT & TIANEYE COPYRIGHT .

Grupo de Pesquisa e Discussão

Financiamos vários grupos para o nosso projeto:

 QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023

Wechat
add administrator `jintianiloveu` to be added in.

Tutorial

Esta é a parte que falta no primeiro commit, use a ajuda:

 # -h see helps
python3 main.py -h

# -i specific an single id or id_file path(with every id as a line.)
python3 main.py -i 167385960
python3 main.py -i ./id_file

# -f specific filter mode, if 0, all weibo are all original, if 1, contains repost one, default is 0
python3 main.py -i 16758795 -f 0

# -d specific debug mode for testing, be aware debug mode only support one single id.
python3 main.py -i 178600077 -d 1

Isso é tudo, simples e fácil.

Sobre cookies

Os cookies ainda podem ser banidos, se nosso raspador continuar recebendo informações do weibo, é exatamente isso que temos que fazer esse trabalho com a força das pessoas, ninguém pode construir um corpora tão grande sob um único poder se seus cookies estiverem desatualizados ou sendo. banido, recomendamos fortemente o uso de outra conta do weibo, que pode ser de seus amigos ou de qualquer outra pessoa, e continuar o scrap, uma coisa que você deve lembrar é que nosso weibo_terminator pode lembrar o progresso do scrap e irá fazer o scrap de onde parou da última vez :).

Rastreador de terminação do Weibo

Em relação ao sistema de diálogo de bate-papo, abrirei um projeto posteriormente. O objetivo deste repositório é construir um material de diálogo de alta qualidade baseado no Weibo. Este projeto continuará a ser desenvolvido. ! Sempre código aberto!

Este projeto é dedicado a combater o mecanismo anti-rastreador do Weibo, reunindo a força de todos para rastrear milhares de corpus de comentários do Weibo e produzindo um corpus de diálogo chinês de código aberto e de alta qualidade para promover a pesquisa e o desenvolvimento de sistemas de diálogo chineses. Este sistema já implementou:

Rastrear o número de postagens do Weibo, número de seguidores, número de fãs, todo o conteúdo do Weibo e todos os comentários correspondentes no Weibo do usuário ID especificado;
O autor considera a viabilidade de criar um sistema de diálogo e a dificuldade de processar o corpus do Weibo. Durante o processo de rastreamento, todo o Weibo será salvo em um formato extraível. Para obter detalhes, consulte o exemplo de preservação dos resultados do rastreamento.
Este projeto não depende de nenhuma estrutura de rastreamento de terceiros, mas implementa manualmente uma biblioteca multithread. Ao rastrear vários usuários, centenas de threads começarão a funcionar e a velocidade de rastreamento será de milhões por hora;
O objetivo final deste projeto é aproveitar ao máximo a enorme plataforma Weibo para construir um sistema de diálogo chinês de código aberto e de alta qualidade (até onde o autor sabe, muitas empresas tratam seus próprios dados como tesouros e os desprezam);
Além disso, este projeto também pode ser usado para analisar comentários de usuários designados. Por exemplo, o rastreamento do Weibo de Luo Yonghao pode analisar suas vendas de telefones celulares Smartisan no segundo ano (incrível).

Espero que mais calçados infantis possam contribuir. Ainda há muito trabalho a ser feito. Bem-vindo ao enviar PR!

Nascido para a inteligência artificial

Os corpora chineses sempre foram criticados e não existem instituições ou organizações que estabeleçam alguns conjuntos de dados públicos. Em contraste, nos países estrangeiros, os corpora ingleses são bastante abundantes e foram elaborados com muita precisão.

O autor do corpus Weibo acredita que é o corpus com maior cobertura, mais ativo e mais recente. Não importa se o modelo é preciso ao usá-lo para construir um sistema de diálogo, mas há definitivamente um novo vocabulário.

Resultados de rastreamento

Os formatos de comentários e Weibo do usuário designado são os seguintes:

 E
4月15日#傲娇与偏见# 超前点映，跟我一起去抢光它 [太开心]  傲娇与偏见 8.8元超前点映  顺便预告一下，本周四（13号）下
午我会微博直播送福利，不见不散哦[坏笑]   电影傲娇与偏见的秒拍视频 <200b><200b><200b>
E
F
<哈哈哈哈哈哈狗->: 还唱吗[doge]
<緑麓>: 绿麓！
<哈哈哈哈哈哈狗->: [doge][doge]
<至诚dliraba>: 哈哈哈哈哈哈哈
<五只热巴肩上扛>: 大哥已经唱完了[哆啦A梦吃惊]
<哈哈哈哈哈哈狗->: 大哥[哆啦A梦吃惊]
<独爱Dear>: 10:49坐等我迪的直播[喵喵][喵喵][喵喵]
<四只热巴肩上扛>: 对不起[可怜]我不赶
<四只热巴肩上扛>: 哈狗[哆啦A梦花心][哆啦A梦花心]
<至诚dliraba>: 哈狗来了 哈哈哈
<四只热巴肩上扛>: [摊手]绿林鹿去哪里了！！！！
<哈哈哈哈哈哈狗->: 阿健[哆啦A梦花心]
<至诚dliraba>: 然而你还要赶我出去[喵喵]
<四只热巴肩上扛>: 我也很绝望
<至诚dliraba>: 只剩翻墙而来的我了
<四只热巴肩上扛>: [摊手]我能怎么办
<四只热巴肩上扛>: [摊手]一首歌唱到一半被掐断是一个歌手的耻辱[摊手]
<至诚dliraba>: 下一首
<四只热巴肩上扛>: 最害怕就是黑屋[摊手]
<至诚dliraba>: 我脑海一直是 跨过傲娇与偏见 永恒的信念
F

ilustrar:

EE representa o início e o fim do conteúdo do Weibo
FF representa o início e o fim de todos os comentários
<> em cada comentário está o id do usuário que iniciou o comentário e $$ é o id do usuário at.

Trabalho Futuro

O corpus rastreado agora é a versão original. Você pode começar aqui como usar o corpus. Ele pode ser usado para criar robôs de comentários de tópicos. formulário e código-fonte aberto. Claro, os calçados infantis interessados também podem me enviar um PR e selecionar a melhor solução para promover o andamento deste projeto.