Ferramenta de preparação de corpus de PNL. Lembrete caloroso de que este projeto é utilizado apenas para pesquisas acadêmicas. O autor não se responsabiliza por uma série de consequências causadas por seu uso para outros fins. Cerca de dois anos se passaram. Quero atualizar este projeto novamente, apenas por uma questão de responsabilidade e crença. Esta atualização é a seguinte:
/usr/bin
usado como proxy por padrão. Como resultado, pode ser necessário instalar o plug-in Selenium do FireFox, chamado geckodriver.Parece que os links das imagens anteriores não estão mais disponíveis e devem ser excluídos diretamente. Só posso dizer que os provedores de servidores em nuvem domésticos são muito trapaceiros e mesquinhos. Eles cortarão seu link sem pagar. não é bom e todos os que deveriam ir à falência faliram.
Na verdade, o autor parou de praticar PNL dois anos depois. Depois de me formar na pós-graduação, comecei a trabalhar na área de direção autônoma, mas nunca desisti do trabalho de PNL. contando com meu interesse em PNL, fornecerei algumas informações interessantes:
O maior mercado de algoritmos de IA na China: http://manaai.cn
Alguns fóruns de comunicação sobre o sistema de perguntas e respostas: http://t.manaai.cn
Este projeto continuará sendo atualizado e mantido, obrigado pela atenção.
Mais de vinte dias se passaram desde que este projeto foi iniciado. Quinhentos anos depois, finalmente precisamos começar! ! Este projeto será mantido atualizado. Para facilitar as contribuições, relançei um projeto: https://github.com/jinfagang/weibo_terminator_workflow.git. Se você quiser contribuir com o crawling corpus juntos, você pode iniciar o projeto de fluxo de trabalho. ao mesmo tempo. Se quiser brincar com o rastreador do Weibo, você pode continuar acompanhando este projeto.
weibo_terminator O rastreador terminador do Weibo está basicamente pronto:
Desta vez, atualizamos os seguintes recursos:
Se você acha que isso é tudo que você tem, você estará arruinado. Pegue as roupas de Sanmu Tanmuzi. As atualizações mais importantes são:
realangelababy
. Para nos basearmos na enorme rede Weibo, lançamos o Projeto Terminator e trabalhamos juntos para rastrear o corpus do projeto chinês Weibo. Este repositório atualizado contém um arquivo weibo_id.list
, que contém os IDs de quase 8 milhões de usuários classificados em categorias. Não me pergunte como isso aconteceu. Em seguida, atribuímos a cada contribuidor um ID de um determinado intervalo, rastreamos todo o Weibo e, em seguida, carregamos os resultados em nosso disco interno da nuvem Baidu. Todos os dados incluem apenas todos os contribuidores e os autores do weibo_terminator. ser obtido. A declaração final é a seguinte. Este projeto refere-se a alguns projetos semelhantes, mas as funções implementadas por este projeto e a complexidade dos problemas considerados não são comparáveis às dos projetos acima. O que implementamos são as APIs web e Python3 mais recentes. e muitos outros projetos são baseados em scrapy. Este projeto não usa nenhuma biblioteca de rastreador semelhante, pelo simples fato de que os projetos construídos com essas bibliotecas carecem de flexibilidade, o que não gostamos muito. Espero que todos entendam.
Finalmente, todos ainda são bem-vindos para enviar problemas. Sempre abriremos o código, manteremos e atualizaremos! !
Dicas de contribuição:
git clone https://github.com/jinfagang/weibo_terminater.git
;settings/config.py
, siga as instruções lá;settings/accounts.py
, você pode usar várias contas agora, o terminator irá despachá-las automaticamente;python3 main.py -i realangelababy
, descarte um único usuário, defina settings/id_file
para descarte de vários usuários;jintianiloveu
, se você quiser contribuir, o administrador entregará a você e ao id_file que é único em nosso projeto;./weibo_detail
, com ID diferente separadamente.WT & TIANEYE COPYRIGHT
.Financiamos vários grupos para o nosso projeto:
QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023
Wechat
add administrator `jintianiloveu` to be added in.
Esta é a parte que falta no primeiro commit, use a ajuda:
# -h see helps
python3 main.py -h
# -i specific an single id or id_file path(with every id as a line.)
python3 main.py -i 167385960
python3 main.py -i ./id_file
# -f specific filter mode, if 0, all weibo are all original, if 1, contains repost one, default is 0
python3 main.py -i 16758795 -f 0
# -d specific debug mode for testing, be aware debug mode only support one single id.
python3 main.py -i 178600077 -d 1
Isso é tudo, simples e fácil.
Os cookies ainda podem ser banidos, se nosso raspador continuar recebendo informações do weibo, é exatamente isso que temos que fazer esse trabalho com a força das pessoas, ninguém pode construir um corpora tão grande sob um único poder se seus cookies estiverem desatualizados ou sendo. banido, recomendamos fortemente o uso de outra conta do weibo, que pode ser de seus amigos ou de qualquer outra pessoa, e continuar o scrap, uma coisa que você deve lembrar é que nosso weibo_terminator pode lembrar o progresso do scrap e irá fazer o scrap de onde parou da última vez :).
Em relação ao sistema de diálogo de bate-papo, abrirei um projeto posteriormente. O objetivo deste repositório é construir um material de diálogo de alta qualidade baseado no Weibo. Este projeto continuará a ser desenvolvido. ! Sempre código aberto!
Este projeto é dedicado a combater o mecanismo anti-rastreador do Weibo, reunindo a força de todos para rastrear milhares de corpus de comentários do Weibo e produzindo um corpus de diálogo chinês de código aberto e de alta qualidade para promover a pesquisa e o desenvolvimento de sistemas de diálogo chineses. Este sistema já implementou:
Espero que mais calçados infantis possam contribuir. Ainda há muito trabalho a ser feito. Bem-vindo ao enviar PR!
Os corpora chineses sempre foram criticados e não existem instituições ou organizações que estabeleçam alguns conjuntos de dados públicos. Em contraste, nos países estrangeiros, os corpora ingleses são bastante abundantes e foram elaborados com muita precisão.
O autor do corpus Weibo acredita que é o corpus com maior cobertura, mais ativo e mais recente. Não importa se o modelo é preciso ao usá-lo para construir um sistema de diálogo, mas há definitivamente um novo vocabulário.
Os formatos de comentários e Weibo do usuário designado são os seguintes:
E
4月15日#傲娇与偏见# 超前点映,跟我一起去抢光它 [太开心] 傲娇与偏见 8.8元超前点映 顺便预告一下,本周四(13号)下
午我会微博直播送福利,不见不散哦[坏笑] 电影傲娇与偏见的秒拍视频 <200b><200b><200b>
E
F
<哈哈哈哈哈哈狗->: 还唱吗[doge]
<緑麓>: 绿麓!
<哈哈哈哈哈哈狗->: [doge][doge]
<至诚dliraba>: 哈哈哈哈哈哈哈
<五只热巴肩上扛>: 大哥已经唱完了[哆啦A梦吃惊]
<哈哈哈哈哈哈狗->: 大哥[哆啦A梦吃惊]
<独爱Dear>: 10:49坐等我迪的直播[喵喵][喵喵][喵喵]
<四只热巴肩上扛>: 对不起[可怜]我不赶
<四只热巴肩上扛>: 哈狗[哆啦A梦花心][哆啦A梦花心]
<至诚dliraba>: 哈狗来了 哈哈哈
<四只热巴肩上扛>: [摊手]绿林鹿去哪里了!!!!
<哈哈哈哈哈哈狗->: 阿健[哆啦A梦花心]
<至诚dliraba>: 然而你还要赶我出去[喵喵]
<四只热巴肩上扛>: 我也很绝望
<至诚dliraba>: 只剩翻墙而来的我了
<四只热巴肩上扛>: [摊手]我能怎么办
<四只热巴肩上扛>: [摊手]一首歌唱到一半被掐断是一个歌手的耻辱[摊手]
<至诚dliraba>: 下一首
<四只热巴肩上扛>: 最害怕就是黑屋[摊手]
<至诚dliraba>: 我脑海一直是 跨过傲娇与偏见 永恒的信念
F
ilustrar:
O corpus rastreado agora é a versão original. Você pode começar aqui como usar o corpus. Ele pode ser usado para criar robôs de comentários de tópicos. formulário e código-fonte aberto. Claro, os calçados infantis interessados também podem me enviar um PR e selecionar a melhor solução para promover o andamento deste projeto.
Se você tiver alguma dúvida sobre o projeto, pode entrar em contato comigo pelo wechat: jintianiloveu
Problemas também são bem-vindos.
(c) 2017 Jin Fagang & Tianmu Inc. e autores do weibo_terminator LICENÇA Apache 2.0