NLP 코퍼스 준비 도구입니다. 이 프로젝트는 학술 연구에만 사용됩니다. 다른 목적으로 사용하여 발생하는 일련의 결과에 대해 저자는 어떠한 책임도 지지 않습니다. 약 2년의 시간이 흘렀습니다. 책임감과 신념을 위해 이 프로젝트를 다시 업데이트하고자 합니다.
/usr/bin
에 설치하면 됩니다.이전 사진 링크는 더 이상 사용할 수 없으며 직접 삭제해야 할 것 같습니다. 국내 클라우드 서버 제공업체는 너무 사기적이고 인색하며 일반적인 환경이 그럴 수도 있습니다. 좋지 않고 파산해야 할 사람들이 모두 파산했습니다.
실제로 저자는 2년 뒤 NLP 활동을 그만뒀다. 대학원을 졸업한 뒤 자율주행 분야 관련 업무에 종사했지만, 후속 조치도 NLP 업무를 포기한 적이 없다. NLP에 대한 나의 관심을 바탕으로 다음과 같은 최신 정보를 제공하겠습니다.
중국 최대 AI 알고리즘 시장: http://manaai.cn
질의응답 시스템에 관한 일부 커뮤니케이션 포럼: http://t.manaai.cn
본 프로젝트는 계속해서 업데이트 및 유지관리될 예정이니 많은 관심 부탁드립니다.
이 프로젝트가 시작된 지 20일 이상이 지났고, 500년이 지난 지금, 우리는 마침내 일을 시작해야 합니다! ! 이 프로젝트는 계속 업데이트됩니다. 기여를 촉진하기 위해 프로젝트를 다시 시작했습니다: https://github.com/jinfagang/weibo_terminator_workflow.git 크롤링 코퍼스에 함께 기여하려면 워크플로 프로젝트에 별표를 표시하세요. 동시에 Weibo 크롤러를 사용하고 싶다면 이 프로젝트를 계속 따라갈 수 있습니다.
weibo_terminator Weibo 터미네이터 크롤러는 기본적으로 준비되어 있습니다:
이번에 다음 기능을 업데이트했습니다.
이것이 전부라고 생각하면 산무탄무지의 옷을 빼앗게 됩니다. 더 중요한 업데이트는 다음과 같습니다.
realangelababy
입니다. 거대한 Weibo 네트워크를 기반으로 하기 위해 우리는 Terminator 프로젝트를 시작하고 Weibo 중국어 프로젝트 코퍼스를 크롤링하기 위해 협력했습니다. 이 업데이트된 저장소에는 카테고리별로 분류된 약 800만 명의 사용자 ID가 포함된 weibo_id.list
파일이 포함되어 있습니다. 어떻게 되었는지는 묻지 마세요. 다음으로 우리는 각 기여자에게 특정 범위의 ID를 할당하고 모든 Weibo를 크롤링한 다음 내부 Baidu 클라우드 디스크에 결과를 업로드합니다. 모든 데이터에는 모든 기여자와 weibo_terminator가 포함됩니다. 얻을 수 있습니다. 최종 진술은 다음과 같습니다. 이 프로젝트는 유사한 프로젝트를 참조하지만 이 프로젝트에서 구현한 기능과 고려된 문제의 복잡성은 위 프로젝트와 비교할 수 없습니다. 다른 많은 프로젝트는 scrapy를 기반으로 합니다. 이 프로젝트는 유사한 크롤러 라이브러리를 전혀 사용하지 않습니다. 다른 이유는 없지만 해당 라이브러리로 구축된 프로젝트에는 유연성이 부족하기 때문입니다. 모두가 이해하기를 바랍니다.
마지막으로, 누구나 문제를 제출할 수 있습니다. 우리는 항상 소스를 공개하고 유지 관리하고 업데이트할 것입니다! !
기여 팁:
git clone https://github.com/jinfagang/weibo_terminater.git
;settings/config.py
로 설정하고 거기에 있는 지침을 따르세요.settings/accounts.py
내에서 다중 계정을 설정하면 이제 다중 계정을 사용할 수 있으며 터미네이터가 자동으로 해당 계정을 발송합니다.python3 main.py -i realangelababy
실행하고, 단일 사용자를 스크랩하고, 다중 사용자 스크랩을 위해 settings/id_file
설정합니다.jintianiloveu
통해 프로젝트 관리자에게 문의하세요. 기여하고 싶다면 관리자가 귀하와 프로젝트에 고유한 id_file을 나눠줄 것입니다../weibo_detail
에 저장됩니다.WT & TIANEYE COPYRIGHT
에 따라 모든 데이터를 하나의 파일로 모든 기여자에게 배포합니다.우리는 프로젝트를 위해 여러 그룹에 자금을 지원합니다.
QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023
Wechat
add administrator `jintianiloveu` to be added in.
이것은 첫 번째 커밋에서 누락된 부분입니다. 도움말을 사용하세요.
# -h see helps
python3 main.py -h
# -i specific an single id or id_file path(with every id as a line.)
python3 main.py -i 167385960
python3 main.py -i ./id_file
# -f specific filter mode, if 0, all weibo are all original, if 1, contains repost one, default is 0
python3 main.py -i 16758795 -f 0
# -d specific debug mode for testing, be aware debug mode only support one single id.
python3 main.py -i 178600077 -d 1
그게 전부입니다. 간단하고 쉽습니다.
쿠키는 여전히 금지될 수 있습니다. 만약 우리 스크레이퍼가 계속해서 Weibo로부터 정보를 얻는다면, 그것은 정확히 우리가 사람들의 힘으로 이 일을 완수해야 한다는 것입니다. 쿠키가 오래되었거나 존재하지 않는다면 누구도 하나의 힘으로 그렇게 큰 자료를 구축할 수 없습니다. 금지되었으므로 친구나 다른 사람이 될 수 있는 다른 Weibo 계정을 사용하고 스크랩을 계속할 것을 강력히 권장합니다. 한 가지 기억해야 할 점은 weibo_terminator가 스크랩 진행 상황을 기억할 수 있으며 지난번에 중지된 위치부터 스크랩된다는 것입니다. :)
채팅 대화 시스템에 관해서는 나중에 프로젝트를 오픈할 예정입니다. 이 레포의 목적은 Weibo를 기반으로 한 고품질 대화 자료를 구축하는 것입니다. 여러분, 별표를 표시해 주세요. ! 언제나 오픈소스!
이 프로젝트는 Weibo의 크롤러 방지 메커니즘에 맞서 모든 사람의 힘을 모아 수천 개의 Weibo 댓글 자료를 크롤링하고 오픈 소스 고품질 중국어 대화 자료를 생산하여 중국어 대화 시스템의 연구 및 개발을 촉진하는 데 전념하고 있습니다. 이 시스템은 이제 다음을 구현했습니다.
더 많은 아동용 신발이 기여할 수 있기를 바랍니다. 아직 해야 할 일이 많습니다. PR을 제출해 주셔서 감사합니다.
중국어 말뭉치는 항상 비판을 받아 왔으며 일부 공개 데이터 세트를 구축할 기관이나 조직이 없습니다. 이에 비해 외국에서는 영어 말뭉치가 상당히 풍부하고 매우 정확하게 만들어졌습니다.
웨이보 코퍼스의 저자는 그것이 가장 광범위하고 가장 활동적이며 가장 신선한 코퍼스라고 믿습니다. 이를 대화 시스템 구축에 사용할 때 모델이 정확한지는 중요하지 않지만 확실히 신선한 어휘가 있습니다.
지정된 사용자의 웨이보 및 댓글 형식은 다음과 같습니다.
E
4月15日#傲娇与偏见# 超前点映,跟我一起去抢光它 [太开心] 傲娇与偏见 8.8元超前点映 顺便预告一下,本周四(13号)下
午我会微博直播送福利,不见不散哦[坏笑] 电影傲娇与偏见的秒拍视频 <200b><200b><200b>
E
F
<哈哈哈哈哈哈狗->: 还唱吗[doge]
<緑麓>: 绿麓!
<哈哈哈哈哈哈狗->: [doge][doge]
<至诚dliraba>: 哈哈哈哈哈哈哈
<五只热巴肩上扛>: 大哥已经唱完了[哆啦A梦吃惊]
<哈哈哈哈哈哈狗->: 大哥[哆啦A梦吃惊]
<独爱Dear>: 10:49坐等我迪的直播[喵喵][喵喵][喵喵]
<四只热巴肩上扛>: 对不起[可怜]我不赶
<四只热巴肩上扛>: 哈狗[哆啦A梦花心][哆啦A梦花心]
<至诚dliraba>: 哈狗来了 哈哈哈
<四只热巴肩上扛>: [摊手]绿林鹿去哪里了!!!!
<哈哈哈哈哈哈狗->: 阿健[哆啦A梦花心]
<至诚dliraba>: 然而你还要赶我出去[喵喵]
<四只热巴肩上扛>: 我也很绝望
<至诚dliraba>: 只剩翻墙而来的我了
<四只热巴肩上扛>: [摊手]我能怎么办
<四只热巴肩上扛>: [摊手]一首歌唱到一半被掐断是一个歌手的耻辱[摊手]
<至诚dliraba>: 下一首
<四只热巴肩上扛>: 最害怕就是黑屋[摊手]
<至诚dliraba>: 我脑海一直是 跨过傲娇与偏见 永恒的信念
F
설명하다:
현재 크롤링된 코퍼스는 원본 버전입니다. 코퍼스 사용법은 여기서부터 시작할 수 있습니다. 주제 댓글 로봇을 만드는 데 사용할 수 있습니다. 그러나 저자는 Weibo 원시 데이터를 대화형으로 변환하는 후처리 프로그램을 계속 개발할 것입니다. 양식을 작성하고 소스를 공개하세요. 물론, 관심 있는 아동용 신발에 대해 저에게 PR을 제출하고 이 프로젝트의 진행을 홍보할 수 있는 최상의 솔루션을 선택하는 것도 환영합니다.
프로젝트에 대해 궁금한 점이 있으시면 wechat: jintianiloveu
로 문의하실 수 있습니다. 문제도 환영합니다.
(c) 2017 Jin Fagang & Tianmu Inc. & weibo_terminator 작성자 라이센스 Apache 2.0