เครื่องมือเตรียมคลัง NLP คำเตือนว่าโครงการนี้ใช้เพื่อการวิจัยเชิงวิชาการเท่านั้น ผู้เขียนไม่รับผิดชอบต่อผลที่ตามมาที่ตามมาจากการนำไปใช้เพื่อวัตถุประสงค์อื่น ผ่านไปประมาณสองปีแล้ว ฉันต้องการอัปเดตโครงการนี้อีกครั้งเพียงเพื่อความรับผิดชอบและความเชื่อเท่านั้น
/usr/bin
ผ่านทาง Googleดูเหมือนว่าลิงก์รูปภาพก่อนหน้านี้จะไม่สามารถใช้งานได้อีกต่อไปและควรลบออกโดยตรง ฉันบอกได้แค่ว่าผู้ให้บริการคลาวด์ในประเทศนั้นโกงและตระหนี่เกินไป ไม่ดีและทุกคนที่ควรล้มละลายก็ล้มละลายไปแล้ว
จริงๆ แล้ว ผู้เขียนหยุดมีส่วนร่วมใน NLP ในอีกสองปีต่อมา หลังจากสำเร็จการศึกษา ฉันได้ทำงานที่เกี่ยวข้องในสาขาการขับขี่แบบอัตโนมัติ แต่ฉันไม่เคยละทิ้งงาน NLP เลย การติดตามผลไม่ได้ขัดขวางฉัน ขึ้นอยู่กับความสนใจของฉันใน NLP เพื่อจุดประสงค์นี้ ฉันจะให้ข้อมูลที่น่าสนใจล่าสุดแก่คุณ
ตลาดอัลกอริทึม AI ที่ใหญ่ที่สุดในจีน: http://manaai.cn
ฟอรัมการสื่อสารบางส่วนเกี่ยวกับระบบคำถามและคำตอบ: http://t.manaai.cn
โครงการนี้จะได้รับการอัปเดตและบำรุงรักษาต่อไป ขอขอบคุณสำหรับความสนใจของคุณ
กว่ายี่สิบวันผ่านไปนับตั้งแต่เริ่มโครงการนี้ ห้าร้อยปีต่อมา ในที่สุดเราก็ต้องเริ่มต้นกัน! - โปรเจ็กต์นี้จะได้รับการอัปเดตเสมอ เพื่ออำนวยความสะดวกในการมีส่วนร่วม ฉันได้เปิดตัวโปรเจ็กต์อีกครั้ง: https://github.com/jinfagang/weibo_terminator_workflow.git หากคุณต้องการมีส่วนร่วมในการรวบรวมข้อมูลคลังข้อมูลร่วมกัน คุณสามารถติดดาวโปรเจ็กต์เวิร์กโฟลว์ได้ พร้อมกันนี้ หากคุณต้องการเล่นกับ Weibo crawler คุณสามารถติดตามโปรเจ็กต์นี้ต่อไปได้
weibo_terminator โปรแกรมรวบรวมข้อมูล weibo terminator พร้อมแล้ว:
ครั้งนี้เราได้อัปเดตคุณสมบัติดังต่อไปนี้:
หากคุณคิดว่านี่คือทั้งหมดที่คุณมี คุณจะถูกทำลาย นำเสื้อผ้าจาก Sanmu Tanmuzi ไป การอัปเดตที่สำคัญกว่าคือ:
realangelababy
เพื่อให้อิงตามเครือข่าย Weibo ขนาดใหญ่ เราได้เปิดตัว Terminator Project และทำงานร่วมกันเพื่อรวบรวมข้อมูลคลังข้อมูลโครงการ Weibo Chinese ที่อัปเดตนี้มีไฟล์ weibo_id.list
ซึ่งมี ID ของผู้ใช้เกือบ 8 ล้านคนที่แยกเป็นหมวดหมู่ อย่าถามฉันว่ามันเกิดขึ้นได้อย่างไร ต่อไป เราจะกำหนด ID ของผู้มีส่วนร่วมแต่ละคน รวบรวมข้อมูล Weibo ทั้งหมด จากนั้นอัปโหลดผลลัพธ์ไปยังดิสก์คลาวด์ Baidu ภายในของเรา ข้อมูลทั้งหมดจะรวมเฉพาะผู้มีส่วนร่วมทั้งหมดและผู้เขียน weibo_terminator เท่านั้น จะได้รับ ข้อความสุดท้ายมีดังนี้ โปรเจ็กต์นี้อ้างถึงโปรเจ็กต์ที่คล้ายกัน แต่ฟังก์ชันและความซับซ้อนของปัญหาที่โปรเจ็กต์นี้นำไปใช้นั้นเทียบไม่ได้กับโปรเจ็กต์ข้างต้น สิ่งที่เรานำไปใช้คือเว็บ API และ Python3 ล่าสุด และอื่นๆ อีกมากมาย โปรเจ็กต์อื่นๆ อิงจาก Scrapy โปรเจ็กต์นี้ไม่ได้ใช้ไลบรารีโปรแกรมรวบรวมข้อมูลที่คล้ายกันเลย ด้วยเหตุผลอื่นใดนอกจากโปรเจ็กต์ที่สร้างด้วยไลบรารีเหล่านั้นซึ่งขาดความยืดหยุ่นซึ่งเราไม่ชอบมากนัก หวังว่าทุกคนจะเข้าใจ
สุดท้ายนี้ ทุกคนยังสามารถส่งปัญหาได้ เราจะเปิดซอร์สและดูแลรักษาและอัปเดตอยู่เสมอ! -
เคล็ดลับการบริจาค:
git clone https://github.com/jinfagang/weibo_terminater.git
;settings/config.py
ทำตามคำแนะนำที่นั่นsettings/accounts.py
คุณสามารถใช้หลายบัญชีได้ทันที ผู้ยุติจะจัดส่งบัญชีเหล่านั้นโดยอัตโนมัติpython3 main.py -i realangelababy
, สร้างผู้ใช้คนเดียว, ตั้ง settings/id_file
สำหรับผู้ใช้หลายคนjintianiloveu
หากคุณต้องการมีส่วนร่วม ผู้ดูแลระบบจะแจกให้คุณและ id_file ซึ่งเป็นเอกลักษณ์ในโครงการของเรา./weibo_detail
โดยมี ID ที่แตกต่างกันแยกกันWT & TIANEYE COPYRIGHT
เราให้ทุนหลายกลุ่มสำหรับโครงการของเรา:
QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023
Wechat
add administrator `jintianiloveu` to be added in.
นี่เป็นส่วนที่ขาดหายไปของการคอมมิตครั้งแรก ใช้ help:
# -h see helps
python3 main.py -h
# -i specific an single id or id_file path(with every id as a line.)
python3 main.py -i 167385960
python3 main.py -i ./id_file
# -f specific filter mode, if 0, all weibo are all original, if 1, contains repost one, default is 0
python3 main.py -i 16758795 -f 0
# -d specific debug mode for testing, be aware debug mode only support one single id.
python3 main.py -i 178600077 -d 1
นั่นคือทั้งหมดที่ง่ายและสะดวก
คุกกี้อาจถูกแบน หากเครื่องขูดของเรายังคงได้รับข้อมูลจาก weibo นั่นคือเราต้องทำงานนี้ให้สำเร็จโดยอาศัยความเข้มแข็งของผู้คน ไม่มีใครสามารถสร้างองค์กรขนาดใหญ่ได้ภายใต้พาวเวอร์เดียว หากคุกกี้ของคุณล้าสมัยหรือเป็นอยู่ ถูกแบน เราขอแนะนำอย่างยิ่งให้ใช้บัญชี weibo อื่นซึ่งอาจเป็นเพื่อนของคุณหรือใครก็ตาม และทำเรื่องที่สนใจต่อไป สิ่งหนึ่งที่คุณต้องเตือนก็คือ weibo_terminator ของเราสามารถจดจำความคืบหน้าของเรื่องที่สนใจได้ และมันจะลบจากจุดที่หยุดไปในครั้งที่แล้ว :)
เกี่ยวกับระบบการสนทนาแชท ฉันจะเปิดโปรเจ็กต์ในภายหลัง จุดประสงค์ของ repo นี้คือเพื่อสร้างเนื้อหาการสนทนาคุณภาพสูงจาก Weibo โปรเจ็กต์นี้จะได้รับการพัฒนาต่อไป ทุกคน โปรดติดดาว! - โอเพ่นซอร์สเสมอ!
โปรเจ็กต์นี้มีจุดมุ่งหมายเพื่อต่อสู้กับกลไกต่อต้านการรวบรวมข้อมูลของ Weibo โดยรวบรวมความพยายามของทุกคนในการรวบรวมข้อมูลคลังความคิดเห็นของ Weibo หลายพันรายการ และสร้างคลังบทสนทนาภาษาจีนคุณภาพสูงแบบโอเพ่นซอร์ส เพื่อส่งเสริมการวิจัยและพัฒนาระบบบทสนทนาภาษาจีน ระบบนี้ได้นำไปใช้แล้ว:
ฉันหวังว่ารองเท้าเด็กจะสามารถช่วยได้อีกมาก ยังมีงานที่ต้องทำอีกมาก ยินดีส่ง PR!
องค์กรของจีนถูกวิพากษ์วิจารณ์มาโดยตลอด และไม่มีสถาบันหรือองค์กรใดที่จะสร้างชุดข้อมูลสาธารณะบางชุด ในทางตรงกันข้าม ในต่างประเทศ องค์กรภาษาอังกฤษมีค่อนข้างมากและมีความแม่นยำมาก
ผู้เขียน Weibo Corpus เชื่อว่าเป็นคลังข้อมูลที่มีความครอบคลุมมากที่สุด มีความกระตือรือร้นมากที่สุดและใหม่ที่สุด ไม่สำคัญว่าแบบจำลองจะแม่นยำหรือไม่เมื่อใช้เพื่อสร้างระบบการสนทนา แต่มีคำศัพท์ที่สดใหม่อย่างแน่นอน
รูปแบบ Weibo และความคิดเห็นของผู้ใช้ที่กำหนดมีดังนี้:
E
4月15日#傲娇与偏见# 超前点映,跟我一起去抢光它 [太开心] 傲娇与偏见 8.8元超前点映 顺便预告一下,本周四(13号)下
午我会微博直播送福利,不见不散哦[坏笑] 电影傲娇与偏见的秒拍视频 <200b><200b><200b>
E
F
<哈哈哈哈哈哈狗->: 还唱吗[doge]
<緑麓>: 绿麓!
<哈哈哈哈哈哈狗->: [doge][doge]
<至诚dliraba>: 哈哈哈哈哈哈哈
<五只热巴肩上扛>: 大哥已经唱完了[哆啦A梦吃惊]
<哈哈哈哈哈哈狗->: 大哥[哆啦A梦吃惊]
<独爱Dear>: 10:49坐等我迪的直播[喵喵][喵喵][喵喵]
<四只热巴肩上扛>: 对不起[可怜]我不赶
<四只热巴肩上扛>: 哈狗[哆啦A梦花心][哆啦A梦花心]
<至诚dliraba>: 哈狗来了 哈哈哈
<四只热巴肩上扛>: [摊手]绿林鹿去哪里了!!!!
<哈哈哈哈哈哈狗->: 阿健[哆啦A梦花心]
<至诚dliraba>: 然而你还要赶我出去[喵喵]
<四只热巴肩上扛>: 我也很绝望
<至诚dliraba>: 只剩翻墙而来的我了
<四只热巴肩上扛>: [摊手]我能怎么办
<四只热巴肩上扛>: [摊手]一首歌唱到一半被掐断是一个歌手的耻辱[摊手]
<至诚dliraba>: 下一首
<四只热巴肩上扛>: 最害怕就是黑屋[摊手]
<至诚dliraba>: 我脑海一直是 跨过傲娇与偏见 永恒的信念
F
แสดงให้เห็น:
คลังข้อมูลที่รวบรวมข้อมูลตอนนี้เป็นเวอร์ชันดั้งเดิม คุณสามารถเริ่มต้นจากที่นี่เกี่ยวกับวิธีใช้คลังข้อมูลซึ่งสามารถใช้เพื่อสร้างหุ่นยนต์แสดงความคิดเห็นในหัวข้อได้ อย่างไรก็ตาม ผู้เขียนจะยังคงพัฒนาโปรแกรมหลังการประมวลผลต่อไปเพื่อเปลี่ยนข้อมูลดิบของ Weibo ให้เป็นการสนทนา รูปแบบและโอเพ่นซอร์ส แน่นอนว่ารองเท้าเด็กที่สนใจสามารถส่งประชาสัมพันธ์ให้ฉันและเลือกแนวทางที่ดีที่สุดเพื่อส่งเสริมความก้าวหน้าของโครงการนี้ได้
หากคุณมีคำถามใด ๆ เกี่ยวกับโครงการ คุณสามารถติดต่อฉันได้ที่ wechat: jintianiloveu
(c) 2017 Jin Fagang & Tianmu Inc. และผู้เขียน weibo_terminator ใบอนุญาต Apache 2.0