Инструмент подготовки корпуса НЛП. Напоминаем, что данный проект используется только для академических исследований. Автор не несет никакой ответственности за ряд последствий, вызванных его использованием в других целях. Прошло около двух лет. Хочу еще раз обновить этот проект, просто ради ответственности и веры. Это обновление следующее:
/usr/bin
через Google;Похоже, что предыдущие ссылки на изображения больше не доступны и их следует удалить напрямую. Могу только сказать, что отечественные поставщики облачных серверов слишком жульничают и скупятся. Они отрезают вашу ссылку, не заплатив. это нехорошо, и все те, кто должен был обанкротиться, обанкротились.
Фактически, автор прекратил заниматься НЛП спустя два года. После окончания аспирантуры я занялся смежной работой в области автономного вождения, но никогда не отказывался от работы в области НЛП. Продолжение не мешает мне. опираясь на мой интерес к НЛП, с этой целью я предоставлю вам некоторую самую свежую интересную информацию:
Крупнейший рынок алгоритмов искусственного интеллекта в Китае: http://manaai.cn.
Некоторые форумы, посвященные системе вопросов и ответов: http://t.manaai.cn.
Этот проект будет продолжать обновляться и поддерживаться, спасибо за внимание.
Прошло более двадцати дней с момента запуска этого проекта. Пятьсот лет спустя нам, наконец, пора начинать! ! Этот проект всегда будет обновляться. Чтобы облегчить участие, я перезапустил проект: https://github.com/jinfagang/weibo_terminator_workflow.git. Если вы хотите вместе внести свой вклад в создание корпуса сканирования, вы можете запустить проект рабочего процесса. В то же время, если вы хотите поиграть с сканером Weibo, вы можете продолжать следить за этим проектом.
weibo_terminator Поисковый робот-терминатор Weibo в основном готов:
На этот раз мы обновили следующие функции:
Если ты думаешь, что это все, что у тебя есть, ты пропадешь. Возьми одежду у Санму Танмузи. Наиболее важные обновления:
realangelababy
; Чтобы опираться на огромную сеть Weibo, мы запустили проект Terminator и вместе работали над сканированием корпуса китайского проекта Weibo. Этот обновленный репозиторий содержит файл weibo_id.list
, который содержит идентификаторы почти 8 миллионов пользователей, классифицированных по категориям. Не спрашивайте меня, как это произошло. Далее мы присваиваем каждому участнику идентификатор определенного диапазона, сканируем все Weibo, а затем загружаем результаты на наш внутренний облачный диск Baidu. Все данные включают только всех участников и авторов weibo_terminator. быть получено. Итоговое заявление таково: Этот проект относится к некоторым подобным проектам, но функции и сложность задач, реализуемых этим проектом, не сравнимы с задачами вышеперечисленных проектов. Мы реализуем новейшие веб-API и Python3, и многие другие. другие проекты основаны на Scrapy. Этот проект вообще не использует никаких подобных библиотек-сканеров только по той причине, что проектам, созданным с использованием этих библиотек, не хватает гибкости, что нам не очень нравится. Надеюсь, все понимают.
Наконец, каждый по-прежнему может сообщать о проблемах. Мы всегда будем открывать исходный код, поддерживать и обновлять его! !
Советы по вкладу:
git clone https://github.com/jinfagang/weibo_terminater.git
;settings/config.py
, следуйте инструкциям там;settings/accounts.py
. Теперь вы можете использовать несколько учетных записей, терминатор автоматически отправит их;python3 main.py -i realangelababy
, удалите одного пользователя, установите settings/id_file
для многопользовательского удаления;jintianiloveu
, если вы хотите внести свой вклад, администратор выдаст вам и id_file, который является уникальным в нашем проекте;./weibo_detail
с разными идентификаторами отдельно.WT & TIANEYE COPYRIGHT
.Мы финансируем несколько групп для нашего проекта:
QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023
Wechat
add administrator `jintianiloveu` to be added in.
Это недостающая часть первого коммита, используйте справку:
# -h see helps
python3 main.py -h
# -i specific an single id or id_file path(with every id as a line.)
python3 main.py -i 167385960
python3 main.py -i ./id_file
# -f specific filter mode, if 0, all weibo are all original, if 1, contains repost one, default is 0
python3 main.py -i 16758795 -f 0
# -d specific debug mode for testing, be aware debug mode only support one single id.
python3 main.py -i 178600077 -d 1
Вот и все, просто и легко.
Файлы cookie по-прежнему могут быть запрещены, если наш парсер продолжит получать информацию от Weibo, то есть именно мы должны выполнить эту работу силами людей, никто не сможет создать такую большую корпорацию под одной единственной властью, если ваши файлы cookie устарели или устарели. заблокированы, мы настоятельно рекомендуем использовать другую учетную запись Weibo, которая может принадлежать вашим друзьям или кому-либо еще, и продолжить удаление. Вам следует напомнить одну вещь: наш weibo_terminator может запоминать ход удаления и завершить его с того места, где он остановился в прошлый раз :).
Что касается системы диалогов в чате, я позже открою исходный код проекта. Цель этого репозитория — создать высококачественный диалоговый материал на основе Weibo. Этот проект будет продолжать развиваться. ! Всегда открытый исходный код!
Этот проект посвящен борьбе с антисканирующим механизмом Weibo, объединению усилий всех для сканирования тысяч корпусов комментариев Weibo и созданию высококачественного корпуса китайских диалогов с открытым исходным кодом для содействия исследованиям и разработкам китайских диалоговых систем. В настоящее время в этой системе реализованы:
Я надеюсь, что больше детской обуви сможет внести свой вклад. Нам еще предстоит много работы. Добро пожаловать, чтобы подать заявку на публикацию!
Китайские корпуса всегда подвергались критике, и нет учреждений или организаций, которые могли бы создавать какие-либо общедоступные наборы данных. Напротив, в зарубежных странах английские корпуса довольно многочисленны и составлены очень точно.
Автор корпуса Weibo считает, что это корпус с самым широким охватом, самый активный и самый свежий. Не важно, точна ли модель при построении диалоговой системы, но свежая лексика точно есть.
Форматы Weibo и комментариев назначенных пользователей следующие:
E
4月15日#傲娇与偏见# 超前点映,跟我一起去抢光它 [太开心] 傲娇与偏见 8.8元超前点映 顺便预告一下,本周四(13号)下
午我会微博直播送福利,不见不散哦[坏笑] 电影傲娇与偏见的秒拍视频 <200b><200b><200b>
E
F
<哈哈哈哈哈哈狗->: 还唱吗[doge]
<緑麓>: 绿麓!
<哈哈哈哈哈哈狗->: [doge][doge]
<至诚dliraba>: 哈哈哈哈哈哈哈
<五只热巴肩上扛>: 大哥已经唱完了[哆啦A梦吃惊]
<哈哈哈哈哈哈狗->: 大哥[哆啦A梦吃惊]
<独爱Dear>: 10:49坐等我迪的直播[喵喵][喵喵][喵喵]
<四只热巴肩上扛>: 对不起[可怜]我不赶
<四只热巴肩上扛>: 哈狗[哆啦A梦花心][哆啦A梦花心]
<至诚dliraba>: 哈狗来了 哈哈哈
<四只热巴肩上扛>: [摊手]绿林鹿去哪里了!!!!
<哈哈哈哈哈哈狗->: 阿健[哆啦A梦花心]
<至诚dliraba>: 然而你还要赶我出去[喵喵]
<四只热巴肩上扛>: 我也很绝望
<至诚dliraba>: 只剩翻墙而来的我了
<四只热巴肩上扛>: [摊手]我能怎么办
<四只热巴肩上扛>: [摊手]一首歌唱到一半被掐断是一个歌手的耻辱[摊手]
<至诚dliraba>: 下一首
<四只热巴肩上扛>: 最害怕就是黑屋[摊手]
<至诚dliraba>: 我脑海一直是 跨过傲娇与偏见 永恒的信念
F
проиллюстрировать:
Сканируемый сейчас корпус является исходной версией. Вы можете начать с того, как использовать корпус. Его можно использовать для создания роботов для комментариев по темам. Однако автор продолжит разработку программ постобработки, чтобы превратить необработанные данные Weibo в диалоговые сообщения. сформировать и открыть исходный код. Конечно, заинтересованные в детской обуви также могут отправить мне PR и выбрать лучшее решение для содействия развитию этого проекта.
Если у вас есть какие-либо вопросы по проекту, вы можете связаться со мной в WeChat: jintianiloveu
. Вопросы также приветствуются.
(c) 2017 Jin Fagang & Tianmu Inc. и авторы weibo_terminator ЛИЦЕНЗИЯ Apache 2.0