На прошлой неделе я написал статью, чтобы синхронизировать ваш сайт с новостными данными Сины. Некоторые пользователи сети заинтересовались, поэтому я решил поделиться с вами упомянутой в ней псевдооригинальной системой и представить принцип ее реализации, эта система также рассмотрена. в моей Мастерской Сизифа.
В конце концов, поисковая система по-прежнему является машиной, изменяя заголовок, заменяя некоторые слова, перетасовывая некоторые главы, вставляя некоторые ссылки и т. д., она может достичь цели псевдооригинальности. В настоящее время существуют подобные псевдооригинальные инструменты. Интернет, но они по-прежнему требуют ручного управления, поэтому я хочу создать полностью автоматическую, неконтролируемую автоматическую псевдооригинальную систему. В сочетании с программой автоматического сбора можно реализовать процесс сбора->складирования->псевдооригинала. , и всем этим процессом никто не может управлять, а секс происходит в реальном времени.
Если говорить точнее, лучший способ изменить слова, не затрагивая семантику статьи, — это использовать для их замены синонимы. Поэтому я подумал, что первым шагом будет создание тезауруса. После безрезультатного поиска такой базы данных в Интернете. Я решил найти соответствующий веб-сайт. После сбора я обнаружил, что Kingsoft PowerWord очень хорошо соответствует моим требованиям. Благодаря коллекции я создал словарную библиотеку с десятками тысяч фрагментов данных.
Затем заменяются ключевые слова, так как их заменить и какие заменить? Моя идея состоит в том, чтобы сначала разбить статью на несколько фраз, а затем искать в тезаурусе те, длина которых больше двух китайских иероглифов. да, тогда замените его. Для реализации этого процесса я использую python. Кроме того, чтобы ускорить создание синонимов, вы можете использовать хранилище значений ключа. Некоторые ключевые коды следующие:
def getnewword(текст, список):
cxn. выполнить("выберите идентификатор из Tool_words, где имя = '%s' предел 1"%text)
результат = cxn. выборка()
если тип (результат) не NoneType:
cxn. выполнить("выберите имя из Tool_wordslike, где wid=%d порядок по rand() пределу 1"%result[0])
результат4 = cxn. выборка()
если тип (результат4) не NoneType:
список[текст]=результат4[0]
def Cuttest(текст, флаг):
список={}
список = сегмент. вырезать (текст)
список. обеспечить регресс()
результат=""
для tmp в списке:
если(tmp)>1:
если флаг==1:
getnewword (tmp, список)
если флаг==1:
результат=""
для k в списке. итеркейс():
result+=k+","+list[k]+";"
еще:
результат+=tmp+";";
вернуть результат
Но ведь псевдооригинальная система - это тоже программа. Полностью гарантировать несоответствие семантики и плавность предложений конечно невозможно. Она предоставляется в основном тем экспертам, которые являются помойками. Хаха, я помню ту статью. на моем сайте было довольно забавно, после конверсии http://www.xxfsw.com/show24047.html ушел из жизни российский академик Гинзбург, лауреат Нобелевской премии по физике. В результате его смерть обернулась смертью. потерял дар речи. Конечно, помимо замены синонимов есть еще перестановка абзацев, вставка ссылок и т. д. Это сравнительно легко реализовать, поэтому не буду вдаваться в подробности. Дальше каждый выбирает по ситуации реализации. Я также подумал о некоторых методах отображения в поисковых системах. Использование псевдооригинального контента предоставит пользователям предварительно псевдооригинальный контент. Это достигает цели, не влияя на пользовательский опыт. Однако я не знаю, насколько это опасно. это и будет ли Baidu обнаруживать его вручную.
С тех пор, после всех этих неприятностей, Baidu Spider зашел на ваш сайт и был в шоке: Упс, я раньше не видел содержания этой статьи, я ее принял!