J'ai écrit un article la semaine dernière pour garder votre site Web synchronisé avec les données d'actualité de Sina. Certains internautes se sont intéressés, j'ai donc décidé de partager avec vous le système pseudo-original qui y est mentionné et de présenter le principe de sa mise en œuvre, ce système est également couvert. dans mon atelier Sisyphe.
Après tout, un moteur de recherche est toujours une machine. En changeant le titre, en remplaçant certains mots, en mélangeant certains chapitres, en insérant des liens, etc., il peut atteindre l'objectif de pseudo-originalité. Il existe actuellement des outils pseudo-originaux similaires. Internet, mais ils nécessitent toujours une opération manuelle. Je souhaite donc créer un système pseudo-original automatique entièrement automatique et non supervisé. Combiné avec le programme de collecte automatique, le processus de collecte->entreposage->pseudo-original peut être réalisé. , et l'ensemble du processus ne peut être géré par personne et a des relations sexuelles en temps réel.
Plus près de chez nous, une meilleure façon de changer les mots sans affecter la sémantique de l'article est d'utiliser des synonymes pour les remplacer. J'ai donc pensé que la première étape consistait à créer un thésaurus. Après avoir recherché en vain une telle base de données sur Internet, J'ai décidé de trouver un site Web connexe. Après la collecte, j'ai découvert que Kingsoft PowerWord pouvait très bien répondre à mes besoins. Grâce à la collection, j'ai créé une bibliothèque de vocabulaire avec des dizaines de milliers de données.
Ensuite, les mots clés sont remplacés, alors comment les remplacer et lesquels remplacer ? Mon idée est d'abord de segmenter l'article en plusieurs phrases, puis de rechercher celles dont la longueur est supérieure à deux caractères chinois dans le thésaurus. oui, alors remplacez-le. J'utilise python pour implémenter ce processus. De plus, afin d'accélérer les synonymes, vous pouvez utiliser le stockage clé-valeur. Certains codes clés sont les suivants :
def getnewword (texte, liste) :
cxn. exécuter("sélectionnez l'identifiant de tool_words où nom='%s' limite 1"%text)
résultat = cxn. récupérer()
si type(result) n'est pas NoneType :
cxn. exécuter("sélectionnez le nom dans tool_wordslike où wid=%d commande par rand() limite 1"%result[0])
résultat4=cxn. récupérer()
si type(result4) n'est pas NoneType :
liste[text]=result4[0]
def cuttest (texte, drapeau):
liste={}
wlist = seg. couper(texte)
liste. inverse()
résultat=""
pour tmp dans wlist :
iflen(tmp)>1 :
si drapeau==1 :
obtenir un nouveau mot (tmp, liste)
si drapeau==1 :
résultat=""
pour k dans la liste. iterkeys() :
résultat+=k+","+liste[k]+";"
autre:
résultat+=tmp+";";
résultat de retour
Mais après tout, le système pseudo-original est aussi un programme. Il est certainement impossible de garantir complètement l'inadéquation de la sémantique et la fluidité des phrases. Il est principalement fourni à ces experts qui sont des dépotoirs. Haha, je me souviens de cet article. sur mon site Web, c'était assez drôle après la conversion http ://www.xxfsw.com/show24047.html , l'académicien russe Ginzburg, lauréat du prix Nobel de physique, est décédé. En conséquence, sa mort s'est transformée en mort. sans voix. Bien sûr, en plus du remplacement des synonymes, il y a aussi l'inversion de paragraphes, l'insertion de liens, etc. Ceux-ci sont relativement faciles à mettre en œuvre, je n'entrerai donc pas dans les détails plus tard. , J'ai également pensé à certaines méthodes pour obtenir l'affichage sur les moteurs de recherche. L'utilisation de contenu pseudo-original fournira aux utilisateurs un contenu pré-pseudo-original. Cela atteint l'objectif sans affecter l'expérience utilisateur. Cependant, je ne sais pas à quel point c'est dangereux. c'est le cas et s'il sera détecté manuellement par Baidu.
Depuis, après tous ces ennuis, Baidu Spider est venu sur votre site et a été choqué : Oups, je n'avais jamais vu le contenu de cet article auparavant, je l'ai accepté !