Escribí un artículo la semana pasada para mantener su sitio web sincronizado con los datos de noticias de Sina. Algunos internautas se interesaron, así que decidí compartir con ustedes el sistema pseudooriginal mencionado en él y presentarles el principio de su implementación. Este sistema también está cubierto. en mi Taller de Sísifo.
Después de todo, un motor de búsqueda sigue siendo una máquina: al cambiar el título, reemplazar algunas palabras, mezclar algunos capítulos, insertar algunos enlaces, etc., puede lograr el propósito de pseudooriginalidad. Actualmente existen herramientas pseudooriginales similares. Internet, pero aún requieren operación manual para generar, por lo que quiero crear un sistema pseudooriginal completamente automático y sin supervisión. Combinado con el programa de recolección automática, se puede realizar el proceso de recolección->almacenamiento->pseudooriginal. , y todo el proceso no puede ser gestionado por nadie y tiene sexo en tiempo real.
Más cerca de casa, una mejor manera de cambiar palabras sin afectar la semántica del artículo es usar sinónimos para reemplazarlas. Entonces pensé que el primer paso era crear un diccionario de sinónimos. Después de buscar una base de datos de este tipo en Internet, fue en vano. Decidí buscar un sitio web relacionado. Después de recopilar, descubrí que Kingsoft PowerWord puede satisfacer muy bien mis necesidades. A través de la colección, establecí una biblioteca de vocabulario con decenas de miles de datos.
Luego se reemplazan las palabras clave, entonces, ¿cómo reemplazarlas y cuáles reemplazar? Mi idea es primero segmentar el artículo en varias frases y luego buscar las que tengan una longitud superior a dos caracteres chinos en el tesauro. sí, entonces reemplácelo. Utilizo Python para implementar este proceso. Además, para acelerar los sinónimos, puede utilizar el almacenamiento de valores clave. Algunos códigos clave son los siguientes:
def obtenernuevapalabra(texto, lista):
cxn. ejecutar("seleccione ID de herramientas_palabras donde nombre='%s' límite 1"%texto)
resultado=cxn. ir a buscar()
si el tipo (resultado) no es NingunoTipo:
cxn. ejecutar("seleccione el nombre de tool_wordslike donde wid=%d orden por rand() límite 1"%resultado[0])
resultado4=cxn. ir a buscar()
si el tipo (resultado4) no es NingunoTipo:
lista[texto]=resultado4[0]
def cuttest(texto, bandera):
lista={}
listaw = seg. cortar (texto)
lista. contrarrestar()
resultado=""
para tmp en wlist:
silen(tmp)>1:
si bandera==1:
obtener nueva palabra (tmp, lista)
si bandera==1:
resultado=""
para k en la lista. iterkeys():
resultado+=k+","+lista[k]+";"
demás:
resultado+=tmp+";";
resultado de retorno
Pero después de todo, el sistema pseudo-original también es un programa. Ciertamente es imposible garantizar completamente la inadecuación de la semántica y la fluidez de las oraciones. Se proporciona principalmente a aquellos expertos que son basureros. En mi sitio web fue bastante divertido después de la conversión http://www.xxfsw.com/show24047.html , falleció el académico ruso Ginzburg, ganador del Premio Nobel de Física. Como resultado, su muerte se convirtió en mi muerte. sin habla. Por supuesto, además del reemplazo de sinónimos, también existe la inversión de párrafos, la inserción de enlaces, etc. Son relativamente fáciles de implementar, por lo que no entraré en detalles según la situación de implementación. También pensé en algunos métodos para lograr la visualización en los motores de búsqueda. El uso de contenido pseudo-original proporcionará a los usuarios contenido pre-pseudo-original. Sin embargo, no sé qué tan peligroso es. esto es y si Baidu lo detectará manualmente.
Desde entonces, después de todo este problema, Baidu Spider llegó a su sitio y se sorprendió: ¡Vaya, no había visto el contenido de este artículo antes!