Uma breve análise dos princípios do mecanismo de pesquisa: correspondência de arquivos e triagem inicial de subconjuntos

Autor：Eve Cole Data da Última Atualização：2011-03-22 18:21:49

A correspondência de arquivos e a seleção inicial do subconjunto são dois aspectos muito importantes no processo de classificação dos mecanismos de pesquisa. Hoje darei a vocês alguns resumos básicos sobre esses dois aspectos. Embora pareçam não ter nada a ver conosco, todos deveriam aprender mais sobre alguns princípios básicos, que terão certo significado orientador para a futura construção e otimização de sites. Claro, estes são apenas alguns dos meus próprios resumos, se houver algum erro. , Espero que Por favor faça correções.

Depois que o mecanismo de pesquisa passa pelos primeiros estágios de pré-processamento, o que o mecanismo de pesquisa obtém é um conjunto de palavras-chave em unidades de palavras. Antes disso, o mecanismo de pesquisa obtinha primeiro um arquivo correspondente a várias palavras-chave, mas essa eficiência de consulta era muito baixa e irrealista, então o mecanismo de pesquisa mapeava esses arquivos de forma reversa e o resultado era uma palavra-chave correspondente a um documento com várias palavras-chave. Desta forma, quando o usuário pesquisa uma determinada palavra-chave, são realizados cálculos e correspondências em todos os arquivos correspondentes à palavra-chave, e os melhores resultados da pesquisa são retornados ao usuário. Depois de compreender esse processo geral, vamos começar a compartilhar os dois aspectos principais de hoje.

A primeira é a correspondência de arquivos: os spiders dos mecanismos de pesquisa estão rastreando e capturando o tempo todo, e estão constantemente classificando, resumindo e armazenando os dados capturados. Esses processos não são realizados quando o usuário pesquisa, mas são pré-processados antes e depois da pesquisa. Quando o usuário pesquisa uma determinada palavra-chave, o mecanismo de pesquisa pesquisa apenas em seu próprio banco de dados, ao invés de pesquisar na Internet em tempo real. em todos os sites. Para expressar isso de forma mais clara, vou explicar com um diagrama simples:

Esta imagem é uma típica tabela de arquivo de correspondência rápida de índice invertido. Quando o usuário pesquisa por "palavra-chave 1, palavra-chave 16", o mecanismo de busca realizará cálculos simples e correspondência em todos os arquivos correspondentes a essas duas palavras e encontrará os arquivos que contêm a palavra-chave 1. também contém todas as páginas da palavra-chave 16.

A segunda é a triagem inicial do subconjunto: o subconjunto é para atender às necessidades dos usuários mais rapidamente. O mecanismo de busca precisa selecionar todas as páginas relevantes, e apenas calcula as páginas com peso um pouco maior e as retorna ao usuário. é frequentemente referido como o subconjunto inicial de filtragem. Você pode imaginar que quando pesquisamos uma determinada palavra-chave, o número de páginas que contém essa palavra-chave costuma ser enorme, até mesmo centenas de milhares ou milhões. Se um mecanismo de busca corresponder a uma quantidade tão grande de dados, obviamente levará mais tempo. Para melhor atender às necessidades dos usuários, na prática os mecanismos de busca selecionarão apenas páginas com alto peso para corresponder, mas que tipo de páginas têm alto. peso?, para atender às condições dos motores de busca? Isso inclui a influência de muitos aspectos do conteúdo e dos elementos relacionados à página, tanto fatores externos quanto internos. Este assunto não é o foco do resumo deste artigo. Vou compartilhá-lo com vocês aos poucos em artigos futuros.

Normalmente, quando pesquisamos, é impossível ver todos os resultados da pesquisa um por um. Geralmente, olhamos apenas as primeiras páginas ou mesmo as primeiras. Embora haja muitos resultados relacionados retornados pelo mecanismo de pesquisa, esses resultados são. ainda qualificado na Internet. É uma pequena parte de muitas páginas da web. Portanto, os hábitos de pesquisa dos usuários estão mudando e os mecanismos de pesquisa também enfrentam grandes desafios. Como ajudar melhor os usuários a buscar as informações de que precisam é sempre o que os mecanismos de pesquisa procuram. estão tentando fazer uma coisa.

Neste ponto, compartilhei com vocês alguns princípios básicos dos mecanismos de pesquisa por meio da correspondência de arquivos e da triagem inicial de subconjuntos. É claro que há muito mais coisas que precisam ser envolvidas tecnicamente e todos os aspectos a serem considerados são mais abrangentes e complexos. Estes são apenas resumi os princípios gerais para todos. Ao compreender todos os aspectos dos motores de busca, pode desempenhar um certo papel orientador na construção do nosso site e na optimização dos motores de busca.

Ok, é isso neste artigo. Continuarei resumindo e compartilhando com você no futuro. Este artigo vem de: Beijing SEO, site: http://www.seostudy.org/ , retenha os direitos autorais para reimpressão, obrigado!

Obrigado ao Beijing SEO pela sua contribuição