Ich habe mich in letzter Zeit intensiv mit der Website-Optimierung beschäftigt und mich plötzlich für die Prinzipien von SE interessiert. Nach der Lektüre dieses Artikels wird es für SEO-Experten definitiv ein großer Gewinn sein bessere Platzierungen.
Die technischen Probleme, die Suchmaschinen lösen müssen, werden im Allgemeinen in Spider-Programme + Klassifizierung und Indizierung + Vokabular + Sortieralgorithmusfaktoren + Datenbankindizierung und -optimierung + Datenbankstruktur unterteilt
1. Spinne. Derzeit scheint es, dass Spider in C oder PHP implementiert werden können. Die meisten Spider von Baidu bestehen aus C. C kann auch mehrere Datenbankverbindungsschnittstellen unterstützen, und die Betriebseffizienz von C ist höher als die von PHP, und C kann auch die unterste Ebene besser steuern. Obwohl C so gut ist, möchte ich trotzdem PHP verwenden. Es muss mehr Zeit gespart werden, und wir können C nicht mehr lernen. Wenn Sie in Zukunft C verwenden müssen und eine hohe Effizienz benötigen, verwenden Sie C erneut. Die Datenbank kann unverändert bleiben und MYSQL kann an C angeschlossen werden. PHP hat Vor- und Nachteile. Es sollte kein großes Problem sein, wenn Sie ein Spider sind. Das größte Problem ist, dass es sehr langsam sein kann. Beim Crawlen von Webseiten können Probleme auftreten, nämlich die Crawling-Reihenfolge, die Art und Weise, wie aufgezeichnet wird, wenn der Crawl nicht erfolgreich ist oder eine Zeitüberschreitung auftritt, und wann der Crawl das nächste Mal aktualisiert werden muss. Die Suchmaschinendatenbank ist zunächst neu, ohne URLs, und es müssen viele URLs hinzugefügt werden. Sie können hier eine for-Schleifenanweisung verwenden, um automatisch eine Schleife gemäß den englischen Buchstaben durchzuführen. Natürlich ist die Website nicht nur auf Englisch, sondern auch – und Zahlen, die nur manuell eingegeben werden können. Wenn Sie es immer noch in einer Schleife anfassen, wird geschätzt, dass viele von ihnen scheitern werden. Der erfasste Code muss analysiert werden, um festzustellen, ob der Codierungstyp utf-8 oder gb2312 ist. Meine Suchmaschine möchte nur vereinfachtes Chinesisch erfassen. Wenn beim Abruf eine Zeitüberschreitung auftritt, wird es aufgezeichnet und etwa zehn Tage später erneut abgerufen. Wenn es dreimal hintereinander zu einer Zeitüberschreitung kommt, wird es aus der Datenbank entfernt.
2. Die Indexerstellung ist ein sehr schwieriges Problem. Baidu und Google können ihre eigenen Serverfarmen nutzen, um verteilte Server aufzubauen. Ich habe nicht so viele Server. Deshalb wollte ich einen anderen Ansatz ausprobieren. Erstellen Sie statische Seiten. Ich wusste vorher nicht, dass die Eingabe eines relativ ungewöhnlichen Wortes in Baidu und Google etwa 0,2 Sekunden dauern würde, während für gebräuchliche Wörter nur 0,1 Sekunden erforderlich sind. Darüber hinaus ist die Abfragezeit, die erforderlich ist, um ein Wort ein zweites Mal wiederholt einzugeben, viel kürzer. Dies ist wahrscheinlich die Auswirkung des Index. Wenn der Index im Speicher abgelegt wird, ist die Lesegeschwindigkeit sehr gut. Ich habe nur einen Server, und selbst wenn ich dort nur einen Index mit 50.000 gebräuchlichen Suchbegriffen ablegen würde, wäre das wahrscheinlich etwas ermüdend. Eine Seite muss mindestens 20 KB groß sein, und 50.000 Seiten sind 20 KB x 50 = 1 GB. Dies ist nur die erste Seite mit 50.000 Wörtern. Wenn der Benutzer Seiten zur Abfrage umblättern möchte, wird der Speicher definitiv nicht ausreichen. Wenn nur die erste Seite im Speicher abgelegt wird und der Benutzer die Seiten zur Abfrage umblättert, wird die Geschwindigkeit nicht verbessert. Also werde ich voll statisieren. Simulieren Sie eine Abfrage mit 50.000 Wörtern und erstellen Sie dann eine statische Seite. Die erste Seite aller Wörter wird im Speicher abgelegt und die nachfolgenden Seiten werden auf der Festplatte abgelegt. Wenn die Seite im Speicher abgelegt werden könnte, wäre dieses Problem gelöst.
3. Wortschatz. Es gibt Tausende chinesischer Schriftzeichen und es gibt mindestens 3.000 häufig verwendete chinesische Schriftzeichen. Es wird geschätzt, dass daraus 20.000 häufig verwendete Wörter bestehen. Wie füge ich diesen Thesaurus hinzu? In welchem Format soll er gespeichert werden? Bisher habe ich darüber nachgedacht, die Thesaurusdatei von Kingsoft PowerWord zu finden und sie direkt zu kopieren.
4. Alle Algorithmen, die die Sortierung beeinflussen, sollten in einer Tabelle platziert werden. Dann gibt es feste Algorithmen, bei denen es sich um Faktoren der Website selbst handelt, und variable Algorithmen, bei denen es sich um Faktoren handelt, die sich aufgrund der vom Benutzer eingegebenen Wörter oder aufgrund unterschiedlicher Zeiten, Jahreszeiten usw. ändern. Der festgelegte Algorithmus wird in eine Tabelle eingefügt und die Gesamtpunktzahl für jede Website berechnet. Ein Teil des Änderungsalgorithmus wurde zuvor generiert und ein Teil wird nach Benutzereingaben berechnet.
5. Derzeit gibt es keine gute Lösung für die Datenbankindizierung. Es dürfen nicht zu viele Ausdrucksindizes vorhanden sein, da zu viele die Geschwindigkeit beeinträchtigen.
6. Datenbankstruktur. Das ist entscheidend. Es wird geschätzt, dass die Datenbankstruktur fertiggestellt werden muss, bevor die Front-End-Schnittstelle der Website veröffentlicht wird. Es ist auch notwendig, eine Schnittstelle für zukünftige Upgrades zu belassen, z. B. das Hinzufügen von Algorithmusfaktoren oder das Ändern von Feldern zur Optimierung von Abfrageanweisungen usw. Die vorläufige Struktur ist wie folgt. 1-3 Tabellen speichern Website-Informationen. Das erste Feld ist der automatisch inkrementierte Primärschlüssel, das zweite Feld ist die Homepage-Adresse der Website, und in der Reihenfolge sind die Registrierungszeit des Website-Domainnamens, die Erfassungszeit, die Zeit des letzten Snapshots, die Gesamtzahl der enthaltenen Seiten und die Anzahl der Bytes aufgeführt die Homepage, Domain-Namen-Klassifizierung (com/cn/org/net/gov/edu), Gesamtzahl der Backlinks, Website-Klassifizierung (dies kann 1-10 sein, das Portal kann auf 30 erweitert werden) usw.
Der Artikel wurde reproduziert von: www.jianfeiyiqi.com Bitte geben Sie die Quelle mit dem Link an.