-
robots.txt ist die erste Datei, die Suchmaschinen-Spider anzeigen, wenn sie Ihre Website crawlen. Diese Datei teilt dem Suchmaschinen-Spider-Programm mit, welche Dateien auf Ihrer Website angezeigt werden dürfen und welche nicht. Heutzutage halten sich Mainstream-Suchmaschinen immer noch an diese Regelung. Diese Website hat die robots.txt-Datei am 20. gegen 23 Uhr entsperrt, um Suchmaschinen-Spidern den Zugriff darauf zu ermöglichen. Ich habe es überprüft und Baidu hat es tatsächlich geschlossen. Das zweite Google hat es auch akzeptiert.
Genug gesagt, kommen wir zur Sache. robots.txt ist eine Textdatei. Sie muss „robots.txt“ heißen und in das Stammverzeichnis der Website hochgeladen werden. Das Hochladen in ein Unterverzeichnis ist ungültig, da Suchmaschinen-Robots nur im Stammverzeichnis Ihres Domainnamens danach suchen . dokumentieren. Auch hier besteht kein Grund, die Zeit aller zu verschwenden, wenn Sie nicht über die Grundkenntnisse von Hefei SEO verfügen. Hier stellen wir robots.txt hauptsächlich aus der Perspektive vor SEO. Rolle im Website-Optimierungsprozess.
1. Tipps zur Verwendung von robots.txt, die für die Website-Optimierung von Vorteil sind
1. Die Online-Website-Erstellung bietet eine bequeme Möglichkeit. Wenn wir den Domänennamen auf dem Server auflösen, können wir auf die Site zugreifen, aber zu diesem Zeitpunkt ist die Site nicht übersichtlich und die Meta-Tags sind immer noch durcheinander. Die Website wurde zu diesem Zeitpunkt von Suchmaschinen-Spidern gecrawlt und eingebunden. Wenn sie zu diesem Zeitpunkt geändert wird, wird dies der SEO-Optimierung sehr schaden. Zu diesem Zeitpunkt können Sie die robots.txt-Datei verwenden, um alle Suchmaschinen-Spider so einzustellen, dass sie keine Abfrage des gesamten Inhalts der Website zulassen. Sein Syntaxformat ist:
Benutzeragent: *
Nicht zulassen: /
2. Passen Sie Suchmaschinen-Spider an, um bestimmte Inhalte zu crawlen, sodass Sie anhand der Website-Bedingungen entscheiden können, wie mit Suchmaschinen umgegangen werden soll. Hier gibt es zwei Bedeutungen.
(1) Angepasste Suchmaschine. Wenn du verachtest, was Du Niang tut, kannst du sie dazu bringen, dich einfach so anzustarren. Sein Syntaxformat ist:
Benutzeragent: Baiduspider
Nicht zulassen: /
Hinweis: Gängige Roboternamen für Suchmaschinen.
Namenssuchmaschine
Baiduspider http://www.baidu.com
Roller http://www.altaVista.com
ia_archiver http://www.Alexa.com
Googlebot http://www.google.com
FAST-WebCrawler http://www.alltheweb.com
Schlürfen Sie http://www.inktomi.com
MSNBOT http://search.msn.com
(2) Passen Sie den Inhalt der Website an. Das heißt, Sie können ein Verzeichnis angeben, das Spidern das Crawlen erlaubt, und ein Verzeichnis, das Spidern das Crawlen verbietet. Beispielsweise dürfen alle Suchmaschinen-Spider den Inhalt im Verzeichnis abc crawlen, es ist ihnen jedoch untersagt, den Inhalt im Verzeichnis def zu crawlen. Das Syntaxformat lautet:
Benutzeragent: *
Erlauben: /abc/
Nicht zulassen: /def/
3. Leiten Sie Suchmaschinen an, Website-Inhalte zu crawlen. Die typischsten Methoden sind hier
(1) Führen Sie Spider zum Crawlen Ihrer Sitemap. Sein Syntaxformat ist:
Benutzeragent: *
sitemap:sitemap-url
(2) Verhindern Sie, dass Spider Ihre Website nach doppelten Inhalten durchsuchen.
4. 404-Fehlerseitenproblem. Wenn Ihr Server eine 404-Fehlerseite anpasst und keine robots.txt-Datei im Stammverzeichnis Ihrer Website konfiguriert, wird sie von Suchmaschinen-Spidern als robots.txt-Datei behandelt, was sich auf die Einbeziehung Ihrer Website-Seiten in Suchmaschinen auswirkt .
2. So schreiben Sie robots.txt für die Website-Erstellung mit bestimmten Programmen. Dies sind nur allgemeine Angaben, Sie müssen entsprechend Ihrer spezifischen Situation entscheiden.
1. So schreiben Sie die robots.txt-Datei für die DedeCMS-Website-Erstellung
Benutzeragent: *
Nicht zulassen: /plus/feedback_js.php
Nicht zulassen: /plus/feedback.php
Nicht zulassen: /plus/mytag_js.php
Nicht zulassen: /plus/rss.php
Nicht zulassen: /plus/search.php
Nicht zulassen: /plus/recommend.php
Nicht zulassen: /plus/stow.php
Nicht zulassen: /plus/count.php
Nicht zulassen: /include
Nicht zulassen: /templets
Nicht zulassen: /member
2. So schreiben Sie die robots.txt-Datei für die WordPress-Website-Erstellung
Benutzeragent: *
Nicht zulassen: /wp-admin
Nicht zulassen: /wp-content/plugins
Nicht zulassen: /wp-content/themes
Nicht zulassen: /wp-includes
Nicht zulassen: /?s=
Sitemap: http://www.***.com/sitemap.xml
3. So schreiben Sie die robots.txt-Datei für die Erstellung der phpcms-Website
Benutzeragent: *
Nicht zulassen: /admin
Nicht zulassen: /data
Nicht zulassen: /templates
Nicht zulassen: /include
Nicht zulassen: /sprachen
Nicht zulassen: /api
Nicht zulassen: /fckeditor
Nicht zulassen: /install
Nicht zulassen: /count.php
Nicht zulassen: /comment
Nicht zulassen: /guestbook
Nicht zulassen: /ankündigen
Nicht zulassen: /member
Nicht zulassen: /message
Nicht zulassen: /spider
Nicht zulassen: /yp
Nicht zulassen: /vote
Nicht zulassen: /video
4. So schreiben Sie die robots.txt-Datei im Discuz-Forum
Benutzeragent: *
Erlauben: /redirect.php
Erlauben: /viewthread.php
Erlauben: /forumdisplay.php
Nicht zulassen: /?
Nicht zulassen: /*.php
Obwohl das Thema alt ist, gibt es noch viel zu lernen. Einige Leute sagen, dass das Festlegen der robots.txt-Datei das Risiko birgt, von „absichtlichen Personen“ angegriffen zu werden. Da Sie eine „absichtliche Person“ sind, haben Sie nichts zu befürchten ist nicht nur das Website-Erstellungsprogramm selbst, sondern auch die Serversicherheit usw. usw. Von Hefei SEO: http://www.anhuiseo.org Bitte geben Sie die Quelle für den Nachdruck an.
Vielen Dank an qhpf298 für seinen Beitrag