Die Standardmäßig erstellte robots.txt-Datei verwalten

Diese Anleitung enthält Informationen zum Standard-robots.txt-Datei für Webhosting, auf denen diese Datei fehlt.

Vorbemerkung

Die Datei robots.txt dient als Leitfaden für die Crawler der Suchmaschinen
Er wird an der Wurzel einer Website platziert und enthält spezifische Anweisungen für diese Roboter, die angeben, welche Verzeichnisse oder Seiten sie durchsuchen dürfen und welche sie ignorieren müssen.
Achten Sie jedoch darauf, dass die Robots diese Anweisungen ignorieren können, wodurch die robots.txt zu einer freiwilligen Richtlinie anstatt zu einer strikten Regel wird

Inhalt der Datei

Wenn die Datei robots.txt auf einer Infomaniak-Website fehlt, wird automatisch eine Datei mit demselben Namen und den folgenden Anweisungen erstellt:

User-agent: *
Crawl-delay: 10

Diese Anweisungen fordern die Robots auf, ihre Anfragen um 10 Sekunden zu verzögern, was eine unnötige Überlastung der Server vermeidet.

Den Standard robots.txt umgehen

Es ist möglich, die robots.txt zu umgehen, indem Sie diese Schritte befolgen:

Erstellen Sie eine leere Datei robots.txt (sie dient nur als Speicherort, damit die Regeln nicht angewendet werden).
Verwalten Sie die Weiterleitung der URI (Uniform Resource Identifier) robots.txt zu Ihrer gewünschten Datei mit einer .htaccess-Datei.

Beispiel

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{REQUEST_URI} /robots.txt$
RewriteRule ^robots\.txt$ index.php [QSA,L]
</IfModule>

Erläuterungen

Das Modul mod_rewrite von Apache ist aktiviert, um Umleitungen zu ermöglichen.
Die Bedingung RewriteCond %{REQUEST_URI} /robots.txt$ überprüft, ob die Anfrage den Datei robots.txt betrifft.
Die Regel RewriteRule ^robots\.txt$ index.php [QSA,L] leitet alle Anfragen an robots.txt an index.php weiter, mit der Option [QSA], die die Abfrageparameter beibehält.

Es wird empfohlen, diese Anweisungen am Anfang der Datei .htaccess zu platzieren.

Link zu dieser FAQ:

Alle FAQ für dieses Produkt anzeigen