Gestionar el archivo robots.txt creado por defecto

Esta guía proporciona información sobre el archivo robots.txt creado por defecto para los alojamientos web en los que este archivo está ausente.

El archivo robots.txt actúa como una guía para los robots de exploración de los motores de búsqueda
Se coloca en la raíz de un sitio web y contiene instrucciones específicas para estos robots, indicando qué directorios o páginas están autorizados a explorar y cuáles deben ignorar.
Sin embargo, los robots pueden elegir ignorar estas directivas, convirtiendo al robots.txt en un guía voluntaria en lugar de una regla estricta.

Contenido del archivo

Si el archivo robots.txt está ausente de un sitio Infomaniak, se genera automáticamente un archivo con el mismo nombre y las siguientes directivas:

User-agent: *
Crawl-delay: 10

Estas directivas indican a los robots que espacien sus solicitudes a 10 segundos, lo que evita sobrecargar innecesariamente los servidores.

Es posible eludir el robots.txt siguiendo estos pasos:

Crea un archivo vacío robots.txt (solo servirá como ubicación para que las reglas no se apliquen).
Gestiona la redirección del URI (Uniform Resource Identifier) robots.txt hacia el archivo de tu elección utilizando un archivo .htaccess.

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{REQUEST_URI} /robots.txt$
RewriteRule ^robots\.txt$ index.php [QSA,L]
</IfModule>

El módulo mod_rewrite de Apache está activado para permitir las redirecciones.
La condición RewriteCond %{REQUEST_URI} /robots.txt$ verifica si la solicitud se refiere al archivo robots.txt.
La regla RewriteRule ^robots\.txt$ index.php [QSA,L] redirige todas las solicitudes hacia robots.txt hacia index.php, con la opción [QSA] que conserva los parámetros de la solicitud.

Se recomienda colocar estas instrucciones al principio del archivo .htaccess.

Enlace a esta FAQ:

Ver todas las FAQ de este producto.