¿Cómo usar el archivo robots.txt para mejorar la indexación de bots en tu página web?
El propósito del archivo robots.txt es indicarle a los robots de búsqueda qué archivos son los que deberían indexarse en los buscadores y cuáles no. Lo más común es usar este archivo para especificar qué archivos no deberían indexarse.
Para permitir que los robots de búsqueda indexen de forma completa tu página web, puedes añadir las siguientes líneas en el archivo robots.txt:
User-agent: *
Disallow:
Por otra parte, si quisieras evitar que las páginas web fueran indexadas completamente, usa las siguientes líneas:
User-agent: *
Disallow: /
Para resultados más avanzados sería necesario entender las secciones en el archivo robots.txt. La línea “User-agent:“ especifica para qué bots son válidos estos ajustes. Puedes usar “*” como valor para indicar que esta regla afectará a todos los bots o el nombre específico del bot para el que quieres especificar la regla.
La parte “Disallow:“ define los archivos y directorio que no deben ser indexadas por los motores de búsqueda. Cada directorio o archivo necesita ser definido en una nueva línea. Por ejemplo, el código que se puede ver a continuación le dice a los bots que los directorios “private” y “security” en el directorio public_html no deben ser indexados:
User-agent: *
Disallow: /private
Disallow: /security
Ten en cuenta que “Disallow:” usa el directorio raíz como directorio base, por ello la ruta del archivo debería ser /sample.txt y no /home/usuario/public_html/sample.txt, por ejemplo.