SmythSys IT Consulting

Crear un fichero robots.txt

googlebot¿Cómo indexan los buscadores tu página web? Bueno, el proceso es algo más complicado pero tiene unos programas que van recorriendo la web (siguiendo enlaces y viendo lo que hay), almacenando las direcciones y actualizando su base de datos.

Estos programas los llamamos robots (en un alarde de creatividad) y por defecto te analizan toda tu web. Pero puede pasar que tu no quieras que aparezcan ciertos resultados en los buscadores (una carpeta temporal, una carpeta de datos, los resultados de la búsqueda) o incluso que queramos decir a estos robots dónde están ciertas cosas que SI quiero que me indexen. Para eso usamos el fichero robots.txt.
Ventajas:
-Evita contenido duplicado.
-Evita que se indexe contenido “restringido” o privado.
-Aumenta la importancia de las páginas que queremos indexadas.
-Evita que aparezcan en Google las carpetas del sistema.
-Evita que el servidor mane 404 cuando el robot busca el fichero robots.txt.

Creamos un fichero robots.txt en la raíz de la web, en formato texto plano. Y aquí os dejamos algunos ejemplos.

  • Si queremos permitir el acceso de los robots a toda la web:
User-agent: *
Disallow:
  • Si quieremos prohibir el acceso de los robots a toda la web:
User-agent: *
Disallow: /
  • Un ejemplo sencillo de un fichero robots.txt podría ser:
User-agent: *

Disallow: /cgi-bin/
Disallow: /*.js$
Disallow: /*.css$

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

User-agent identifica el robot sobre el que queremos actuar. Como vemos aquí tenemos unas exclusiones de ficheros (*.css y *.js) y de un directorio (cgi-bin) y permitir todo para Google Image y Adsense. Las líneas marcadas con # son comentarios para nosotros los humanos.

  • Si queremos indicarle a los robots dónde está el fichero sitemap (muy importante tenerlo):
Sitemap: http://www.dominio.com/sitemap.xml
  • Y  para prohibir que aparezcan los resultados de las búsquedas en la página en los buscadores:
Disallow: /*?*
Disallow: /*?

Si tienes un gestor de contenidos muchos plugins te permiten hacer este fichero automáticamente.

Deja un comentario

Resumen de nuestra Política de Privacidad

  • Responsable: SmythSys IT Consulting SLNE.
  • Finalidad: Gestionar y moderar los comentarios.
  • Legitimación: Necesitas dar tu consentimiento para publicar un comentario.
  • Destinatarios: Tus datos se alojan en los servidores de OVH.
  • Derechos: Tienes derecho a acceder, rectificar, limitar y suprimir los datos en la dirección del responsable (en nuestra política de privacidad).