¿Qué es robot.txt?
El fichero robot.txt es un fichero de exclusión de archivos, se crea para indicar a los rastreadores en internet, los buscadores, que zonas no indexar de tu página web.
Es decir, las páginas o directorios web de tu sitio que no quieres que salgan en los buscadores, como puede ser por ejemplo las rutas que hace un cliente cuando está haciendo una compra online, o la zona de administración de tu web.
Con el wordpress no se genera ningún fichero de robot.txt por defecto, pero al instalar el CMS se nos pregunta si queremos que los buscadores rastreen el sitio o no. Normalmente es que queremos que rastreen el sitio, a no ser que sea una zona de pruebas para que lo vea un tercero (el cliente) o las razones que sean.
Si queremos que nuestro WordPress sea rastreado aparecerá por defecto
- Disallow: /wp-admin/
- Disallow: /wp-includes/
Es decir, el administrador del wordpress queda fuera de los buscadores.
Pero ¿qué ocurre si empiezas a borrar entradas o a moverlas de categoría o cambiar los nombres de las categorías o borrar completamente una sección web, o un foro que tenías instalado?
Serías penalizado.
Evita ser penalizado creando un robot.txt con las zonas de tu web que ya no funcionan
Así que para evitar esto hay que generar un robot.txt para indicar a los rastreadores que no queremos que accedan a esos sitios web.
Con el Webmaster tools podemos ver que zonas web propias nos dan errores y evitar que sigan produciéndose
- Acceder a webmaster tools
- Rastreo > Errores de rastreo
Y apuntar que nos está dando error.
En Webmaster tools de Google se puede hacer, pero en mi caso prefiero hacerlo desde mi propio wordpress.
Pasos para evitar al máximo la penalización al borrar o reordenar contenidos de tu web:
- Instalar en tu wordpress el plugin WP Robots Txt
- Apuntar las zonas que vamos cambiando y que va a dejar de existir
- Acceder a AJUSTES > LECTURA y tendrás un nuevo campo en la parte de abajo para ir añadiendo rutas de tu web que han dejado de funcionar
- Los errores que hemos visto en el webmaster tools para que no nos tenga en cuenta.
- Añades las zonas que no quieres que se te indexen como puede ser una carpeta de imágenes, un feed de noticias o lo que consideres oportuno con lo que no quieras aparecer en los buscadores.
Ahora esto que hice con una web con la que estoy “arreglando” me va a tocar en este mismo dominio, con viejos artículos que quiero borrar pero no quiero que me empiecen a dar errores las posibles búsquedas, así que piano piano borrando y anotando lo que ya no quiero que aparezca.