Cómo crear el archivo Robots.txt

0

El Robots.txt es un archivo de texto que generalmente se encuentra en el directorio raíz de nuestra página web. Este archivo es el responsable de avisar a los bots / arañas de los buscadores, cuando exploran nuestra Web.

Podemos editarlo a nuestro gusto y hacer que permita o deniegue el acceso a determinados buscadores, los cuales utilizan sistema de software para explorar hasta el último rincón de nuestro sitio.

¿Qué es el Robots.txt y para qué funciona?

Cuando los buscadores cómo Google o Bing rastrean una página web lo hacen mediante los conocidos bots (también llamadas arañas). Los bots son programas (software) especializados en la recogida de datos.

Lo primero que hace un Bot / araña al revisar una página Web es buscar el archivo Robots.txt y leer su información. Si no existe, analizará la Web bajo su propio criterio. Si existe y lo hemos configurado, lo respetará.

De esta forma podemos en cierta forma, controlar el acceso a nuestra página Web. Si por ejemplo no queremos que Google lea e indexe una categoría o directorio de nuestra Web, podemos hacerlo desde aquí.

Además, este pequeño archivo también sirve para facilitar a los buscadores cómo Google la localización de nuestro sitemaps (mapa web).

buscador google

¿Cómo crear un archivo Robots.txt?

Podemos hacerlo mediante dos formas, directamente desde nuestra página Web gracias a algún plugin que nos permita editarlo o podemos crear un archivo de texto con el bloc de notas de Windows.

Vamos a ver las dos opciones paso a paso, para que lo hagas cómo creas conveniente.

Creación mediante un plugin

En este caso usaremos el plugin “Yoast SEO“, para ello solo debemos acceder a nuestro panel de administración de WordPress, instalar el plugin y una vez activado realizar las siguientes acciones.

  • Desde el menú izquierdo haremos click en “SEO” y luego en “Herramientas“.
  • Se abrirá una nueva ventana, haremos click en “Editor de archivos“.
editar archivo robots.txt
Editor de archivos del plugin Yoast SEO

Al hacer click en el “Editor de archivos” se abrirá una nueva ventana donde veremos la configuración actual de nuestro Robots.txt.

contenido robots.txt
Contenido del archivo Robots.txt de nuestra Web

Y por supuesto, podremos modificar a nuestro antojo el contenido. Guardando los cambios antes de cerrar el editor mediante el botón “Guardar cambios en Robots.txt“.

Hacer un Robots.txt con el Blog de notas

Otra opción es crear nosotros mismos un archivo de texto con el Bloc de notas de Windows y guardarlo con el nombre Robots.txt en nuestro escritorio.

Después debemos subir ese archivo al directorio raíz de nuestra instalación WordPress mediante FTP. De esta forma quedará instalado y funcionando, recuerda configurarlo bien previamente.

¿Cómo configurar el Robots.txt correctamente?

A pesar de ser un archivo pequeño y modesto es muy importante, pues si lo configuramos mal podemos sin querer, denegar el acceso a los buscadores y hacer que nuestra página Web sea invisible.

Una buena configuración para este archivo, sencilla y práctica es la siguiente:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://beseomyfriend.com/sitemap_index.xml

Analizando esta configuración vemos que damos acceso a todo tipo de bot de buscadores, mediante el “User-agent: *“.

Denegamos el acceso al contenido privado de la instalación de nuestra página Web mediante “Disallow: /wp-admin/“. Aquí simplemente se informa que no queremos que se lea ni se indexe la carpeta “wp-admin” ni su contenido.

Pero, damos permiso para el uso de “admin-ajax.php” mediante el comando “Allow“.

Por último, le indicamos a los bots donde está el sitemap de nuestra página Web. Recuerda modificar esta última línea y la url del sitemaps de tu propia página Web.

archivos internet

Configuración avanzada

Si quieres excluir determinadas carpetas o ulrs de tu página Web, o limitar el acceso de los robots solo a los más importantes cómo el de Google / Bing / etc…. puedes hacerlo mediante este archivo.

El comando Disallow se utiliza para denegar el acceso, de forma que si no queremos que se exploren y lean los archivos de la carpeta “personal” simplemente deberíamos añadir el siguiente código a nuestro Robots.txt:

Disallow: /personal/

Si por ejemplo queremos denegar el acceso a todo el sitio, insertaríamos el comando con el directorio raíz, así:

Disallow: /

Y con esto tenemos mas que suficiente para editar, modificar y optimizar nuestro archivo Robots.txt de forma sencilla y segura.

Realmente no es necesario complicarse con configuraciones súper avanzadas ya que con la configuración estándar es mas que suficiente. No obstante si quieres espiar el archivo que usa tu compentencia, solo debes insertar su dominio en el buscador y el nombre del archivo:

https://beseomyfriend.com/robots.txt

Si te ha quedado alguna duda, puedes usar los comentarios y entre todos te ayudaremos a resolverla.

Dejar respuesta

Por favor escribe tu comentario
Nombre