Buscando...
2013-08-23

8/23/2013
Googlebot es el nombre que usa el  robot o “araña” que usa Google para el rastreo web, es el encargado de recorrer la Web buscando páginas  nuevas y detectando cambios en páginas ya indexadas. El rastreo es el  primer proceso que lleva a un  sitio a tener un  a ser indexado  y tener un posicionamiento en Google.

Cómo rastrea Googlebot a tu sitio

Googlebot  por lo general no accede  a la mayoría de  las páginas con una frecuencia de pocos segundos.  Este robot está diseñado para tener un alto rendimiento y un  alcance muy alto teniendo en cuenta que la web está en constante desarrollo.

Además, estas programado de tal forma que no use mucho ancho de banda para no afectar los sitios. El objetivo es  rastrear  la mayor cantidad posible de páginas contenidas en tu sitio sin causar problemas en el  ancho de banda del servidor que usas.
Acerca de Googlebot y su función en el posicionamiento en Google

Cómo bloquear el acceso de Googlebot

Mantener un sitio en el completo anonimato es una labor casi imposible. En el justo momento que  un usuario use un enlace de tu servidor tu servidor "secreto" para  dirigirse al contenido de otro servidor, tu URL podría aparecer como sitio de referencia, y  ser almacenada  y publicada como enlace de referencia por el otro servidor.

Sin embargo  existen varias opciones  para que evitar  que tu sitio sea rastreado: Puedes bloquear el acceso a determinado contenido a al sitio completo a través de un archivo  robots.txt, este debe ser incluido en el directorio principal del servidor. Además, puedes usar la metaetiqueta nofollow, para evitar que Googlebot haga un seguimiento de los enlaces que salen de tu sitio. Para evitar que solo evite el seguimiento de un enlace en específico, debes añadir en atributo rel="nofollow" a dicho enlace.

A través de la página de Herramientas para webmasters de Google puedes ver cómo está siendo rastreado tu sitio, además comprobar que  el archivo robots.txt esté funcionando de forma correcta.

Cómo asegurarse de que tu sitio pueda ser rastreado

Como se mencionó con anterioridad, el rastreo es el proceso que le permite a Google conocer un sitio y almacenarlo en su índice para posteriormente tenerlo en cuenta en sus resultados de búsqueda. Un sitio que no pueda ser rastreado por Googlebot, no podrá tener un buen posicionamiento en Google.
Googlebot detecta un sitio siguiendo enlaces entre distintos sitios.

En la página de Herramientas para webmaster, Google te da la posibilidad de conocer los errores de rastreo que presenta  tu  sitio a través de la página de Errores de rastreo; allí se indican los problemas que ha tenido Googlebot para acceder al contenido de tu sitio. Lo ideal es revisar esta página con regularidad para corregir errores que puedan estar afectando el posicionamiento en Google del sitio.

Comprueba además que no exista un archivo robot.txt que bloquee el acceso del rastreador a la totalidad de tu contenido.

Incidencias relacionadas con emisores de spam y con otros user-agents


Las direcciones IP que usa Googlebot cambian cada cierto periodo de tiempo. La mejor manera de comprobar que el Googlebot es el robot que está accediendo a tu servidor, es realizando una búsqueda de DNS inversa.

Tanto Googlebot, como otros robots de motores de búsqueda  que se encuentran acreditados, respetan las directrices de un archivo robots.txt y se guiaran de acuerdo a la configuración que le hagas, sin embargo es  que emisores de spam y agentes malintencionados no las respeten.

0 comentarios:

Publicar un comentario

Gracias por dejar tu comentario, será publicado luego de ser revisado.