Robots de los buscadores
Un robot de un buscador, o también nombrados como spider o crawler, es un programa que entra automáticamente a nuestros sitios webs y recolecta una determinada información sobre el contenido de nuestras webs, frecuentemente son las palabras claves y enlaces de nuestros sitios webs.Cualquier buscador de sitios web, siempre dispone de una base de datos con la información de todos los sitios webs que llegen aparecer en la pagina de los resultados ( a estos se les suele llamar páginas indexadas ) , esta base de datos se llena utilizando el robot distribuido entre varios ordenadores
¿Como los robots rastrean todo en la red ?
Para poder acceder a casi todas las paginas posibles, los buscadores acceden a unas paginas introducidas manualmente en una lista y siempre guardan las URL de los hipervinculos o anclas (html etiqueta <a></a>) para descargarlas.
Ningún buscador tiene informacion actualizada de todas y cada una de los sitios webs de internet, pero hay que saber que realizan un esfuerzo grande para que estos robots reastreen todas las paginas posibles, y es que hay 2 inconvenientes con los que los robots tienen que pelear :
Gran Cantidad de sitios web
para que los robots luchen contra la gran cantidad de sitios webs que exiten, los buscadores deben aumentar el numero de paginas descargadas por segundo, y esto lo consiguen mejorando la conectividad de estas y la localizacion geografica y cantidad de robots de rastreo.
Actualizacion constante de páginas
Para obtener siempre los contenidos de los sitios web actualizados, lo que no hacen los buscadores es revisar las webs mas a menudo, porque esto haría un aumento del numero de paginas a descargar.
Para estos casos lo que hacen los robots de búsqueda, es detectar el grado de variabilidad ( o frescura como también lo dicen ) de cada documento indexado para asi determinar cada cuando hay que revisarla por eso es que se recomienda tener actualizado siempre tu sitio web.
¿ Como consegir ser rastreado por los buscadores?
Bueno, para hacer que un buscador rastree tu sitio web, primero debera saber tu URL, esto podemos conseguirlo enviando la URL al buscador en un formulario para que la guarde en su base de datos, o simplemente haciendo que otra web ya indexada nos enlace, ahora detallemos mas :
El formulario de URL
Mayormente los buscadores disponen de formularios que permiten introducir la URL de tu sitio web para ser indexada.
Bueno este pequeño formulario lo pueden encontrar aqui
https://www.google.com/webmasters/tools/submit-url
Pero este pequeño sistemita suele ser menos importante, ya que el verdadero factr para aparecer en los primeros resultados de un buscador es el numero de enlaces que tienen hacia nuestra página y de esta manera asi podremos ser indexados.
Hace ya algun tiempo el buscador Google, ha introducido una nueva e interesante manera de indicar al buscador que contenidos debe rastrear nuestra web, oh tambien llamados SITEMAPS.
Los enlaces entrantes a nuestra web
Para que un robot rastree nuestro sitio web encontrando un enlace entrante a nuestra web es una opción no recomendara o mas lenta por decirlo asi ( lo que se tiene que hacer es conseguir enlaces entrates de sitios ya indexados y con buen pagerank , ya hablaremos de pagerank en los siguientes capítulos ) , y ahora tenemos que tener cuidado con el efecto sandbox,aunque muchos dicen que no existe este efecto y otros dicen que existe el google dance, los sitios que nos enlasan son un factor importante para tener una buena posición.
Ahora si nosotros queremos que los robots rastreen o visiten nuestra web mas seguido, lo que tenemos que hacer o lo mas aconsejable hacer es siempre tener nuestro contenido actualizado en sus indices, esto quiere decir que tenemos que refrescar mas a menudo nuestro sitio web y aportar nuevos contenidos no duplicados.
¿Como no ser rastreado?
Hay muchas formas para evitar ser rastreados por los robots , estos se llaman metodos de exclusion que permiten evitar que el robot rastree nuestra web y asi el buscador no indexe nuestra pagina, aqui mencionamos algunos:
el arhivo robots.txt
Meta-tags
formulario de solicitud de eliminacion



