El lenguaje de las arañas

Un navegador (browser o visualizador) es un programa que responde a la información introducida por el usuario, enviando comandos HTTP (HyperText Transport Protocol) a través de internet. Las páginas Web son archivos de HTML que contienen texto, códigos de formato y otros datos que definen su contenido.

El navegador recupera la URL (Uniform Resource Locator) de la página que visita (es decir la encuentra entre los cientos de miles de ordenadores de Internet). Establece una conexión con el servidor remoto, transmite un código Get HTTP para recuperar el archivo HTML y presenta el documento en la pantalla.

Un robot es un navegador con piloto automático. Las arañas (spiders) son un tipo de robots que se desplazan continuamente por la internet, saltando de un lugar a otro con para crear índices actualizados de la red y volcar en bases de datos el contenido de los sitios que visitan.

El usuario ha sido sustituido por un automatismo (algoritmo) que busca e identifica hipervínculos, descarga la página en una base de daos y busca vínculos hacia otros sitios, selecciona una URL y salta hacia ella; desde allí, salta a otro sitio web y comienza todo de nuevo. Cuando la araña llega a páginas sin vínculos, regresa uno o dos niveles hacia atrás, y salta hacia uno de los que omitió la vez anterior.

Los robots se diseñan con diversas funcionalidades: para hacer índices de la web; para generar mediante algoritmos resúmenes de documentos que se almacenan en inmensas bases de datos; otros identifican los vínculos hacia páginas que ya no existen; otros llevan estadísticas relacionadas con la actualización del sitio, número de páginas, etc.

Mediante el protcolo SRE (Standard for Robot Exclusion) el administrador de un website puede dar instrucciones (controlar el comportamiento) a los robots que llegan hasta una página determinada. Puede indicar por ejemplo que los robots (todos, o uno concreto) no revisen el contenido completo de un website, que no recorran las páginas en construcción o que no accedan a directorios que no poseen páginas HTML, haciendo además más eficiente y rápido su trabajo.

Para dar instrucciones a una araña, el administrador debe crear un archivo de texto denominado “robots.txt” que indica las políticas de acceso al website. Por ejemplo, en esta instrucción se solicita a todos los robots que no recorran ni indexen la sección de la web /dibujos/imagenes y de sus subdirectorios.

# Ejemplo archivo robots.txt
User-agent:*
Disallow: /dibujos/imagenes

La primera línea corresponde a un comentario (#). La segunda indica a que robot se le hace la solicitud; en este caso, la orden es para todos (*). La tercera línea muestra a que ruta se le quita el acceso, conjuntamente con los directorios que le siguen en orden jerárquico.

Si se desea indicar una orden específica para un robot:

# Ejemplo archivo robots.txt

User-agent:*
Disallow: /dibujos/imagenes
Disallow: /en_construccion
User-agent:Scooter
Disallow:

En el ejemplo, el robot Scooter (el robot de Altavista) tiene acceso ilimitado dentro del sitio, pero prohibe a otros a ingresar a las rutas especificadas.

Si desea prohibir el acceso de cualquier robot a un sitio:

# Ejemplo archivo robots.txt
User-agent: *
Disallow: /

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s