Diferencia entre browser y crawler

crawler-headless-browserLas páginas web son archivos HTML que contienen texto, códigos de formato y otros recursos que definen su contenido. Para acceder a las páginas web necesitamos una aplicación específica que se llama browser.

Un browser es un navegador, también conocido como visualizador, es un programa que responde a la información introducida por el usuario, enviando comandos HTTP (HyperText Transport Protocol) a través de internet.

El navegador recupera la URL (Uniform Resource Locator) de la página que visita (es decir la encuentra entre los cientos de miles de ordenadores de Internet). Establece una conexión con el servidor remoto, transmite un código Get HTTP para recuperar el archivo HTML y presenta el documento en la pantalla. El navegador renderiza el código y lo muestra en una pantalla al usuario.

Un crawler es un robot, es decir un navegador con piloto automático. La principal diferencia con un navegador es que el crawler no tiene por qué renderizar las páginas que visita y eso le permite recorrer de forma muy rápida un website (12 URLs por segundo aprox). En inglés a los crawlers también se les llama headless browsers (navegadores sin cabeza).

Los crawlers son también conocidos como spiders (arañas) y se desplazan continuamente por internet, saltando de un lugar a otro con para crear índices actualizados de la Red y volcar en bases de datos el contenido de los sitios que visitan.

En un crawler el usuario ha sido sustituido por un automatismo (algoritmo) que busca e identifica hipervínculos, descarga la página en una base de daos y busca vínculos hacia otros sitios, selecciona una URL y salta hacia ella; desde allí, salta a otro sitio web y comienza todo de nuevo. Cuando la araña llega a páginas sin vínculos, regresa uno o dos niveles hacia atrás, y salta hacia uno de los que omitió la vez anterior.

Los robots se diseñan con diversas funcionalidades: para hacer índices de la web; para generar mediante algoritmos resúmenes de documentos que se almacenan en inmensas bases de datos; otros identifican los vínculos hacia páginas que ya no existen; otros llevan estadísticas relacionadas con la actualización del sitio, número de páginas, etc. Sólo Google tiene al menos 9 robots diferentes y cada uno de ellos tiene un ámbito de especialización.

Mediante el protcolo SRE (Standard for Robot Exclusion) el administrador de un website puede dar instrucciones (controlar el comportamiento) a los robots que llegan hasta una página determinada. Puede indicar por ejemplo que los robots (todos, o uno concreto) no revisen el contenido completo de un website, que no recorran las páginas en construcción o que no accedan a directorios que no poseen páginas HTML, haciendo además más eficiente y rápido su trabajo.

Para dar instrucciones a una araña, el administrador debe crear un archivo de texto denominado “robots.txt” que indica las políticas de acceso al website. Por ejemplo, en esta instrucción se solicita a todos los robots que no recorran ni indexen la sección de la web /dibujos/imagenes y de sus subdirectorios.

# Ejemplo archivo robots.txt

User-agent:*
Disallow: /dibujos/imagenes

La primera línea corresponde a un comentario (#). La segunda indica a que robot se le hace la solicitud; en este caso, la orden es para todos (*). La tercera línea muestra a que ruta se le quita el acceso, conjuntamente con los directorios que le siguen en orden jerárquico.

Si se desea indicar una orden específica para un robot:

# Ejemplo archivo robots.txt

User-agent:*
Disallow: /dibujos/imagenes
Disallow: /directorio/archivo/que-no-quieras-que-sea-indexado.html
User-agent:Scooter
Disallow:

En el ejemplo, el robot Scooter (el robot de Altavista) tiene acceso ilimitado dentro del sitio, pero prohibe a otros a ingresar a las rutas especificadas.

Si desea prohibir el acceso de cualquier robot a un sitio:

# Ejemplo archivo robots.txt

User-agent: *
Disallow: /
Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s