Rastreo, indexación y ranking

rastreo-indexacion-ranking

Rastreo, indexación y ranking (ordenación) son tres actividades muy diferenciadas que los buscadores hacen de forma casi simultánea (como el aceite 3 en 1).  Todos los buscadores hacen lo mismo, la diferencia entre unos y otros se encuentra en la calidad de sus algoritmos.

El origen de las actividades de un buscador se encuentra en el momento en el que un robot llega a un website.

Paso 1. Rastreo. El buscador envía un crawler que rastrea el website e identifica todos los recursos que componen el website, diferenciando estructura y contenido. Al mismo tiempo hace recuento de los mismos.

  • Número de archivos HTML
    • Número de etiquetas title
    • Número de etiquetas metadescription
    • Número de etiquetas H1
    • Número de etiquetas H2
    • etc
    • Número de imágenes
  • Número de archivos CSS
  • Número de archivos JavaScript

Paso 2. Indexación. Ahora el buscador a través de diversos bots especializados identifica el contenido del site y crea una tabla (el índice del website) con el número de veces que una misma cadena de texto está recogida en el website, con el número de veces que esa misma cadena aparece en cada página, con la etiqueta con la que esa cadena está asociada dentro de la página (si es title, H1, H2, metadescription, etc). Es decir, asocia contenido y estructura y crea un índice que se llama fichero inverso. El buscador guarda este índice dentro de su base de datos, lo indexa y le asigna valores en función de la frecuencia, recuento, peso y prominencia.

Paso 3. Ordenación. Los buscadores son un software que recupera información. Los buscadores presentan los resultados ordenados en función de su relevancia, es decir, en función de la utilidad que la información tiene para la consulta del usuario. Los buscadores ordena los resultados almacenados en sus bases de daos en función del matching con la consulta de búsqueda del usuario. Tratan de inferir la necesidad latente y no expresada. Es decir, la verdadera intención que subyace detrás de cada pregunta que se hace al buscador.

Imagina por ejemplo que tengo invitados a comer. Hago la consulta “receta crema de calabaza” y el buscador me ofrece como resultado “receta de crema de calabaza para triunfar con tus invitados”. Ese resultado será sin duda muy relevante para mi en esa coyuntura puntual (preparar comida para varios comensales).

Los buscadores tienen a la redes sociales como un punto de referencia que les permiten interpretar la actualidad en tiempo real (saber a qué se refieren los usuarios) y ponderar la ordenación de sus rankings. Cualquier acontecimiento que tenga eco en redes sociales es inmediatamente trasladado al buscador (en estos momentos por ejemplo, Cifuentes, master, Carrefur Vallecas, Oil Of Olay, etc).

La relevancia es también autoridad. La autoridad puede ser propia (notoriedad de marca, recuerdo espontáneo/ sugerido), y también puede ser reconocimiento. Los enlaces entrantes (backlinks) implican reconocimiento. El valor de cada backlink depende de la autoridad que tengan los websites que nos enlazan (es recursivo).

La relevancia también depende del volumen de tráfico que recibe un website.
Los buscadores saben el volumen de tráfico que ellos mismos proporcionan a un website en función de los clics que éste recibe como resultado en la SERP. Pero también cuentan con mecanismos que les ayudan a evaluar el volumen de tráfico que ese mismo site puede recibir de otras fuentes (Google por ejemplo controla los servidores DNS).

Anuncios

El nombre de los robots de Google

El nombre de los robots de Google

Google utiliza varios robots (9) que recorren la red evaluando y clasificando las páginas que visitan. Google elabora su índice a partir de la información que recopilan estos robots. Podemos permitir o denegar el acceso total o parcial (excluir directorios, páginas y archivos) a nuestro site de estos robots mediante el archivo robots.txt y mediante las metaetiquetas robots.

El archivo robots.txt se encuentra en la raíz de nuestra web y es lo primero que consultan los robots para saber qué pueden o no recorrer e indexar. Hay tres sentencias básicas:

  • User-agent: * (se refiere al nombre del crawler, el asterisco representa a todos los robots)
  • Allow: / directorios, páginas o archivos a los que damos acceso a los robots
  • Disallow: / los directorios, páginas o archivos que impedimos sean rastreados por el robot.

Las metaetiquetas robots <meta name=”robots” content=”…, …” /> nos permiten dar instrucciones muy concretas a los crawlers de forma genérica (noindex, nofollow, nosnippet, noodp, noarchive, unavailable_after:[date], noimageindex) e incluso podemos personalizarla sustituyendo el término “robots” por el nombre del bot que deseamos no indexe nuestros contenidos (<meta name= Googlebot  content=”…, …” />

  • Googlebot: rastrea páginas web para indexarlas. No sólo extrae información del HTML, sino además de archivos PDF, DOC, XLS, PPT, etc. La frecuencia de rastreo es directamente proporcional a la importancia (PageRank) que tenga la web
  • Feedfetcher: es un user-agent asociado a Googlebot que se encarga de registrar el acceso a los feeds RSS o Atom que los usuarios añaden a sus páginas de iGoogle o Google Reader. Este es el único robot que como es activado de forma manual por un humano no obedece las indicaciones del archivo robots.txt
  • Googlebot News: también es conocido como “freshbot” rastrea páginas de noticias (CNN, Reuters, BBC, periódicos diarios, etc ), o páginas que Google considera que actualizan con frecuencia sus contenidos
  • Googlebot-Image: rastrea páginas para el índice de imágenes
  • Googlebot Video: rastrea páginas buscando vídeos
  • Googlebot-Mobile: rastrea páginas para el índice móvil. Utiliza dos user-agent (crawlers o rastreadores) uno para las páginas destinadas a móviles tradicionales (utilizan navegadores muy limitados para poder visualizar páginas) y otro user-agent para las páginas destinadas a teléfonos inteligentes (smartphones) con navegadores más completos y similares a los navegadores de ordenadores de escritorio. Si la página para móviles redirige a una página específica para smartphone, Google indexa esta URL final para evitar la latencia (entre 0,5 y 1 segundo) de demora que causa la redirección. Es decir, identifica el modelo del móvil y navegador que hace la consulta para ofrecerle en la página de resultados las URL’s optimizadas.
  • Google Mobile AdSense: rastrea las páginas móviles para el contenido de AdSense
  • Mediapartners-Google: rastrea páginas para determinar el contenido de AdSense.
  • Adsbot-Google: sólo rastrea las landing pages utilizadas en las campañas de Adwords para  para evaluar la calidad de la página de destino en función de 3 criterios: “contenido relevante y original, transparencia y facilidad de navegación”.

Diferencia entre browser y crawler

crawler-headless-browserLas páginas web son archivos HTML que contienen texto, códigos de formato y otros recursos que definen su contenido. Para acceder a las páginas web necesitamos una aplicación específica que se llama browser.

Un browser es un navegador, también conocido como visualizador, es un programa que responde a la información introducida por el usuario, enviando comandos HTTP (HyperText Transport Protocol) a través de internet.

El navegador recupera la URL (Uniform Resource Locator) de la página que visita (es decir la encuentra entre los cientos de miles de ordenadores de Internet). Establece una conexión con el servidor remoto, transmite un código Get HTTP para recuperar el archivo HTML y presenta el documento en la pantalla. El navegador renderiza el código y lo muestra en una pantalla al usuario.

Un crawler es un robot, es decir un navegador con piloto automático. La principal diferencia con un navegador es que el crawler no tiene por qué renderizar las páginas que visita y eso le permite recorrer de forma muy rápida un website (12 URLs por segundo aprox). En inglés a los crawlers también se les llama headless browsers (navegadores sin cabeza).

Los crawlers son también conocidos como spiders (arañas) y se desplazan continuamente por internet, saltando de un lugar a otro con para crear índices actualizados de la Red y volcar en bases de datos el contenido de los sitios que visitan.

En un crawler el usuario ha sido sustituido por un automatismo (algoritmo) que busca e identifica hipervínculos, descarga la página en una base de daos y busca vínculos hacia otros sitios, selecciona una URL y salta hacia ella; desde allí, salta a otro sitio web y comienza todo de nuevo. Cuando la araña llega a páginas sin vínculos, regresa uno o dos niveles hacia atrás, y salta hacia uno de los que omitió la vez anterior.

Los robots se diseñan con diversas funcionalidades: para hacer índices de la web; para generar mediante algoritmos resúmenes de documentos que se almacenan en inmensas bases de datos; otros identifican los vínculos hacia páginas que ya no existen; otros llevan estadísticas relacionadas con la actualización del sitio, número de páginas, etc. Sólo Google tiene al menos 9 robots diferentes y cada uno de ellos tiene un ámbito de especialización.

Mediante el protcolo SRE (Standard for Robot Exclusion) el administrador de un website puede dar instrucciones (controlar el comportamiento) a los robots que llegan hasta una página determinada. Puede indicar por ejemplo que los robots (todos, o uno concreto) no revisen el contenido completo de un website, que no recorran las páginas en construcción o que no accedan a directorios que no poseen páginas HTML, haciendo además más eficiente y rápido su trabajo.

Para dar instrucciones a una araña, el administrador debe crear un archivo de texto denominado “robots.txt” que indica las políticas de acceso al website. Por ejemplo, en esta instrucción se solicita a todos los robots que no recorran ni indexen la sección de la web /dibujos/imagenes y de sus subdirectorios.

# Ejemplo archivo robots.txt

User-agent:*
Disallow: /dibujos/imagenes

La primera línea corresponde a un comentario (#). La segunda indica a que robot se le hace la solicitud; en este caso, la orden es para todos (*). La tercera línea muestra a que ruta se le quita el acceso, conjuntamente con los directorios que le siguen en orden jerárquico.

Si se desea indicar una orden específica para un robot:

# Ejemplo archivo robots.txt

User-agent:*
Disallow: /dibujos/imagenes
Disallow: /directorio/archivo/que-no-quieras-que-sea-indexado.html
User-agent:Scooter
Disallow:

En el ejemplo, el robot Scooter (el robot de Altavista) tiene acceso ilimitado dentro del sitio, pero prohibe a otros a ingresar a las rutas especificadas.

Si desea prohibir el acceso de cualquier robot a un sitio:

# Ejemplo archivo robots.txt

User-agent: *
Disallow: /

4 formas de conseguir que un robot visite una web

Existen 4 formas de conseguir que una araña visite una página web:

  1. Accediendo a cada buscador y dando de alta la página web. Dando de alta la web en directorios como el de Yahoo! o DMOZ
  2. Consiguiendo que otras páginas publiquen enlaces a la página web. Cuando una araña entra en una página web y encuentra allí un enlace a otra página web, también la visita.
  3. Contratando el servicio de indexación de un buscador para que la araña visite la web en menos de 48 horas y realice una indexación completa. Este servicio es de pago lo ofrecen algunos buscadores como Yahoo!.
  4. Publicando un mapa del site y dándolo de alta en Google SiteMaps. Este servicio gratuito de Google permite que en 48 horas tengas indexada completamente toda tu página web.

Anatomía de un buscador

 

@Algo Ramblings

Internet tiene una naturaleza caótica. Las páginas web son dinámicas, es decir, pueden modificarse, crearse y destruirse sin previo aviso. Además, están escritas en diferentes idiomas. Y para acabar de complicar la cosa, la naturaleza del contenido de las páginas es muy variada, pueden contener texto, gráficos, imágenes, sonido, vídeo, programas, etc.

En cualquier página web pueden concurrir infinidad de situaciones, desde que sea una página aislada, hasta que sea una minúscula parte de una web y esté relacionada con millones de páginas más.

Los buscadores surgieron desde el primer momento como herramientas que intentaron poner un poco de orden en medio de este caos y facilitar la localización de la información. Con el tiempo estas herramientas se han convertido en algo imprescindible y hoy nadie puede imaginar internet sin los buscadores.

Para catalogar un libro se sigue una clasificación de materias aceptada universalmente que permite ubicar un libro según su tema. En internet lo más parecido son las categorías del proyecto DMOZ y los directorios a los que recurren otros buscadores. Pero los directorios son incompletos porque la inclusión de websites es totalmente voluntaria.

La estructura de la información en internet no facilita su organización. Los buscadores copian los datos de internet mediante programas que visitan las páginas (robots) y los transforman volcándolos en bases de datos mediante sistemas de indexación, compresión y organización que garantizan una estructura de datos mucho más favorable para la búsqueda.

Los buscadores web son motores de búsqueda. Un motor de búsqueda consta de al menos 3 subsistemas:

RASTREADOR/ RECOLECTOR

Es conocido también como  spider, robot, bot, crawler. El recolector es un programa automatizado similar a un navegador web que visita las páginas de un sitio y las descarga incorporándolas a una colección

Este tipo especial de navegadores sólo reconocen texto, no pueden ver imágenes, gráficos, vídeos, animaciones en flash, etc. También tienen dificultades para superar la programación de partes concretas de la página como el menú de navegación, o determinadas funcionalidades (applets). Estos recolectores tiene también dificultades para buscar en las páginas generadas dinámicamente mediante ASP, PHP, Java, etc

INDEXADOR

Un indexador es otro programa automatizado que analiza la página descargada y extrae toda la información relevante que está introducida en el código y convierte la colección en una estructura más manejable y pequeña, llamada índice

El índice es una representación compacta del contenido total de una página. ¿Qué información relevante extrae el indexador del código HTML?

  • Article heading. Los encabezados de la página, que están identificados con las etiquetas <h1> a <h6> definen y estructuran el contenido. El encabezado <h1> es el título que resume el contenido de esa página concreta. Para un buscador es el elemento más importante de la página y no tiene por qué guardar correspondencia con el <title>.
  • Page title. Es el título de la página que se muestra en la página de resultados del buscador (SERP, Search Engine Results Page), en la barra de título del navegador dei usuario y si se guarda como marcador en el título del mismo. Este título debería tener una extensión máxima de 70 caracteres.
  • Page URL. Es la dirección en internet que tiene esa página concreta (URL, Uniform Resources Locator).
  • Content. El contenido de la página en formato texto. El buscador tiene en cuenta varias características del texto como: la extensión (recuento total de palabras); la presencia de determinadas palabras clave (keywords) que definen la temática del contenido; el orden que ocupan las palabras clave dentro de la página (prominencia o relevancia); el número de veces que se repite esa palabra clave (densidad) a lo largo del contenido; el estilo que adoptan (negrita, cursiva, subrayada, tachada)
  • Meta data. Los metadatos están embebidos en el código HTML de la página y no se muestran al usuario en el navegador. Hay dos metadatos fundamentales: meta data description y meta data keywords. Meta data description es la etiqueta donde se guarda el resumen del contenido de la página. Los  buscadores incluyen esta meta descripción en cada entrada (debajo del título) a la que llaman snippet y que suele tener una extensión aproximada de 156 caracteres. Meta data keywords son las palabras clave presentes en el contenido de esa página, sirven para orientar al buscador y dar mayor peso (densidad de palabras clave. Además del protocolo Dublin Core existen los rich snippets (fragmentos enriquecidos) que es el marcado estructurado del HTML para destacar y definir el contenido de una web de forma estandariazada. Los fragmentos enriquecidos son utilizados por principalmente por buscadores y agregadores y constituyen una de las líneas de avance de la web semantica.

BUSCADOR

Realmente es la base de datos en la que el usuario recupera ciertas páginas del índice.

Veamos con más detalle los sistemas de indexación, compresión y organización.

¿Qué es la indexación? Básicamente, el proceso es el mismo que cuando consultamos el índice de un libro. Buscamos en el índice y obtenemos un número de página, luego vamos directamente a esa página sin tener que recorrer todas las páginas del libro. Por ejemplo, si tenemos un sitio web, se puede crear un índice con todas las palabras que aparecen en el sitio web, y con los nombres de las páginas en las que aparecen; así, dada una palabra podremos ir rápidamente a las páginas en las que aparece. El único problema es construir y mantener actualizado el índice.

¿Qué es la compresión? Si estamos buscando texto, las imágenes no nos interesan, tampoco el formato del texto, todo esto se puede eliminar para realizar las búsquedas más rápidas. Además, existen técnicas complejas para lograr que las páginas ocupen menos espacio. En el momento en el que la información se almacena es cuando el motor de búsqueda determina el ranking o las posiciones en las que van a aparecer los resultados a partir de una palabra concreta. Es en este punto donde se encuentran las mayores diferencias entre los motores de búsqueda. En función de sus algoritmos otorgan relevancias diferentes a una misma página.

¿Qué es la organización? Un robot rellena una base de datos primaria con el código de las páginas que visita. El motor de búsqueda consulta en esa base de datos cuando nosotros le preguntamos y ofrece resultados mediante un complicado algoritmo que trata de emular de forma objetiva lo que los humanos hacemos de un modo instintivo: clasificar una página por temas, origen, etc. y listarlas jerárquicamente de acuerdo con su mayor o menor relación con el término buscado por el usuario.

En el proceso de búsqueda se realizan varias operaciones que casi siempre implican consultar un índice de páginas, que es una representación compacta del contenido de éstas. El buscador obtiene una lista de documentos, luego los ordena de mayor a menor importancia (esto se llama ranking), los consolida (ej.: eliminar duplicados, agrupar los de un mismo sitio, etc.) y los presenta al usuario.