Anatomía de un buscador

 

@Algo Ramblings

Internet tiene una naturaleza caótica. Las páginas web son dinámicas, es decir, pueden modificarse, crearse y destruirse sin previo aviso. Además, están escritas en diferentes idiomas. Y para acabar de complicar la cosa, la naturaleza del contenido de las páginas es muy variada, pueden contener texto, gráficos, imágenes, sonido, vídeo, programas, etc.

En cualquier página web pueden concurrir infinidad de situaciones, desde que sea una página aislada, hasta que sea una minúscula parte de una web y esté relacionada con millones de páginas más.

Los buscadores surgieron desde el primer momento como herramientas que intentaron poner un poco de orden en medio de este caos y facilitar la localización de la información. Con el tiempo estas herramientas se han convertido en algo imprescindible y hoy nadie puede imaginar internet sin los buscadores.

Para catalogar un libro se sigue una clasificación de materias aceptada universalmente que permite ubicar un libro según su tema. En internet lo más parecido son las categorías del proyecto DMOZ y los directorios a los que recurren otros buscadores. Pero los directorios son incompletos porque la inclusión de websites es totalmente voluntaria.

La estructura de la información en internet no facilita su organización. Los buscadores copian los datos de internet mediante programas que visitan las páginas (robots) y los transforman volcándolos en bases de datos mediante sistemas de indexación, compresión y organización que garantizan una estructura de datos mucho más favorable para la búsqueda.

Los buscadores web son motores de búsqueda. Un motor de búsqueda consta de al menos 3 subsistemas:

RASTREADOR/ RECOLECTOR

Es conocido también como  spider, robot, bot, crawler. El recolector es un programa automatizado similar a un navegador web que visita las páginas de un sitio y las descarga incorporándolas a una colección

Este tipo especial de navegadores sólo reconocen texto, no pueden ver imágenes, gráficos, vídeos, animaciones en flash, etc. También tienen dificultades para superar la programación de partes concretas de la página como el menú de navegación, o determinadas funcionalidades (applets). Estos recolectores tiene también dificultades para buscar en las páginas generadas dinámicamente mediante ASP, PHP, Java, etc

INDEXADOR

Un indexador es otro programa automatizado que analiza la página descargada y extrae toda la información relevante que está introducida en el código y convierte la colección en una estructura más manejable y pequeña, llamada índice

El índice es una representación compacta del contenido total de una página. ¿Qué información relevante extrae el indexador del código HTML?

  • Article heading. Los encabezados de la página, que están identificados con las etiquetas <h1> a <h6> definen y estructuran el contenido. El encabezado <h1> es el título que resume el contenido de esa página concreta. Para un buscador es el elemento más importante de la página y no tiene por qué guardar correspondencia con el <title>.
  • Page title. Es el título de la página que se muestra en la página de resultados del buscador (SERP, Search Engine Results Page), en la barra de título del navegador dei usuario y si se guarda como marcador en el título del mismo. Este título debería tener una extensión máxima de 70 caracteres.
  • Page URL. Es la dirección en internet que tiene esa página concreta (URL, Uniform Resources Locator).
  • Content. El contenido de la página en formato texto. El buscador tiene en cuenta varias características del texto como: la extensión (recuento total de palabras); la presencia de determinadas palabras clave (keywords) que definen la temática del contenido; el orden que ocupan las palabras clave dentro de la página (prominencia o relevancia); el número de veces que se repite esa palabra clave (densidad) a lo largo del contenido; el estilo que adoptan (negrita, cursiva, subrayada, tachada)
  • Meta data. Los metadatos están embebidos en el código HTML de la página y no se muestran al usuario en el navegador. Hay dos metadatos fundamentales: meta data description y meta data keywords. Meta data description es la etiqueta donde se guarda el resumen del contenido de la página. Los  buscadores incluyen esta meta descripción en cada entrada (debajo del título) a la que llaman snippet y que suele tener una extensión aproximada de 156 caracteres. Meta data keywords son las palabras clave presentes en el contenido de esa página, sirven para orientar al buscador y dar mayor peso (densidad de palabras clave. Además del protocolo Dublin Core existen los rich snippets (fragmentos enriquecidos) que es el marcado estructurado del HTML para destacar y definir el contenido de una web de forma estandariazada. Los fragmentos enriquecidos son utilizados por principalmente por buscadores y agregadores y constituyen una de las líneas de avance de la web semantica.

BUSCADOR

Realmente es la base de datos en la que el usuario recupera ciertas páginas del índice.

Veamos con más detalle los sistemas de indexación, compresión y organización.

¿Qué es la indexación? Básicamente, el proceso es el mismo que cuando consultamos el índice de un libro. Buscamos en el índice y obtenemos un número de página, luego vamos directamente a esa página sin tener que recorrer todas las páginas del libro. Por ejemplo, si tenemos un sitio web, se puede crear un índice con todas las palabras que aparecen en el sitio web, y con los nombres de las páginas en las que aparecen; así, dada una palabra podremos ir rápidamente a las páginas en las que aparece. El único problema es construir y mantener actualizado el índice.

¿Qué es la compresión? Si estamos buscando texto, las imágenes no nos interesan, tampoco el formato del texto, todo esto se puede eliminar para realizar las búsquedas más rápidas. Además, existen técnicas complejas para lograr que las páginas ocupen menos espacio. En el momento en el que la información se almacena es cuando el motor de búsqueda determina el ranking o las posiciones en las que van a aparecer los resultados a partir de una palabra concreta. Es en este punto donde se encuentran las mayores diferencias entre los motores de búsqueda. En función de sus algoritmos otorgan relevancias diferentes a una misma página.

¿Qué es la organización? Un robot rellena una base de datos primaria con el código de las páginas que visita. El motor de búsqueda consulta en esa base de datos cuando nosotros le preguntamos y ofrece resultados mediante un complicado algoritmo que trata de emular de forma objetiva lo que los humanos hacemos de un modo instintivo: clasificar una página por temas, origen, etc. y listarlas jerárquicamente de acuerdo con su mayor o menor relación con el término buscado por el usuario.

En el proceso de búsqueda se realizan varias operaciones que casi siempre implican consultar un índice de páginas, que es una representación compacta del contenido de éstas. El buscador obtiene una lista de documentos, luego los ordena de mayor a menor importancia (esto se llama ranking), los consolida (ej.: eliminar duplicados, agrupar los de un mismo sitio, etc.) y los presenta al usuario.

Anuncios

2 pensamientos en “Anatomía de un buscador

  1. Pingback: Posicionamiento de mi web | Julio Iturre

  2. Pingback: Número de caracteres en título, descripción y URL | Visibilidad, tráfico y conversión

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s