El fichero inverso

La tarea de indizar tiene como resultado la creación de índices cuya finalidad es presentar los conceptos, las relaciones entre conceptos, las referencias u ocurrencias necesarias para describir los documentos y permitir su recuperación.

Un tipo de índice es el índice inverso, llamado también fichero inverso, organiza los términos utilizados para indizar los documentos proporcionando para cada uno de estos términos una lista de los documentos donde aparece. Cada entrada es asociada a un identificador de documento y a un identificador de campos que señala en que lugar del documento aparece el término.

Definición

  1. Un fichero inverso es un tipo de fichero índice que contiene: palabra clave (término que describe el documento), identificador de documento (único para ese documento), identificador de campo (en que campo del documento aparece la palabra clave. Se suele incluir además información del párrafo y frase donde se encuentra el término.
  2. Es un tipo de fichero indexado. Por cada palabra o término que aparece en la colección, un fichero inverso lista cada documento donde aparece. La estructura de acceso a un fichero inverso es normalmente una palabra clave, id-documento, id-campo.
  3. Es un índice que permite al programa recuperar los documentos por su contenido

Funcionamiento

Lo que se hace es indizar, individualmente, cada una de las palabras significativas que se encuentran en un documento, y se crea un fichero nuevo: el fichero inverso, que contiene todas los términos indicando la posición de los mismos. Así el fichero inverso contiene una entrada para cada una de las palabras de la base de datos, y esa entrada incluye en que documento/s se encuentra, y su posición en el mismo indicando: campo, subcampo, párrafo, línea, frase y posición dentro de la frase.

Palabra
Documento
Campo
Línea
Nº palabra
“bibliotecario”
7
5
12
11
“biblioteca”
3
20
2
5
El fichero inverso contiene, ordenadas alfabéticamente todos los términos con significado semántico (es decir que no sean palabras vacías), contenidos en los documentos de una base de datos.

En el momento de realizar una búsqueda el robot no lee todos los documentos sino que sencillamente busca en el fichero inverso cada una de las ocurrencias de los términos buscados: el resultado son los documentos en los que aparece esa palabra. Posteriormente el sistema espera nuevas órdenes del usuario: realizar otra búsqueda, mejorar la búsqueda anterior, ver los documentos que nos ofrece, etc.

Gracias al fichero inverso y a los operadores booleanos u operadores lógicos podemos recuperar la información. La combinación de los términos mediante operadores lógicos crea una ecuación, la cual puede ser transformada por medios informáticos. selecciona y compara, mediante la aplicación de la teoría de conjuntos, los resultados de la consulta al fichero inverso, y selecciona, de acuerdo a los operadores establecidos por el usuario, aquellos que responden a la lógica de la ecuación de búsqueda.

El objetivo del fichero inverso es la recuperación de información.

  • Permite definir campos como indizables o no indizables. Indizable es un campo que permite buscar la información que contiene ese campo o cuyos términos pasan a formar parte de un fichero inverso.
  • Podemos definir campos de contenido obligatorio. Es decir, el campo debe tener obligatoriamente datos para poder guardar el documento.
  • Posibilidad de definir campos con vocabulario controlado. El sistema obliga automáticamente a que en el campo figuren términos de una lista autorizada previamente.
  • Posibilidad de incorporar un tesauro.
  • Posibilidad de hacer búsquedas secuenciales. Realiza la búsqueda en toda la base documento a documento. Es mucho más lenta que la búsqueda indexada.
  • Posibilidad de combinar distintas expresiones y estrategias de búsqueda
Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s