Recuperación de información · Ranking · Modelos

Recuperación de información web: modelos booleano, probabilístico y vectorial

Los modelos clásicos explican la base de la búsqueda, pero la Web añade escala, spam, enlaces, frescura e intención del usuario.

Booleano

Coincidencia precisa con operadores lógicos, útil pero rígida para búsquedas exploratorias.

Probabilístico

Ordena documentos por probabilidad estimada de relevancia frente a la consulta.

Vectorial

Representa consultas y documentos como vectores ponderados y compara similitud.

Límites web

Enlaces, duplicados, spam y páginas cambiantes requieren señales adicionales.

Cómo recuperar un documento Web

En este proyecto vamos a realizar un informe señalando cuáles son las limitaciones de los modelos y técnicas desarrollados en Recuperación de Información Tradicional a la hora de buscar en la Web.

1. Introducción

Esta tarea resume las principales características de los modelos clásicos de Recuperación de Información (RI) que son:

Modelo booleano.
Está basado en la Lógica Booleana y la clásica Teoría de Conjuntos en el cual ambos,los documentos a buscar y la consulta del usuario, son concebidos como un conjunto de términos.La recuperación está basada en cuando los documentos contienen o no los términos de la consulta.
Modelo probabilístico.
El modelo de recuperación probabilístico se basa en la equiparación probabilística, dados un documento y una pregunta, es posible calcular la probabilidad de que ese documento sea relevante para esa pregunta.
Modelo vectorial.
El modelo de recuperación vectorial o de espacio vectorial propone un marco en el que es posible el emparejamiento parcial, asignando pesos no binarios a los términos índice de las preguntas y de los documentos. Estos pesos de los términos se usan para computar el grado de similitud entre cada documento guardado en el sistema y la pregunta del usuario.

2. Modelo Booleano

El modelo booleano se basa en la teoría de conjuntos y , por lo tanto, la recuperación está basada en cuando los documentos contienen o no los términos de la consulta.

Un documento se representa como un conjunto de términos, de tal forma que un término estará presente o ausente de un determinado documento, sin contemplar la posibilidad de establecer diferentes grados de pertenencia. Las consultas se expresan mediante expresiones booleanas que se corresponden con operaciones sobre conjuntos:

AND: intersección de conjuntos.
OR: unión de conjuntos.
NOT: complementario de un conjunto.

El resultado obtenido será un conjunto de documentos desordenados con todos los documentos que respondan la expresión booleana de la consulta.

2.1 Ventajas

sencillez
fácil de implementar

2.2 Desventajas

No es posible ordenar los resultados obtenidos
No se tiene en cuenta el número de veces
No diferencia entre los operadores AND y OR y las palabras del lenguaje natural ‘and’ y ‘or’

3. Modelo Probabilístico.

El modelo probabilístico fue formulado por Stephen Robertson y Sparck Jones en 1977. Para empezar a definir este modelo tenemos que establecer el proceso de RI como intrínsecamente impreciso.

Este modelo funciona de la siguiente manera. Un usuario realiza una consulta al sistema buscando una determinada información entonces el modelo estima la probabilidad de que los documentos accesibles por él sean relevante para esa consulta. Si consideramos la consulta como

C

y un documento qualquier

D

podríamos definir la probabilidad como P(

\frac{C} {d}

) .

En el modelo se intenta obtener un conjunto de documentos relevantes (denominado

R

), que deberá maximizar la probabilidad de relevancia. Un documento se considera relevante si su probabilidad de ser relevante, P(rel)(

\frac{C} {d}

) , es mayor que la probabilidad de no ser relevante, P(no rel)( )

El modelo probabilístico se basa en un proceso retroalimentativo . Este proceso se inicia con un primer conjunto de documentos relevantes, que es paulatinamente recalculado en función de la información que proporciona el usuario de aquellos documentos que considera relevantes y no relevantes.

3.1 Ventajas

Proporciona una ordenación de los documentos en base a su probabilidad de relevancia

3.2 Desventajas

La necesidad de iniciar el modelo a partir de una primera estimación del conjunto de documentos relevantes
No se tiene en cuenta el número de veces que cada término aparece en un documento a la hora de estimar su probabilidad de relevancia.
Los resultados no son mucho mejores que los obtenidos en el modelo booleano

4. Modelo Vectorial

Este modelo ordenada los documentos recuperados en orden decreciente a un grado de un grado de similitud, el modelo de recuperación vectorial toma en consideración documentos que sólo se emparejan parcialmente con la pregunta, así el conjunto de la respuesta con los documentos alineados es mucho más preciso (en el sentido que empareja mejor la necesidad de información del usuario) que el conjunto recuperado por el modelo booleano. Los rendimientos de alineación del conjunto de la respuesta son difíciles de mejorar.

En el modelo vectorial los documentos se representan como un vector de términos, y viceversa. Las consultas se modelan como un vector de términos y el modelo recupera los documentos relevantes en función de la similitud de los vectores de los documentos con el vector de la consulta, en un espacio n-dimensional.

La representación más adoptada es la conocida como bolsa de palabras: una colección de documentos compuesta por En documentos indexados y m términos representados por una matriz documento-término de n x m. Donde los n vectores renglón representan los n documentos; y el valor asignado a cada componente refleja la importancia o frecuencia ponderada que produce el término, frase o concepto ti en la representación semántica del documento j.

d_{j} = ( w_{1j},w_{2j} ... w_{mj})

Donde m es la cardinalidad del diccionario (una lista de términos únicos que aparecen en un conjunto de documentos) y

0 \le w_{ij} \le 1

representa la contribución del término ti para la representación semántica del documento dj.

4.1 Ventajas

Más confiable
Permite aciertos parciales, ya que un documento puede ser considerado relevante aunque no incluya todos los términos de la consulta.
La ordenación de los resultados se realiza en base a varios factores: frecuencia de los
Permite una implementación eficiente para grandes colecciones de documentos.

4.2 Desventajas

Su aplicación. Requiere las necesidades de los valores de todos los componentes del vector, pero estos no están disponibles en una arquitectura de archivo invertido. En la práctica, se deben utilizar los valores normalizados y el algoritmo vectorial del producto.