3. Modelo Probabilístico.
El modelo probabilístico fue formulado por Stephen Robertson y Sparck Jones en 1977. Para empezar a definir este modelo tenemos que establecer el proceso de RI como intrínsecamente impreciso.
Este modelo funciona de la siguiente manera. Un usuario realiza una consulta al sistema buscando una determinada información entonces el modelo estima la probabilidad de que los documentos accesibles por él sean relevante para esa consulta. Si consideramos la consulta como
C y un documento qualquier
D podríamos definir la probabilidad como P(
dC ) .
En el modelo se intenta obtener un conjunto de documentos relevantes (denominado
R ), que deberá maximizar la probabilidad de relevancia. Un documento se considera relevante si su probabilidad de ser relevante, P(rel)(
dC ) , es mayor que la probabilidad de no ser relevante, P(no rel)(
)
El modelo probabilístico se basa en un proceso retroalimentativo . Este proceso se inicia con un primer conjunto de documentos relevantes, que es paulatinamente recalculado en función de la información que proporciona el usuario de aquellos documentos que considera relevantes y no relevantes.
3.1 Ventajas
- Proporciona una ordenación de los documentos en base a su probabilidad de relevancia
3.2 Desventajas
- La necesidad de iniciar el modelo a partir de una primera estimación del conjunto de documentos relevantes
- No se tiene en cuenta el número de veces que cada término aparece en un documento a la hora de estimar su probabilidad de relevancia.
- Los resultados no son mucho mejores que los obtenidos en el modelo booleano