En este proyecto vamos a describir el término Búsqueda para los Documentos Web, analizando los diferentes tipos de información, el proceso de indexación y las interfaces utilizadas.
Para analizar el término Búsqueda en el contexto de la Web es necesario empezar analizando las propias características de este entorno. Internet ,y más exactamente los Documentos Web que este espacio contiene, es una fuente de información distribuida, dinámica y en constante expansión que nos puede proporcionar una gran cantidad de información. Esta características, surgidas hace unos pocos años, se contraponen a los métodos tradicionales ya que se basaban en técnicas para indexar documentos estáticos, no dinámicos y directamente accesibles , suponiendo una autentica revolución en el campo.
Como consecuencia directa, se cambio la propia arquitectura de los buscadores en un intento de resolver los siguientes problemas surgidos de la revolución de la información:
La manera más común de expresar y comunicar la información sobre algún tema en la red es mediante el texto. El texto puede codificarse:
Al no existir un formato único, los sistemas de recuperación de información deben recuperar los documentos en todos los formatos posibles y no siempre es posible interpretar el código que estos utilizan. Esto supone un serio problema con difícil solución, ya que, opciones como convertir los documentos en un único formato tienen un coste computacional demasiado alto si pensamos en la variedad de tipografías, diseños y tipos de texto que existen. La solución más extendida y que mejores resultados ha obtenido es aplicar una serie de filtros que permiten evitar estas conversiones y, de este modo, aumentar la eficiencia. Los formatos que nos podemos encontrar en los documentos son:
Una vez tenemos claro el tipo de texto que vamos a buscar, es interesante medir la cantidad de información que nos proporcione un documento. Normalmente las métricas utilizadas estarán relacionadas con la distribución de los símbolos en el documento. Con este fin se ha utilizado términos como la entropía en la teoría de la información para ser utilizada como una magnitud que mide la información de una fuente de datos. Para entenderlo mejor podremos aplicar la siguiente hipótesis: si un fin de semana se celebra un concierto es normal porque es una buena fecha para realizarlo ya que puede tener mucha afluencia de publico, pero, por ejemplo si el concierto se celebra un miércoles puede indicar otros motivos diferentes como pueden ser que exista un festivo cercano o que este en un festival de música.
Los beneficios de aplicar esta medida de la entropía a fuentes de información de distinta naturaleza son varios pero, como podremos ver en el ejemplo, su principal virtud es evitar expresar información redundante de nuestras búsquedas. La definición formal de la entropia es la siguiente: donde H es la entropía, las p son las probabilidades de que aparezcan los diferentes códigos y m el número total de códigos. Normalmente, como podemos observar se utiliza el loggaritmo en base2 para expresar la entropía en bits. Por ejemplo, supongamos que el número de estados de un mensaje es igual a 3, donde la probabilidad de es de 50 , la de es de 25 y la de es de 25 . Por tanto la entropía de la información es:
Si analizamos el lenguaje Natural podremos comprobar que esta compuesta por símbolos que son los encargados de separar a las palabras o ser parte de ellas (las palabras las podemos considerar como símbolos). El lenguaje Natural como podemos observar no sigue una distribución uniforme, se trata de un modelo binomial y depende de los símbolos previos. Es considerado un modelo de Markob de orden K.
A partir de estas características en la década de los cuarenta se formulo la Ley de Zipf, por la cual, se mide la frecuencia de aparición de una palabra en un idioma por la siguiente distribución: donde representa la frecuencia de una palabra en la posición n-ésima (cuando las palabras se ordenan de mayor a menor frecuencia) y a es casi 1. Esto significa que el segundo elemento se repetirá aproximadamente con una frecuencia de 1/2 de la del primero, y el tercer elemento con una frecuencia de 1/3 y así sucesivamente.
A partir de estas primera aproximación surgieron nuevas leyes empíricas que realizaban aproximaciones más reales.La Ley de Heaps, una de las más utilizadas, se plantea una relación entre el tamaño del texto (cantidad de palabras) y el crecimiento de vocabulario (cantidad de palabra únicas) a través de la siguiente formula: donde:N: Es el tamaño del documento (cantidad de palabras)K: Constante que depende del texto, típicamente entre 10 y 100 : También es una constante que depende del texto.Para entender la siguiente formula el método más fácil es desarrollar algún ejemplo como el siguiente:
Sabiendo la proporción anterior, si y tendremos:
N | V |
---|---|
10000 | 6325 |
25000 | 10000 |
40000 | 12649 |
800000 | 17889 |
100000 | 20000 |
Con la tabla del ejemplo podemos comprobar que el tamaño del corpus creció 10 veces, mientras que el vocabulario apenas superó las 3 veces su tamaño inicial. Es decir, a medida que se incorporan documentos a una colección , se descubrirán nuevos términos para el vocabulario hasta llegar a un máximo. Su aplicación nos permite estimar el tamaño del vocabulario para, por ejemplo, conocer la escalabilidad de las estructuras de datos para almacenar los índices que soportan el SRI (Sistema de Recuperación de Información). Esto es altamente útil si se utilizará una tabla de hash en memoria para el índice.
Un hipervínculo, según el documento Effective Site Finding using Link Anchor Information, es una relación entre dos documentos o dos partes del mismo documento. Dentro de un enlace existira siempre:
Los métodos que utilizan el ranking basado en hipervínculos utilizan tres suposiciones principalmente:
Dependiendo de la filosofía aplicada cada software utilizara una, dos o las tres suposiciones, dependiendo de las necesidades del usuario para la búsqueda de documentos.
Como hemos comentado anteriormente, los hipervínculos son interpretados por los motores de búsqueda como recomendaciones que hace el autor de la pagina web sobre una fuente de información. Es por eso que, una página web que tiene un mayor número de enlaces apuntando hacia ella, tiene un ranking mayor, que una web que posee pocos enlaces. Este tipo de métrica se basa en asociar a cada enlace un valor (llamado peso) y aplicar un algoritmo por propagación iterativa que nos otorgo un valor de relevancia de la página.
Otro aspecto muy interesante relacionada con este aspecto, fue la investigación de Nick Craswell y David Hawking para comparar que método de análisis de la relevancia era más eficaz. Para ello analizaron los métodos de búsquedas por texto de anclaje y los de contenido llegando una conclusión muy interesante. Los autores afirmaron que los métodos de búsqueda por los "anchor text" obtienen resultados más validos que la busqueda por Url directamente.
También es cierto, que a lo largo de los años se ha jugado con este tipo de rankeo y han surgido casos verdaderamente curiosos. Existe el caso de que hace unos años, la Sociedad General de Autores Españoles (SGAE) tuvo enlaces a su web teniendo como término de anclaje "ladrones", de tal forma que, al haber un número tan elevado de enlaces a su site con ese término, si buscábamos en Google "ladrones" aparecía su página posicionada en la primera posición.
Otro método es la suposición en que se basa el Topic Locality (Temas Locales) donde se afirma que una web solamente intercambia enlaces entre páginas de la misma temática, de forma que, los enlaces que haya en una web, supuestamente, tratarán sobre la misma temática. Utilizando estos métodos, una página que es accesible por medio de un enlace a páginas consideradas relevantes pude tener una posición más alta en el ranking.
Este procedimiento se encarga de transformar los documentos para la recuperación de información a través de consultas. Si realizamos correctamente este proceso, un documento indexado debería funcionar como una representación de su contenidos semánticos.
Por lo general, el funcionamiento de la indexación tiene como objetivo conseguir una lista de términos con significado (conceptos) con información asociada acerca de la frecuencia en el documento es referenciado, la frecuencia en la base de datos o su concurrencia. Por su parte, un término puede ser varias cosas como una palabra (reducida a su forma raíz por algún algoritmo de lematización), una frase, un nombre propio o incluso expresiones especiales tales como fecha, lugares, etc.
Los términos se reconocen con técnicas relacionadas con el lenguaje. Según estos métodos, un documento es un conjunto de cadenas concatenadas sin tener en cuenta las propiedades del lenguaje natural y, por lo tanto, enfrentándonos a los siguiente inconvenientes:
La indexación es un proceso lento y costoso que solamente se ejecuta en el momento que se crear el sistema de recuperación de documentos. Por este motivo, los investigadores han otorgado mayor importancia a realizar métodos de actualización cuando haya modificaciones que es más eficiente. La indexación consta de los siguientes pasos:
El stemming o la lematización es un método para reducir una palabra a su raíz. Estos algoritmos están muy relacionados con los sistemas de recuperación de información ya que aumentan el número de documentos que se pueden encontrar con una consulta(Recall: Metrica para contabilizar el número de documentos recuperados.). Por ejemplo una consulta sobre "bibliotecas" también encuentra documentos en los que solo aparezca "bibliotecario" porque la raiz de las dos palabras es el mismo ("bibliotec").
El algoritmo más común para stemming es el algoritmo de Porter aunque existen otros métodos basados en análisis lexicográfico por ejemplo que también son muy utilizados (KSTEM, stemming con cuerpo, métodos lingüísticos...). Por otra parte, estos algoritmos se implementan con un pequeño lenguaje de programción conocido como Snowball utilizado básicamente para el manejo de strings permitiendo implementar fácilmente algoritmos de lematización. Las páginas de Snowball contienen stemmers para 12 idiomas (incluido el castellano , gallego, valenciano y euskera). Todas las explicaciones, sin embargo, son dadas en inglés.
Los términos que nos proporciona el stemming son utilizados como términos para la indexación de los documentos. Se asigna un peso acorde con la frecuencia a cada término en cada documento y en la colección.Existen dos tipos de frecuencia:
Para valorar el peso que tiene cada término se usa la siguiente fórmula: donde N representa el número total de documentos que hay en la colección.
La búsqueda de información es un proceso poco preciso debido a que los usuarios no saben cómo realizar una consulta de búsqueda con los términos necesarios. Es por ello que se necesitan interfaces de usuario que ayuden a solventar esta falta de conocimiento. Para elaborar una interfaz eficiente hemos de cumplir unos principios de diseño que son
Por otra parte, aparte de los principios que siempre deberemos intentar cumplir hay una serie de interfaces alternativos para usuarios expertos y noveles, que enfrentan la simplicidad contra la potencia y que ofrecen puentes que son más o menos avanzados dependiendo del usuario al que vayan dirigidos.
Otra decisión importante que debe tomarse a la hora de realizar un diseño, es la cantidad de información que queremos mostrar al usuario mediante el sistema de acceso a la información
Para acabar en este apartado ,en el artículo de Alan J.Dix, Janet E. Finlay, Gregory D. Abowd, Russell Beale y Prentice Hall, Human Computer Interaction, se ofrece una métrica de evaluación, no para la web sino para todo el sistema de interacción, formado por 10 elementos(414):
Un metabuscador es un motor de búsqueda que envía una solicitud de búsqueda a otros múltiples buscadores o bases de datos, retornando un listado con los resultados de búsqueda o un listado de enlaces para acceder a los resultados individuales de cada buscador de forma fácil.
Los metabuscadores permiten a sus usuarios ingresar criterios de búsqueda una sola vez, y acceder a múltiples buscadores de forma simultánea. No suelen tener una base de datos propia, ya que simplemente emplean los resultados de otros buscadores, generalmente unificándolos empleando algoritmos propios para ordenarlos en relevancia (por lo general, eliminando aquellos resultados idénticos).
Estos software suelen entregar resultados de páginas web de la WWW, pero también existen algunos específicos que buscan en foros de discusión, grupos de noticias, weblogs, imágenes en la web, documentos gratuitos o libres en la web, etc.
Los pasos del funcionamiento de un metabuscador:
Por último, algunos de los metabuscadores que hay en la actualidad son los siguientes:
Sus fuentes son los principales buscadores internacionales, Alltheweb, Yahoo y MSN entre otros y presenta los resultados agrupados automáticamente por categorías.
Combina los resultados basándose en los 10 primeros sitios web recibidos de los diferentes busca-dores. Sus principales fuentes son Alltheweb, ODP (Open Directory Project) y MSN, entre otros.
Metabuscador que interroga a los principales buscadores y bases de datos de noticias que muestran los resultados estructurados y sin duplicaciones. Ofrece la opción de acotar los resultados propuestos agrupados por términos o palabras clave.
Un agente Web son software diseñado para intentar ayudar al usuario a organizar la información que necesita de la red a partir de sus intereses.Para poder conseguir esto, existen las técnicas de aprendizaje automático y los agentes inteligentes, o agentes web que utilizan estas técnicas para conseguir su objetivo. Principalmente, existen dos métodos para poder conseguir ayudar al usuario a encontrar la información deseada, con los asistentes de usuario o sistemas de recomendación:
La búsqueda en la web, esta relacionada con otra serie de campos, pero básicamente en esto dos campos:
Además de las dos anteriores, basándonos en el estudio realizado en este trabajo, y teniendo en cuenta las distintas fases por las que se debe pasar para tener una buena búsqueda en la web, está también relacionado con las siguientes áreas de investigación:
Algunas de las conferencias internacionales que abordan el tema de la búsqueda web, indexación y métodos de indexación son las siguientes: