1. Corpus

Este proyecto nos intenta explicar el concepto de Minería de Contenido, los problemas que resuelve y que impedimentos existen tomando como referencia los artículos Marti A. Hearst "Untangling Text Data Mining" , Jordi Turmo, Information Extration, Multilinguality and Portability , MAnselmo Peñas, F. Verdejo y J.Gonzalo Terminology Retrieval: Towards a Synergy between Thesaurus and Free Text Searching.

1. Creación de corpus

1.1 ¿Qué es un corpus?

Un Corpus es un termino que se utiliza en las teorías sobre el lenguaje Computacional para referirse a cualquier colección de texto que cumplen unos criterios y que sirve como representación del lenguaje utilizado. Es decir, si necesitamos crear un corpus debe estar compuesto por textos producidos en situaciones reales y su inclusión debe estar guiada por una serie de criterios lingüísticos explícitos para asegurar que pueda usar como muestra representativa de una lengua.

Aunque todos los estudiosos dedicados al corpus están de acuerdo en que éstos son aspecto fundamentales en su creación y su definición, aunque no por ello dejan de ser aspectos controvertidos y que en ocasiones han dado lugar a posturas diferentes.

1.2 Posibles usos y utilidad de un corpus

Un corpus nos permite realizar un etiquetado léxico de los componentes que tiene almacenado. Básicamente, mediante el análisis del corpus podremos crear un diccionario , construir de forma semiautomática el léxico del dominio y adquirir automáticamente la información léxico semántica.

1.3 Creación de corpus a partir de la web.

Para crear un corpus primero tendremos que cumplir unas condiciones previas como son:
  • Formato electrónico de los documentos: Podremos utilizar el escaneo o el teclado para transformar textos en papel o otros soportes al formato electrónico deseado.
  • Cumplir los derechos de autor de los documentos utilizados pagando las licencias respectivas o utilizando otras libres.
  • Registro: Por ejemplo, tenemos que considerar si se trata de un lenguaje formal, informal, literario, etc.
  • Texto sin formatos.
  • Gran cantidad de textos
En un principio era frecuente encontrar muchos ejemplos de corpus construidos en base a noticias de prensa, ya que estos recursos son fáciles de obtener y tienen múltiples aplicaciones para su tratamiento.

Este hecho ha ido cambiando con la evolución de Internet. Actualmente la prensa escrita ha sido substituida por documentos Web por su diversificación de registros, diversidad de idiomas y fácil acceso. Tanto ha evolucionado esta fuente de información que a los corpus formados con documentos Web se les denomina oportunísticos en oposición a los corpus planificados (sólo incorporan documentos previamente seleccionados).Normalmente este tipo de estructuras se caracterizaran por la falta de control, documentación o representatividad y , como consecuencia, se suelen utilizar para complementar otros corpus utilizados de referencia o crear corpus exploratorios para lenguajes de especialidad.

Otro punto muy importante de un Corpus oportunístico es el método para obtener los documentos Web. Para compilar esta estructura primero debemos utilizar un Crawler como GoogleBot o Yahoo que nos permita realizar una recopilación de documentos. La realización de la búsqueda se puede realizar utilizando dos métodos, manualmente con un alto coste de tiempo pero seleccionando cada uno de los documentos introducidos o automatizado donde se aplica un algoritmo de búsqueda hasta encontrar una cantidad determinada de documentos que cumplan unas condiciones. Tanto en el primer método como en el segundo , la idea básica es utilizar una o más palabras semilla que permitan recuperar algunos documentos. Estos documentos una vez explorados, nos proporcionan nuevos términos que se utilizan o no en combinación con los anteriores para obtener más documentos nuevos. Este proceso se repite hasta llegar a generar un corpus del tamaño deseado.

1.4 Ejemplos de algunos corpus y su finalidad

Los corpus más importantes son:

  • Brown Corpus: Creado por Kucera y Francis, el Brown Corpus fue una selección de documentos cuidadosamente compilada. El idioma de los documentos fue el Inglés, exactamente la variante dialectal Americana, donde consiguieron llegar a almacenar alrededor de un millón de palabras extraídas de una amplia variedad de fuentes. Para crear este sistema, los autores realizaron una variedad de análisis computacionales, gracias a los cuales consiguieron compilar una obra rica y cariada, que combinaba elementos de la lingüística, la psicología, la estadística y la sociología. Este Corpus ha sido muy relevante en la historia de la Mineria de Texto ya que ha sido muy utilizado en la linüistica computaconal, y, durante muchos años, fue uno de los recursos más citados. También ha sido utilizado como base de corpus posteriores a él como el Lancaster-Oslo-Bergen Corpus o el SUSANNE.

    Respecto a su estructura interna,esta estructura es del tipo POS tagging , es decir, el corpus asigna (o etiqueta) a cada una de las palabras de un texto su categoría gramatical (que en el caso de nuestra estructura puede corresponder a 82 etiquetas).
  • SUSANNE Corpus: Susanne es la abreviación de Surgace and Underlying Structural ANalysis of Natural English. Como hemos comentado en el Corpus anterior, SUSANNE procede del Brown Corpus, ya que utiliza 64 de las 500 muestras que utilizaba el Brown Corpus.

    En una fase inicial esta formado por unas 130.000 palabras pero utilizaba documentos diferentes. La primera diferencia fue la utilización de los dos dialectos principales del ingles el Británico y el Americano.

    Al igual que el Brown Corpus, es verdad que su estructura base es de tipo "POS Tagging" pero a diferencia de él, esta formado por 353 etiquetas y la temática que utiliza sus documentos son básicamente Prensa, Bellas Letras, Aprendidas y Ficción: Aventura y Occidental. Debido a todas estas diferencias, SUSANNE puso aportar una nueva mejora en el análisis probabilístico y, por lo tanto, los lingüistas consiguiente una mejora de las estadísticas obtenidas pos su antecesor Brown.

    Para terminar, Royal Signals and Radar Establishment implemento una evolución para utilizar muestras de Inglés hablado espontáneo que dio como resultado un nuevo Corpus llamado CHRISTINE. Fue lanzado en agosto de 1999 y es uno de los corpus orales para poder analizar el lenguaje hablado.
  • Penn Treebank: El Treebank Penn es un corpus de más de 4,5 millones de palabras de Ingés Americano Durante la primera fase de tres años del Proyecto Penn Treebank (1989 - 1992), este corpus posee 2 tipos de etiquetado de, de tipo léxico y de tipo sintáctico. El conjunto de muestras del que está compuesto, procede de diferentes corpus distintos, concretamente de los siguientes: Dept. of Energy abstract, Dow Jones Newswire stories, Dept. of Agriculture bulletins, Library of America texts, MUC-3 messages, IBM Manual sentences, WBUR radio transcripts, ATIS sentences, Brown Corpus, retagged.

2.Extracción de Información textual (Automatic Information Extraction)

2.1 Definición y objetivos

La extracción de información se define como la tarea para identificar descripciones de eventos en textos de lenguaje natural y posteriormente, extraer la información relacionada a dichos eventos [Patward S. Riloff E.,2006]. En otras palabras, un sistema de extracción de información encuentra y enlaza la información relevante, mientras ignora la extraña e irrelevante [Cowie J. Lehnert W., 1996].

El creciente aumento de Internet y el aumento de la cantidad de documentos almacenados ha llevado a aumentar la investigación en los métodos de extracción de la información. La finalidad de esta acción ha sido encontrar nuevos métodos para generar bases de datos con esta gran cantidad documentos, así pues, también mejorar las herramientas de adquisición de conocimiento útil para tecnologías emergentes como puede ser la minería de texto. Esta evolución nos se quedo ahí, los viejo sistema de recuperación de información (IR Information Retrieval) se quedan desfasados. Los sistemas IR simplemente eran implementandos para responder consulta a una lista de documentos potencialmente relevantes mientras que en la IE (Information Extraction) para buscar el contenido relevante de esos documentos tiene que ser localizado y extraído del texto. En la metodología del IE, el contenido considerado relevante es decidido a priori,lo que hace que haya una clara dependencia con el dominio. Por supuesto, cuando se traten nuevos dominios, se necesitará nuevo conocimiento específico y tiene que ser adquirido por el sistema.

A continuación, se muestra un ejemplo de cómo sería el funcionamiento de un sistema de extracción de información. El siguiente texto es una parte de un documento que pertenece al dominio de sucesión de directivos extraído de un texto libre [Turmo J. et al., 2006].

A.C.Nielsen Co. dijo a George Garrick, de 40 años, presidente de los recursos de información de Londres que trabaja en la operación de servicios de información europea, se convertirá en presidente de Nielsen Marketing Research, una unidad de la corporación Dun \& Bradstreet. El será el sucesor de John I. Costello, quién renunció en marzo.

La salida de un sistema de extracción de información es un conjunto de registros por documento de entrada. En la tabla siguiente, se muestra el registro extraído del fragmento de texto mostrado en esta sección. Cabe mencionar que cada registro está compuesto por campos. Dichos campos se establecen desde las primeras etapas del sistema de extracción y se agrupan en lo que se denomina plantilla de extracción. Es importante señalar que cada campo representa información relevante de acuerdo al dominio, la cual será útil para el análisis del conjunto de documentos textuales de entrada.

INFORMACIÓN DE DIRECTIVOSNOMBRE
PERSONA ENTRANTE George Garrick
PERSONA SALIENTE John I.Costello
PUESTO Presidente
ORGANIZACION Nielsen Marketing Research

Se han construido diversos métodos de extracción de información hasta la fecha. No obstante, dichos métodos se caracterizan por emplear dos tipos de enfoques: el supervisado y el no supervisado.

2.2 Arquitectura de un sistema de EI

En general, la combinación de los módulos en cascada, permite la realización de las siguientes funciones, en mayor o menor medida :

  • Preprocesado de documento

    Este proceso puede alcanzarse gracias a una variedad de módulos que puede utilizar, como por ejemplo: los text zoners(convierte un texto en un conjunto de zonas con texto) , segmenters (también llamados splitters)(a cargo de las zonas de la segmentación en unidades apropiadas, por lo general frases), filters(seleccionan los segmentos relevantes), tokenizers(obtienen unidades léxicas) , lexical analyzers(realizan análisis morfológicos y clasicación y reconocimiento NE) , disambiguators(POS taggers, semantic taggers, etc.), stemmers y lemmatizers, entre otros.

    Especialmente interesantes para el EI son los módulos de reconocimiento NE (Named Entities). Este módulo se caracteriza por su rapidez debido a la utilización de finite-state transducers(es un autómata finito (o máquina de estados finitos) con dos cintas, una de entrada y otra de salida) y diccionarios de búsqueda ya que utilizan algoritmos a optimizan los cálculos. Los resultados que obtendremos al aplicar estos métodos dependerán de las fuentes de información que se utilizan para rellenar el diccionario. Por ejemplo, Grishman en sus experimentos sobre el reconocimiento NE, utilizó las siguientes fuentes: un pequeño diccionario geográfico, que contenía los nombres de todos los países y las ciudades más importantes; un diccionario de empresas, un diccionario de Agencia Gubernamental; un diccionario de nombres comunes; y un diccionario de términos específicos que le proporcionaron buenos resultados.
  • Análisis del discurso e interpretación semántica

    Este punto sirve para enlazar interpretaciones relacionadas entre sentencias. Los puntos que tenemos en cuenta para realizar este proceso son los siguientes:
    • Un análisis completo implica una gran reserva de espacio en memoria y relativamente ilimitado espacio de búsqueda. Como consecuencia un coste computacional y de memoria elevado.
    • Un análisis completo no es un proceso robusto porque el árbol sintáctico global no se alcanza siempre. Para suplir tal falta, se intenta que el análisis cubra la mayor subcadena de la frase.
    • Un análisis completo puede producir resultados ambiguos. En esos casos, se consigue más aplicando una interpretación sintáctica. En caso que ambos análisis proporcionen resultados validos se debe seleccionar la interpretación más correcta
    • Las gramáticas de amplio espectro, necesarias para hacer una análisis completo son difíciles de afinar. Tratando con los nuevos dominios, nuevas construcciones sintácticas podrían ocurrir en los textos especializados y no ser reconocidos
    • Un análisis del vocabulario no puede manejar situaciones fuera del vocabulario
    • Una vez que los constituyentes han sido analizados, los sistemas resuelven dependencias específicas del dominio entre ellas, generalmente usando las restricciones semánticas impuestas por el escenario de extracción. Se suelen conseguir dos enfoques diferentes para resolver tales dependencias:

      • Reconocimiento de patrones

        Este enfoque (el más utilizado entre los sistemas de extracción) se basa en la simplificación sintáctica permitiendo reducir el procesado semántico llegando ha hacerlo coincidir con los patrones específicos del escenario, también llamados patrones de extracción o reglas de EI.

        Estos patrones se utilizan para identificar dependencias entre los elementos del documento. De hecho, las reglas de EI son conjuntos de decisiones de resolución de ambigüedades para ser aplicadas durante un proceso de análisis completo.

        De patrones de extracción hay de dos tipos, por un lado tenemos un conjunto de expectaciones semántico-sintácticas de las diferentes tareas de extracción. También tenemos que comentar como las reglas de EI permiten identificar propiedades de entidades y relaciones entre tales entidades mediante el uso de información sintáctico-semántica sobre nombres y modificadores.

        Por otro lado las reglas de EI que usan conjuntos predicado-argumento (Objeto, sujeto, modificadores) que permiten identificar eventos entre entidades. La representación de estas reglas IE difieren grandemente entre los diferentes sistemas de EI.
      • Relaciones gramaticales:

        Generalmente, la estrategia de coincidencia de patrones requiere una proliferación de reglas de EI específicas para la tarea, con variantes explícitas para cada forma verbal, variantes explícitas para diferentes cabeceras léxicas. En vez de usar reglas de El, un modelo sintáctico más flexible consiste en definir un conjunto de relaciones gramaticales entre entidades como relaciones generales(Sujeto, objeto y modificador), algunas relaciones de modificador especializadas (Temporales y de localización) y relaciones para argumentos mediados por sintagmas preposicionales entre otros.

        De forma similar a las gramáticas de dependencia, se construye un grafo siguiendo reglas generales de interpretación para las relaciones gramaticales. Los fragmentos previamente detectados son nodos dentro de tal grafo, siendo las relaciones entre ellos las aristas etiquetadas

  • Análisis del discurso

    Los sistemas de EI generalmente proceden representando la información extraída de una frase como plantillas parcialmente rellenas o como formas lógicas. La meta principal del proceso de Análisis del discurso es la resolución de aspectos semánticos, como son la presencia en el texto de coreferéncia, anáforas, etc . Los sistemas que funcionan con plantillas parciales hacen uso de algún procedimiento de fusión para esa tarea. Sin embargo, trabajar con formas lógicas permite que los sistemas de EI usen procesos de interpretación semántica tradicional
  • Generación de plantillas de salida.

    La generación de plantillas intenta mapear las informaciones hacia el formato de salida deseado. Sin embargo, algunas inferencias pueden ocurrir en esta fase debido a restricciones específicas de dominio en la estructura de salida, como los siguientes casos:
    • Huecos de salida que toman valores de un conjunto predefinido.
    • Huecos de salida forzadas a ser instanciadas.
    • Clases de información extraída que generan un conjunto de plantillas de salida diferentes.
    • Huecos de salida que tienen que ser normalizados. Por ejemplo, fechas, productos que deban ser normalizadas con un código de una lista estándar.

3. Extracción de terminología (Automatic Terminology Extraction)

3.1 Definición y objetivos

La extracción de terminología es el proceso mediante el cual se seleccionan de un texto o conjunto de textos unidades candidatas a constituir términos. Dicho así parece como si queremos construir un glosario terminológico a partir de un texto o de una base de datos terminológica pero no es así. Hay que diferenciar bien los dos procesos ya que en el caso de la extracción automática de terminología, intentamos descubrir los términos más relevantes sin conocer previamente estos términos y , en el otro caso, buscamos qué términos de una base de datos terminológica están presentes en un determinado texto y ,por lo tanto, los posibles términos son conocidos a priori.

3.2 Metodología

Como se indica en el artículo " Terminology Retrieval: towards a synergy between thesaurus and free text searching", la construcción de un diccionario de sinónimos requiere coleccionar un conjunto de términos salientes. Esta es una tarea que combina dos enfoques.
  • Enfoque deductivo: analiza vocabularios, sinónimos e índices existentes para diseñar un nuevo diccionario de sinónimos para el alcance, estructura y nivel de especificación deseados.
  • Enfoque inductivo: analiza los vocabularios del mundo real en los repositorios de documentos para identificar términos y actualizar las terminologías.

Una vez conocidos sus enfoques podemos analizar la metodología, desarrollada en los siguientes pasos:
  • Extracción de términos vía análisis morfológico. Distinguiremos entre términos de una palabra( términos monoléxicos), y términos de varias palabras, extraídos con distintas técnicas.
  • Valoración de peso de los términos con información estadística, midiendo la relevancia del término en el dominio
  • Selección del término. Obtienes la relevancia del término y eliminas de la lista los términos que sobren los umbrales seleccionados.
Estos pasos requieren uno previo en el que el corpus relevante sea identificado, automáticamente recolectado y preparado para la tarea de recuperación de la terminología.

3.3 Extracción de terminología a partir de la web

La extracción de terminología a partir de la web se utiliza a través de técnicas de NLP ( es un campo de las ciencias de la computación, inteligencia artificial y lingüística que estudia las interacciones entre las computadoras y el lenguaje humano) para realizar automáticamente las siguientes tareas:
  • Extracción de Terminología e indexación de una colección de textos multilingüe. La colección de documentos es procesada automáticamente para obtener una lista grande de frases terminológicas utilizando patrones sintácticos. La selección de frases se basa en la frecuencia del documento y en la inclusión de frases
  • Procesamiento interactivo de consultas en lenguaje natural y recuperación que se realiza con los siguientes procedimientos:
    • Las palabras de la búsqueda lematizadas se expanden con palabras semánticamente relacionadas en el lenguaje de la consulta, y todos los lenguajes objetivo usando la base de datos léxica EuroWordNet y algunos diccionarios bilingües.
    • Se recuperan un número alto de frases que contienen palabras expandidas. Para solventar uso de palabras semánticas relacionadas (tales como sinónimos) se utilizan métodos de recuperación y ordenamiento de términos vía información en frases que permiten descarta la mayor parte de las combinaciones inapropiadas de palabras, tanto en el lenguaje origen como en el lenguaje destino.
    • Los documentos también son ordenados de acuerdo a la frecuencia y cobertura de las frases relevantes que contienen.
  • Navegación por proposiciones considerando variaciones morfosintácticas, semánticas e interlingüísticas de la consulta. Se presentan dos rangos:
    • Rango de frases que son relevantes para la consulta del usuario .
    • Rango de documentos que son relevantes a la consulta.
    Por otra parte las frases en los diferentes lenguajes se muestran organizadas por una jerarquía de acuerdo a:
    • Número de términos expandidos contenidos en la frase.
    • Aparición de la frase de acuerdo a su peso como expresión terminológica. Este peso se reduce a la frecuencia dentro de la colección de documentos Si no hay un corpus multidisciplinar con el que comparar.
    • Inclusión de frases. Si una subfrase se puede incluir dentro de otra subfrase con más frecuencia de la colección se añade intentando simular una jerarquía de temas que nos permita navegar más facimente en la información.

3.4 Problemática asociada al lenguaje natural

Los problemas principales que surgen en el lenguaje natural son los siguientes:
  • Pérdida de cobertura debida a patrones sintácticos no exhaustivos y etiquetado incorrecto de parte del discurso
  • Pérdida de cobertura debido a una lematización incorrecta de componentes de frases en el texto.
  • Pérdida de cobertura debida a una incorrecta expansión, lematización o traducción de las palabras de la consulta que provoca un incorrecto descarte en la selección de frases y en la clasificación de los términos
  • Falta de coincidencias causadas por acentos y mayúsculas.

4. Similitud, clasificación, clustering

4.1 Definición de cada uno. Semejanzas y diferencias.

Clasificación

Análisis de datos usado para clasificar datos y predecir tendencias. Aplicaciones típicas incluyen análisis de riesgo para préstamos y predicciones de crecimiento. Algunas técnicas para clasificación de datos incluyen: clasificación bayesianas. K-Nearest Neighbor, algoritmos genéticos, entre otros.

Clustering

Las técnicas de clustering son técnicas de clasificación no supervisadas de patrones (observaciones, datos o vectores de característicos) en grupos o clusters. Estas técnicas han sido utilizadas en diversas disciplinas y aplicadas en diferentes contextos, lo cual refleja una gran utilidad en el análisis experimental de datos.

Clustering vs clasificación

En primer lugar es importante diferencias entre clustering y clasificación. En el primer caso no se tiene ninguna información relacionada con la organización de los elementos de análisis y el objetivo es encontrar dicha organización. En el segundo se posee información de los elementos que componen el conjunto de análisis y lo que se desea determinar es cuáles son los factores que intervienen en la definición de los elementos y qué valores de los mismos determinan estas.

Analizando un poco más la clustering podemos afirmar que, dos ítem o variables pertenecientes a un grupo deben ser más parecidos entre si que aquellos que estén en grupos distintos. Partiendo de esta idea se desarrollan las técnicas de agrupamientos. Estas técnicas dependes claramente del tipo de datos que se está analizando, de qué medidas de semejanzas se estén utilizando y de qué clase de problema se esté resolviendo.

En un sentido más correcto, el objetivo es reunir un conjunto de objetos en clases tales que el grado de asociación natural para cada individuo es alto con los miembros de su misma clase y bajo con los miembros de las otras clases. Lo esencial del análisis de agrupar se enfoca entonces a cómo asignar un significado a los términos, grupos naturales y asociación natural, donde natural usualmente se refiere a estructuras homogéneas y bien separadas.

4.2 Finalidad de cada uno

Clustering

La idea básica del clustering basado en modelos es la aproximación de la densidad de datos por un modelo de mezcla, por lo general una mezcla de gaussianas(Una mezcla de gaussianas es una suma ponderada de k gaussianas, y para estimar los parámetros de las densidades de los componentes, las fracciones de mezcla, y el número de componentes de los datos. El número de grupos distintos en los datos es el número de componentes de la mezcla y las observaciones se dividen en grupos utilizando la regla de Bayes.

Clasificación

La finalidad de clasificar es intenta asignar un conjunto de datos a una categoría predefinida basada en un modelo creado a partir de datos de entrenamiento preclasificados (aprendizaje supervisado). Términos más generales, tanto la agrupación y clasificación están bajo el área de descubrimiento de conocimiento en bases de datos o data mining.

4.3 Usos y aplicaciones

Clustering

Dentro del área de la Minería Web de Uso podemos encontrar diversos estudios relacionados principalmente en agrupamientos por contenido, siendo este uno de las principales área donde se utiliza el clustering en la Web. Por ejemplo podemos nombrar algunos buscadores que utilizan esta técnica para realizar agrupamiento o clustering por contenido como Vivísimo, Grokker, Clusty, iBoogie.

Con esto podemos decir que existen diferentes sistemas que se preocupan de saber cuáles son las características del usuario relacionado principalmente en el contenido que el usuario visita o los temas que se relacionan con su navegación.Por esta razón surge una necesidad, la necesidad de agrupar las páginas de los usuarios para saber cuáles son las páginas más representativas y identificar grupos de usuarios con ciertas características, preferencias y/o intereses en su navegación. Lo cual nos permitirá realizar un estudio demográfico y también obtener diferentes perfiles que representen a los conjuntos de las características de los usuarios. Realizando estas agrupaciones podemos de alguna manera entregar una mejor información al usuario durante su navegación.

Clasificación

El método de clasificación se basa en un clasificador Bayesiano ingenuo (es un clasificador probabilístico fundamentado en el teorema de Bayes y algunas hipótesis simplificadoras adicionales). Algunos trabajos notables que se ocupan de mejorar la búsqueda en la web incluyen, que describe métodos en un enfoque de agrupación jerárquica.

Nahm y Mooney se describe una metodología que puede ser la extracción de información y minería de datos se combinaron para mejorar unos a otros, la extracción de información proporciona el proceso de minería de datos con acceso a los documentos de texto (text mining) y en vez de minería de datos proporciona reglas para el ganado porción de extracción de información para mejorar su rendimiento.

5. Áreas de investigación relacionadas

La minería de contenido y minería de texto, están directamente relacionadas con las áreas de investigación referentes a los siguientes enfoques:
  • Recuperación de Información y Extracción de Información
  • La IR y la web mining tienen diferentes objetivos. La web mining esutilizada por las grandes empresas del mundo web, las cuales hacen uso de este tipo de sistemas para las máquinas de búsqueda (google y altavista), directorios jerárquicos (yahoo) y otros tipos de agentes y de sistemas de filtrado colaborativos.
  • Desde el punto de vista de Bases de Datos
  • El objetivo principal que tiene la web content mining desde el punto de vista de BD es que busca representar los datos a través de grafos etiquetados.Pero también, está relacionado con las siguientes áreas:
  • Minería de Estructura Web (Web Structure Mining)
  • Minería de Uso Web (Web Usage Mining)
    • Reglas de asociación.
    • Patrones de secuencia.
    • Clustering.

Las principales categorías de la Web Text mining son Text Categorization, Text Clustering, association analysis, trend prediction.

6. Conferencias internacionales

Algunas de las conferencias internacionales que abordan el tema de la minería de uso de la web, son las siguientes:
  • International Conference on Databases Theory (ICDT)
  • Internacional Conference on Very Large Data Base IBM Almadén Research Center
  • International World Wide Web Conference
  • Conference on Artificial Intelligence (AAAI198)
  • International Conference on Machine Learning (ICML)
  • International Conference on Distributed Computing Systems
  • European Conference on Machine Learning (ECML-98)
  • International Conference Machine Learning
  • International Conference on Knowledge Discovery and Data Mining
  • International Computer Software and Applications Conference on Prolonging Software Life