Comparativa entre los corpus: Brown, Susanne y Penn Treebank

El objetivo de este proyecto es buscar información los corpus: Brown, Susanne y Penn Treebank con el objetivo de exponer la siguiente información
  • Descripción de los corpus
  • Comparativa concisa (tabla o similar) de distintos aspectos que consideres relevantes:
    • Tipo de etiquetado: etiquetado léxico (POS tagging), sintáctico, etc.
    • Tamaño del corpus
    • Tamaño del conjunto de etiquetas
    • Temáticas incluidas
    • Procedencia de los textos: periódicos, transcripciones de habla, etc.

2. Descripción de los corpus

En este apartado se describirán el siguiente corpus:
  • Brown
  • Susanne
  • Penn Treebank

2.1 Brown Corpus

En el año 1967 Henry Kučera y W. Nelson Francis Computational redactarón Analysis of Present‐Day American English, el primer corpus de Inglés Americano. Fue publicado por la Universidad de Brown y actualmente se conoce como Brown Corpus.

Para elaborar este corpus, los autores realizaron vario análisis computacionales, gracias a los cuales consiguieron compilar una obra rica y variada de documentos, que combina elementos de la lingüística, la psicología, la estadística y la sociología. El resultado de este trabajo fue el Corpus de Brown, una obra se compone por un millón de palabras extraídas de una amplia variedad de fuentes escritas en Inglés Americano actual perteneciente a las siguientes categorías:
  • PRENSA: Reportaje (44 textos)
  • PRENSA: Editorial (27 textos)
  • PRENSA: Comentarios (17 textos)
  • RELIGIÓN (17 textos)
  • HABILIDAD Y HOBBIES (36 textos)
  • SABER POPULAR (48 textos)
  • BELLAS‐LETRAS (75 textos)
  • VARIOS: Gobierno de los EE. UU. y los órganos de Lujo (30 textos)
  • EDUCATIVO (ciencias, matemáticas...) (80 textos)
  • FICCIÓN: General (29 textos)
  • FICCIÓN: Misterio y ficción de detectives (24 textos)
  • FICCIÓN: Ciencia (6 textos)
  • FICCIÓN: Aventura y Occidental (29 textos)
  • FICCIÓN: Romance e historias de amor (29 textos)
  • HUMOR (9 textos)
Una vez publicado, este recurso fue muy utilizado en la lingüística computacional, ya que durante muchos años uno de los recursos más citados en el ámbito de la lingüística. Y no solamente eso, el Brown Corpus ha sido la base de otros corpus posteriores a él, como el Lancaster‐ Oslo‐Bergen Corpus o el SUSANNE.

Por último, el Brown Corpus es un corpus de tipo "POS Tagging" (Part‐Of‐Speech tagging, de análisis léxico) y posee 82 etiquetas distintas.

2.2 Susanne

Susanne es la abreviación de Surface and Underlying Structural Analysis of Natural English y fue creado con el patrocinio del Comité Económico y Social Research Council (Reino Unido), como parte del proceso de desarrollo de un esquema integral de taxonomía y anotación orientado a PNL para la gramática (lógica y superficial) del inglés.

En su versión inicial, está formado por aproximadamente 130.000 palabras que procedía de 64 documentos extraídos del Brown Corpus. El peso medio de los ficheros es aproximadamente de 86 kilobytes y cada uno de ellos contiene más de 2000 palabras. Al igual que el Brown Corpus, Susanne es un corpus del tipo "POS Tagging" (Análisis Léxico), y está formado por 353 etiquetas con las siguientes temáticas:
  • Reportajes de prensa
  • Bellas artes, biografías y memorias.
  • Artículos científicos o técnicos.
  • Ficción de aventuras y vaqueros.
El esquema analítico SUSANNE ha sido desarrollado sobre una base de muestras en Inglés Americano. Fue inicialmente orientado hacia la lengua escrita solamente, y de hecho contiene muestras exclusivamente del lenguaje escrito. A partir de este corpus se han hecho varias extensiones como por ejemplo el Corpus CHRISTINE, un corpus presentado en 1999 que incluye análisis de una equilibrada sección del inglés hablado en todas partes del Reino Unido en la última década.

Por último, a pesar de que el Susane utiliza un subconjunto de documentos del Brown Corpus, sí que mejora notablemente el análisis probabilístico en comparación con el Brown Corpus.

2.3 Penn Treebank

Penn Treebank es un corpus creado por la Universidad de Pennsylvania, compuesto por más de 4,5 millones de palabras de Inglés Americano. Este corpus utiliza los siguientes tipos de etiquetado:
  • léxico. Para la interpretación de cada una de las palabras utiliza un etiquetado gramatical que nos permite reconocer e interpretar la palabra.
  • sintáctico. Desde el punto de vista sintáctico, este corpus representa esta información a través de una estructura arbórea (TreeBank)
Para que sea más fácil su compresión voy a adjuntar el siguiente esquema extraído de la Wikipedia :
 
   (S (NP (NNP Victor))
     (VP (VPZ ama)
       (PP (TO a)
         (NP (NNP Maria))))
     (. .))
   
Este corpus tiene 36 etiquetas de análisis léxico, además de 12 etiquetas para puntuaciones y símbolos. Y 14 etiquetas de tipo sintáctico además de 4 elementos nulos.

El conjunto de muestras del que está compuesto procede de diferentes corpus distintos, concretamente de los siguientes :
  • Dept.of Energy abstract
  • Dow Jones Newswire stories
  • Dept. of Agriculture bulletins
  • Library of America texts
  • MUC‐3 messages
  • IBM Manual sentences
  • WBUR radio transcripts
  • ATIS sentences
  • Brown Corpus, retagged

3. Comparativa de los Corpus

En este apartado se comparará los siguientes aspectos de los tres corpus:
  • Tipo de etiquetado: etiquetado léxico (POS tagging), sintáctico, etc.
  • Tamaño del corpus
  • Tamaño del conjunto de etiquetas
  • Temáticas incluidas
  • Procedencia de los textos: periódicos, transcripciones de habla, etc.

3.1 Tipo de etiquetado: etiquetado léxico (POS tagging), sintáctico, etc.

Corpus Etiquetado
Brown Léxico
Susanne Léxico
Peen Treebank Léxico y sintáctico

3.2 Tamaño del corpus

Corpus Tamaño del corpus
Brown 500 muestras de 2.000 o más palabras (1.014.312 palabras en total)
Susanne 64 muestras de cómo mínimo 2000 palabras (130.000 palabras en total)
Peen Treebank 4.885.798 palabras en total.

3.3 Tamaño del conjunto de etiquetas

Corpus Tamaño del conjunto de etiquetas
Brown 82, divididas en 6 partes:
  • Partes de la oración Nombre, común y propio, verbo, adjetivo...
  • Función de las, palabras: determinantes, preposiciones, conjunciones...
  • Palabras individuales, importantes: no, infinito existen-cial, la forma del, verbo.
  • Las marcas de puntuación de importancia sint ́actica.,5. Morfemas flexivos.
  • Dos etiquetas (FM y NC), PALABRAS extranjera citada.
Susanne353 wordtags
Peen Treebank 36 y 12 para puntuaciones y símbolos en el etiquetado léxico. Para el etiquetado sintáctico 14 y además 4 más para elementos nulos.

3.4 Temáticas incluidas

Corpus Temáticas incluidas
Brown
  • PRENSA: Reportaje (44 textos)
  • PRENSA: Editorial (27 textos)
  • PRENSA: Comentarios (17 textos)
  • RELIGIÓN (17 textos)
  • HABILIDAD Y HOBBIES (36 textos)
  • POPULAR LORE (48 textos)
  • BELLAS‐LETRAS (75 textos)
  • VARIOS: Gobierno de los EE. UU. y los órganos de Lujo (30 textos)
  • EDUCATIVO (ciencias, matemáticas...) (80 textos)
  • FICCIÓN: General (29 textos)
  • FICCIÓN: Misterio y ficción de detectives (24 textos)
  • FICCIÓN: Ciencia (6 textos)
  • FICCIÓN: Aventura y Occidental (29 textos)
  • FICCIÓN: Romance e historias de amor (29 textos)
  • HUMOR (9 textos)
Susanne
  • Reportajes de prensa
  • Bellas artes, biografías y memorias.
  • Artículos científicos o técnicos.
  • Ficción de aventuras y vaqueros.
Peen Treebank
  • PRENSA: Reportaje (44 textos)
  • PRENSA: Editorial (27 textos)
  • PRENSA: Comentarios (17 textos)
  • RELIGIÓN (17 textos)
  • HABILIDAD Y HOBBIES (36 textos)
  • POPULAR LORE (48 textos)
  • BELLAS‐LETRAS (75 textos)
  • VARIOS: Gobierno de los EE. UU. y los órganos de Lujo (30 textos)
  • EDUCATIVO (ciencias, matemáticas...) (80 textos)
  • FICCIÓN: General (29 textos)
  • FICCIÓN: Misterio y ficción de detectives (24 textos)
  • FICCIÓN: Ciencia (6 textos)
  • FICCIÓN: Aventura y Occidental (29 textos)
  • FICCIÓN: Romance e historias de amor (29 textos)
  • HUMOR (9 textos)
Temáticas

3.5 Procedencia de los textos: periódicos, transcripciones de habla, etc.

Corpus Procedencia de los textos
Brown Para elaborar este corpus, los autores realizaron varios análisis computacionales, gracias a los cuales consiguieron compilar una obra rica y variada de documentos, que combina elementos de la lingüística, la psicología, la estadística y la sociología
Susanne Procede de 64 de las 500 muestras que posee el Corpus Brown
Peen Treebank Dept. of Energy abstract Dow Jones Newswire stories Dept. of Agriculture,bulletins Library of America texts MUC‐3 messages IBM Manual sentences WBUR radio transcripts ATIS sentences Brown Corpus

4. Susane vs Brown

Según la información recopilada, Susanne posee un conjunto de etiquetas más preciso, más granular y más fácil de interpretar que el corpus Brown. El resultado de todas estas características es que mejora notablemente el análisis probabilístico en comparación con el Brown Corpus, proporcionando mejores resultados en el parseo, interpretación y análisis de texto con técnicas automáticas de parseo de textos.