Comparativa entre los corpus: Brown, Susanne y Penn Treebank

Por qué siguen siendo relevantes

Son corpus fundacionales del inglés y ayudan a estudiar esquemas de anotación y documentación de datasets, pero no representan todos los dominios o poblaciones actuales. Antes de entrenar, revisa licencia, género, época, mapeo de etiquetas, particiones y posibles sesgos demográficos o léxicos.

El objetivo de este proyecto es buscar información los corpus: Brown, Susanne y Penn Treebank con el objetivo de exponer la siguiente información

Descripción de los corpus
Comparativa concisa (tabla o similar) de distintos aspectos que consideres relevantes:
- Tipo de etiquetado: etiquetado léxico (POS tagging), sintáctico, etc.
- Tamaño del corpus
- Tamaño del conjunto de etiquetas
- Temáticas incluidas
- Procedencia de los textos: periódicos, transcripciones de habla, etc.

2. Descripción de los corpus

En este apartado se describirán el siguiente corpus:

Brown
Susanne
Penn Treebank

2.1 Brown Corpus

En el año 1967 Henry Kučera y W. Nelson Francis Computational redactarón Analysis of Present‐Day American English, el primer corpus de Inglés Americano. Fue publicado por la Universidad de Brown y actualmente se conoce como Brown Corpus.

Para elaborar este corpus, los autores realizaron vario análisis computacionales, gracias a los cuales consiguieron compilar una obra rica y variada de documentos, que combina elementos de la lingüística, la psicología, la estadística y la sociología. El resultado de este trabajo fue el Corpus de Brown, una obra se compone por un millón de palabras extraídas de una amplia variedad de fuentes escritas en Inglés Americano actual perteneciente a las siguientes categorías:

PRENSA: Reportaje (44 textos)
PRENSA: Editorial (27 textos)
PRENSA: Comentarios (17 textos)
RELIGIÓN (17 textos)
HABILIDAD Y HOBBIES (36 textos)
SABER POPULAR (48 textos)
BELLAS‐LETRAS (75 textos)
VARIOS: Gobierno de los EE. UU. y los órganos de Lujo (30 textos)
EDUCATIVO (ciencias, matemáticas...) (80 textos)
FICCIÓN: General (29 textos)
FICCIÓN: Misterio y ficción de detectives (24 textos)
FICCIÓN: Ciencia (6 textos)
FICCIÓN: Aventura y Occidental (29 textos)
FICCIÓN: Romance e historias de amor (29 textos)
HUMOR (9 textos)

Una vez publicado, este recurso fue muy utilizado en la lingüística computacional, ya que durante muchos años uno de los recursos más citados en el ámbito de la lingüística. Y no solamente eso, el Brown Corpus ha sido la base de otros corpus posteriores a él, como el Lancaster‐ Oslo‐Bergen Corpus o el SUSANNE.

Por último, el Brown Corpus es un corpus de tipo "POS Tagging" (Part‐Of‐Speech tagging, de análisis léxico) y posee 82 etiquetas distintas.

2.2 Susanne

Susanne es la abreviación de Surface and Underlying Structural Analysis of Natural English y fue creado con el patrocinio del Comité Económico y Social Research Council (Reino Unido), como parte del proceso de desarrollo de un esquema integral de taxonomía y anotación orientado a PNL para la gramática (lógica y superficial) del inglés.

En su versión inicial, está formado por aproximadamente 130.000 palabras que procedía de 64 documentos extraídos del Brown Corpus. El peso medio de los ficheros es aproximadamente de 86 kilobytes y cada uno de ellos contiene más de 2000 palabras. Al igual que el Brown Corpus, Susanne es un corpus del tipo "POS Tagging" (Análisis Léxico), y está formado por 353 etiquetas con las siguientes temáticas:

Reportajes de prensa
Bellas artes, biografías y memorias.
Artículos científicos o técnicos.
Ficción de aventuras y vaqueros.

El esquema analítico SUSANNE ha sido desarrollado sobre una base de muestras en Inglés Americano. Fue inicialmente orientado hacia la lengua escrita solamente, y de hecho contiene muestras exclusivamente del lenguaje escrito. A partir de este corpus se han hecho varias extensiones como por ejemplo el Corpus CHRISTINE, un corpus presentado en 1999 que incluye análisis de una equilibrada sección del inglés hablado en todas partes del Reino Unido en la última década.

Por último, a pesar de que el Susane utiliza un subconjunto de documentos del Brown Corpus, sí que mejora notablemente el análisis probabilístico en comparación con el Brown Corpus.

2.3 Penn Treebank

Penn Treebank es un corpus creado por la Universidad de Pennsylvania, compuesto por más de 4,5 millones de palabras de Inglés Americano. Este corpus utiliza los siguientes tipos de etiquetado:

léxico. Para la interpretación de cada una de las palabras utiliza un etiquetado gramatical que nos permite reconocer e interpretar la palabra.
sintáctico. Desde el punto de vista sintáctico, este corpus representa esta información a través de una estructura arbórea (TreeBank)

Para que sea más fácil su compresión voy a adjuntar el siguiente esquema extraído de la Wikipedia :

 
   (S (NP (NNP Victor))
     (VP (VPZ ama)
       (PP (TO a)
         (NP (NNP Maria))))
     (. .))

Este corpus tiene 36 etiquetas de análisis léxico, además de 12 etiquetas para puntuaciones y símbolos. Y 14 etiquetas de tipo sintáctico además de 4 elementos nulos.

El conjunto de muestras del que está compuesto procede de diferentes corpus distintos, concretamente de los siguientes :

Dept.of Energy abstract
Dow Jones Newswire stories
Dept. of Agriculture bulletins
Library of America texts
MUC‐3 messages
IBM Manual sentences
WBUR radio transcripts
ATIS sentences
Brown Corpus, retagged

3. Comparativa de los Corpus

En este apartado se comparará los siguientes aspectos de los tres corpus:

Tipo de etiquetado: etiquetado léxico (POS tagging), sintáctico, etc.
Tamaño del corpus
Tamaño del conjunto de etiquetas
Temáticas incluidas
Procedencia de los textos: periódicos, transcripciones de habla, etc.

3.1 Tipo de etiquetado: etiquetado léxico (POS tagging), sintáctico, etc.

Corpus	Etiquetado
Brown	Léxico
Susanne	Léxico
Peen Treebank	Léxico y sintáctico

3.2 Tamaño del corpus

Corpus	Tamaño del corpus
Brown	500 muestras de 2.000 o más palabras (1.014.312 palabras en total)
Susanne	64 muestras de cómo mínimo 2000 palabras (130.000 palabras en total)
Peen Treebank	4.885.798 palabras en total.

3.3 Tamaño del conjunto de etiquetas

Corpus	Tamaño del conjunto de etiquetas
Brown	82, divididas en 6 partes: Partes de la oración Nombre, común y propio, verbo, adjetivo... Función de las, palabras: determinantes, preposiciones, conjunciones... Palabras individuales, importantes: no, infinito existen-cial, la forma del, verbo. Las marcas de puntuación de importancia sint ́actica.,5. Morfemas flexivos. Dos etiquetas (FM y NC), PALABRAS extranjera citada.
Susanne	353 wordtags
Peen Treebank	36 y 12 para puntuaciones y símbolos en el etiquetado léxico. Para el etiquetado sintáctico 14 y además 4 más para elementos nulos.

3.4 Temáticas incluidas

Corpus	Temáticas incluidas
Brown	PRENSA: Reportaje (44 textos) PRENSA: Editorial (27 textos) PRENSA: Comentarios (17 textos) RELIGIÓN (17 textos) HABILIDAD Y HOBBIES (36 textos) POPULAR LORE (48 textos) BELLAS‐LETRAS (75 textos) VARIOS: Gobierno de los EE. UU. y los órganos de Lujo (30 textos) EDUCATIVO (ciencias, matemáticas...) (80 textos) FICCIÓN: General (29 textos) FICCIÓN: Misterio y ficción de detectives (24 textos) FICCIÓN: Ciencia (6 textos) FICCIÓN: Aventura y Occidental (29 textos) FICCIÓN: Romance e historias de amor (29 textos) HUMOR (9 textos)
Susanne	Reportajes de prensa Bellas artes, biografías y memorias. Artículos científicos o técnicos. Ficción de aventuras y vaqueros.
Peen Treebank	PRENSA: Reportaje (44 textos) PRENSA: Editorial (27 textos) PRENSA: Comentarios (17 textos) RELIGIÓN (17 textos) HABILIDAD Y HOBBIES (36 textos) POPULAR LORE (48 textos) BELLAS‐LETRAS (75 textos) VARIOS: Gobierno de los EE. UU. y los órganos de Lujo (30 textos) EDUCATIVO (ciencias, matemáticas...) (80 textos) FICCIÓN: General (29 textos) FICCIÓN: Misterio y ficción de detectives (24 textos) FICCIÓN: Ciencia (6 textos) FICCIÓN: Aventura y Occidental (29 textos) FICCIÓN: Romance e historias de amor (29 textos) HUMOR (9 textos)

Temáticas

3.5 Procedencia de los textos: periódicos, transcripciones de habla, etc.

Corpus	Procedencia de los textos
Brown	Para elaborar este corpus, los autores realizaron varios análisis computacionales, gracias a los cuales consiguieron compilar una obra rica y variada de documentos, que combina elementos de la lingüística, la psicología, la estadística y la sociología
Susanne	Procede de 64 de las 500 muestras que posee el Corpus Brown
Peen Treebank	Dept. of Energy abstract Dow Jones Newswire stories Dept. of Agriculture,bulletins Library of America texts MUC‐3 messages IBM Manual sentences WBUR radio transcripts ATIS sentences Brown Corpus

4. Susane vs Brown

Según la información recopilada, Susanne posee un conjunto de etiquetas más preciso, más granular y más fácil de interpretar que el corpus Brown. El resultado de todas estas características es que mejora notablemente el análisis probabilístico en comparación con el Brown Corpus, proporcionando mejores resultados en el parseo, interpretación y análisis de texto con técnicas automáticas de parseo de textos.