El objetivo de este proyecto es buscar información los corpus: Brown, Susanne y Penn Treebank con el objetivo de exponer la siguiente información
2. Descripción de los corpus
En este apartado se describirán el siguiente corpus:
- Brown
- Susanne
- Penn Treebank
2.1 Brown Corpus
En el año 1967 Henry Kučera y W. Nelson Francis Computational redactarón Analysis of Present‐Day American English, el primer corpus de Inglés Americano. Fue publicado por la Universidad de Brown y actualmente se conoce como Brown Corpus.
Para elaborar este corpus, los autores realizaron vario análisis computacionales, gracias a los cuales consiguieron compilar una obra rica y variada de documentos, que combina elementos de la lingüística, la psicología, la estadística y la sociología. El resultado de este trabajo fue el Corpus de Brown, una obra se compone por un millón de palabras extraídas de una amplia variedad de fuentes escritas en Inglés Americano actual perteneciente a las siguientes categorías:
- PRENSA: Reportaje (44 textos)
- PRENSA: Editorial (27 textos)
- PRENSA: Comentarios (17 textos)
- RELIGIÓN (17 textos)
- HABILIDAD Y HOBBIES (36 textos)
- SABER POPULAR (48 textos)
- BELLAS‐LETRAS (75 textos)
- VARIOS: Gobierno de los EE. UU. y los órganos de Lujo (30 textos)
- EDUCATIVO (ciencias, matemáticas...) (80 textos)
- FICCIÓN: General (29 textos)
- FICCIÓN: Misterio y ficción de detectives (24 textos)
- FICCIÓN: Ciencia (6 textos)
- FICCIÓN: Aventura y Occidental (29 textos)
- FICCIÓN: Romance e historias de amor (29 textos)
- HUMOR (9 textos)
Una vez publicado, este recurso fue muy utilizado en la lingüística computacional, ya que durante muchos años uno de los recursos más citados en el ámbito de la lingüística. Y no solamente eso, el Brown Corpus ha sido la base de otros corpus posteriores a él, como el Lancaster‐ Oslo‐Bergen Corpus o el SUSANNE.
Por último, el Brown Corpus es un corpus de tipo "POS Tagging" (Part‐Of‐Speech tagging, de análisis léxico) y posee 82 etiquetas distintas.
2.2 Susanne
Susanne es la abreviación de Surface and Underlying Structural Analysis of Natural English y fue creado con el patrocinio del Comité Económico y Social Research Council (Reino Unido), como parte del proceso de desarrollo de un esquema integral de taxonomía y anotación orientado a PNL para la gramática (lógica y superficial) del inglés.
En su versión inicial, está formado por aproximadamente 130.000 palabras que procedía de 64 documentos extraídos del Brown Corpus. El peso medio de los ficheros es aproximadamente de 86 kilobytes y cada uno de ellos contiene más de 2000 palabras. Al igual que el Brown Corpus, Susanne es un corpus del tipo "POS Tagging" (Análisis Léxico), y está formado por 353 etiquetas con las siguientes temáticas:
- Reportajes de prensa
- Bellas artes, biografías y memorias.
- Artículos científicos o técnicos.
- Ficción de aventuras y vaqueros.
El esquema analítico SUSANNE ha sido desarrollado sobre una base de muestras en Inglés Americano. Fue inicialmente orientado hacia la lengua escrita solamente, y de hecho contiene muestras exclusivamente del lenguaje escrito. A partir de este corpus se han hecho varias extensiones como por ejemplo el Corpus CHRISTINE, un corpus presentado en 1999 que incluye análisis de una equilibrada sección del inglés hablado en todas partes del Reino Unido en la última década.
Por último, a pesar de que el Susane utiliza un subconjunto de documentos del Brown Corpus, sí que mejora notablemente el análisis probabilístico en comparación con el Brown Corpus.
2.3 Penn Treebank
Penn Treebank es un corpus creado por la Universidad de Pennsylvania, compuesto por más de 4,5 millones de palabras de Inglés Americano. Este corpus utiliza los siguientes tipos de etiquetado:
- léxico. Para la interpretación de cada una de las palabras utiliza un etiquetado gramatical que nos permite reconocer e interpretar la palabra.
- sintáctico. Desde el punto de vista sintáctico, este corpus representa esta información a través de una estructura arbórea (TreeBank)
Para que sea más fácil su compresión voy a adjuntar el siguiente esquema extraído de la Wikipedia :
(S (NP (NNP Victor))
(VP (VPZ ama)
(PP (TO a)
(NP (NNP Maria))))
(. .))
Este corpus tiene 36 etiquetas de análisis léxico, además de 12 etiquetas para puntuaciones y símbolos. Y 14 etiquetas de tipo sintáctico además de 4 elementos nulos.
El conjunto de muestras del que está compuesto procede de diferentes corpus distintos, concretamente de los siguientes :
- Dept.of Energy abstract
- Dow Jones Newswire stories
- Dept. of Agriculture bulletins
- Library of America texts
- MUC‐3 messages
- IBM Manual sentences
- WBUR radio transcripts
- ATIS sentences
- Brown Corpus, retagged