Metodología para la construcción automática de un corpus de dominio específico

Title

Subject

400

Lenguas

Corpora (Lingüística) - Procesamiento de datos

Lingüística computacional

Description

Tesis (Magíster en Procesamiento y Gestión de la Información)--Pontificia Universidad Católica de Chile, 2018

Los corpus son un recurso hoy en día inigualable para cualquier estudio lingüístico en general y en lingüística computacional. Ahora bien, con la incorporación de los computadores cada vez con mayor capacidad de almacenamiento y procesamiento, el acceso a los datos es rápido y fiable, así como su manipulación, extracción e identificación de información relevante de enormes cantidades de textos. La contribución concreta de este trabajo fue generar una metodología para la construcción automática de un corpus de dominio específico mediante el entrenamiento de un modelo de tópicos que fuera capaz de discriminar los documentos del dominio previamente definido de otro que no lo fuera. Para ello fue relevante la utilización de herramientas como MALLET, el módulo LDAP y Pthon y librerías como NLTK, GENSIM, entre otras mencionadas en el cuerpo del trabajo. La implementación de un programa computacional con una interfaz de fácil manipulación permitió comprobar el funcionamiento del corpus de entrenamiento y de prueba. Además, con estos resultados se evaluó el clasificador a través de una matriz de confusión.

Creator

Araya Araya, Fabiola Berta

Date

2018-08-13T16:21:54Z

2018

Contributor

Aguilar, César Antonio

Pontificia Universidad Católica de Chile. Escuela de Ingeniería

Rights

acceso abierto

Format

v, 49 páginas

application/pdf

Type

tesis de maestría

Identifier

10.7764/tesisUC/ING/21979

https://doi.org/10.7764/tesisUC/ING/21979

https://repositorio.uc.cl/handle/11534/21979

Metodología para la construcción automática de un corpus de dominio específico

Dublin Core

Title

Subject

Description

Creator

Date

Contributor

Rights

Format

Type

Identifier