A full probabilistic model for yes/no type crowdsourcing in multi-class classification

Dublin Core

Title

A full probabilistic model for yes/no type crowdsourcing in multi-class classification

Subject

370
Educación
Aprendizaje de máquina.
Computación humana.

Description

Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2017
Crowdsourcing se ha convertido en una técnica ampliamente adoptada en escenarios donde los conjuntos de entrenamiento para modelos supervisados son escasos y difíciles de obtener. La mayoría de los modelos de crowdsourcing en la literatura asumen que los anotadores pueden proporcionar respuestas para preguntas completas, éstas se refieren a preguntarle a un anotador que discierna entre todas las clases posibles para un objeto. Desafortunadamente, ese discernimiento no siempre es fácil en escenarios realistas, pueden haber muchas clases donde se desconoce cómo diferenciarlas. En este trabajo, se propone un modelo probabilístico para un tipo más corto y fácil de preguntas. Estas preguntas más simples sólo requieren una respuesta del tipo “sí” o “no”. Este modelo estima una distribución posterior conjunta de matrices relacionadas con las confusiones y errores de los anotadores, además de la probabilidad posterior de la clase de cada objeto. La solución se lleva a cabo mediante inferencia aproximada, se usa en primer lugar muestreo de Monte Carlo y en segundo lugar el método de Inferencia Variacional como Caja Negra (BBVI). Para este último enfoque se provee la derivación de los gradientes necesarios para la aproximación del modelo. Se construyeron dos escenarios web reales de crowdsourcing, donde anotadores fueron invitados a participar. En el primer escenario se muestran series de tiempo astronómicas a ingenieros y astrónomos. El segundo escenario se basa en clasificación de animales mediante la observación de imágenes. Los resultados muestran que es posible lograr resultados comparables con la pregunta completa para clasificación en crowdsourcing. Además, se prueba que tomar muestras de cómo los anotadores se equivocan al responder preguntas es importante para la convergencia del modelo. Finalmente, se deja disponible para la comunidad los dos conjuntos de datos obtenidos desde los experimentos reales generados. Todo el código está públicamente disponible.

Creator

Saldías Fuentes, Belén Carolina

Date

2017-12-19T15:48:13Z
2017-12-19T15:48:13Z
2017

Contributor

Pichara Baksai, Karim Elías
Pontificia Universidad Católica de Chile. Escuela de Ingeniería

Rights

acceso abierto

Format

xii, 49 hojas
application/pdf

Language

es

Type

tesis de maestría

Identifier

10.7764/tesisUC/ING/21364
https://doi.org/10.7764/tesisUC/ING/21364
https://repositorio.uc.cl/handle/11534/21364