Template extraction for question answer generation using an image knowledge base

Dublin Core

Title

Template extraction for question answer generation using an image knowledge base

Subject

Deep Learning
VQA
Visual Genome
Generación de set de datos
620
Ingeniería

Description

Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2019
Deep Learning ha sido clave para resolver tareas complejas en los últimos añnos. Para entrenar modelos de Deep Learning, se requieren enormes cantidades de datos etiquetados. Visual Question Answering (VQA) es una tarea en donde se le hace una pregunta sobre una imagen en lenguaje natural a un sistema y el sistema debe responder la pregunta. Para aplicar Deep Learning a VQA se necesita un set de datos de cientos de miles de imágenes, preguntas sobre las imágenes y sus respuestas. Proponemos un método para obtener templates de pregunta-respuesta que pueden ser usados para generar preguntas y sus respuestas dada una base de conocimiento acerca de una imagen con información sobre los objetos que aparecen en ella, sus atributos y la relación entre ellos. Nuestro método genera sets de datos 2 órdenes de magnitud más grandes que los actuales con etiquetación manual. Encontramos en nuestros experimentos que la estrategia más adecuada para utilizar un dataset tan grande es entrenar un modelo de Deep Learning usando el dataset generado y luego aplicar fine-tunning usando el dataset objetivo. Para evaluar nuestras pregunta-respuestas generadas entrenamos modelos usando solo el set de entrenamiento de los datasets VQA y VQA v2 y modelos usando la técnica de fine-tune sobre nuestro set de datos. El uso de nuestros datos mejora la exactitud de los tipos de pregunta Que está .... y Quien está . . . en 2.25 y 1.02 puntos porcentuales respectivamente en VQA y en 0.73 y 4.91 puntos porcentuales respectivamente en VQA v2.

Creator

Fadic Gutiérrez, Miguel Osvaldo

Date

2022-10-05T20:32:57Z
2022-10-05T20:32:57Z
2019

Contributor

Soto Arriaza, Álvaro Marcelo
Baier Aranda, Jorge Andrés
Pontificia Universidad Católica de Chile. Escuela de Ingeniería

Rights

acceso abierto

Format

42 páginas
application/pdf

Language

en

Type

tesis de maestría

Identifier

10.7764/tesisUC/ING/64985
https://doi.org/10.7764/tesisUC/ING/64985
https://repositorio.uc.cl/handle/11534/64985