A knowledge base approach to improve interpretability and performance of visual question answering task using deep learning models

Dublin Core

Title

Subject

006.4

Ciencias de la computación

Sistemas de representación de información

Aprendizaje de máquina

Visión por computador

Description

Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2019

Los modelos de Aprendizaje Profundo o Deep Learning son vistos y tratados como cajas negras. Dada una entrada, estos generan una salida a modo de respuesta. Pero no se tiene mas que una noción vaga de lo que llevó al modelo a responder lo que respondió. Sin embargo, en muchas aplicaciones (aplicaciones bancarias, compañías de seguros, asistentes personales, etc) es deseable o incluso necesario saber que llevó al modelo a generar una determinada respuesta. En este trabajo nos enfocamos en el desafío llamado Visual Question Answering (VQA). Este consiste en lograr que un modelo responda preguntas basadas en imágenes que se le presentan. Logramos incorporar una nueva Base de Conocimiento o knowledge base (KB) que contiene relaciones entre objetos del mundo real, lo que ayuda a mejorar la interpretabilidad y el desempeño del modelo mediante la identificación y extracción de información relevante acorde a cada pregunta e imagen que se presenta. La extracción de información de la KB fue supervisada directamente para
generar un mapa de atención usado por el modelo para identificar las relaciones relevantes a cada pregunta e imagen. Se muestra cuantitativamente que las predicciones del modelo mejoran con la introducción de la KB. También mostramos cualitativamente la mejora en cuanto a interpretabilidad mediante la atención generada sobre las relaciones de la KB. Adicionalmente, mostramos cómo la KB ayuda a mejorar el desempeño en modelos de VQA que generan explicaciones. Los
resultados obtenidos demuestran que el mecanismo de atención empleado en la KB ayuda mejorar la interpretabilidad del modelo. Y la información adicional extraída mejora la representacón interna de éste y por ende también el desempeño.Los modelos de Aprendizaje Profundo o Deep Learning son vistos y tratados como cajas negras. Dada una entrada, estos generan una salida a modo de respuesta. Pero no se tiene mas que una noción vaga de lo que llevó al modelo a responder lo que respondió. Sin embargo, en muchas aplicaciones (aplicaciones bancarias, compañías de seguros, asistentes personales, etc) es deseable o incluso necesario saber que llevó al modelo a generar una determinada respuesta. En este trabajo nos enfocamos en el desafío llamado Visual Question Answering (VQA). Este consiste en lograr que un modelo responda preguntas basadas en imágenes que se le presentan. Logramos incorporar una nueva Base de Conocimiento o knowledge base (KB) que contiene relaciones entre objetos del mundo real, lo que ayuda a mejorar la interpretabilidad y el desempeño del modelo mediante la identificación y extracción de información relevante acorde a cada pregunta e imagen que se presenta. La extracción de información de la KB fue supervisada directamente para
generar un mapa de atención usado por el modelo para identificar las relaciones relevantes a cada pregunta e imagen. Se muestra cuantitativamente que las predicciones del modelo mejoran con la introducción de la KB. También mostramos cualitativamente la mejora en cuanto a interpretabilidad mediante la atención generada sobre las relaciones de la KB. Adicionalmente, mostramos cómo la KB ayuda a mejorar el desempeño en modelos de VQA que generan explicaciones. Los
resultados obtenidos demuestran que el mecanismo de atención empleado en la KB ayuda mejorar la interpretabilidad del modelo. Y la información adicional extraída mejora la representacón interna de éste y por ende también el desempeño.Los modelos de Aprendizaje Profundo o Deep Learning son vistos y tratados como cajas negras. Dada una entrada, estos generan una salida a modo de respuesta. Pero no se tiene mas que una noción vaga de lo que llevó al modelo a responder lo que respondió. Sin embargo, en muchas aplicaciones (aplicaciones bancarias, compañías de seguros, asistentes personales, etc) es deseable o incluso necesario saber que llevó al modelo a generar una determinada respuesta. En este trabajo nos enfocamos en el desafío llamado Visual Question Answering (VQA). Este consiste en lograr que un modelo responda preguntas basadas en imágenes que se le presentan. Logramos incorporar una nueva Base de Conocimiento o knowledge base (KB) que contiene relaciones entre objetos del mundo real, lo que ayuda a mejorar la interpretabilidad y el desempeño del modelo mediante la identificación y extracción de información relevante acorde a cada pregunta e imagen que se presenta. La extracción de información de la KB fue supervisada directamente para
generar un mapa de atención usado por el modelo para identificar las relaciones relevantes a cada pregunta e imagen. Se muestra cuantitativamente que las predicciones del modelo mejoran con la introducción de la KB. También mostramos cualitativamente la mejora en cuanto a interpretabilidad mediante la atención generada sobre las relaciones de la KB. Adicionalmente, mostramos cómo la KB ayuda a mejorar el desempeño en modelos de VQA que generan explicaciones. Los
resultados obtenidos demuestran que el mecanismo de atención empleado en la KB ayuda mejorar la interpretabilidad del modelo. Y la información adicional extraída mejora la representacón interna de éste y por ende también el desempeño.

Creator

Riquelme Callejas, Felipe Antonio

Date

2020-07-07T19:06:38Z

2019

Contributor

Soto Arriaza, Álvaro Marcelo

Pontificia Universidad Católica de Chile. Escuela de Ingeniería

Rights

acceso abierto

Format

xii, 47 páginas

application/pdf

Language

Type

tesis de maestría

Identifier

10.7764/tesisUC/ING/31491

https://doi.org/10.7764/tesisUC/ING/31491

https://repositorio.uc.cl/handle/11534/31491