Dublin Core
Title
Object attention and contextualization for vision and language navigation
Subject
Navegación por Visión y Lenguaje
Aprendizaje profundo
Visión por computador
Detección de objetos
Procesamiento de lenguaje natural
Tareas auxiliares
620
Ingeniería
Description
Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2022
En la tarea de Navegación por Visión y Lenguaje, un agente debe navegar distintos entornos de acuerdo con una instrucción en lenguaje natural. Esta demandante tarea es comúnmente abordada a través de técnicas de aprendizaje de máquina, los cuales entrenan al agente a aprender estrategias de navegación que siguen lo dicho en la instrucción, aterrizándola a lo que puede ver de su entorno. Actualmente, existe una brecha entre el rendimiento humano y el de modelos de Navegación por Visión y Lenguaje. Estas instrucciones usualmente hacen referencia a objetos que están presentes en el entorno del agente, y el entendimiento de lo que este tiene a su alrededor es necesario para entender
hacia donde ir y donde detenerse. Usualmente, este entendimiento se deja para aprender de forma implícita desde las características globales de su visión, las cuales no están diseñadas para detectar objetos. En este trabajo se proponen métodos para incluir y atender objetos durante la navegación del agente con modelos basados en arquitecturas recurrentes o de transformadores. Nuestro método alcanza una mejora relativa de 1.6 % sobre los modelos base en entornos desconocidos. A pesar de esto, también se concluye que estos modelos aprovechan la información de objetos para sobreajustar a entornos conocidos, aumentando la brecha entre los conjuntos de validación conocidos y desconocidos.
hacia donde ir y donde detenerse. Usualmente, este entendimiento se deja para aprender de forma implícita desde las características globales de su visión, las cuales no están diseñadas para detectar objetos. En este trabajo se proponen métodos para incluir y atender objetos durante la navegación del agente con modelos basados en arquitecturas recurrentes o de transformadores. Nuestro método alcanza una mejora relativa de 1.6 % sobre los modelos base en entornos desconocidos. A pesar de esto, también se concluye que estos modelos aprovechan la información de objetos para sobreajustar a entornos conocidos, aumentando la brecha entre los conjuntos de validación conocidos y desconocidos.
Creator
Earle, Benjamín
Date
2022-11-21T12:53:46Z
2022-11-21T12:53:46Z
2022
Contributor
Soto Arriaza, Álvaro Marcelo
Pontificia Universidad Católica de Chile. Escuela de Ingeniería
Rights
acceso abierto
Format
xiii, 50 páginas
application/pdf
Language
en
Type
tesis de maestría
Identifier
10.7764/tesisUC/ING/65615
https://doi.org/10.7764/tesisUC/ING/65615
https://repositorio.uc.cl/handle/11534/65615