Object attention and contextualization for vision and language navigation

Dublin Core

Title

Object attention and contextualization for vision and language navigation

Subject

Navegación por Visión y Lenguaje
Aprendizaje profundo
Visión por computador
Detección de objetos
Procesamiento de lenguaje natural
Tareas auxiliares
620
Ingeniería

Description

Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2022
En la tarea de Navegación por Visión y Lenguaje, un agente debe navegar distintos entornos de acuerdo con una instrucción en lenguaje natural. Esta demandante tarea es comúnmente abordada a través de técnicas de aprendizaje de máquina, los cuales entrenan al agente a aprender estrategias de navegación que siguen lo dicho en la instrucción, aterrizándola a lo que puede ver de su entorno. Actualmente, existe una brecha entre el rendimiento humano y el de modelos de Navegación por Visión y Lenguaje. Estas instrucciones usualmente hacen referencia a objetos que están presentes en el entorno del agente, y el entendimiento de lo que este tiene a su alrededor es necesario para entender
hacia donde ir y donde detenerse. Usualmente, este entendimiento se deja para aprender de forma implícita desde las características globales de su visión, las cuales no están diseñadas para detectar objetos. En este trabajo se proponen métodos para incluir y atender objetos durante la navegación del agente con modelos basados en arquitecturas recurrentes o de transformadores. Nuestro método alcanza una mejora relativa de 1.6 % sobre los modelos base en entornos desconocidos. A pesar de esto, también se concluye que estos modelos aprovechan la información de objetos para sobreajustar a entornos conocidos, aumentando la brecha entre los conjuntos de validación conocidos y desconocidos.

Creator

Earle, Benjamín

Date

2022-11-21T12:53:46Z
2022-11-21T12:53:46Z
2022

Contributor

Soto Arriaza, Álvaro Marcelo
Pontificia Universidad Católica de Chile. Escuela de Ingeniería

Rights

acceso abierto

Format

xiii, 50 páginas
application/pdf

Language

en

Type

tesis de maestría

Identifier

10.7764/tesisUC/ING/65615
https://doi.org/10.7764/tesisUC/ING/65615
https://repositorio.uc.cl/handle/11534/65615