Object attention and contextualization for vision and language navigation

Title

Subject

Navegación por Visión y Lenguaje

Aprendizaje profundo

Visión por computador

Detección de objetos

Procesamiento de lenguaje natural

Tareas auxiliares

620

Ingeniería

Description

Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2022

En la tarea de Navegación por Visión y Lenguaje, un agente debe navegar distintos entornos de acuerdo con una instrucción en lenguaje natural. Esta demandante tarea es comúnmente abordada a través de técnicas de aprendizaje de máquina, los cuales entrenan al agente a aprender estrategias de navegación que siguen lo dicho en la instrucción, aterrizándola a lo que puede ver de su entorno. Actualmente, existe una brecha entre el rendimiento humano y el de modelos de Navegación por Visión y Lenguaje. Estas instrucciones usualmente hacen referencia a objetos que están presentes en el entorno del agente, y el entendimiento de lo que este tiene a su alrededor es necesario para entender
hacia donde ir y donde detenerse. Usualmente, este entendimiento se deja para aprender de forma implícita desde las características globales de su visión, las cuales no están diseñadas para detectar objetos. En este trabajo se proponen métodos para incluir y atender objetos durante la navegación del agente con modelos basados en arquitecturas recurrentes o de transformadores. Nuestro método alcanza una mejora relativa de 1.6 % sobre los modelos base en entornos desconocidos. A pesar de esto, también se concluye que estos modelos aprovechan la información de objetos para sobreajustar a entornos conocidos, aumentando la brecha entre los conjuntos de validación conocidos y desconocidos.

Creator

Earle, Benjamín

Date

2022-11-21T12:53:46Z

2022

Contributor

Soto Arriaza, Álvaro Marcelo

Pontificia Universidad Católica de Chile. Escuela de Ingeniería

Rights

acceso abierto

Format

xiii, 50 páginas

application/pdf

Language

en

Type

tesis de maestría

Identifier

10.7764/tesisUC/ING/65615

https://doi.org/10.7764/tesisUC/ING/65615

https://repositorio.uc.cl/handle/11534/65615

Object attention and contextualization for vision and language navigation

Dublin Core

Title

Subject

Description

Creator

Date

Contributor

Rights

Format

Language

Type

Identifier