Dublin Core
Title
Enhanced vision-language navigation by using scene recognition auxiliary task
Subject
004.019
Ciencias de la computación
Interacción hombre-computador
Aprendizaje de máquina
Lenguajes de programación (Computadores electrónicos) - Semántica
Description
Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2021
Vision-Language Navigation es una tarea cognitiva altamente exigente que abordada
desde una perspectiva de Machine Learning, implica entrenar a un agente para navegar por
diferentes escenarios siguiendo instrucciones en lenguaje natural. Esta tarea nos acerca un
paso más a tener interacciones fluidas entre humanos y robots. Sin embargo, todavía existe
una gran brecha entre el desempeño humano y los modelos actuales de Vision-Language
Navigation. Las instrucciones suelen describir caminos que hacen referencia a lugares,
por ejemplo, girar a la derecha al final de la cocina. Esto hace que sea necesario comprender
la semántica de las diferentes habitaciones para lograr una correcta navegación.
Sin embargo, esta comprensión por lo general no se supervisa directamente y se deja para
ser aprendida de manera implícita. En este trabajo, proponemos una tarea auxiliar en la
que los agentes deben clasificar los diferentes tipos de habitaciones por las que navegan,
y demostramos empíricamente que al agregar esta tarea, los modelos aprenden a navegar
mejor y de manera más eficiente. Esto se ve reflejado en un aumento en la mayoría de
las métricas de Vision-Language Navigation tanto para escenarios vistos como no vistos
durante la fase de entrenamiento.
desde una perspectiva de Machine Learning, implica entrenar a un agente para navegar por
diferentes escenarios siguiendo instrucciones en lenguaje natural. Esta tarea nos acerca un
paso más a tener interacciones fluidas entre humanos y robots. Sin embargo, todavía existe
una gran brecha entre el desempeño humano y los modelos actuales de Vision-Language
Navigation. Las instrucciones suelen describir caminos que hacen referencia a lugares,
por ejemplo, girar a la derecha al final de la cocina. Esto hace que sea necesario comprender
la semántica de las diferentes habitaciones para lograr una correcta navegación.
Sin embargo, esta comprensión por lo general no se supervisa directamente y se deja para
ser aprendida de manera implícita. En este trabajo, proponemos una tarea auxiliar en la
que los agentes deben clasificar los diferentes tipos de habitaciones por las que navegan,
y demostramos empíricamente que al agregar esta tarea, los modelos aprenden a navegar
mejor y de manera más eficiente. Esto se ve reflejado en un aumento en la mayoría de
las métricas de Vision-Language Navigation tanto para escenarios vistos como no vistos
durante la fase de entrenamiento.
Creator
Manterola Valenzuela, Raimundo
Date
2021-01-21T14:58:52Z
2021-01-21T14:58:52Z
2021
Contributor
Soto Arriaza, Álvaro Marcelo
Pontificia Universidad Católica de Chile. Escuela de Ingeniería
Rights
acceso abierto
Format
xii, 46 páginas
application/pdf
Language
en
Type
tesis de maestría
Identifier
10.7764/tesisUC/ING/51219
https://doi.org/10.7764/tesisUC/ING/51219
https://repositorio.uc.cl/handle/11534/51219