Dublin Core
Title
Data augmentation helps to prevent shortcuts and learn representations for continual learning in neural networks
Subject
006.32
Ciencias de la computación
Redes neurales (Ciencia de la computación)
Aprendizaje de máquina
Description
Tesis (Magíster en Ciencias de la Ingeniería)--Pontificia Universidad Católica de Chile, 2021
Los sesgos inductivos han sido fundamentales en el éxito del aprendizaje profundo, pero, recientemente, los modelos con sesgos inductivos fuertes han sido superados por propuestas centradas en los datos, que combinan arquitecturas grandes y flexibles, con una especial atención en los datos. No obstante, estas propuestas centradas en los datos mantienen algunos de los problemas que el aprendizaje profundo tiene, los mas relevantes para este trabajo son el aprendizaje de atajos y el olvido catastrófico. El aprendizaje de atajos ocurre cuando la red aprende reglas de decisión que no son robustas a cambios en la distribución de los datos, por ejemplo, reconocer camellos en un pastizal, después de haber visto camellos únicamente en el desierto. El olvido catastrófico ocurre cuando la red tiene que aprender de un flujo no estacionario de datos, sin perder o olvidar el conocimiento ya adquirido, pero falla en lograr esto y tiene un mal desempeño en los datos que vió anteriormente, por ejemplo, aprender a reconocer animales sin olvidar los ya conocidos.
En este trabajo mostramos que la aumentación de datos puede ser utilizada para mitigar los problemas mencionados. Primero, observamos el aprendizaje de atajos en la tarea de respuesta a pregunta visual. Vimos que una arquitectura flexible aprende atajos por lo que falla al modificar la distribución de los datos, pero la incorporación de aumentación previene que el modelo aprenda estas reglas y ayuda a mejorar su desempeño en los datos de la distribución modificada. Para el problema del olvido catastrófico, trabajos recientes mostraron que el meta-aprendizaje puede ser utilizado para aprender un extractor de características menos susceptible a olvidar. En este trabajo, mostramos que una red neuronal entrenada mediante aprendizaje supervisado tradicional también puede ser utilizada para éste problema, y observamos que la aumentación de datos puede tener un gran impacto en el desempeño del modelo.
En este trabajo mostramos que la aumentación de datos puede ser utilizada para mitigar los problemas mencionados. Primero, observamos el aprendizaje de atajos en la tarea de respuesta a pregunta visual. Vimos que una arquitectura flexible aprende atajos por lo que falla al modificar la distribución de los datos, pero la incorporación de aumentación previene que el modelo aprenda estas reglas y ayuda a mejorar su desempeño en los datos de la distribución modificada. Para el problema del olvido catastrófico, trabajos recientes mostraron que el meta-aprendizaje puede ser utilizado para aprender un extractor de características menos susceptible a olvidar. En este trabajo, mostramos que una red neuronal entrenada mediante aprendizaje supervisado tradicional también puede ser utilizada para éste problema, y observamos que la aumentación de datos puede tener un gran impacto en el desempeño del modelo.
Creator
Amenábar Montenegro, Sebastián
Date
2021-12-07T13:59:42Z
2021-12-07T13:59:42Z
2021
Contributor
Löbel Díaz, Hans-Albert
Pontificia Universidad Católica de Chile. Escuela de Ingeniería
Rights
acceso abierto
Format
xi, 67 páginas
application/pdf
Language
en
Type
tesis de maestría
Identifier
10.7764/tesisUC/ING/63021
https://doi.org/10.7764/tesisUC/ING/63021
https://repositorio.uc.cl/handle/11534/63021