Data augmentation helps to prevent shortcuts and learn representations for continual learning in neural networks

Title

Subject

006.32

Ciencias de la computación

Redes neurales (Ciencia de la computación)

Aprendizaje de máquina

Description

Tesis (Magíster en Ciencias de la Ingeniería)--Pontificia Universidad Católica de Chile, 2021

Los sesgos inductivos han sido fundamentales en el éxito del aprendizaje profundo, pero, recientemente, los modelos con sesgos inductivos fuertes han sido superados por propuestas centradas en los datos, que combinan arquitecturas grandes y flexibles, con una especial atención en los datos. No obstante, estas propuestas centradas en los datos mantienen algunos de los problemas que el aprendizaje profundo tiene, los mas relevantes para este trabajo son el aprendizaje de atajos y el olvido catastrófico. El aprendizaje de atajos ocurre cuando la red aprende reglas de decisión que no son robustas a cambios en la distribución de los datos, por ejemplo, reconocer camellos en un pastizal, después de haber visto camellos únicamente en el desierto. El olvido catastrófico ocurre cuando la red tiene que aprender de un flujo no estacionario de datos, sin perder o olvidar el conocimiento ya adquirido, pero falla en lograr esto y tiene un mal desempeño en los datos que vió anteriormente, por ejemplo, aprender a reconocer animales sin olvidar los ya conocidos.
En este trabajo mostramos que la aumentación de datos puede ser utilizada para mitigar los problemas mencionados. Primero, observamos el aprendizaje de atajos en la tarea de respuesta a pregunta visual. Vimos que una arquitectura flexible aprende atajos por lo que falla al modificar la distribución de los datos, pero la incorporación de aumentación previene que el modelo aprenda estas reglas y ayuda a mejorar su desempeño en los datos de la distribución modificada. Para el problema del olvido catastrófico, trabajos recientes mostraron que el meta-aprendizaje puede ser utilizado para aprender un extractor de características menos susceptible a olvidar. En este trabajo, mostramos que una red neuronal entrenada mediante aprendizaje supervisado tradicional también puede ser utilizada para éste problema, y observamos que la aumentación de datos puede tener un gran impacto en el desempeño del modelo.

Creator

Amenábar Montenegro, Sebastián

Date

2021-12-07T13:59:42Z

2021

Contributor

Löbel Díaz, Hans-Albert

Pontificia Universidad Católica de Chile. Escuela de Ingeniería

Rights

acceso abierto

Format

xi, 67 páginas

application/pdf

Language

en

Type

tesis de maestría

Identifier

10.7764/tesisUC/ING/63021

https://doi.org/10.7764/tesisUC/ING/63021

https://repositorio.uc.cl/handle/11534/63021

Data augmentation helps to prevent shortcuts and learn representations for continual learning in neural networks

Dublin Core

Title

Subject

Description

Creator

Date

Contributor

Rights

Format

Language

Type

Identifier