Dublin Core
Title
Supermasks and a good initialization are all you need
Subject
006.31
Ciencias de la computación
Aprendizaje de máquina
Redes neurales (Ciencia de la computación)
Description
Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2020
Los modelos de aprendizaje profundo han mostrado significativas mejoras en las tareas
de visión por computador, aunque generalmente optimizando redes neuronales altamente
parametrizadas. Para mejorar esto, la hipótesis de Lottery Ticket (Frankle & Carbin, 2019)
establece que una red neuronal densa contiene una subred de modo que, cuando se entrena
de forma aislada, puede igualar el rendimiento de la red completa original. El entrenamiento
de Supermask (Zhou et al., 2019) es una forma eficiente de obtener un Lottery
Ticket, pero desafortunadamente, aún enfrenta problemas de rendimiento. En el entrenamiento
de Supermask, el valor de los pesos iniciales es clave ya que nunca se actualizan.
Nuestra hipótesis es que, al agregar conocimiento previo de los datos a la inicialización de
los pesos, el entrenamiento de Supermask encontraría una subred con mejor rendimiento
en los datos de prueba que la inicialización aleatoria.
En esta tesis, proponemos un método novedoso para inicializar los pesos de un modelo
bajo el entrenamiento de Supermask. Nos referimos al método propuesto como PatchesInit.
El método inicializa los pesos con patrones encontrados en los datos de entrenamiento,
aproximándose así a lo que deberían aprender en un esquema de entrenamiento
regular. Para evaluar PatchesInit, entrenamos varias ConvNets, con diferentes configuraciones
de Supermask, sobre los conjuntos de datos CIFAR-10, CIFAR-100 y TinyImagenet-
200. Los resultados muestran que PatchesInit es una estrategia de inicialización eficaz,
mejorando significativamente el rendimiento de la inicialización aleatoria. Para ConvNets
de poca profundidad, el método propuesto supera a la inicialización aleatoria bajo diferentes
niveles de weight pruning. Por otro lado, PatchesInit enfrenta problemas para inicializar
los pesos de manera efectiva para redes más profundas, por lo que proponemos una
variante que sí encuentra subredes con mejor rendimiento que la inicialización aleatoria.
de visión por computador, aunque generalmente optimizando redes neuronales altamente
parametrizadas. Para mejorar esto, la hipótesis de Lottery Ticket (Frankle & Carbin, 2019)
establece que una red neuronal densa contiene una subred de modo que, cuando se entrena
de forma aislada, puede igualar el rendimiento de la red completa original. El entrenamiento
de Supermask (Zhou et al., 2019) es una forma eficiente de obtener un Lottery
Ticket, pero desafortunadamente, aún enfrenta problemas de rendimiento. En el entrenamiento
de Supermask, el valor de los pesos iniciales es clave ya que nunca se actualizan.
Nuestra hipótesis es que, al agregar conocimiento previo de los datos a la inicialización de
los pesos, el entrenamiento de Supermask encontraría una subred con mejor rendimiento
en los datos de prueba que la inicialización aleatoria.
En esta tesis, proponemos un método novedoso para inicializar los pesos de un modelo
bajo el entrenamiento de Supermask. Nos referimos al método propuesto como PatchesInit.
El método inicializa los pesos con patrones encontrados en los datos de entrenamiento,
aproximándose así a lo que deberían aprender en un esquema de entrenamiento
regular. Para evaluar PatchesInit, entrenamos varias ConvNets, con diferentes configuraciones
de Supermask, sobre los conjuntos de datos CIFAR-10, CIFAR-100 y TinyImagenet-
200. Los resultados muestran que PatchesInit es una estrategia de inicialización eficaz,
mejorando significativamente el rendimiento de la inicialización aleatoria. Para ConvNets
de poca profundidad, el método propuesto supera a la inicialización aleatoria bajo diferentes
niveles de weight pruning. Por otro lado, PatchesInit enfrenta problemas para inicializar
los pesos de manera efectiva para redes más profundas, por lo que proponemos una
variante que sí encuentra subredes con mejor rendimiento que la inicialización aleatoria.
Creator
Rencoret Domínguez, Francisco
Date
2021-01-14T10:57:40Z
2021-01-14T10:57:40Z
2020
Contributor
Soto Arriaza, Álvaro Marcelo
Pontificia Universidad Católica de Chile. Escuela de Ingeniería
Rights
acceso abierto
Format
xii, 54 páginas
application/pdf
Language
en
Type
tesis de maestría
Identifier
10.7764/tesisUC/ING/50198
https://doi.org/10.7764/tesisUC/ING/50198
https://repositorio.uc.cl/handle/11534/50198