A differentiable adaptive computation time algorithm for neural networks

Dublin Core

Title

A differentiable adaptive computation time algorithm for neural networks

Subject

005.13
Ciencias de la computación
Algoritmos computacionales
Redes neurales (Ciencia de la computación)
Arquitectura de software

Description

Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2021
A pesar de las mejoras sustanciales en los resultados que aportan los modelos de redes
neuronales, su aplicación generalizada se ha visto limitada por su elevado coste computacional
debido a redundancias presentes en este tipo de arquitecturas. M´as a´un, esta
tesis postula que dichas ineficiencias no pueden resolverse completamente con métodos
estáticos, debido a que algunas redundancias son intrínsecas al problema que se resuelve
y, por lo tanto, son dependientes de los datos. Aunque en respuesta a este problema se
han propuesto arquitecturas dinámicas que se adaptan a la entrada, todas ellas comparten
la limitación de que no son totalmente diferenciables. Ante esta limitación común, nuestro
trabajo propone la primera implementación de un algoritmo de tiempo de cómputo
dinámico que es totalmente diferenciable: un algoritmo dinámico diferenciable de early
exiting que llamamos DACT.
Validamos las ventajas de nuestro enfoque, tanto en términos de resultados como de
interpretabilidad, utilizando dos de los casos de uso más comunes, y descubrimos que el
DACT puede conllevar: i) importantes ganancias de rendimiento cuando sustituye a los
enfoques dinámicos existentes, o ii) eliminar las redundancias intrínsecas cuando se utiliza
para complementar modelos estáticos. De hecho, en el dominio del procesamiento
de lenguaje descubrimos que nuestro enfoque es mejor para reducir el número de bloques
Transformer utilizados por los modelos BERT sin pérdida de desempeño en una serie de
tareas. Del mismo modo, mostramos una reducción significativa en el número de pasos
recurrentes necesarios cuando se aplica a la arquitectura MAC, superando los resultados
tanto de los algoritmos adaptativos existentes como de aquellos estáticos comparables, a la
vez que se mejora la transparencia del modelo. Además, nuestro modelo muestra una notable
estabilidad, respondiendo de forma predecible a los cambios de los hiperparámetros,
a la vez que equilibra la precisión y la complejidad de forma razonable.

Creator

Eyzaguirre, Cristóbal

Date

2021-07-29T14:34:24Z
2021-07-29T14:34:24Z
2021

Contributor

Soto Arriaza, Álvaro Marcelo
Pontificia Universidad Católica de Chile. Escuela de Ingeniería

Rights

acceso abierto

Format

xi, 59 páginas
application/pdf

Language

en

Type

tesis de maestría

Identifier

10.7764/tesisUC/ING/61644
https://doi.org/10.7764/tesisUC/ING/61644
https://repositorio.uc.cl/handle/11534/61644