Las unidades recurrentes cerradas (GRU, por sus siglas en inglés) son un mecanismo de compuerta en redes neuronales recurrentes, introducido en 2014 por Kyunghyun Cho et al.[1] La GRU es como una memoria a largo plazo (LSTM, por sus siglas en inglés) con un mecanismo de compuerta para introducir u olvidar ciertas características,[2] pero carece de vector de contexto o compuerta de salida, lo que resulta en menos parámetros que la LSTM.[3] El rendimiento de la GRU en determinadas tareas de modelado de música polifónica, modelado de señales de voz y procesamiento de lenguaje natural fue similar al de la LSTM.[4][5] Las GRU demostraron que la compuerta es útil en general, y el equipo de Bengio no llegó a ninguna conclusión concreta sobre cuál de las dos unidades de compuerta era mejor.[6][7]
Arquitectura
editar
Existen diversas variaciones de la unidad de compuerta completa, en la que la compuerta se realiza utilizando el estado oculto anterior y el sesgo en diversas combinaciones, y una forma simplificada denominada unidad de compuerta mínima.[8]
El operador denota el producto Hadamard en lo siguiente:
Unidad totalmente cerrada
editar
Inicialmente, para , el vector de salida es .
Unidad Recurrente Cerrada, versión totalmente cerrada
Variables ( denota el número de características de entrada y el número de características de salida):
: vector de entrada
: vector de salida
: vector de activación candidato
: actualizar el vector de puerta
: resetear vector puerta
, and : matrices de parámetros y vectores que deben aprenderse durante el entrenamiento.
Son posibles funciones de activación alternativas, siempre que: .
Tipo 1
Se pueden crear formas alternativas cambiando y .[9]
Tipo 1, cada puerta depende sólo del estado oculto anterior y del sesgo.
Tipo 2, cada puerta depende sólo del estado oculto anterior.
Tipo 2
Tipo 3, cada puerta se calcula utilizando sólo el sesgo.
Unidad mínima cerrada
editar
Tipo 3
La unidad mínima cerrada (MGU) es similar a la unidad de compuerta completa, salvo que el vector de compuerta de actualización y reinicio se fusiona en una compuerta de olvido. Esto también implica que la ecuación para el vector de salida debe cambiarse:[10]
Variables
: vector de entrada
: vector de salida
: vector de activación candidato
: vector de olvido
, y : matrices de parámetros y vector
Unidad recurrente ligera
editar
La unidad recurrente activada por luz (LiGRU)[4] elimina la puerta de reinicio, sustituye tanh por la activación ReLU y aplica la normalización por lotes (BN):
La LiGRU se ha estudiado desde una perspectiva bayesiana.[11] Este análisis dio lugar a una variante denominada unidad recurrente bayesiana ligera (LiBRU), que mostró ligeras mejoras sobre la LiGRU en tareas de reconocimiento del habla.
Referencias
editar
↑Cho, Kyunghyun; van Merrienboer, Bart; Bahdanau, DZmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). «"Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation".». Association for Computational Linguistics.
↑Felix Gers; Jürgen Schmidhuber; Fred Cummins (1999). «Learning to forget: Continual prediction with LSTM".». 9th International Conference on Artificial Neural Networks: ICANN '99. ISBN0-85296-721-7. doi:10.1049/cp:19991218.
↑«Recurrent Neural Network Tutorial, Part 4 – Implementing a GRU/LSTM RNN with Python and Theano – WildML». web.archive.org. 10 de noviembre de 2021. Consultado el 9 de marzo de 2024.
↑ abRavanelli, Mirco; Brakel, Philemon; Omologo, Maurizio; Bengio, Yoshua (2018). «"Light Gated Recurrent Units for Speech Recognition"». IEEE Transactions on Emerging Topics in Computational Intelligence. doi:10.1109/TETCI.2017.2762739.
↑Su, Yuahang; Kuo, Jay (2019). «"On extended long short-term memory and dependent bidirectional recurrent neural network"». Neurocomputing. doi:10.1016/j.neucom.2019.04.044.
↑Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua (2014). Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling".
↑Gruber, N.; Jockisch, A. (2020). «"Are GRU cells more specific and LSTM cells more sensitive in motive classification of text?». Frontiers in Artificial Intelligence. PMC 7861254. PMID 33733157. doi:10.3389/frai.2020.00040.
↑Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua (2014). "Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling".
↑Dey, Rahul; Salem, Fathi M. (2017). "Gate-Variants of Gated Recurrent Unit (GRU) Neural Networks".
↑Heck, Joel; Salem, Fathi M. (2017). "Simplified Minimal Gated Unit Variations for Recurrent Neural Networks".
↑Bittar, Alexandre; Garner, Philip N. (2021-06). «A Bayesian Interpretation of the Light Gated Recurrent Unit». ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP): 2965-2969. doi:10.1109/ICASSP39728.2021.9414259. Consultado el 11 de marzo de 2024.