Problema_de_desvanecimiento_de_gradiente Knowpia

En aprendizaje de máquinas, el problema de desvanecimiento de gradiente es una dificultad encontrada para entrenar redes neuronales artificiales mediante métodos de aprendizaje basados en descenso estocástico de gradientes y de retropropagación. En tales métodos, cada uno de los pesos de la red neuronal recibe una actualización proporcional a la derivada parcial de la función de error con respecto al peso actual en cada iteración de entrenamiento.

El problema es que, en algunos casos, el gradiente se irá desvaneciendo a valores muy pequeños, impidiendo eficazmente el peso de cambiar su valor. En el caso peor, esto puede impedir que la red neuronal continúe su entrenamiento. Como ejemplo de la causa del problema, funciones de activación tradicionales como la función de la tangente hiperbólica tienen gradientes en la gama (-1, 1), y la retropropagación computa gradientes por la regla de la cadena. Esto tiene el efecto de multiplicar n de estos números pequeños para computar gradientes de las "capas" de frente en una red de n capas, significando que el gradiente (señal de error) disminuye exponencialmente con n mientras las capas de frente se entrenan muy despacio.

La retropropagación permitió a los investigadores entrenar redes neuronales supervisadas profundas desde un inicio con muy poco éxito. La tesis de diploma de 1991 de Hochreiter identificó formalmente la razón de este fracaso en el "problema de desvanecimiento de gradiente", lo cual no sólo afectará a las redes prealimentadas de muchas capas, sino también a las redes recurrentes. Estas últimas se entrenan por desdoblamiento en redes neuronales prealimentadas muy profundas, donde se crea una capa nueva cada vez que se da un paso en la secuencia de entrada por la red.^[1]^[2]^[3]^[4]

Cuando se usan funciones de activación cuyas derivadas pueden tomar valores más grandes, uno de los riesgos es encontrar el denominado problema de gradiente explosivo.

Modelos prototípicos

Esta sección se basa en el artículo On the difficulty of training Recurrent Neural Networks de Pascanu, Mikolov y Bengio.^[5]

Modelo de red recurrente

Una red recurrente genérica tiene estados ocultos $h_{1},h_{2},...$ , entradas $u_{1},u_{2},...$ y salidas $x_{1},x_{2},...$ . Se parametriza con $\theta$ , de modo que el sistema evoluciona como $(h_{t},x_{t})=F(h_{t-1},u_{t},\theta )$ A menudo, la salida $x_{t}$ es una función de $h_{t}$ , como en $x_{t}=G(h_{t})$ . El problema del gradiente que desaparece ya se presenta claramente cuando $x_{t}=h_{t}$ , por lo que simplificamos nuestra notación al caso especial: $x_{t}=F(x_{t-1},u_{t},\theta )$ Ahora, tomemos su forma diferencial: ${\begin{aligned}dx_{t}&=\nabla _{\theta }F(x_{t-1},u_{t},\theta )d\theta +\nabla _{x}F(x_{t-1},u_{t},\theta )dx_{t-1}\\&=\nabla _{\theta }F(x_{t-1},u_{t},\theta )d\theta +\nabla _{x}F(x_{t-1},u_{t},\theta )(\nabla _{\theta }F(x_{t-2},u_{t-1},\theta )d\theta +\nabla _{x}F(x_{t-2},u_{t-1},\theta )dx_{t-2})\\&=\cdots \\&=\left(\nabla _{\theta }F(x_{t-1},u_{t},\theta )+\nabla _{x}F(x_{t-1},u_{t},\theta )\nabla _{\theta }F(x_{t-2},u_{t-1},\theta )+\cdots \right)d\theta \end{aligned}}$ Entrenar la red requiere definir una función de pérdida a minimizar. Sea $L(x_{T},u_{1},...,u_{T})$ ^{[Nota 1]} entonces minimizarla mediante descenso de gradiente da como resultado

$dL=\nabla _{x}L(x_{T},u_{1},...,u_{T})\left(\nabla _{\theta }F(x_{t-1},u_{t},\theta )+\nabla _{x}F(x_{t-1},u_{t},\theta )\nabla _{\theta }F(x_{t-2},u_{t-1},\theta )+\cdots \right)d\theta$

(loss differential)

$\Delta \theta =-\eta \cdot \left[\nabla _{x}L(x_{T})\left(\nabla _{\theta }F(x_{t-1},u_{t},\theta )+\nabla _{x}F(x_{t-1},u_{t},\theta )\nabla _{\theta }F(x_{t-2},u_{t-1},\theta )+\cdots \right)\right]^{T}$ donde $\eta$ es la tasa de aprendizaje.

El problema del gradiente que desaparece/explota surge debido a multiplicaciones repetidas, de la forma $\nabla _{x}F(x_{t-1},u_{t},\theta )\nabla _{x}F(x_{t-2},u_{t-1},\theta )\nabla _{x}F(x_{t-3},u_{t-2},\theta )\cdots$

Ejemplo: red recurrente con activación sigmoide

Para un ejemplo concreto, consideremos una red recurrente típica definida por

$x_{t}=F(x_{t-1},u_{t},\theta )=W_{rec}\sigma (x_{t-1})+W_{in}u_{t}+b$ donde $\theta =(W_{rec},W_{in})$ es el parámetro de la red, $\sigma$ es la función sigmoide,^{[Nota 2]} aplicada a cada coordenada del vector por separado, y $b$ es el vector de sesgo.

Entonces, $\nabla _{x}F(x_{t-1},u_{t},\theta )=W_{rec}\mathop {diag} (\sigma '(x_{t-1}))$ , y por lo tanto ${\begin{aligned}\nabla _{x}F(x_{t-1},u_{t},\theta )&\nabla _{x}F(x_{t-2},u_{t-1},\theta )\cdots \nabla _{x}F(x_{t-k},u_{t-k+1},\theta )\\=W_{rec}\mathop {diag} (\sigma '(x_{t-1}))&W_{rec}\mathop {diag} (\sigma '(x_{t-2}))\cdots W_{rec}\mathop {diag} (\sigma '(x_{t-k}))\end{aligned}}$ Dado que $|\sigma '|\leq 1$ , la norma de operador de la multiplicación anterior está acotada por $\|W_{rec}\|^{k}$ . Así, si el radio espectral de $W_{rec}$ es $\gamma <1$ , entonces para valores grandes de $k$ , la multiplicación anterior tiene una norma de operador acotada superiormente por $\gamma ^{k}\to 0$ . Este es el problema prototípico del gradiente que desaparece.

El efecto de un gradiente que desaparece es que la red no puede aprender efectos a largo plazo. Recordemos la Ecuación (loss differential): $\nabla _{\theta }L=\nabla _{x}L(x_{T},u_{1},...,u_{T})\left(\nabla _{\theta }F(x_{t-1},u_{t},\theta )+\nabla _{x}F(x_{t-1},u_{t},\theta )\nabla _{\theta }F(x_{t-2},u_{t-1},\theta )+\cdots \right)$ Los componentes de $\nabla _{\theta }F(x,u,\theta )$ son solo componentes de $\sigma (x)$ y $u$ , por lo que si $u_{t},u_{t-1},...$ están acotados, entonces $\|\nabla _{\theta }F(x_{t-k-1},u_{t-k},\theta )\|$ también está acotado por algún $M>0$ , y por lo tanto los términos en $\nabla _{\theta }L$ decaen como $M\gamma ^{k}$ . Esto significa que, efectivamente, $\nabla _{\theta }L$ se ve afectado solo por los primeros términos $O(\gamma ^{-1})$ en la suma.

Si $\gamma \geq 1$ , el análisis anterior no funciona del todo.^{[Nota 3]} Para el problema prototípico del gradiente que explota, el siguiente modelo es más claro.

Modelo de sistemas dinámicos

Diagrama de bifurcación de la red recurrente de una sola neurona. El eje horizontal es b, y el eje vertical es x. La curva negra es el conjunto de equilibrios estables e inestables. Nótese que el sistema exhibe histéresis, y puede ser usado como una memoria de un bit.

Siguiendo a (Doya, 1993),^[6] consideremos esta red recurrente de una sola neurona con activación sigmoide: $x_{t+1}=(1-\epsilon )x_{t}+\epsilon \sigma (wx_{t}+b)+\epsilon w'u_{t}$ En el límite de $\epsilon$ pequeño, la dinámica de la red se convierte en ${\frac {dx}{dt}}=-x(t)+\sigma (wx(t)+b)+w'u(t)$ Consideremos primero el caso autónomo, con $u=0$ . Establezcamos $w=5.0$ y variemos $b$ en $[-3,-2]$ . A medida que $b$ disminuye, el sistema tiene un punto estable, luego tiene 2 puntos estables y 1 punto inestable, y finalmente vuelve a tener 1 punto estable. Explícitamente, los puntos estables son $(x,b)=\left(x,\ln \left({\frac {x}{1-x}}\right)-5x\right)$ .

Ahora consideremos ${\frac {\Delta x(T)}{\Delta x(0)}}$ y ${\frac {\Delta x(T)}{\Delta b}}$ , donde $T$ es lo suficientemente grande como para que el sistema se haya estabilizado en uno de los puntos estables.

Si $(x(0),b)$ coloca el sistema muy cerca de un punto inestable, entonces una pequeña variación en $x(0)$ o $b$ haría que $x(T)$ se mueva de un punto estable a otro. Esto hace que ${\frac {\Delta x(T)}{\Delta x(0)}}$ y ${\frac {\Delta x(T)}{\Delta b}}$ sean ambos muy grandes, un caso del gradiente que explota.

Si $(x(0),b)$ coloca el sistema lejos de un punto inestable, entonces una pequeña variación en $x(0)$ no tendría efecto en $x(T)$ , haciendo que ${\frac {\Delta x(T)}{\Delta x(0)}}=0$ , un caso del gradiente que desaparece.

Nótese que en este caso, ${\frac {\Delta x(T)}{\Delta b}}\approx {\frac {\partial x(T)}{\partial b}}=\left({\frac {1}{x(T)(1-x(T))}}-5\right)^{-1}$ no decae a cero ni explota hasta el infinito. De hecho, es el único gradiente bien comportado, lo que explica por qué las investigaciones iniciales se centraron en aprender o diseñar sistemas de redes recurrentes que pudieran realizar cálculos a largo plazo (como devolver la primera entrada que ven al final de un episodio) modelando sus atractores estables.^[7]

Para el caso general, la intuición sigue siendo válida (Figuras 3, 4 y 5).^[5]

Modelo geométrico

Continuemos usando la red de una sola neurona mencionada, fijando $w=5,x(0)=0.5,u(t)=0$ , y consideremos una función de pérdida definida por $L(x(T))=(0.855-x(T))^{2}$ . Esto produce un paisaje de pérdida bastante patológico: a medida que $b$ se acerca a $-2.5$ desde arriba, la pérdida se aproxima a cero, pero tan pronto como $b$ cruza $-2.5$ , la cuenca del atractor cambia y la pérdida salta a 0.50.^{[Nota 4]}

En consecuencia, intentar entrenar $b$ mediante descenso de gradiente "chocaría con una pared en el paisaje de pérdida" y causaría un gradiente que explota. Una situación ligeramente más compleja se grafica en,^[5] Figura 6.

Véase también

Notas

↑ Una función de pérdida más general podría depender de toda la secuencia de salidas, como en $L(x_{1},...,x_{T},u_{1},...,u_{T})=\sum _{t=1}^{T}{\mathcal {E}}(x_{t},u_{1},...,u_{t})$ , para lo cual el problema es el mismo, solo que con notaciones más complejas.
↑ Cualquier función de activación funciona, siempre que sea diferenciable con derivada acotada.
↑ Consideremos $W_{rec}={\begin{bmatrix}0&2\\\epsilon &0\end{bmatrix}}$ y $D={\begin{bmatrix}c&0\\0&c\end{bmatrix}}$ , con $\epsilon >{\frac {1}{2}}$ y $c\in (0,1)$ . Entonces $W_{rec}$ tiene un radio espectral ${\sqrt {2\epsilon }}>1$ , y $(W_{rec}D)^{2N}=(2\epsilon \cdot c^{2})^{N}I_{2\times 2}$ , lo cual podría ir al infinito o a cero dependiendo de la elección de $c$ .
↑ Esto se debe a que en $b=-2.5$ , los dos atractores estables son $x=0.145,0.855$ , y el atractor inestable es $x=0.5$ .

Referencias

↑ S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis, Institut f. Informatik, Technische Univ. Munich, 1991.
↑ S. Hochreiter, Y. Bengio, P. Frasconi, and J. Schmidhuber. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001.
↑ Goh, Garrett B.; Hodas, Nathan O.; Vishnu, Abhinav (15 de junio de 2017). «Deep learning for computational chemistry». Journal of Computational Chemistry (en inglés) 38 (16): 1291-1307. PMID 28272810. doi:10.1002/jcc.24764.
↑ Pascanu, Razvan; Mikolov, Tomas; Bengio, Yoshua (2012-11-21). "On the difficulty of training Recurrent Neural Networks". arXiv:1211.5063 [cs.LG].
↑ ^a ^b ^c Pascanu, Razvan; Mikolov, Tomas; Bengio, Yoshua (21 de noviembre de 2012). «On the difficulty of training Recurrent Neural Networks» (en inglés).
↑ Doya, K. (1992). «Bifurcations in the learning of recurrent neural networks». [Proceedings] 1992 IEEE International Symposium on Circuits and Systems 6. IEEE. pp. 2777-2780. ISBN 0-7803-0593-0. S2CID 15069221. doi:10.1109/iscas.1992.230622.
↑ Bengio, Y.; Simard, P.; Frasconi, P. (March 1994). «Learning long-term dependencies with gradient descent is difficult». IEEE Transactions on Neural Networks 5 (2): 157-166. ISSN 1941-0093. PMID 18267787. S2CID 206457500. doi:10.1109/72.279181.

Enlaces externos

Esta obra contiene una traducción parcial derivada de «Vanishing gradient problem» de Wikipedia en inglés, publicada por sus editores bajo la Licencia de documentación libre de GNU y la Licencia Creative Commons Atribución-CompartirIgual 4.0 Internacional.