Los LSTM resuelven el problema utilizando una estructura de gradiente aditivo única que incluye acceso directo a las activaciones de la puerta olvidada, lo que permite que la red fomente el comportamiento deseado del gradiente de error mediante la actualización frecuente de las puertas en cada paso de tiempo del proceso de aprendizaje.
¿Cómo resuelve LSTM el gradiente explosivo?
Una respuesta muy corta: LSTM desacopla el estado de la celda (normalmente indicado por c) y la capa/salida oculta (normalmente indicada por h), y solo realiza actualizaciones adicionales en c, lo que hace que las memorias en c sean más estables. Por lo tanto, el flujos de gradiente a través de c se mantiene y es difícil de desvanecer (por lo tanto, el gradiente general es difícil de desvanecer).
¿Cómo se puede resolver el problema del gradiente de fuga?
Soluciones: La solución más sencilla es usar otras funciones de activación, como ReLU, que no provoca una pequeña derivada. Las redes residuales son otra solución, ya que proporcionan conexiones residuales directamente a capas anteriores.
¿Qué problema resuelve LSTM?
LSTM. LSTM (abreviatura de memoria larga a corto plazo) resuelve principalmente el problema del gradiente de fuga en la retropropagación. Los LSTM utilizan un mecanismo de activación que controla el proceso de memorización. La información en los LSTM se puede almacenar, escribir o leer a través de puertas que se abren y cierran.
¿Por qué los LSTM evitan que los degradados desaparezcan de una vista desde el pase hacia atrás?
La razón de esto es que, para hacer cumplir este flujo de error constante, el cálculo del gradiente se truncó para que no fluyera de regreso a las puertas de entrada o candidatas.