深度神经网络中的梯度不稳定性,前面层中的梯度或会消失,或会爆炸。

  • 梯度不稳定问题
      根本原因在于前面层上的梯度是来自于后面层上梯度的乘积。当存在过多的层次时,就出现了内在本质上的不稳定场景。
      

  • 梯度消失
      

  • 梯度爆炸
      

  • 量化分析
      

  可以考虑使用其它激活函数对梯度消失问题进行改善,如ReLU。