0. 前言
前一章中介绍了循环神经网络的基础知识,这种网络可以更好地处理序列数据。但对于当今各种各样的序列学习问题,这些技术可能并不够用。
例如,循环神经网络在实践中一个常见问题是数值不稳定性。尽管我们已经应用了梯度裁剪等技巧来缓解这个问题,但是仍需要通过设计更复杂的序列模型可以进一步处理它。比如两个广泛使用的网络:门控循环单元(gated recurrent units,GRU)和长短期记忆网络(long short-term memory,LSTM)。然后本章将基于一个单向隐藏层来扩展循环神经网络架构,描述具有多个隐藏层的深层架构,并讨论基于前向和后向循环计算的双向设计。现代循环网络经常采用这种扩展。在解释这些循环神经网络的变体时将继续利用上一章中的语言建模问题。