- GRU和rnn lstm gru的性能在很多任务上不分伯仲
- GRU 参数更少因此更容易收敛,但是数据集很大的情况下rnn lstm gru表达性能更好。
rnn lstm gru 的设计也是为了更好的捕捉long-term dependencies但是结构上有一些不同,哽复杂一些我们想来看看计算过程:
GRU:直接传递给下一个unit,不做任何控制
最大的相似之处就是 在从t 箌 t-1 的更新时都引入了加法。
这个加法的好处在于能防止梯度弥散因此rnn lstm gru和GRU都比一般的RNN效果更好。