65

论文笔记：LSTM: A Search Space Odyssey

5 years ago

source link: http://www.zmonster.me/2018/11/10/lstm-a-search-space-odyssey.html?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

作者

Klaus Greff
Rupesh Kumar Srivastava
Jan Koutnik
Bas R. Steunebrink
Jurgen Schmidhuber

观点

LSTM 结构的核心思想是其能维护历史状态的记忆单元，以及能调节信息出入的非线性门控单元(gating unit)
自 LSTM 提出后，陆续有多种对 LSTM 结构的改进工作，并广泛应用到了许多规模、性质迥异的问题上，但却缺乏对 LSTM 及其变体中各个计算部件的系统性分析

数据集

模型/实验/结论

模型，LSTM 即八种待对比的 LSTM 变体

V: vanilla LSTM，即经典的 LSTM 模型
NIG: 在 LSTM 基础上去除 input gate 得到的结构
NFG: 在 LSTM 基础上去除 forget gate 得到的结构
NOG: 在 LSTM 基础上去除 output gate 得到的结构
NIAF: 在 LSTM 基础上去除 input activation function 得到的结构
NOAF: 在 LSTM 基础上去除 output activation function 得到的结构
NP: 在 LSTM 基础上去除 peephole 得到的结构
CIFG: 既 GRU
FGR: 在 LSTM 基础上让门控单元互相之间都有连接(full gate recurrence)

实验

在 TIMIT 数据集和 IAM 在线手写数据库上使用双向 LSTM，在 JSB Chorales 数据集上使用 LSTM
在 TIMIT 数据集和 JSB Chorales 上使用交叉熵作为损失函数，在 TIMIT 数据集上则使用 CTC
对总共 27 个模型各进行 200 次对数尺度上的超参搜索，然后进行训练，共进行 5400 次实验
每个数据集上的每个变体的 200 次实验中，最好的 20 个实验结果被拿来和 vanilla LSTM 模型的结果对比

结论

在三个数据集上，移除 forget gate 或 output activation function 都严重损害了模型性能，forget gate 对 LSTM 来说至关重要
对连续实数数据上的监督学习问题，input gate、output gate 和 input activation function 的存在非常重要
GRU 和移除 peephole 的变体相比 vanilla LSTM 没有显著的性能差异，但它们都在一定程度上简化了 LSTM 结构
full gate recurrence 结构没有改善 LSTM 的性能，相反还在 JSB Chorales 数据集上让结果变差了不少，加上它让 LSTM 更复杂了，不建议使用
动量项对性能和训练速度都没有提高作用
梯度裁剪会损害整体性能
在使用 SGD 进行训练时，动量项对训练没什么显著好处；但在用 BSGD 进行训练时可能会起到一定的作用
学习率和网络大小是 LSTM 中非常重要的两个超参

Recommend

About Joyk

Aggregate valuable and interesting links.
Joyk means Joy of geeK