17

神经受控微分方程:非规则时间序列预测新SOTA

 3 years ago
source link: https://www.jiqizhixin.com/articles/2020-05-20-7
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

神经常微分方程是对时序动态建模的不错选择。但是,它存在一个基本问题:常微分方程的解是由其初始条件决定的,缺乏根据后续观察调整轨迹的机制。

那么如何解决这一问题呢?来自牛津大学、阿兰图灵研究所和大英图书馆的一项研究展示了,如何通过受控微分方程的数学知识解决该问题。

该研究提出的神经受控微分方程(neural controlled differential equation)模型可直接用于部分观测的不规则采样多变量时间序列的通用设置,(与之前的解决方案不同,)它甚至可以在跨观测的情况下利用节约内存的共轭反向传播(adjoint-based backpropagation)。

该研究在多个数据集上进行了实验,发现该模型超过类似的(基于 ODE 或者 RNN)模型,实现了 SOTA 性能。最后,该研究还提供了理论结果,证明该模型是通用逼近器,且该模型包含了替代性的 ODE 模型。

7NZZF3v.png!web

  • 论文链接:https://arxiv.org/abs/2005.08926

  • 代码链接:https://github.com/patrick-kidger/NeuralCDE

引言

循环神经网络(RNN)是处理序列数据(如时序数据)时常用的模型选择。通常将数据本身假定为来自潜在过程的观测序列,RNN 可以被解释为对该过程某些功能的离散近似。然而当数据是不规则采样或者不是完全可观测时,这种离散化方法通常会失效,该问题经常通过丢弃或填充数据来掩饰。一种更佳的方法是意识到,用于对潜在过程建模的模型,应该和该过程一样在时间上是连续的。

因此,针对以上问题,神经微分方程不失为一个较好的选择。然而目前方法的性能往往受限于对初始条件的选择,不能较好地捕捉时变的新数据。这项研究提出一种神经受控微分方程来解决这一问题。

方法

假设有一个完全可观测但很可能是不规则采样的时间序列:

ZbYbQ3Y.png!web

其中每一个观测值 x_i 都具有对应的时间戳 t_i,且 imuaUna.png!web

mIf6Bjn.png!web 定义为在 7nm6BrQ.png!web 有对应 knot 的神经三次样条(natural cubic spline),于是我们可将其表示为: UvENZnj.png!web

x 常被假设为对一个过程的离散样本,X 可看作为对该过程的近似表示。神经三次样条处理这类任务有其自身独特的潜力。

YvARr2z.png!web 定义为任意以θ为参数的神经网络模型。w 的值用于描述隐藏状态的大小。

同样,将 R73maiY.png!web 定义为任意以θ为参数的神经网络模型。

于是,可将神经受控微分方程定义为 CDE 的解:

qUnMR33.png!web

其中 RVNNJnI.png!web 使用该初始条件是为了避免平移不变性(translational invariance)。类似于 RNN,该模型的输出可能是变化过程的状态 z,也可能是最后一个状态 z_{tn},最终预测值为对该模型输出的线性映射。下图比较了之前神经微分方程的研究与本文所提方法的不同。

zy6raai.png!web

不规则时间序列采样预测示意图,其中左图为之前的研究,右图为本文提出的方法。

实验结果

研究者将该研究提出的方法与 GRU-∆t、GRU-D、GRU-ODE、ODE-RNN 等现有模型,在多个数据集上进行了基准对比。

CharacterTrajectories 数据集上不同数量的缺失数据

首先,该研究展示了在不规则采样时间序列上神经 CDE 的效果。

研究者首先在 CharacterTrajectories 数据集上进行实验。该数据集包含 2858 个长度为 182 的时间序列,包括笔尖 x, y 的位置以及下笔时所用的力量。

实验结果见表 1。

6veeY3E.png!web

表 1:不同方法在 CharacterTrajectories 数据集上的测试准确率和内存使用情况。

PhysioNet 败血症预测的观测强度

接下来,研究者考虑一个既不规则采样又不完全观测的数据集,并研究观测强度的益处。

该研究使用来自 PhysioNet2019 败血症预测挑战赛的数据。这是一个含有长度不一的 40335 个时间序列的数据集,描述了病人在 ICU 内的状态。

大多数值是缺失的,只有 10.3% 的值被观测。该研究考察了病人在 ICU 内前 72 小时的状态,预测他们在整个住院期间(有些患者长达一个月)是否会发生败血症。

实验结果如表 2 所示。由于数据集高度不平衡,该研究使用了 AUC 作为度量指标,而不是准确率。

YNzmQ3B.png!web

表 2:在 PhysioNet 败血症预测数据集上的测试 AUC 和内存使用情况。

Speech Commands 数据集中的规则时间序列

最后,该研究展示了神经 CDE 模型在规则、完全观测的时间序列上的效果。

该研究使用 Speech Commands 数据集,实验结果如表 3 所示。

vmIzm2e.png!web

表 3:不同模型在 Speech Commands 数据集上的测试准确率和内存使用情况。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK