本次分享的论文是 KDD 2020 的一篇工作,出发点是为了更好地建模 多变量时间序列数据中 成对变量之间的潜在空间依赖。作者提出了一种通用的 图神经网络 框架 MTGNN,通过图学习模块融合外部知识和变量之间的 单向关系,再使用 mix-hop 传播层和膨胀 inception 捕获空间和时序依赖。
论文标题:
Connecting the Dots: Multivariate Time Series Forecasting with Graph Neural Networks
论文来源:
KDD 2020
论文链接:
https://arxiv.org/abs/2005.11650
代码链接:
https://github.com/nnzhan/MTGNN
背景 挑战 MTGNN框架 实验解读 个人总结
一、背景
多变量 时序预测 在经济、金融、生物信息和交通等领域有广泛应用。相较于单变量 时序预测 ,需要建模的问题更复杂,因为每个变量不仅与其历史值有关,还要考虑变量之间的依赖关系。
然而,现有的多变量 时序预测 方法并没有有效地探索变量之间的潜在空间依赖关系。 统计方法如 VAR 和 GP 假设变量之间存在线性依赖关系,随着变量的增加,模型复杂度二次方增长,容易导致 过拟合 。 深度学习 方法如 LSTNet [1] 和 TPA-LSTM [2],虽然能够捕获非线性关系,但是无法明确地建模成对变量之间的依赖关系。
二、挑战
时空 图神经网络 是最适合多变量 时序预测 任务的 图神经网络 类型,因为多变量 时序预测 问题需要考虑时间维和空间维的信息表达。通常时空 图神经网络 以多变量时序数据和外部图结构作为输入,预测时序数据的未来值或标签。相较于未利用结构信息的方法,能够取得较大提升。但是,该方法仍然存在两个方面的挑战:
未知的图结构 :使用 图神经网络 建模 时序预测 任务时,大多依赖于预定义的图结构。但是,大多数情况下,多变量 时序预测 是没有明确的图结构,需要从数据中去学习变量之间的关系(图)。
图结构与图神经网络 共同学习:现有方法大多专注于如何设计合适的 图神经网络 结构,却忽略了有时图结构(通常为邻接矩阵)有可能不是最优的,也需要在训练中优化。因此,对于时序问题,如何在一个 end2end 的框架下同时学习图结构和 图神经网络 是一个问题。
MTGNN 各部分之间的联系如下图所示,主要有三个模块组成 图学习模块、 图卷积模块、 时序卷积模块。
下面根据上述两个挑战,介绍下本文的解决方案。
针对挑战1,作者提出了一个图学习层,能够自适应地从数据中抽取 稀疏图邻接矩阵。此外,基于学习得到的图邻接矩阵,作者使用图卷积模块进行变量之间空间依赖学习。同时,作者对图卷积模块进行了改进,学习变量之间的单向依赖以及缓解 图神经网络 中的 过度平滑问题。
针对挑战2,图学习层和图卷积模块都是 参数 化的,两者通过后向传播( 梯度下降 )方法共同优化。
3.1 总体框架
3.2 图学习层
3.3 图卷积模块
两个 mix-hop 分别处理单个节点的 inflow 信息和 outflow 信息,最终将两个信息相加所谓最终的模块输出信息。
3.4 时序卷积模块
3.5 跳跃连接层和输出层
3.6 学习算法
在本文的任务长期预测中,比较容易想到的是短期预测效果是肯定优于长期预测的,那么可以先学习短期的,再逐渐学习长期的。我这里介绍的比较口语化,原文从 loss 层面介绍,我理解的是如果长期预测,越长步数的预测值偏差越大,导致总 loss 会更大,即使取平均,相较于短期预测也会产生更大的 loss。
四、实验解读
LSTNet [1] TPA-LSTM [2] DCRNN [6] STGCN [7] Graph WaveNet [8] ST-MetaNet [9] GMAN [10] MRA-BGCN [11]
论文中做了多种实验,这里我主要介绍下与时空 图神经网络 相关的基线模型对比。从实验结果来看,MTGNN 可以取得 SOTA 或者与 SOTA 相差无几的效果。相较于对比的方法,其主要优势在于不需要预定的图。其中 Graph WaveNet 是本文作者在 IJCAI 2019 的工作,也是自适应构建邻接矩阵,但是需要结合预定图才能取得较好的效果。
五、个人总结
[1] Modeling long-and short-term temporal patterns with deep neural networks
[2] Temporal pattern attention for multivariate time series forecasting
[3] MixHop:Higher-Order Graph Convolutional Architectures via Sparsified Neighborhood Mixing
[4] DAGCN: Dual Attention Graph Convolutional Networks
[5] Curriculum Learning
[6] Diffusion convolutional recurrent neural network: Data-driven traffic forecasting.
[7] Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecasting
[8] Graph WaveNet for Deep Spatial-Temporal Graph Modeling.
[9] Urban Traffic Prediction from Spatio-Temporal Data Using Deep Meta Learning
[10] GMAN: A Graph Multi-Attention Network for Traffic Prediction
[11] Multi-Range Attentive Bicomponent Graph Convolutional Network for Traffic Forecasting
推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。