多尺度时序依赖的校园公共区域人流量预测

引用本文

谢贵才, 段磊, 蒋为鹏, 肖珊, 徐一凡. 多尺度时序依赖的校园公共区域人流量预测[J]. 软件学报, 2021, 32(3): 831-844. http://www.jos.org.cn/1000-9825/6183.htm

Xie GC, Duan L, Jiang WP, Xiao S, Xu YF. Pedestrian Volume Prediction for Campus Public Area Based on Multi-scale Temporal Dependency[J]. Journal of Software, 2021, 32(3): 831-844(in Chinese). http://www.jos.org.cn/1000-9825/6183.htm

多尺度时序依赖的校园公共区域人流量预测

谢贵才 , 段磊 , 蒋为鹏 , 肖珊 , 徐一凡

四川大学计算机学院, 四川成都 610065

收稿时间: 2020-07-21; 修改时间: 2020-09-03; 采用时间: 2020-11-06; jos在线出版时间: 2021-01-21

基金项目: 国家自然科学基金（61972268）

作者简介: 谢贵才(1997-), 男, 硕士, CCF学生会员, 主要研究领域为数据挖掘, 知识图谱;
段磊(1981-), 男, 博士, 教授, 博士生导师, CCF高级会员, 主要研究领域为数据挖掘, 生物医学信息分析, 进化计算;
蒋为鹏(1998-), 男, 硕士, CCF学生会员, 主要研究领域为数据挖掘, 人工智能;
肖珊(1997-), 女, 硕士, CCF学生会员, 主要研究领域为数据挖掘, 小样本学习;
徐一凡(1997-), 男, 硕士, CCF学生会员, 主要研究领域为数据挖掘, 异常检测.

通讯作者: 段磊, E-mail: leiduan@scu.edu.cn.

本文由“支撑人工智能的数据管理与分析技术”专刊特约编辑陈雷教授、王宏志教授、童咏昕教授、高宏教授推荐.

摘要: 校园公共区域人流量预测对于维护校园安全、提升校园管理水平有重大意义.尤其在疫情防控下，高校复学对公共区域的人流量预测和控制提出了更高的要求.以高校食堂为例，通过预测就餐人数，有助于食堂防疫人员合理调度和安排，既降低了人群聚集的潜在风险，也可以针对食堂人流量分布情况提供分时分批服务.然而，由于校园管理需求，如节假日和教学安排等因素，使得校园公共区域人流量预测问题颇具挑战性.为此，提出一种基于深度学习的多尺度时序卷积网络MSCNN（multi-scale temporal patterns convolution neural networks），实现人流量时序数据中短时依赖、长时周期模式的获取和多尺度时序模式特征的重标定，以对任意时段人流量进行预测.通过在真实校园环境数据集以及公开数据集上的实验，验证了MSCNN模型的有效性和执行效率.

关键词: 公共区域人流量预测多尺度时序依赖卷积神经网络多组件融合

Pedestrian Volume Prediction for Campus Public Area Based on Multi-scale Temporal Dependency

XIE Gui-Cai , DUAN Lei , JIANG Wei-Peng , XIAO Shan , XU Yi-Fan

School of Computer Science, Sichuan University, Chengdu 610065, China

Foundation item: National Natural Science Foundation of China (61972268)

Abstract: Predicting pedestrian volume in campus public area is of significance for maintaining campus safety and improving campus management level. In particular, due to the outbreak of epidemic, the resumption of college education has put forward higher requirements for the prediction and control of the pedestrian volume in public area. Taking college canteens as an example, predicting the pedestrian volume in canteen is helpful with canteen epidemic prevention worker to make scheduling and arrangement, which not only reduces the risk of crowd gathering, but also provides more considerate service according to the distribution of the pedestrian volume in canteen. Considering the requirements of campus management, e.g., holiday, course arrangement, pedestrian volume prediction in the campus public area is challenging. This study proposes a multi-scale temporal patterns convolution neural networks (MSCNN) based on deep learning to obtain the short-term dependencies as well as long-term periodicities, and reweights the multi-scale temporal pattern characteristics to predict the pedestrian volume at any given time. The effectiveness and efficiency of the MSCNN model are verified by experiments on real-world datasets.

Key words: pedestrian volume prediction in public area multi-scale temporal dependency convolution network multi-component fusion

随着2018年国家发布《智慧校园总体框架》标准, 集校园工作、学习和生活于一体的高校智慧校园正在逐渐成型.其中, 基于数据分析、人工智能等信息技术支撑的校园公共区域人流量预测作为其重要组成部分, 具有如下意义.

(1) 校园公共区域人流量预测, 对于维护学校安全, 维持各区域的正常运营有重大意义, 尤其是在面对疫情等突发事件时, 预估和掌握校园公共区域的人员流动情况, 可以辅助人流量控制和执行消毒工作;

(2) 对于学生而言, 进行校园公共区域人流量预测可以有助于学生提前计划和安排时间, 避开人流高峰期前往图书馆、食堂等区域, 既保证了公共资源的有效利用, 也降低了公共区域的管理难度.

校园公共区域人流量预测包含多种场景应用.以食堂为例, 预测其人流量可避免人群拥挤, 减少聚集隐患, 同时优化供餐服务, 减少食材浪费.以往食堂人流量预测由食堂管理人员根据平时积累的经验完成, 即管理人员利用所在食堂的食材采购历史记录和消费人次两种类型数据, 以同时段就餐人数或消费金额均值对食堂人流量进行估计.现有的估计方式不仅工作量巨大, 而且由于参考数据有限, 容易出现错误的预估人流量, 不具有参考意义.图 1展示了某高校A食堂和B食堂在2019年6月23日~7月6日期间的人流量分布情况(横轴表示时间, 纵轴表示食堂人流量).

Fig. 1 Pedestrian volume distributions of canteen A and canteen B 图 1 某高校A食堂和B食堂人流量分布情况

从技术上讲, 校园公共区域的人流量预测问题具有如下挑战.

● 挑战 1:师生前往公共区域的行为具有不确定性, 即师生选择在何时到何地是不确定事件, 只与个人邻近时序片段的心理状态或所面临的环境事件等因素有关, 这为区域人流量预测问题增加了不确定性.由图 1可知, 第1周(week 1)人流量高峰远高于第2周(week 2)的人流量高峰, 其原因是后一周正逢期末考试周;

● 挑战2:校园公共区域人流量与学校教学安排直接相关.学校教学安排以5个工作日为一个教学周执行教学计划, 因此在非工作日、法定节假日以及学校考试等时间的人流量分布与工作日期间的差异较大, 如图 1中A食堂工作日与非工作日的人流量分布差异;

● 挑战 3:不同类型的公共区域人流量之间具有相关性, 即: 对于相对封闭的校园环境而言, 校园中的总人流量变化往往围绕某一常数上下波动, 因此, 处于同一时刻的一个区域人流量变化会影响到其他区域的人流量.

目前, 智慧校园的建设为校园公共区域人流量预测提供了良好的数据基础, 将与人流量相关的属性数据预测(如校园食堂人流量预测关注就餐人数以及消费记录)当作是时序预测问题.目前, 已有很多学者在时序预测问题上进行了大量的研究^[1-4].早期的时序预测模型只能针对相对平稳且呈线性变化的数据进行预测^{[1, 5]}, 很难与校园公共区域这类数据相适应.传统机器学习方法虽然可以对复杂的关系进行建模, 却无法有效捕获校园公共区域人流量数据中的短时依赖和长时周期模式, 并且这类方法很大程度上需要依赖于特征工程.近年来, 深度学习技术在时序任务上得到越来越多的关注.其中, 卷积神经网络模型被用于从序列中提取平移不变的局部模式特征进行动作识别^{[6, 7]}, 而循环神经网络也被用于捕获时序任务的时间规律^{[2, 8]}.但将神经网络模型融合到校园区域人流量数据中, 同时捕获不同尺度的时序模式和变量局部依赖性, 目前仍在探索之中.

为应对上文提到的挑战, 本文提出一种基于深度学习的多尺度时序卷积网络MSCNN(multi-scale temporal patterns convolution neural networks)模型.该模型通过短时模式组件捕获区域人流量序列的短时依赖时序模式(挑战1、挑战3), 提出长时模式组件来捕获长时周期时序模式(挑战2、挑战3), 设计一种融合组件对不同卷积运算输出结果进行特征融合和重标定来得到最终的预测结果.本文的主要贡献概括如下:

(1) 考虑校园公共区域人流量数据的短时依赖、长时周期时序模式特征和变量空间的局部依赖关系, 并分别利用短时模式组件和长时模式组件分别建模获取这些特征;

(2) 提出一种融合多尺度时序模式特征的融合组件, 并对融合的结果进行重标定实现对校园公共区域任一时段人流量进行预测;

(3) 在真实校园人流量监测数据集和公开数据集上进行实验, 验证本文模型的有效性和执行效率都优于现有的预测方法.

本文第1节介绍国内外关于时序预测问题以及校园数据预测的应用研究.第2节对校园公共区域人流量预测问题及文中使用的符号进行了定义.第3节详述MSCNN模型的结构设计.第4节在真实校园数据集和公开数据集上进行实验验证与分析.第5节总结全文并对未来工作进行展望.

1 相关工作 1.1 时序预测

校园公共区域人流量预测是一个典型的时序预测问题.现有的时序预测方法主要分为基于统计学的方法和基于深度学习的方法.

基于统计学的方法包括回归模型和非参数模型.差分滑动平均自回归模型ARIMA^{[1, 9]}利用统计模型对数据序列进行描述和预测, 可适用于各种指数平滑技术, 且具有足够的灵活性, 如自回归模型(AR)、移动平均模型(MA)和滑动平均自回归模型(ARMA)都是其延伸.向量自回归模型(VAR)^[1]是单变量自回归模型推广到多变量场景的体现, 可将预测场景中的每一个变量作为所有变量的滞后值函数构造模型.此外, 时序预测问题还可以视为具有时间变化参数的标准回归问题, 如线性支持向量回归(SVR)将时变参数当作是回归损失函数的超参数进行学习.但这类方法无法捕捉变量之间的非线性依赖关系, 不适用于校园公共区域人流量预测.高斯过程模型(GP)^[10]是一种在连续域上模拟分布的非参数模型, 它可以作为贝叶斯推理的函数先验来处理非线性空间的关系.但由于其计算过程中涉及到矩阵求逆运算, 增加了模型预测的计算复杂度.

近年来, 基于深度学习的方法被广泛应用在多个领域的研究任务中, 包括时序预测任务.文献[3, 4]将ARIMA模型和多层感知机MLP相结合, 提出一个混合模型用于时序预测.文献[6]利用卷积神经网络CNN, 从输入序列数据中提取平移不变的局部模式作为特征, 从而进行动作序列分类.Dasgupta等人^[2]对传统的动态玻尔兹曼机(DyBM)和循环神经网络RNN进行结合, 捕捉时间序列中的依赖关系, 实现对多元时序数据的预测.长短时记忆网络LSTM^[11]及门控循环单元GRU是循环神经网络RNN^[8]的重要变体, 具有额外的记忆控制门和记忆单元, 可以存储历史信息, 在时序数据分析中得到了广泛应用.Lai等人^[12]设计了LSTNet模型进行多变量时序预测, 该模型利用CNN和GRU获取变量之间的短时局部依赖性和长时时序趋势模式, 并使用自回归组件来解决神经网络模型的尺度不敏感问题, 在多变量时序预测任务上取得了前沿的结果.Shih等人^[13]基于LSTM和CNN模型提出了TPA-LSTM方法, 该方法利用LSTM获取时序数据的时间相关性, 并利用多个步骤结合CNN模型获取变量间的注意力分数来进行多变量预测.但GRU和LSTM的网络结构天然存在梯度消失的问题, 对于长期时序趋势模式的捕获能力有限, 并且会产生较高的计算代价.

1.2 校园数据挖掘

校园数据挖掘近年来受到广泛的研究关注.目前, 校园数据挖掘主要关注于学生的学习表现, 从而提高学生学习质量, 完善教育管理.例如: Li等人^[14]提出了一个基于深度学习的顺序预测框架SPDN, 利用学生网课的在线学习记录和校园网网络日志预测学生的学习成绩; Zhang等人^[15]借助学生校园卡行为数据对学生的学业表现进行预测, 并根据预测结果进行学业预警; Zhang等人^[16]结合学生基本信息, 如年龄、所属专业、学业评估考试分数及每学期平均绩点等数据, 对学生的辍学风险进行预测.除了学生的学习过程, 学生的兴趣爱好预测也引起了研究者的注意: Peng等人^[17]试图通过学生的校园消费记录和轨迹信息, 对大学生的网络成瘾水平进行估计, 从而预测学生的网络成瘾倾向; Hang等人^[18]对教育签到数据进行分析, 在学生的校园WiFi访问日志的数据基础上, 用异构图对学生、兴趣点和活动之间的相似性进行编码, 用来预测学生的兴趣点; Wei等人^[19]提出了一个基于改进的Harris-Hawks优化器预测模型, 并且利用学生基本信息以及校园创新创业实践等数据对学生的创业兴趣进行预测.现有的校园数据预测工作大都是将学生作为研究对象, 聚焦教育研究与教学实践相关的问题.但是, 将学校作为研究对象, 对学校公共区域进行人流量预测以维护校园安全, 提升校园管理水平的研究工作尚处于起步阶段.

校园公共区域人流量预测研究问题的核心在于如何有效捕获人流量序列中的短时依赖和长时周期时序模式, 并考虑多区域之间的相互依赖关系.由于校园会存在多个类型相同的公共区域, 如不同校区的图书馆、多个教学楼或食堂, 而利用基于统计学的研究往往不能针对多个时序变量同时进行预测, 因此无法被直接应用于校园公共区域人流量预测.并且, 校园区域人流量变化具有的短时依赖和长时周期时序特性都是人流量预测的重要依据, 现有基于深度学习的方法无法直接对区域人流量数据的多尺度模式同时进行考虑, 预测结果不够准确.因此, 需要一种模型能够同时融合校园多区域人流量数据的多尺度时序模式进行人流量预测.

2 问题定义

校园人流量序列是反映校园特定区域人流量变化的时间序列.用$x_t^d \in \mathbb{R}$表示第d个区域在t时段的人流量, f^d=(x_d1, x_d2, …, x_dT)∈$\mathbb{R}$^T表示校园某区域在历史T个时段内的人流量序列, (f¹, f², …, f^D)∈$\mathbb{R}$^T×D表示校园D个区域在T 个时段的所有人流量序列.

定义(区域人流量预测). 给定待预测区域个数D, ${{\mathit{\boldsymbol{X}}}_t} = (x_t^1, x_t^2, ..., x_t^D) \in {\mathbb{R}^D}$表示这D个区域在t时刻的人流量, 令F=(X₁, X₂, …, X_T)∈$\mathbb{R}$^T×D为输入历史人流量序列, 预测T+h时段D个待预测区域人流量:

${\hat {\mathit{\boldsymbol{Y}}}_{T + h}} = (\hat {\mathit{\boldsymbol{Y}}}_{T + h}^1, \hat {\mathit{\boldsymbol{Y}}}_{T + h}^2, ..., \hat {\mathit{\boldsymbol{Y}}}_{T + h}^D)$

(1)

其中, h表示目标时段距离当前时段T的时延.

对于不同的数据集, h值代表的含义取决于特定任务的实际需求.例如: 对于高校食堂人流量预测, 输入人流量序列F=(X₁, X₂, …, X_T)∈$\mathbb{R}$^T×D的时间度量单位为小时.设X_T∈$\mathbb{R}$^D为D个食堂中午12:00~13:00时段的人流量, h=6表示预测6小时后D个食堂18:00~19:00时段内的就餐人数${\hat {\mathit{\boldsymbol{Y}}}_{T + 6}}$.表 1列出了本文中主要使用的符号定义.

Table 1 Symbol notation 表 1 符号表示

3 基于深度学习的多尺度时序模式卷积网络

校园公共区域人流量预测会受到不同尺度的时序模式影响, 呈现出不同的数据表征.例如, 预测校园某公共区域2019年7月20日下午17:30~18:00时段的人流量, 与预测时段直接相邻的时段(如7月20日17:00~17:30)、对应1天前的相同时段(如7月19日17:30~18:00)以及1周前的相同时段(7月13日17:30~18:00)的人流量数据均能提供有用信息, 而当日上午07:00~07:30的人流量数据提供的信息会少很多.为了得到充分的时序信息, 同时减少不相关历史信息带来的影响, 我们设计短时模式组件(第3.1节)和长时模式组件(第3.2节)分别捕获区域人流量数据的多尺度模式特征, 并利用融合组件(第3.3节)对获取的特征进行融合学习和重标定, 以提升对预测目标有益的特征并抑制用处不大的特征.MSCNN的总体架构如图 2所示.

Fig. 2 Architecture of MSCNN 图 2 MSCNN模型架构图

3.1 短时模式组件

短时模式组件主要捕获短时时序片段F_S=(X_T_S₊₁, X_T_S₊₂, …, X_T)∈$\mathbb{R}$^S×D的模式特征, 即与预测时段直接相邻的一段历史时间序列片段.直观地, 校园公共区域人数的聚集和分散是逐渐形成的, 一个区域上一时段的人流量会对下一时段的人流量产生很大的影响.例如: 某食堂的就餐人数达到上限, 会使大部分人选择更换食堂就餐, 从而致使食堂下一时段的就餐人数减少.在MSCNN模型中, 采用CNN卷积运算来捕获这种短时时序片段模式和不同区域间存在的局部依赖关系.

CNN卷积核的大小反映了一个单元的状态由多大范围内的邻近单元状态所决定.对于短时模式组件, 其网络结构如图 3所示.

Fig. 3 Structure of the short-term pattern component 图 3 短时模式组件结构

可以发现, 短时时序片段在输入空间中表现为相邻的单元.设置K个大小为6×D的卷积核对短时时序片段F_S进行卷积操作, 可以捕获到短时行为时序模式和变量之间的局部依赖性.其中, 用第k层卷积核对F_S进行卷积操作:

$H_k^C = RELU(W_k^C*{{\mathit{\boldsymbol{F}}}_S} + b_k^C)$

(2)

其中, *表示卷积操作, $W_k^C$和$b_k^C$为可学习的权重和偏置参数, 激活函数RELU(x)=max(0, x), 卷积输出$H_k^C$是一个维度为Q₁×1的向量.经过K个卷积核后, 得到短时模式组件的输出结果为K×Q₁×1.

3.2 长时模式组件

长时模式组件主要捕获长时周期的时序片段F_L=(X_T-L+1, X_T-L+2, …, X_T)∈$\mathbb{R}$^L×D的模式特征, 即与预测时段具有相同时序片段或相同星期属性的片段组成.以校园食堂场景为例, 由于受到食堂营业时间、固定的教学作息规律等因素影响, 食堂流量数据存在明显的周期性, 如每周星期三的食堂人流量变化情况与历史星期三的人流量变化类似.对此, 长时模式组件的目的就是要捕获食堂流量数据中不同间隔时段中含有周期或相似性的长时周期模式.同样地, 长时模式组件也考虑了不同食堂之间相互依赖影响的因素.

与短时模式组件相同, 利用卷积操作来捕获上述提到的特征.不同的是: 为了捕获长时周期模式, 我们基于Dilated卷积设置了skip卷积运算来实现该目标, 网络结构如图 4所示.

Fig. 4 Structure of the long-term pattern component 图 4 长时模式组件结构

设置K个卷积核对长时周期的时序片段F_L进行卷积操作, 与普通卷积不同的是, skip卷积操作是对于选定的F_L片段执行跳跃skip个单元进行运算.此外, MSCNN模型设置3种不同维度的skip卷积核分别捕获不同的长时周期模式特征.详细如下.

● 2-skip片段: 选定与预测时段间隔skip的每2个时段形成的片段:

$ {\mathit{\boldsymbol{F}}_L}_1 = (({\mathit{\boldsymbol{X}}_{T - L1 + 1}}, {\mathit{\boldsymbol{X}}_{T - L1 + {\rm{skip}} + 2}}), ({\mathit{\boldsymbol{X}}_{T - L1 + 2}}, {\mathit{\boldsymbol{X}}_{T - L1 + {\rm{skip}} + 3}}), \ldots , ({\mathit{\boldsymbol{X}}_{T - {\rm{skip}} - 1}}, {\mathit{\boldsymbol{X}}_T})) \in {{\mathbb{R}}^{L1 \times D}}. $

此时, 卷积核大小为2×D.则可以得到卷积输出$H_k^{S1} = RELU(W_k^{S1}*{{\mathit{\boldsymbol{F}}}_{L1}} + b_k^{S1})$;

● 3-skip片段: 通过选定与预测时段间隔skip的每3个时段形成的片段:

$ {\mathit{\boldsymbol{F}}_L}_2 = (({\mathit{\boldsymbol{X}}_{T - L2 + 1}}, {\mathit{\boldsymbol{X}}_{T - L2 + {\rm{skip}} + 2}}, {\mathit{\boldsymbol{X}}_{T - L2 + 2 \times {\rm{skip}} + 3}}), ({\mathit{\boldsymbol{X}}_{T - L2 + 2}}, {\mathit{\boldsymbol{X}}_{T - L2 + {\rm{skip}} + 3}}, {\mathit{\boldsymbol{X}}_{T - L2 + 2 \times {\rm{skip}} + 4}}), \ldots , ({\mathit{\boldsymbol{X}}_{T - 2 \times {\rm{skip}} - 2}}, {\mathit{\boldsymbol{X}}_{T - {\rm{skip}} - 1}}, {\mathit{\boldsymbol{X}}_T})) \in {{\mathbb{R}}^{L2 \times D}}. $

令卷积核大小为3×D, 可以得到卷积输出为$H_k^{S2} = RELU(W_k^{S2}*{{\mathit{\boldsymbol{F}}}_{L2}} + b_k^{S2});$

● 5-skip片段: 选定与预测时段间隔skip的每5个时段形成的片段:

$ \begin{array}{l} {\mathit{\boldsymbol{F}}_L}_3 = (({\mathit{\boldsymbol{X}}_{T - L3 + 1}}, {\mathit{\boldsymbol{X}}_{T - L3 + {\rm{skip}} + 2}}, {\mathit{\boldsymbol{X}}_{T - L3 + 2 \times {\rm{skip}} + 3}}, {\mathit{\boldsymbol{X}}_{T - L3 + 3 \times {\rm{skip}} + 4}}, {\mathit{\boldsymbol{X}}_{T - L3 + 4 \times {\rm{skip}} + 5}}), ({\mathit{\boldsymbol{X}}_{T - L3 + 2}}, {\mathit{\boldsymbol{X}}_{T - L3 + {\rm{skip}} + 3}}, {\mathit{\boldsymbol{X}}_{T - L3 + 2 \times {\rm{skip}} + 4}}, \\ \;\;\;\;\;\;\;\;{\mathit{\boldsymbol{X}}_{T - L3 + 3 \times {\rm{skip}} + 5}}, {\mathit{\boldsymbol{X}}_{T - L3 + 4 \times {\rm{skip}} + 6}}), \ldots , ({\mathit{\boldsymbol{X}}_{T - 4 \times {\rm{skip}} - 4}}, {\mathit{\boldsymbol{X}}_{T - 3 \times {\rm{skip}} - 3}}, {\mathit{\boldsymbol{X}}_{T - 2 \times {\rm{skip}} - 2}}, {\mathit{\boldsymbol{X}}_{T - {\rm{skip}} - 1}}, {\mathit{\boldsymbol{X}}_T})) \in {{\mathbb{R}}^{L3 \times D}}. \end{array} $

设置卷积核大小为5×D, 那么得到卷积输出$H_k^{S3} = RELU(W_k^{S3}*{{\mathit{\boldsymbol{F}}}_{L3}} + b_k^{S3}).$

与公式(1)中的参数描述相同, 3种不同维度的skip卷积输出$H_k^{S1}, H_k^{S2}, H_k^{S3}$, 与短时模式组件输出$H_k^C$具有类似可学习的权重和偏置参数.为保证执行skip卷积时能对原始数据空间的所有序列单元进行卷积计算, 对长时模式组件的输入序列F_L进行向下zero-padding操作, 经过K个卷积核后, 分别得到维度为K×Q₂×1, K×Q₃×1和K×Q₄×1的3种输出结果.

3.3 融合组件

融合组件由两个子件组成, 其中, 一个子件用于将短时模式和长时模式组件捕获到的特征进行融合, 另一个子件用于特征的重标定以便预测到更加准确的结果.该组件的核心依赖于SENet(squeeze and exicitation network)^[20]模型对不同的特征维度上的信息进行聚合.图 5展示了融合组件的具体结构和运算过程.

Fig. 5 Structure of the fusion component 图 5 融合组件结构

(1) 多尺度时序模式特征融合

为了将短时模式和长时模式组件获取的多尺度时序模式特征信息融合, 以便进行后一步分析.由于卷积核不同的设置, 输出的结果维度不同, 即Q_j≠Q_j(i≠j, i, j∈{1, 2, 3, 4}).对于不同大小和类别的卷积核映射得到的4个不同维度的卷积输出, 由于其卷积核个数始终为K, 因此可以通过Global Average Pooling保留全局有用信息得到4个维度相同的K×1×1采样结果, 直接进行拼接后可得到K×4×1的特征融合结果.

(2) 多尺度时序模式特征重标定

通过卷积运算捕获的多尺度时序模式特征可以视作是局部感受野在空间(变量空间)和特征维度(不同尺度模式)的信息聚合, 其输出结果可以理解为不同变量在不同特征空间上信息的聚合.因此, 基于SENet组件对卷积映射的时序模式特征进行重新标定, 获取不同时序长度和待预测时段的新模式特征.具体的实现方法见图 5所示的Squeeze和Excitation流程.

对于融合的K×4×1多模式时序特征, 首先进行Squeeze操作, 对空间维度进行特征压缩得到K×1×1的一维实数, 表示在特征通道上的空间特征全局分布; 其次是Excitation操作, 即通过两个全连接层分别对空间特征通道间的相关性进行学习生成权重, 即与融合结果具有相同维度的重标定权重, 表示不同特征通道的重要性.需要注意的是: 经过第一个全连接层时, 将通道压缩比例设定为16;最后通过权重更新对融合结果进行重标定, 得到与原始特征具有相同维度K×4×1的特征映射更新结果.

对于融合得到的特征, 采用传统CNN对序列数据进行预测的结构, 经过全连接层后可以得到预测目标, 全连接模块同样使用RELU作为激活函数.在该网络结构中, 选择预测任务常用的平方误差作为损失函数, 如下式所示:

$loss = ||{{\mathit{\boldsymbol{Y}}}_t} - {\hat {\mathit{\boldsymbol{Y}}}_{t - h}}||_F^2$

(3)

其中, ||·||_F表示矩阵范数, h为第2节提到的目标时段距离当前时段的时延.

4 实验与分析 4.1 实验环境设置 4.1.1 实验数据集

本文选取的真实校园数据来源于某高校, 使用该校2019年3月3日~7月20日春季学期期间某校区的全校师生校园一卡通数据.该校区日常管理较为严格, 校外人员无法随意进出该校区, 该校区学生在校内的所有消费可通过校园一卡通完成.出于数据隐私保护的角度, 所选数据集无法直接公开, 因此本文选择了1个与真实校园数据同样具有周期性表现的时序数据集进行有效性验证.数据集详细介绍如下.

● Canteen-Dining: 该高校2019年春季学期某校区全校师生的校园一卡通消费数据, 以每30分钟为时间间隔统计全校师生在21个食堂的人流量记录, 其中, 同一时段的同一校园卡ID视为单人记录, 序列长度为6 720.实验中, 将前12个教学周为训练集, 中间4个教学周为验证集, 后4个教学周为测试集;

● Canteen-Consumption: 该高校2019年春季学期某校区21个食堂的流水记录, 即各个食堂每间隔半小时的消费总金额.基于各食堂消费水平, 可侧面反映出食堂的消费人数.训练集、验证集和测试集的划分与上一个数据集相同;

● Solar-Energy(https://www.nrel.gov/grid/solar-power-data.html): Alabama州级2006年太阳能生产记录, 包含137个光伏发电厂每间隔10分钟读取的太阳能发电数据.序列长度为52 560.其中, 前219天作为训练集, 中间73天作为验证集, 后73天作为测试集.

为了显示时序数据集中的短时或者长时周期重复模式特征, 通过绘制自相关图对一个时序信号X_t与其自身在不同时刻的互相关程度进行表示, 记为R(τ):

$R(\tau ) = \frac{{E[({{\mathit{\boldsymbol{X}}}_t} - \mu )({{\mathit{\boldsymbol{X}}}_{t + \tau }} - \mu )]}}{{{\sigma ^2}}}$

(4)

其中, μ和σ分别表示时序信号X_t的均值和标准差.在计算时, 使用无偏估计量来得到自相关系数.为便于观察, 我们从数据集中随机选择3个变量进行展示, 数据集所有变量的自相关图可在模型源码链接(https://github.com/striver314/MSCNN)中查看.

如图 6所示, 实验所选用的3个数据集均存在较高自相关性的重复模式.进一步地, 从图 6(a)、图 6(b)中可观察到, 校园真实数据集的短时重复模式(每间隔24小时)和长时重复模式(每间隔7天); 从图 6(c)中可看出, 公开数据集的重复模式是每间隔24小时1次.

Fig. 6 Autocorrelation analysis w. r. t time lag on three datasets 图 6 3个数据集随时间滞后的自相关分析

4.1.2 模型参数设置

本文的实验环境为Intel(R) Xeon(R) CPU E5-2698 v3@2.30GHz, 并基于Pytorch 1.5.1框架, 使用Python 3.7来实现MSCNN模型.其中, 短时模式和长时模式组件中均使用100(K=100)个相同大小的卷积核, 并保证卷积核沿空间轴维度始终为D.此时, 融合组件中Excitation操作的结果取整为100/16=6.由于输入数据的长度会对实验结果产生影响, 实验中设定与基准方法LSTNet-Skip^[12]相同的序列长度24×7作为预测序列窗口长度.每次实验均执行50个Epoch得到预测结果.

由于校园真实数据的私密性, 我们只将实验采用的公开数据集以及MSCNN模型源码均存放于https://github.com/striver314/MSCNN.

4.1.3 基准方法

本文选取相关工作中提到的7种时序预测方法与MSCNN模型进行比较.

● HA: 历史均值法, 使用预测序列窗口长度的历史序列的平均值作为预测目标的值;

● AR: 标准自回归模型, 相当于一维的向量自回归VAR模型;

● LRidge: 具有L2正则化项的向量自回归模型, 被广泛应用在多变量时序预测问题中;

● LSVR^[21]: 具有支持向量回归目标函数的向量自回归模型;

● LSTM^{[8, 11]}: 长短时记忆网络, 作为一种特殊的RNN, 其时间记忆性能够在一定程度上解决序列数据的时间依赖问题;

● LSTNet-Skip^[12]: 带有Skip RNN层的LSTNet模型, 利用CNN和GRU分别捕获短时局部依赖和长时趋势模式;

● TPA-LSTM^[13]: 带有注意力机制的长短时记忆网络模型, 捕获时序数据的时间相关性.

4.1.4 评价指标

本文采用相对平方误差(RSE)、经验相关系数(CORR)以及预测准确率(Accuracy@E)这3种度量标准来评估模型的预测性能(其中, 预测准确率是同一时段内观测值与预测值的误差绝对值在最大允许误差E以内的样本数占所有测试样本的比例.对于不同的数据集, 最大允许误差E的取值及表示含义有所不同).

● 相对平方误差的计算公式如下所示:

$RSE = \frac{{\sqrt {\sum\nolimits_t {\sum\nolimits_i {{{({\mathit{\boldsymbol{Y}}}_t^i - \hat {\mathit{\boldsymbol{Y}}}_t^i)}^2}} } } }}{{\sqrt {\sum\nolimits_t {\sum\nolimits_i {{{({\mathit{\boldsymbol{Y}}}_t^i - mean({\mathit{\boldsymbol{Y}}}))}^2}} } } }}$

(5)

● 经验相关系数的计算公式如下所示:

$CORR = \frac{1}{n}\sum\nolimits_i {\frac{{\sum\nolimits_t {({\mathit{\boldsymbol{Y}}}_t^i - mean({{\mathit{\boldsymbol{Y}}}^i}))} (\hat {\mathit{\boldsymbol{Y}}}_t^i - mean({{\hat {\mathit{\boldsymbol{Y}}}}^i}))}}{{\sqrt {{{\sum\nolimits_t {({\mathit{\boldsymbol{Y}}}_t^i - mean({{\mathit{\boldsymbol{Y}}}^i}))} }^2}{{(\hat {\mathit{\boldsymbol{Y}}}_t^i - mean({{\hat {\mathit{\boldsymbol{Y}}}}^i}))}^2}} }}} $

(6)

● 预测准确率的计算公式如下所示:

$Accuracy@E = \frac{{||\{ {\mathit{\boldsymbol{Y}}}_t^i, |{\mathit{\boldsymbol{Y}}}_t^i - \hat {\mathit{\boldsymbol{Y}}}_t^i| \leqslant E\} ||}}{{||\{ {\mathit{\boldsymbol{Y}}}_t^i\} ||}}$

(7)

其中, $\mathit{\boldsymbol{Y}}_t^i$和$\hat {\mathit{\boldsymbol{Y}}}_t^i$分别表示第i个变量在t时段内的观测值与预测值.

4.2 有效性实验

本文提出的MSCNN模型在数据集Canteen-Dining, Canteen-Consumption和Solar-Energy上与第4.1.3节中提到的7种基准方法进行了比较.我们测试了这些模型在不同时间间隔h(即目标时段距离当前时段的时延)的预测精度.表 2记录了h分别取3, 6, 12, 24时, 这些模型在Canteen-Dining和Canteen-Consumption数据集上未来1.5小时~12小时内的预测结果, 以及在Solar-Energy数据集上未来30分钟~240分钟内的预测结果.

Table 2 Experimental results (in RSE and CORR) of all methods on three datasets 表 2 所有方法在3个数据集上的实验结果(RSE和CORR)

Dataset		Canteen-Dining				Canteen-Consumption				Solar-Energy
Method	Metric	h=3	h=6	h=12	h=24	h=3	h=6	h=12	h=24	h=3	h=6	h=12	h=24
HA	RSE	0.966 0	0.966 1	0.966 8	0.966 3	0.975 2	0.975 3	0.975 4	0.975 3	0.968 6	0.968 6	0.968 5	0.968 5
HA	CORR	-	-	-	-	-	-	-	-	-	-	-	-
AR	RSE	0.635 4	0.595 6	0.585 1	0.622 1	0.596 6	0.554 7	0.547 1	0.589 5	0.243 5	0.379 0	0.591 1	0.869 9
AR	CORR	0.819 8	0.843 3	0.850 5	0.826 9	0.836 5	0.859 9	0.866 5	0.840 2	0.971 0	0.926 3	0.810 7	0.531 4
LRidge	RSE	0.532 0	0.524 9	0.532 5	0.534 4	0.526 4	0.516 4	0.525 1	0.518 5	0.210 9	0.295 4	0.483 2	0.728 7
LRidge	CORR	0.890 4	0.891 1	0.890 7	0.892 6	0.878 6	0.880 3	0.880 1	0.881 8	0.980 7	0.956 8	0.876 5	0.680 3
LSVR	RSE	0.438 9	0.455 3	0.475 2	0.454 8	0.354 3	0.411 5	0.379 6	0.388 1	0.202 1	0.299 9	0.484 6	0.730 0
LSVR	CORR	0.908 4	0.904 0	0.904 1	0.894 8	0.908 0	0.902 8	0.907 5	0.900 9	0.980 7	0.956 2	0.876 4	0.678 9
LSTM	RSE	0.450 3	0.489 9	0.529 0	0.642 3	0.503 2	0.452 8	0.607 9	0.488 0	0.248 9	0.284 1	0.351 4	0.455 9
LSTM	CORR	0.878 0	0.849 7	0.819 2	0.757 2	0.855 3	0.860 8	0.858 5	0.852 9	0.970 8	0.963 2	0.937 9	0.890 6
LSTNet-Skip	RSE	0.617 2	0.643 7	0.577 3	0.526 9	0.459 5	0.545 5	0.512 6	0.476 4	0.184 3	0.255 9	0.325 4	0.464 3
LSTNet-Skip	CORR	0.905 6	0.871 5	0.850 4	0.884 1	0.905 7	0.844 6	0.879 2	0.884 1	0.984 3	0.969 0	0.946 7	0.887 0
TPA-LSTM	RSE	0.777 6	0.549 8	0.852 0	0.702 1	0.524 7	0.503 0	0.896 6	0.572 3	0.180 3	0.234 7	0.323 4	0.438 9
TPA-LSTM	CORR	0.858 3	0.891 8	0.824 9	0.759 8	0.869 0	0.881 5	0.817 7	0.841 7	0.985 0	0.974 2	0.948 7	0.908 1
MSCNN	RSE	0.423 9	0.432 3	0.456 1	0.477 7	0.389 3	0.406 3	0.429 1	0.459 7	0.223 1	0.254 8	0.316 9	0.428 0
MSCNN	CORR	0.922 8	0.918 7	0.914 1	0.909 0	0.920 4	0.916 0	0.908 1	0.908 5	0.976 2	0.968 1	0.949 4	0.901 8

Table 2 Experimental results (in RSE and CORR) of all methods on three datasets 表 2 所有方法在3个数据集上的实验结果(RSE和CORR)

Fig. 7 Performance (in RSE) of all methods on three datasets with different h 图 7 所有方法在3个数据集上随着h变化的实验结果(RSE)

Fig. 8 Performance (in CORR) of all methods on three datasets with different h 图 8 所有方法在3个数据集上随着h变化的实验结果(CORR)

此外, 考虑到模型的实际应用场景需要准确了解不同时段的人流量分布情况, 结合最大允许误差E选取的实际意义, 我们以数据集Canteen-Dining为例, 最大允许误差E表示某个食堂的人流量预测值的误差极限值, 计算LSTNet-Skip, TPA-LSTM以及MSCNN这3种方法在h=3的Accruacy@E指标, 结果如表 3所示.可以发现: 在食堂人流量预测问题中选取的5个不同误差的Accuracy@E指标, MSCNN模型在4个指标中都取得了最优的结果.

Table 3 Result of Accuracy@E (h=3) on Canteen-dining dataset 表 3 Canteen-dining数据集的Accuracy@E(h=3)结果

同时, 为了证明MSCNN模型在食堂人流量数据中对短时依赖和长时周期的多尺度时序模式的捕获能力, 我们绘制了h=3时, 单个食堂在未来一天内预测值和真实值的对比结果, 如图 9所示.其中, 图 9(a)为LSTNet-skip模型的对比结果, 图 9(b)为MSCNN模型的对比结果.可以明显看出: MSCNN模型可以更加准确地预测到每天不同时段的人流量分布情况, 而LSTNet-skip模型在人流量高峰期的预测值与观测值有较大的误差, 进一步验证了MSCNN模型可以更为准确地捕获到多尺度时序模式特征.

Fig. 9 Predicted data (h=3) of LSTNet and MSCNN vs. obsvered data on Canteen-dining dataset 图 9 LSTNet-Skip和MSCNN在数据集Canteen-dining上, 单个食堂的预测值(h=3)与观测值对比情况

综上, 分析实验结果可得到如下3点结论.

(1) 对比MSCNN和HA结果发现: MSCNN模型的效果明显优于仅根据历史时序片段的均值进行估计的模型HA.这是由于人流量预测是一个复杂非线性且受综合因素影响的问题, 从另一个方面也说明了依靠经验进行预测会产生较大的误差;

(2) 对比MSCNN, AR, LRidge和LSVR模型可以发现: 与这些基于统计学的模型相比, MSCNN模型可以取得更加稳定且准确的预测结果.这是因为其他模型对于非线性数据无法很好地拟合, 并且在多变量时序预测场景下, 这些模型未考虑变量之间的依赖性;

(3) 对比MSCNN, LSTM, LSTNet-Skip和TPA-LSTM模型可以发现: MSCNN模型要优于现有基于神经网络方法的相关模型, 主要体现在模型预测性能的稳定性、预测误差以及与真实数据的拟合效果等多个方面.这是由于MSCNN模型捕获了多尺度时序模式特征, 相较于只获取单一时序模式的方法效果更好.

4.3 时间性能分析

表 4展示了上述4种基于神经网络的方法(即MSCNN, LSTM, LSTNet-Skip, TPA-LSTM)在真实数据集上的模型训练时间和测试时间.所有模型的训练过程都在相同的实验环境和实验参数下完成.

Table 4 Comparison on training time and test time of four methods 表 4 4种模型训练时间和预测时间对比

相较于与其他3种基于LSTM的模型(LSTM, LSTNet-skip, TPA-LSTM), 仅在模型内部使用CNN结构的MSCNN模型在训练时间和测试时间上明显少于另外3种方法.随着数据规模的增大, 这样的优势会逐渐扩大.对于校园公共区域人流量预测和控制可以得到更好的应用.

4.4 消融实验

为验证MSCNN模型设计的有效性和合理性, 我们使用真实校园数据集进行消融实验.每次对模型移除一个组件, 并与MSCNN模型进行对比验证各组件的效率.将没有不同组件的模型进行命名用作实验区分.

● MSCNNw/oCNN: MSCNN模型没有短时模式组件捕获短时依赖时序特征;

● MSCNNw/oSkip: MSCNN模型没有长时模式组件捕获长时周期模式特征;

● MSCNNw/oSENet: MSCNN模型没有融合组件进行多尺度时序模式特征重拟定.

图 10和图 11分别展示了消融实验在不同真实数据集上, RSE和CORR指标的结果.

Fig. 10 Results (in RSE) of MSCNN in the ablation test on Canteen-dining and Canteen-consumption datasets 图 10 MSCNN模型在数据集Canteen-dining和Canteen-consumption上的消融实验结果(RSE)

Fig. 11 Results (in CORR) of MSCNN in the ablation test on Canteen-dining and Canteen-consumption datasets 图 11 MSCNN模型在数据集Canteen-dining和Canteen-consumption上的消融实验结果(CORR)

可以看出: 短时模式组件对实验结果影响最大, 没有短时模式组件的MSCNN模型在两个指标上均取得最差结果.而没有长时模式组件的MSCNN模型在RSE指标上取得更好的结果(h=3, 6, 12);但在h=24时, MSCNNw/oSkip模型的结果较差.这意味着没有长时模式组件无法预测未来时长较长的结果.融合组件对实验结果的影响出现较大波动, 对MSCNN模型的效果提升所起到的作用较小.

5 总结

本文提出一种基于深度学习的多尺度时序卷积网络MSCNN, 以对校园公共区域人流量进行预测.MSCNN模型利用短时模式和长时模式组件捕获多尺度时序数据中的短时依赖、长时周期模式和变量相互依赖特征, 并利用融合组件对特征进行融合和重标定.在真实校园环境数据集上的实验表明: 本文提出的MSCNN模型的预测效果优于其他已有的校园区域人流量数据预测方法, 验证了该模型在捕获多尺度时序模式方面的优势.

下一步, 我们将通过注意力机制等方法来优化MSCNN模型, 并把校内各公共区域之间的依赖关系考虑进来, 以提升模型的预测精度.同时优化MSCNN模型中不同尺度模式特征的融合组件, 拓宽应用场景.

参考文献

[1]	Box GEP, Jenkins GM, Reinsel GC. Time Series Analysis: Forecasting and Control. 4th ed.. John Wiley & Sons, 2008: 556-570. http://dl.acm.org/citation.cfm?id=561899
[2]	Dasgupta S, Osogami T. Nonlinear dynamic Boltzmann machines for time-series prediction. In: Proc. of the 31st AAAI Conf. on Artificial Intelligence. San Francisco: AAAI, 2017. 1833-1839.
[3]	Jain A, Kumar AM. Hybrid neural network models for hydrologic time series forecasting. Applied Soft Computing, 2007, 7(2): 585-592. [doi:10.1016/j.asoc.2006.03.002]
[4]	Zhang G, Patuwo BE, Hu MY. Forecasting with artificial neural networks: The state of the art. Int'l Journal of Forecasting, 1998, 14(1): 35-62. [doi:10.1016/S0169-2070(97)00044-7]
[5]	Huang S, Wang D, Wu X, Tang A. DSANet: Dual self-attention network for multivariate time series forecasting. In: Proc. of the 28th ACM Int'l Conf. on Information and Knowledge Management. Beijing: ACM, 2019. 2129-2132.
[6]	Lea C, Vidal R, Reiter A, Hager GD. Temporal convolutional networks: A unified approach to action segmentation. In: Proc. of the Computer Vision (ECCV 2016) Workshops. Springer-Verlag, 2016. 47-54.
[7]	Yang J, Nguyen MN, San PP, Li X, Krishnaswamy S. Deep convolutional neural networks on multichannel time series for human activity recognition. In: Proc. of the 24th Int'l Joint Conf. on Artificial Intelligence. Buenos Aires: AAAI, 2015. 3995-4001.
[8]	Salinas D, Flunkert V, Gasthaus J, Januschowski T. DeepAR: Probabilistic forecasting with autoregressive recurrent networks. Int'l Journal of Forecasting, 2020, 36(3): 1181-1191. [doi:10.1016/j.ijforecast.2019.07.001]
[9]	Box GEP, Jenkins GM. Some recent advances in forecasting and control. Journal of the Royal Statistical Society, Series C (Applied Statistics), 1968, 17(2): 91-109. http://onlinelibrary.wiley.com/doi/10.2307/2346997/abstract
[10]	Frigola R, Lindsten F, Schön TB, Rasmussen CE. Bayesian inference and learning in Gaussian process state-space models with particle MCMC. In: Proc. of the Advances in Neural InformationProcessing Systems. 2013. 3156-3164.
[11]	Hochreiter S, Schmidhuber J. Long short-term memory. Neural Computation, 1997, 9(8): 1735-1780. [doi:10.1162/neco.1997.9.8.1735]
[12]	Lai G, Chang W, Yang Y, Liu H. Modeling long-and short-term temporal patterns with deep neural networks. In: Proc. ofthe 41st Int'l ACM SIGIR Conf. on Research & Development in Information Retrieval. Ann Arbor: ACM, 2018. 95-104.
[13]	Shih SY, Sun FK, Lee HY. Temporal pattern attention for multivariate time series forecasting. Machine Learning, 2019, 108(8-9): 1421-1441. [doi:10.1007/s10994-019-05815-0]
[14]	Li X, Zhu X, Zhu X, JiY, Tang X. Student academic performance prediction using deep multi-source behavior sequential network. In: Proc. of the 24th Pacific-Asia Conf. on Knowledge Discovery and Data Mining. Singapore: Springer-Verlag, 2020. 567-579.
[15]	Zhang X, Sun G, Pan Y, Sun H, Tan J. Poor performance discovery of college students based on behavior pattern. In: Proc. of the 2017 IEEE Smart World, Ubiquitous Intelligence & Computing, Advanced & Trusted Computed, Scalable Computing & Communications, Cloud & Big Data Computing, Internet of People and Smart City Innovation. San Francisco: IEEE, 2017. 1-8.
[16]	Zhang L, Rangwala H. Early identification of at-risk students using iterative logistic regression. In: Proc. of the 19th Int'l Conf. on Artificial Intelligence in Education. London: Springer-Verlag, 2018. 613-626.
[17]	Peng W, Zhang X, Li X. Intelligent behavior data analysis for internet addiction. Scientific Programming, 2019, 1-12. http://dl.acm.org/doi/10.1155/2019/2753152
[18]	Hang M, Pytlarz I, Neville J. Exploring student check-in behavior for improved point-of-interest prediction. In: Proc. of the 24th ACM SIGKDD Int'l Conf. on Knowledge Discovery & Data Mining. London: ACM, 2018. 321-330.
[19]	Wei Y, Lv H, Chen M, Wang M, Heidari AA, Chen H, Li C. Predicting entrepreneurial intention of students: An extreme learning machine with Gaussian barebone harrishawks optimizer. IEEE Access, 2020, 8: 76841-76855. [doi:10.1109/ACCESS.2020.2982796]
[20]	Hu J, Shen L, Sun G. Squeeze-and-Excitation networks. In: Proc. of the 2018 IEEE Conf. on Computer Vision and Pattern Recognition. Salt Lake City: IEEE Computer Society, 2018. 7132-7141.
[21]	Vapnik V, Golowich SE, Smola A. Support vector method for function approximation, regression estimation and signal processing. In: Proc. of the Advances in Neural Information Processing Systems. MIT, 1996. 281-287.