分享好友 资讯首页 频道列表

深度学习在道路封闭挖掘方案的探索与实践

2019-09-04 22:27
1.导读
还原真实世界是每个地图技术人的追求,愿意为此付出不懈努力。随着地图静态路网的完善,道路上动态发生的事件,对用户出行的影响逐渐突显出来,尤其是道路上发生的封闭事件。
为了挖掘道路上的封闭事件,高德技术团队设计了一套半监督的深度学习方案。下面通过业务背景、解决方案、建模方法以及业务落地四个方面展开说明。
 
2.业务背景
动态事件是道路通行能力的变化进而影响用户出行的事件。通过动态事件的描述,可以了解动态事件包含两个要素,第一个是通行能力的变化,第二个是影响用户出行。
动态事件基本类型是封闭、施工、事故,如图1所示。其中封闭是道路通行能力极弱,正常车辆不能通行,特殊车辆才可能通行;封闭影响用户出行,需要用户掉头并绕路才能到达目的地,严重影响用户的出行。
图1 动态事件定义及基本类型
为了对动态事件有形象的理解,图2展示了动态事件的常见情况。第一张图展示了天气类的封路,雨雪雾等均可能引起道路封闭。第二张图展示了管制类封路,如道路要进行马拉松比赛,所以管制性封路。第三张图像展示了施工类封路,第四张图展示了施工但未封闭的情况。
图2 动态事件示例
 
高德有多种发现封路事件的方法,本文主要介绍基于用户轨迹数据的动态事件挖掘算法。
图3中第一张图片展示了道路封闭发生后,流量从100左右跌到了0;第二张图片展示了车辆的轨迹不能正常通过某一段道路,需要掉头并绕路通过;第三张展示了一条道路不能通行,道路上没有车辆的GPS点。热力用来描述GPS点的密度,GPS点密度越高,热力越明显,颜色越深。
图3 封闭事件的大数据线索
封路问题主要拆分为新增和消散两部分工作来展开的。新增和消散对应封闭事件的上线和下线。封闭问题之所以分为新增和消散,主要原因是新增和消散在业务分布上有着很大的差异。
新增问题是面向全路网的数据,封闭事件是小概率事件,发现封闭事件前会进行导航规划。消散面向的是线上事件,绝大部分为封闭事件,不进行导航规划。本文主要介绍封路新增问题。下面开始介绍封路挖掘的解决方案。
 
3.解决方案
高德在处理动态事件时,基本逻辑是利用已知数据,找出疑似封闭事件,之后再进行提纯,产出封闭事件并进行上线。按照此逻辑,产线处理过程分为三个层次:
大数据的解决方案也是基于此三层架构来设计的。经过系统化设计最终确定了分层化、半监督的深度学习方案,该方案可用于离线挖掘,也可以用于实时挖掘。整体方案如图4所示:
图4 整体解决方案
本方案主要包括如下5个部分:
4.建模方法
4.1 路网建模
路网是一张有向图,每一条边,也就是路网中的一条路,被称为一条link。路网建模分为空间建模、业务数据建模、时序建模三个步骤,如图5所示。将路网三步建模展开描述,分别是:
图5 路网建模方法
4.2 算法建模
从时序建模开始,到最终选定时序和卷积的组合模型,LSTMResNet模型,我们经历了一系列的探索:
快、准、稳是我们选取模型的主要考虑因素。“快”指的是挖掘周期短,LSTM比TCN需要的序列更短;“准”指的是挖掘的准确率高,LSTMResNet模型的准确率最高;“稳”指的是模型潜在的恶劣badcase更少,越是经典常用的模型,一般认为模型潜在问题更少。
 
基于快、准、稳的考虑,我们选取了LSTMResNet,并进行后续的业务迭代、落地。
 
LSTMResNet网络结构如图6所示,输入特征向量经过LSTM网络层,LSTM的输出作为ResNet的输入,ResNet的输出连接全连接层,最后全连接层与只有两个节点的网络层连接,这两个节点就是二分类的置信度。输入向量是长度为28,表示28天,每天特征是39维的特征向量;LSTM输出向量是长度为28,有5个隐层的网络层。
ResNet是由7个ResNet Block组成。每个ResNet Block内部都会进行卷积、归一化、ReLU运算,ResNet Block运算结果与ResNet Block的输入向量进行相加。
LSTMResNet模型参数整体较少,LSTM只有5个隐层;ResNet只有七个Block,包含14个网络层。这是因为模型复杂的情况下,非常容易过拟合,所以模型参数配置时没有使用更多的神经元。
图6 LSTMResNet网络结构
为了克服过拟合问题,我们在ResNet中使用Batch Normalization的同时,还使用了dropout,图7是dropout取值不同时的表现(数据来自中间实验过程):
图7 dropout调参
5.
业务落地
业务建模之后进行业务落地的工作,主要考虑两个方面:
5.1 半监督助力业务落地
半监督方法是一种介于监督和非监督的方法,本文半监督实现的主要思路是:首先,用数量较少的高精样本数据学习模型,其次,用该模型对线上差分样本预测,最后,将预测的高置信部分样本作为带标签数据,重新训练模型,得到最终的模型。实验过程如图8所示:
图8 半监督实验流程
为了评测半监督训练的模型的高置信部分的准确率,分别评测模型V1和模型V2在业务数据上产出的topN准确率,模型V2比模型V1准确率高10个百分点,由此可见,半监督方法非常明显的提升了高置信样本的准确率。
5.2 业务数据验证
业务数据验证,主要是通过分析流量、规划、偏航、热力这四类主要特征是否符合业务常识,来解释模型对封闭事件的刻画是否符合业务预期。模型在流量、规划、偏航、热力上符合业务预期,则模型产出恶劣badcase的可能较小。
实验方法是,首先提取北京市某天的业务数据,其次使用模型进行预测,最后按置信度统计分析。业务数据验证结论如下:
6.小结
本文介绍了动态事件和封闭事件的概念。为了挖掘封闭事件,我们设计了一套半监督的深度学习方案,较为详细的介绍了路网建模、TCN及LSTM等深度学习建模。 为了防止模型产出背离业务常识,进行了业务数据验证,实验表明模型挖出的封闭事件符合业务常识。 封闭事件的挖掘能够更好帮助用户合理的规划路线、提高用户体验。
 
 

来源:高德技术

评论 0
同类信息