大数据助力城市危险品管理 让城市不再与炸弹同眠
雷锋网 AI 科技评论按:距离 8·12天津滨海新区爆炸事故已经过去了两周年。这起因危险品的不合理存放和管理导致的重大伤亡事故也让高校科研人员高度关注如何用大数据来防患于未然。如何寻找这些存在潜在威胁的区域,又如何能规避危险的发生?北京航空航天大学计算机学院和经管学院的合作团队研发了一个名为 Dangerous Goods Eyes (DGeye) 的系统,这一研究论文已被今年的 KDD 接收。在雷锋网 AI 科技评论的邀请下,第一作者、北京航空航天大学计算机学院王静远副教授撰写了独家稿件,阐述了 DGeye 的诞生始末及核心技术原理。
本文主要介绍 KDD 2017 的一篇有关城市大数据应用的论文:「No Longer Sleeping with a Bomb: A Duet System for Protecting Urban Safety from Dangerous Goods.」这篇论文被 KDD 2017 的 applied target="_blank">
汽油、化工原料、毒害物质等危化品的运输与存储安全是城市公共安全领域备受关注的研究课题。长久以来,由于危险品存储与运输不当而造成的城市安全事故层出不穷。2015 年 8 月 12 日,天津滨海新区危险品仓库发生爆炸,造成了 173 人死亡、8 人失踪、798 人受伤的严重事故。事故原因是涉案公司在靠近住宅区的地点违规存储了近 3000 吨的危化品并发生自燃。类似的事故在西方发达国家也曾经出现过,2001 年 9 月,位于法国西南部工业城市图卢兹的 AZF 化工厂发生强烈爆炸,事故造成 31 人死亡和 2500 人受伤。时任图卢兹市市长事后表示,此次事故说明图卢兹市民实际上是在「与炸弹同眠」。
频发的事故与惨痛的教训反映出城市危险品安全问题的解决迫在眉睫,并且面临着诸多挑战。如何寻找城市中由于危险品的不合理规划导致的危险区域?如何得知造成城市区域危险的原因?如何预测危险的发生?北京航空航天大学计算机学院和经管学院的合作团队,研发的 Dangerous Goods Eyes (DGeye) 系统从大数据的角度为这些问题的解决提供了新的视角。
DGeye 系统主要由多元数据融合、危险模式挖掘、因果依赖网络及其应用构成。下面我们将具体介绍这些部分。
DGeye 系统的数据来源由危险品运输车辆轨迹和手机信令数据两部分构成。首先是危险品车辆的轨迹数据。2010 年 7 月,国务院印发《关于进一步加强企业安全生产工作的通知》,要求自 2011 年 8 月 1 日起,所有新出厂的危险品运输车辆,均需安装北斗卫星定位装置。定位数据由地方交通管理部门进行分级收集管理,并接入交通部运营平台,从而实现了对于全国危险品车辆位置的实时管理。
然而只了解危险品车辆的位置并不能完全满足危险品管理的要求。DGeye 系统除了需要知道危险品在哪里之外,还需要了解「人」在哪里。手机信令数据(手机和基站之间进行信号连接的次数记录,不记名、不含隐私信息)能够统计城市中手机用户的数量,DGeye 系统使用手机信令数据作为第二个主要的数据来源。
DGeye 系统使用栅格化方法,将城市地图划分为 500m×500m 的正方形区域,并对每一个区域的危险品车辆数据和手机用户所代表的人口数据进行了统计。下图使用 2015 年 1 月的数据,展示了北京和天津两座城市中人口数量的分布和危险品车辆的分布情况(左图为人口分布,右图为危险品车辆分布)。
图 2 京津两市人口与危险品车辆分布
从图 2 中可以看出,如果我们只考虑危险品车辆而不考虑人口的分布,会因为绝大多数危险品车辆都分布在城市外围,而认为城市中心区域并没有太严重的危险品运输风险。因此需要对两种数据进行融合。
数据融合的主要挑战是两类数据在尺度上的异构性。全北京的总人口超过两千万,但是危险品车辆的总数不超过一千辆,如果直接将两种数据进行融合,危险品车辆的信息会完全淹没在巨量的人口数据当中。为了解决这一问题,DGeye 使用马氏距离将两种数据进行尺度归一化。对于一个区域,我们使用人口和危险品数量在马氏距离空间上的乘积作为该区域的风险评分(Risk Score),如下图所示:
当一个区域的风险评分高于某个阈值时,系统就认为该区域是一个风险区域(Risky Zone)。下图展示了京津两地的风险区域分布和每个区域的风险评分。颜色由绿到红,表示 Risk Score 由低到高。从图中可以看出,一些位于市中心的高风险区域被检测了出来。
然而,Risky Zones 并不能完全表达一个城市的风险分布,因为其仅能反映短暂的风险事件,为了发现稳定、频繁的风险区域,我们提出了一种 Apriori-like 算法来挖掘城市中风险区域的时空模式。该算法的功能是发现城市中「空间上相邻」(co-location)、「时间上频繁」(co-occurrence)的风险区域组合,即如下图所示。
通过 Apriori-like 算法,DGeye 系统提取出了稳定的城市风险模式。下图为北京和天津两座城市在风险模式上的比较。
图 4. 京津两市的风险模式空间分布
从图中可以看出,北京较大规模的风险模式集中在城市中心区域,而天津较大规模的风险模式则集中在天津港区。这种差异反映出两座城市具有不同的危险品运输需求:北京的危险品需求多为加油站、餐饮燃气等民用燃料为主,运输车辆需要穿行市区,因此在市中心造成连片的风险模式;而天津的危险品需求主要是天津港的危化品进出口,因此风险模式集中在天津港区。
在时间分布上,京津两市的风险模式也极为不同。如下图所示,北京的危险品需求内在驱动力为市民的生活需求,因此风险模式的时间分布和市民作息高度相关,具有有着很强的节律性;而天津的危险品需求为进出口工业需求,由于港口能够进行三班倒的连续运营,因此天津的风险模式在时间上的分布比较均匀。
图 5. 京津两市的风险模式时间分布
在同一个城市中,各个风险模式之间存在着很强的因果依赖关系。例如,城市道路上的风险模式往往是由加油站、餐馆等危险品运输目的地所导致的。为了便于城市管理部门对风险模式进行治理,我们需要进一步地分析风险模式之间的依赖关系。
如下图所示,我们构建了一个模式之间的依赖网络,该网络中每一个节点代表一个危险模式,当一辆危险品运输车从 A 模式经过并驶向 B 模式时,我们会对 A 到 B 模式之间构建一条边,并对边的权重加 1。
以此方法构建出的网络,假设有一条边,那么我们可以认为区域是危险品的下一目的地,(或其下游节点)对危险品的需求其导致了区域的风险,因此我们也称该网络为风险模式的因果依赖网络。
基于风险模式的因果依赖网络,我们使用带重启动的随机游走算法 (Random Walk with Restart),对风险模式进行重要性排名。下图是排名获得的两个例子。
图 6. 风险模式排名案例分析
左图为北京市的风险模式区域排名,其中红色的模式为排名第一的风险模式。该模式覆盖了北京市东四北大街和建国门内大街的一片区域。生活在北京的朋友们都知道,该区域是北京的休闲和娱乐区,著名的「簋街」特色小吃一条街就在这里。该区域火锅、烤鱼、麻辣小龙虾等特色餐饮吸引了众多的食客(人口密度大)。同时,众多餐馆对煤气罐等危险货物的需求导致该区域危险品和人口聚集高度重合,形成了危险品安全风险。左图中绿色和蓝色的两个模式是因果依赖网络中依赖于红色区域的两个主要模式。可以看出,这两个模式覆盖了从市区外到达红色区域的几条主干道路。红色区域对于危险品的迫切需求,导致了这两个区域发生了危险品运输风险。2016 年 1 月 17 日,一辆液化气运输车在绿色区域发生了燃烧事故,其目的地就是红色区域的特色餐馆。
由于我们使用的是历史数据,我们也想看看天津爆炸案发生前的风险排名情况。在图 6 的右图中,我们可以看到当时天津市排名第一的风险模式覆盖了沿着天津港的一条南北走向的主干道,该道路直接和天津港码头的内部铁路相连。由该模式引起的两个模式覆盖了通往码头的一条东西主干道路,该道路穿过了天津滨海新区人口密度较高的城市中心。 东西道路和南北道路的交叉点,就是天津滨海新区爆炸事故的爆炸点!
此外,基于因果依赖网络,我们提出了基于 Expectation-Maximization (EM) 算法的贝叶斯模型,以当前一小时的风险模式分布来预测未来的一个小时的风险模式分布。由于我们的因果依赖网络能够很好的建模模式之间的因果依赖关系,因此获得了非常好的预测效果。
本文提出了一个新型系统 DGeye 用于城市危险品风险检查和预测。其重点技术在于危险模式的挖掘、Apriori-like 算法以及因果网络的构建和应用。危险模式揭示了历史数据中京津两市危险品管理风险的时空间分布规律。基于因果依赖网络的应用能够指导城市管理部门进行城市危险品治理和城市安全改造。
注:本论文所使用的数据均为历史数据,实验结果只用于验证模型和算法的有效性,并不代表京津两市的当前城市危险品风险。在天津爆炸事故发生之后,政府对天津港的危险品管理进行了重点治理,目前隐患已经排除。对北京簋街地区存在的液化气运输风险,大家也完全不必担心。2016 年,北京市启动了包括铺设天燃气管道在内簋街的改造工程。目前,簋街已经完全告别了罐装气时代。
更多精彩资讯,敬请关注雷锋网AI科技评论。
特约稿件,未经授权禁止转载。详情见 转载须知 。