feedback

意见

反馈

back-to-up

回到

顶部

你早高峰挤地铁的“姿势”,都被客流大数据记下了

地铁1公里

编辑 | 胡世龙   2018-02-07

经常乘坐地铁的你,每刷一次交通卡,都会产生一条客流记录。而在北京上海这样的大城市,每天的地铁客流有千万左右。这些海量的客流数据该如何进行分析解读?客流数据的背后反映了一座城市怎样的区域特点和职住格局?1月24日的数据侠线上实验室,DT君邀请到北京城建设计发展集团交通研究中心智能交通部副部长、高级工程师李金海,用数据为我们解读了北京地铁线网的客流特征。

坐地铁前,你做的第一件事会是什么?

今天很荣幸受到DT财经的邀请,来跟大家分享我们在轨道交通客流分析方面的一些新经验、新成果。

我个人从2008年开始就接触了城市的交通大数据,当时还不叫“大数据”,而是称为“海量交通数据”。我主要做的是北京地铁、公交的刷卡数据的一些建模、分析工作,也包括城市交通的需求分析和预测。近期,我的研究还包括了手机信令数据等。

今天跟大家分享的话题是“北京轨道交通线网客流特征分析”,内容本身有一定的专业性,我会结合一些案例来说明。

相信每一位网友都有乘坐地铁的经历,我们不妨回想下,我们在乘坐地铁的过程中,做的第一件事是什么。很多人可能觉得是买票、或是安检,但如果结合我们今天的话题场景,我认为我们潜意识里做的第一件事是规划我们的出行路径。

我们看上图的案例。假设我们要从西直门到国贸,每个人的路径选择可能不大一样。比如有人可能会从西直门到复兴门再到国贸,而从西直门到复兴门,他可能坐的是2号线的内环,也可能是2号线的外环,然后再通过1号线到国贸;还有的乘客可能是从西直门先坐4号线到西单,然后在西单换乘1号线到国贸。当然,有些朋友还可以选择其他更为复杂的路径,但总体来说,我相信绝大部分人的选择都集中在前面三种路径上。

到底有多少比例的乘客选择了其中的第一条路径,又有多少选择了第二条路径,这其实就是客流分析话题的核心内容之一。

如何从乘客刷卡数据算出其出行路径

前面的例子仅仅是复杂的轨道交通网络中两个车站之间的出行路径的情景,如果一座城市每一天有500-700万名乘客在轨道交通网络中出行,那么出行路径就会变得非常复杂。即便是任意两个站点之间,其出行的路径都可能是非常多元化的。

当我们获取了每一天地铁乘客的进站、出站数据,很容易获得总客流的数据。但如何把客流落到具体的每一个“OD对”(指从起点站到终点站)之间的路径上来,如何进行精确区分,这是我们下面要探讨的问题。

这个问题其实可以抽象出三个层面的问题。第一个问题是乘客的出行成本问题,第二个是出行中的路径选择问题,第三个是几百万量级的乘客选择路径后,其客流在轨道交通网络中怎么分配的问题。

针对这些问题,我们现在已经有了地铁刷卡数据,也知道一个城市的票制和票价,还知道城市的轨道交通网络的结构,那么我们需要解决的问题就是把这些客流通过刷卡数据把它们分配在网络上,同时还要做一些轨道交通的站点、线路以及网络这三个层面的一些客流指标的统计。

为了解决这些问题,我们的做法分成几个步骤:

首先,需要做一个网络的拓扑分析,去建立车站与车站之间的连接关系、换乘关系等。

除此之外,我们还需要建立一个评估模型,去权衡每一个乘客的出行路径,即出行的效用。

另外,我们还要确定每一个“OD对”之间到底有哪些可能的路径。我们把乘客们最常选择的路径叫做有效路径。在确定哪条路径是有效路径时,背后还涉及到一套复杂的搜索算法。

当我们知道了一个“OD对”之间潜在的可选择的路径之后,我们需要把客流分配到这些路径上。在这里我们使用到了经济学中的Logit模型,用来描述我们每个人在面临选择的时候,每个备选方案可能被选中的概率。

在此基础上,我们通过一定的统计算法,就可以确定出我们站点、线路以及网络的一些静态的客流特征。

需要指出的是,我们今天讨论的主要是静态分配的方法。在行业中,其实还有动态分配一说。这是因为在早高峰和平峰的时候,我们出行的路径选择可能是有所不同的。比如,北京常常会进行封站、限流等措施,有很多的换乘通道在早高峰的时候是比较拥挤的,这样就会造成换乘时间较多,乘客可能会选择其他路径。这里不再展开。

北京地铁千万客流背后的出行规律和职住格局

接下来,我们来看我们研究发现的北京轨道交通客流的特征。

首先是从线网这个角度来看客流的总体分布特征:

上图的左侧图表是每一天之中分时段的上车和下车的客流量的分布曲线,可以看到,早高峰(从7点半到8点半)的时段,客流占到了全天的上车客流的14%,而晚高峰(17点30-18点30)的上车客流占比是11.5%。下车的情况也差不多,早高峰(8点-9点)下车的客流占全天下车客流比例为14.5%,晚高峰(17点45-18点45)则为11.3%。从上下车的客流来看,早高峰的客流都要比晚高峰更高一些。而从历年的趋势看,早高峰出行的比重也是有所增加的。

我们再来看北京地铁不同线路进站高峰小时的系数情况:

上面这张图的右侧条形图是每一条线路的早高峰出现的时间。可以看出,郊区线路比如昌平线、房山线的早高峰的开始时间要比市区线路早一些,它们从早上7点就开始了,而市区线多数是从7点半持续到8点半。而4号线和16号线之中,4号线因为包含了大兴的客流,因此它的客流高峰时间出现在了7点15到8点15。

此外,我们也从车站的角度做了一些统计分析。我们分析了北京地铁全网200多个地铁车站的进出站的时间分布特征。总结出九种类型:

我们进一步统计了每个车站的早高峰的进出站量占全天的比例,发现居住类的车站有66座,占了全网的22.92%。而居住2类的站点早高峰进出站量占全天比重为19.79%。而办公类的车站,早高峰出站量远高于进站量,进出站占全天的14.2%左右。

上图的右侧图表能够很明显看出地铁车站的类型。可以发现,北京五环、六环之外的车站基本上都是居住类的车站,而中心城区尤其是二环、三环以内的一些车站,基本上周边都是办公区。

我们再看每个车站早高峰时每个小时的进出站比例分布,下面这张图的左边是进站比例的分布图,右边是出站比例的分布图。图中的颜色代表着这座车站周边的用地属性,圈的大小代表着高峰进出站的比例大小。

可以看到,郊区早高峰进站的比例远远高于市区,而出站的比例要比市区低很多。

下图是北京地铁站点从5点到10点45分之间,每隔15分钟的乘降量(为进站客流、出站客流、换乘客流的总和)分布图,从中能够看出,北京地铁客流量较大的区域主要集中在城区的西北部及东部。

此外,我们也通过计算发现,不同地铁站点之间的不平衡状况比较突出:在进出站的高峰小时系数上,进站高峰的系数最高可以达到36%,而最低的仅仅是1%。

同时,我们还对北京地铁的换乘站也进行了一些统计分析。具体来说,我们发现,就某个换乘站而言,线路之间的换乘类型无外乎分为三类:

双峰、高低以及单峰。

我们还对换乘站做了分级。我们发现,早高峰期间绝大多数换乘车站的换乘量都在1-2万之间,而全日换乘客流大约在5-15万人次。

从车站换乘量来看,全网的换乘量排名前十的车站有八个是在地铁环线上面,最大小时的换乘量能占到全市换乘量的14%左右。

最后我们再来看看北京一些热点区域的客流特征情况:

可以看到,在高峰时刻,热点区域吸引的客流主要还是和区位有关。比如中关村和上地等站,主要吸引了来自北京北部的客流,而金融街,则吸引了北京西南部的客流。

从北京总体上来看,早高峰进站客流量最大的区域主要分布在北部(回龙观、天通苑等)、东南部(宋家庄周边)等大型居住社区。而出站客流最大的区域如国贸、中关村、东直门等,结合车站500米范围内的公司分布数量来看,客流量和就业地也是颇为匹配的。

类似这样的细化的统计指标,我们做了很多。这里就不再一一介绍。在我看来,通过分析一座城市的地铁客流特征,在很大程度上能够看出一座城市的职住特点、区域格局,而从更大的意义来看,这也为城市管理者提供了交通规划、产业布局等方面的参考。

(注:以上内容根据李金海在数据侠线上实验室的演讲实录整理。图片来自其现场PPT,已经本人审阅。本文仅为作者观点,不代表DT财经立场。题图来源:视觉中国)

数据侠门派

本文数据侠李金海,北京城建设计发展集团股份有限公司交通研究中心高级工程师。长期从事智能交通、交通大数据建模工作,牵头完成了多个城市的公共交通建模及需求预测项目。

加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加微信公号dtcaijing004并备注“数据社群”,合作请联系datahero@dtcj.com。

(了解更多有趣又有料的商业数据分析,欢迎关注DT财经微信公众号“DTcaijing”,下载“DT·一财”APP)

分享这篇文章到