feedback

意见

反馈

back-to-up

回到

顶部

混沌的边缘,是一切开始的地方 | 数据科学50人·吴海山

数据科学50人

· 吴海山

程一祥   2018-04-26

如今,我们每个人都在谈论“数据科学”,哈佛商业评论杂志甚至将数据科学家定义为“21世纪最性感的职业”。在这个大数据时代,究竟什么是数据科学?数据科学家门又究竟是怎样的一群人?他们在创造着什么令人着迷的东西?DT君将在2018年走访50位来自各行各业的数据科学顶尖专家,了解这些神奇的人和他们的神秘事儿,带你们一窥数据科学的未来与未知。

来到混沌的边缘

我们究竟生活在一个怎样的世界?

24岁之前的吴海山可能从来没有认真思考过这个问题,直到他被一部BBC的纪录片击中。

吴海山是普林斯顿大学博士后,现任全球著名资产管理公司贝莱德(BlackRock)主动股票投资整合及数据团队董事,长期致力于对复杂系统的探索。由于他在时空大数据和经济系统领域的数据科学研究,被《麻省理工科技评论》评为2017年中国35岁以下科技创新35人“远见者”。

24岁之前,吴海山一直是一个标准的“理工男”,喜欢计算机,常常泡在实验室里与电脑打交道。他在复旦的博士研究方向是计算机视觉,包括三维重建、人脸识别等课题,也就是如今iPhone X屏幕上藏在那一条“小刘海儿”里的技术。

“也许是我比较喜欢看纪录片吧,看到天上飞的鸟群,海里游的鱼群,我被深深的吸引了。”

当蓑羽鹤们,为了到达印度境内的越冬场所,而飞跃喜马拉雅山脉的天堑;当鲑鱼们逆流而上数百英里,为了产卵穿过整个北半球,构成了世界上最大的淡水鱼洄游.......纪录片中,生物族群所展现出的壮丽景象,令他赞叹不已。计算机视觉出身的吴海山,对“美”的视觉冲击有一种天然的敏感性,他感慨于这些自然现象,并总觉得其背后藏有什么玄机。

为什么鸟群飞行时要排成队列?为什么鱼群游动时会呈现图案?大自然给吴海山的心中留下了越来越多的问题,而且关于这些问题并没有一个统一的答案。当回顾这些五彩斑斓的自然景象,他逐渐意识到:我们其实生活在一个复杂的世界中。

“我们生活在一个‘复杂’的世界中”,这句话像打开了一扇新的大门,让吴海山开始从一个崭新的视角观察这个世界——复杂系统。

什么是复杂系统?

梅拉妮·米歇尔(Melanie Mitchell)在《复杂》(Complexity:A Grand Tour)一书中将复杂系统描述为一个:具有“涌现”和“自组织”行为的系统——自组织,即这个组织不存在外部或内部的领导者,每个个体是独立行为;涌现则是描述简单规则难以预测群体的复杂行为。换句话来说,系统就是单元(节点)和关系(连线)的组合;而复杂系统就是那些单元数量巨大,相互之间联系紧密且关系错综复杂的系统。

比如蚁群就是典型的复杂系统,它们个体简单,但是整体却复杂有序;飞行的鸟群也可以看作是复杂系统,虽然数量不多,但它们之间存在高度的相互作用关系,飞行行为复杂多样;人类的经济行为也是复杂系统,每个人依照自己心愿买卖,但整个市场行为却纷繁多变、难以预测。

蚁群为什么会组成组织?飞鸟为什么会编队飞行?人类的经济市场为什么会失灵?吴海山被这些复杂系统的美感和玄机所深深的吸引。自然科学已经发展了几百年的时间,人类对大到宏观的宇宙(相对论),和小到微观的粒子(量子力学)都有了深刻的理解,但是对生物系统本身的很多问题,却都无法解释。这些问题都指向了一个可能的研究方向——复杂科学。

他从自己的老本行出发,想用计算机视觉、数据挖掘、机器学习等自己熟悉的数据科学方法,去探索这个全新世界的奥秘,不知不觉地就走到了这块“混沌的边缘”。

(图片说明:鱼群的运动轨迹:通过计算视觉和机器学习量化分析鱼群的群体行为 ;图片来源:PNAS, Current Biology)

物理学家海茲·帕各斯(Heins Pagels)在《理性之梦》(The Dream of Reason)中说到:科学已经探索了微观和宏观世界,亟待探索的前沿领域,就是复杂性。在一些复杂系统中,事物往往处于混沌的边缘——在有序和失控之间,一些微小偏差就会给结果带来巨大影响,这种状态往往最充满活力和创造性,吸引着科学家们乐此不疲地探索。

中国动力学

2012年,带着对研究复杂系统的热情,吴海山来到了美国普林斯顿大学生物系的Couzin Lab,去专门研究鱼群。

虽然是在生物系下面,但实验室研究人员的背景却非常多元化。那里有吴海山这样的计算机科学家,也有物理学家、生物学家等。他们当时研究的共同课题,是如何利用视觉跟踪、数据挖掘、机器学习等数据科学的方法,研究鱼群的复杂行为。

“我们当时就是在实验室里放一个大鱼缸,里面放几十条到上千条鱼,然后布置好摄像头,用计算机视觉的技术去捕捉鱼群的运动轨迹。然后再用机器学习等方式去建模、分析、预测,判断鱼群这个复杂系统内部,在运动时的决策原因是什么、影响因素有哪些等等。”

(图片说明:普林斯顿大学生态学与进化生物学系教学楼,左边突出的楼是纳什均衡创始人约翰·纳什办公室所在地的数学系,后面的楼是施一公工作过的分子生物系大楼)

在研究鱼群这个复杂系统的时候,吴海山发现,鱼群具有很强的社交关系,像人一样有着“从众心理”和”眼见为实”的特点。每条鱼做决策时总是通过周边其他鱼的内部行为来做决定的,并且收到很强的视觉信息的影响。

“我们当时有两篇论文,一篇是发在《美国科研院报》上,另外一篇在《当代生物学》。”吴海山说到,“我们通过数据的方法,能够告诉你在鱼群这种复杂系统中,他们是怎样交互的,影响这些复杂行为的因素有哪些,哪些因素更加重要等等。”

在普林斯顿的研究让吴海山对复杂系统越发感兴趣。在鱼群这种相对简单的复杂系统研究中,他也逐渐验证了数据科学在其中的潜力和价值。这激起了他更广泛的研究欲望:如果我们研究的对象是人类社会呢?如果研究的课题是中国呢?

“中国就是一个复杂的系统,相比其他国家,它有更加独特的动力学在里面。通过数据去洞察这个大系统背后的机制是非常有意思的。”吴海山兴奋地说。

2014年,吴海山回到国内,加入了百度研究院大数据实验室,组建了自己的研究团队。他把目光聚焦在了可能是世界上最复杂系统之一的地方——中国。他选择的数据切入点,是中国海量的移动搜索数据和定位数据,也就是大家常说的“时空大数据”。他给自己的课题起了个名字,叫“China Dynamics”(中国动力学)。

(图片说明:手机定位数据在不同时空尺度下的对经济行为的刻画图示

动力学,关注的是对系统的描述预测,即系统通过许多相互作用的组分的集体行为,涌现出宏观层面的复杂变化。吴海山认为,研究中国动力学,就是通过收集、聚合和分析每个个体的数据,去洞察中国这个复杂系统背后的逻辑究竟是什么样子。

他们最先开展的是对人群预测的研究。

2014年的跨年夜,在上海外滩,发生了不幸的踩踏事件。这件事让吴海山开始思考,如果复杂系统可以预测鱼群的运动行为,那么是否也可以预测人群的运动行为呢?

(图片说明:基于时空数据的人群预测拥挤预测热力图)

“我们当时就用了手机定位数据和地图搜索数据,去预测人群聚集在某一个区域的流动变化情况。这个与我当时在普林斯顿所做的研究非常接近。”吴海山告诉DT君,这个复杂系统的特点,在于随机状态下人群聚集时的行为特征。它的基本假设是每个个体在出门时都会用手机导航先规划搜索一下出行路线,这样,通过分析一定时间段内,一个特定区域里,手机地图上的查询数与用户定位数之间的关系,就可以预测人群的行为轨迹,对过饱和的地区提出预警。

据此,他们设计了一个专门针对大规模群体危急事件的预警模型,可以做到提前两小时预警人群的密集程度。

这是一个具有“中国人口特色”复杂系统课题,对吴海山来说,仅仅研究人群的物理行为还远远不够。他逐渐把目光放在了纬度更广泛、系统更加复杂的经济领域。

数据“空城计”

吴海山想要看懂中国的宏观经济系统究竟是什么样子。

他的武器是复杂系统理论、数据科学知识,还有海量的移动大数据。虽然从复杂系统入手,他选取的角度很独特,但想要真正理解中国宏观经济,这仍然是一个非常棘手的课题。因为中国的经济环境实在太复杂了,影响系统中单元决策的因素数不胜数。

吴海山选择从手机定位数据和卫星图像数据着手。“通过手机定位数据,我们可以分析某一区域有多少人、多少人工作、多少人消费等等;然后通过卫星图像数据,我们用深度学习可以识别哪里是工厂、哪里是住宅楼、哪里是写字楼。这两方面的数据结合起来,就可以构建一个大致的宏观就业趋势了”。

在他们的分析中,卫星图像数据是低频变化数据,可以在较长的时间维度上观察基础设施的变化。“例如如果你一个商场,停车场几个月都是空的,那商场的经济形式应该不会好。”吴海山说到。另一方面,手机定位数据则是高频变化数据,更多反映的是用户行为,例如如果一个区域内人口流动非常频繁,那么该地区的经济活力大概率向好。

吴海山认为,把低频和高频的时空数据叠加起来,就能对区域经济做出一个宏观判断。如果把所有区域结合起来,就能看到整个中国大致的宏观经济状态了。

(图片说明:吴海山团队在2017年最新发表的利用移动大数据观察预测中国经济活动的论文截图)

研究中国宏观经济,一定避不开房地产这个话题。

2010 年,《时代》杂志在内蒙古鄂尔多斯的康巴什地区拍了组图片,把这个当时人迹罕至的新城区称为“Ghost City”,即鬼城。

于是,这个颇具中国特色的房地产现象,成了这些年媒体热衷讨论的话题。但实际上,媒体衡量“鬼城”的统计方法往往是通过数亮灯、数空调等,准确率太低;而且“鬼城”这种有明显噱头的表达,也让这一话题始终饱受争议。

2015年,《中国的鬼城》(Ghost Cities of China)一书的作者Wade Shepard将“鬼城”定义为:一种能量严重不足的新型发展状态,一个人口和商业机构严重少于其原本所能容纳的体量的地方。就是那些大量盖楼却无人入住的地方,宛如唱了一出空城计。

吴海山当时觉得,他擅长的时空大数据恰可以在这儿一展身手。于是他带领团队,利用手机定位数据和相关住宅区域兴趣点(POI)等数据,通过机器学习算法等技术,从更精确的大数据角度,找出了到底是那些地区,在摆“空城计”。

 (图片说明:吴海山关于“鬼城”项目的研究,图为中国九个城市的空城分布)

吴海山告诉DT君,这些高精度的数据所覆盖的时间长度为7个月,每天的数据量可达数百亿次;地理范围的广度为全国,是他研究过的最复杂的系统之一。

找出“空城”在哪儿只是这个复杂系统的第一步,吴海山更感兴趣的是研究中国宏观经济。为什么这些地方会有出现空城?空城会怎样影响地区经济的发展?

他们用时空大数据,进一步分析了多个“空城区”。他们发现山东乳山的空城具有季节性周期变化,是一个典型的旅游城市;而之前一直被称为鬼城的郑东新区作为新建城区,有着职住分离的特点,随着公共交通的延展,近年来也逐渐开始聚集起人气,已经难以再被称为鬼城。另外,大量的“城”(Ghost City)其实是“区”(Ghost Town),只是城市发展的一个不完整阶段罢了。

(图片说明:人工智能领域著名教授吴恩达高度评价了该研究,认为机器学习和大数据将可以辅助城市规划)

吴海山的这份研究得到了很高的评价,很多人认为他用数据科学重新定义了中国的“鬼城”,颠覆了曾经的误读。还有些人看到了数据科学背后巨大的投资价值——楼市这些复杂系统所反映的规律,都可以作为投资参考的标的。

投资界的“钢铁侠”

打个不恰当的比喻,如果说研究宏观经济还是用数据科学在复杂系统领域的“纸上谈兵”,那么进入投资界才是真正的“实战检验”。

“经济也好、投资也好,其实它本质上都是我们用数据去理解这个社会复杂系统的一种方式”。从鱼群到人群,从物理行为到经济行为,吴海山总是期待能对中国社会这个复杂系统,多一些理解,多一些认知。

2017年,吴海山决定亲自走进投资领域,把自己从一个复杂系统的外部观察者,变成一个内部参与者,更深刻去理解整个社会系统。从VC到PE,再到自己创业,过去一年,吴海山把投资的小圈子走了一遍,学习和探索数据是如何反应市场变化的,投资人员要如何利用数据去做决策。最后他决定加入贝莱德(BlackRock),“因为这里有一个大平台,愿意真正用数据做一些事情。”

在贝莱德,吴海山和其他数据科学家被内部称为“半人马”(Centaur)。这个词源于古希腊神话重的人马兽,寓指他们既有“人”的能力,又兼具“数据”的能力,是名副其实的复合型人才。不过吴海山更愿意把自己比喻成“钢铁侠”:数据科学就像一套钢铁装甲,穿在人的身上,能够使人的力量更加强大。

吴海山告诉DT君,他所在的主动股票投资整合及数据团队(Active Equity Integration & Data),主要是通过对海量数据资源的分析和挖掘,赋能系统化主动股票投资(Systemetic Active Equity)和基本面主动股票投资(Fundamental Active Equity)两个业务团队做更好的决策。

在投资环境中,由于涉及到的都是实打实的资金交易,所以对复杂系统的准确性的要求也大大提高,“有趣”不再是衡量数据科学的唯一标准,它要更加有效率、有价值。

为了衡量投资者情绪,他们会引入社交媒体数据,对其进行情感分析、监测投资者情绪变化;衡量就业等经济环境,他们会引入Glassdoor等招聘网站数据和卫星图像数据等;还更多地包括交易数据、手机app数据等等......这些不同维度的海量数据都会被纳入吴海山团队的模型框架内,希望能够尽可能地分析“市场”这个复杂的系统。

但即便如此,吴海山仍然不认为他真的研究透了复杂系统。

“中国有个成语叫‘盲人摸象’,如果大象就是我们要研究的复杂系统,我们用这些维度数据来做的工作,某种程度上就是在‘摸象’。其实这个词的本意是不好的,形容人目光短浅,只见树木不见树林。但如果所有‘盲人’把摸到的感觉聚合起来,这就完成了质变,你大概就能知道‘大象’究竟长什么样子了。”

“但是什么时候才能‘摸’完呢?”DT君问吴海山。

数据是无穷的。如果整个社会是一个大系统,手机、摄像头,包括未来的无人机、无人车,这些都可以是传感器,我们要用多少数据才能参透社会这个纷繁复杂的大系统呢?

吴海山的答案是:数据的洞察和人的经验相结合。

他觉得,这其实与投资是一个道理。你分析越多的数据,毫无疑问,你对这个复杂系统的了解就会越深刻,对它内部运行的规律就会越清晰,就会更有种感觉知道当前最佳的投资机会在什么地方。但是当你做下投资决策的那一刻,你不但需要参考数据带来的洞察,还需要依靠自己对经济、历史和人性的深刻认知,是你对这个复杂系统综合感知的结果。

“所以我认为数据科学目前带给我们的其实不是Artificial Intelligence(人工智能),而是Augmented Intelligence(增强智能),是系统科学与人类认知结合起来的东西,而这也是对投资更有价值的东西。”吴海山说。

数据侠门派

吴海山博士现任贝莱德(BlackRock)股票投资整合及数据团队董事。在加入BlackRock之前,他曾创办深知科技 (SenSight.ai) 并担任CEO。在这之前,他曾担任合一创投首席数据科学家,致力于构建数据驱动的风险投资平台。他还曾担任百度资本的技术顾问。吴海山2014年加入百度研究院大数据实验室,担任资深数据科学家和时空大数据团队技术负责人。 吴海山博士的研究发表在多个学术期刊和学术会议上,包括PNAS, Current Biology等。他的基于数据驱动的中国空城识别的研究被麻省理工科技评论评为Best of 2015。2017年,他被麻省理工科技评论评为中国地区35岁以下科技创新35人(35 Under 35)中的先见者。吴海山于2011年博士毕业于复旦大学计算机学院。他曾在2012年至2014年期间在普林斯顿大学进行博士后研究。

数据科学50人

数据科学50人”项目是DT财经旗下数据侠计划重点内容产品,与数据科学领域KOL挖掘数据内容的价值。我们从商业数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布,第一财经数据科技及合作伙伴倾力支持。

加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加微信公号dtcaijing004并备注“数据社群”,合作请联系datahero@dtcj.com。

分享这篇文章到