feedback

意见

反馈

back-to-up

回到

顶部

你的数据科学第一课 | 数据科学50人·朝乐门

朝乐门

· 数据科学50人

程一祥   09-18

朝乐门,中国人民大学数据工程与知识工程教育部重点实验室、信息资源管理学院副教授,博士生导师,章鱼大数据首席数据科学家。他在2016年出版的《数据科学》一书,是中国第一部系统阐述数据科学理念、理论、方法、技术和工具的专著,是数据科学教育领域的代表作品之一。

2012年10月,数据科学家 Thomas H. Davenport 和 D.J. Patil 在《哈佛商业评论》上发表了一篇著名的文章《数据科学家:21世纪最性感的职业》。他们描绘了数据科学家们这个新兴的群体,并让“数据科学”的概念第一次走入了大众视野。

他们大胆预言,二十一世纪人们将会面对前所未有的复杂信息,而数据科学家则将是站在浪潮之巅的那些佼佼者。当时,正在人民大学研究基于语义Web的知识处理的朝乐门,深深地受到了这篇文章的影响,也由此改变了他之后的人生轨迹。

现代数据科学的由来

数据科学(Data Science)的概念,最早是由计算机科学家、图灵家获得者Peter Naur在《Concise Survey of Computer Methods》中提出。那是在1974年,现代科学界最早提出了“数据科学”专业术语。不过,当时Naur的初衷是为了补充“计算科学”(Computer Science)的概念,想法还比较简单。

(图片说明:Peter Naur的著作首次提出了“数据科学”的概念;图片来源:Google Scholar)

进入二十一世纪后,随着计算机技术的发展和大数据时代的到来,数据科学迎来了自己的春天。2001年,计算机科学家William S. Cleveland首次提议,将“数据科学”独立设为一个新的学科,作为统计学的延伸,用来研究“计算在数据方面取得的进展”。

2003年,国际科学理事会下属科学技术数据委员会(CODATA)出版了第一本以“数据科学”命名的学术期刊《Data Science Journal》;2004年,领英在硅谷组建了第一支商业数据科学家团队。至此,“数据科学”在学术界和产业界,都产生了良好的生态反应,开始进入高速发展阶段。

由于现代数据科学起源于计算机科学、统计学等交叉领域,所以在早期的探索中,研究者大多是来自于计算机和统计学领域的专业人士。

朝乐门自己也不例外。他最早做的是软件开发工作,到博士期间开始研究基于语义web的大规模协同知识处理,都是计算机领域的问题,后来才逐步转向了数据科学。

(图片说明:朝乐门在高校开展“数据科学”主题的培训讲座)

朝乐门说,经过这么多年的发展,数据科学如今已经逐渐从计算机、统计等传统学科独立了出来,成为了一门新兴的研究领域。“不过还有很多人分不清数据科学,与计算机科学、统计学等的关系,认为这是一个衍生学科,其实数据科学已经发展出了自己的理论和范式,数据科学家也已经是一种成熟的职业了。”

到了2012、2013年,数据科学开始进入了丰收的时期。

朝乐门说,在2012年美国总统大选的时候,奥巴马和罗姆尼的竞选阵营中就已经出现了数据科学家的身影。与此同时,在学术界,Schutt 在哥伦比亚大学正式开设了一门《Intro to Data Science》,把数据科学作为一门独立课程设置;在产业界,Patil等人撰写了《数据科学柔术》等书籍,介绍数据科学的产品化经验。

“然后就是《哈佛商业评论》那篇广为人知的文章,让大家都开始了解了数据科学的魅力。我也是从2012年开始,决定与数据科学结缘的。”朝乐门笑着说。作为一个学院派出身的数据科学研究人员,他非常重视一门学科的沿革。“当时我花了一个月的时间去了解、认识这个新兴的学科,最终决定一心一意做数据科学,开始重构自己的知识体系。这是一件非常有意义的事情。”

(图片说明:2016年11月,美国时任国防部长Ash Carter 授予白宫首席数据科学家 D.J. Patil 国防部杰出公共服务奖章;图片来源:Air Force Tech. Sgt. Brigitte N. Brantley

2015年,奥巴马政府曾聘请了 D.J. Patil 担任白宫首席数据科学家,用数据科学的经验和方法,帮助推行其超过2亿美元的“精准医疗计划”。当时这对全球的数据科学家来说是一个标志性事件。作为《哈佛商业评论》那篇著名文章的作者之一,Patil一直是数据科学界的领军人物,他在白宫得到的认可,正式意味着数据科学作为一门学问,开始从混沌走向清晰。

建构系统的理论体系

虽然如今关于“数据科学”的讨论已经进行了多年,但还有很多人对这门学科存在一些误解。在朝乐门的教学过程中,经常会有学员提出疑问:人们怎么会对枯燥的数据产生兴趣?数据科学究竟是不是一门“伪科学”?它与统计、计算机、数学等传统学科的界限在哪里?等等

在朝乐门的经历中,他也曾被这些问题所困扰。朝乐门坦言,其实他也没有一开始就对数据很感兴趣。他首先是对编程感兴趣,后来才逐步对数据产生了兴趣。

“我高中是在内蒙古师范大学附属中学就读的,是内蒙古最好的高中之一。1996年左右我们学校就有机房,开设计算机课程,任课老师是我最喜欢的数学老师。其实,我喜欢编程是因为喜欢这位老师。当时,他讲的是DOS命令,还用Basic语言做一个打坦克的小游戏,我们完全是照猫画虎,老师讲一步我们做一步。后来,陆续学了C、C++、Pascal、Foxpro、C#、Java,还用.NET、JSP和ASP给别人做系统。再后来,开始挣钱了,就更感兴趣了,哈哈。”朝乐门打趣道。

在自己早年的学习经历中,朝乐门是一个不折不扣的“程序员”,并没有对数据表现出什么浓烈的爱好,不过事情的转折发生在他攻读博士期间。

(图片说明:朝乐门在第十三届ICICKM“知识资本、知识管理和组织学习“会议中)

“我从小喜欢追明星,尤其是科学界的大牛。博士期间我做的是基于语义Web的大规模协同知识处理,因此做语义Web的Tim Berners-Lee,做知识管理的Thomas H.Davenport等是我当时最崇拜的明星。”。

有一天他突然读到Davenport和Patil在《哈佛商业评论》上的数据科学家文章,他觉得非常蹊跷——为什么自己的偶像都不说知识管理了,而是说数据科学呢?而且当时他还面临着一些专业上困惑。一方面,语义Web在研究进入低谷期,学界一直没有什么突破性成果出现;另一方面,他明白知识管理和知识工程的研究门槛较低,干扰很多,也较难输出有影响力的研究成果。

“所以,我做了整整一个月的深入调查和反思,自己到底何去何从。一个月后我做了一个决定,也是我一生的重大选择——把自己重新启动,并置零,一切从头做起,一心做数据科学,重新建构自己。” 在做知识工程的时候,朝乐门已经接触到了大量数据,有意无意地也尝试过一些大数据的方法。但在真正接触了这个领域后,他才意识到数据的魅力。

朝乐门认为,虽然数据科学是脱胎于计算机、统计学、数学等几个传统学科的交叉领域,但如今已经成为了一门独立的学科。他把数据科学定义为:一门以 “大数据时代”的新数据、新挑战、新机会、新思维和新方法为核心内容的,包括理念、理论、方法、模型、技术、平台、工具、应用和最佳实践在内的一整套知识体系。

“你会发现,现在几乎所有学科都会交叉大数据的内容,比如新闻就有数据新闻、与金融交叉出现了金融大数据、与社会学交叉出现了社会大数据等等。数据新闻、金融大数据、社交大数据等衍生学科再交叉的共同部分,就是数据科学。”

(图片说明:朝乐门对数据科学的“鹰”图分析)

朝乐门对数据科学有一个经典的“鹰图”,鹰的四肢分别是:统计学、机器学习、可视化和学科知识,躯干是数据本身的知识和体系。躯干是数据科学的基础,但是只有有了翅膀和脚,数据科学这只雄鹰才能起飞、落地,真正遨游在天际。鹰的头部是应用领域,脱离了具体应用领域,数据科学这只鹰就相当于没有头脑,不知飞翔何处。

哥伦比亚大学的助理教授 Rachel Schutt 在2013年出版的图书《Doing Data Science》是国际上第一本较完整介绍数据科学理论的教学作品。朝乐门在2015年出版了《数据科学》一书,系统介绍这门新兴学科,为数据科学的规范化、体系化研究,奠定了学术基础。

数据教育,依然任重道远

虽然数据科学起源于学院派的研究,但是最近几年互联网的飞速发展,吸引了一大批学者从学界转身进入业界,加速了产业界对数据科学的实践探索。

朝乐门认为,数据科学首先应来自于实践,而不是人们的头脑和逻辑推理,然后才能应用于实践。他告诉记者,“目前,虽然数据科学非常火,但是专攻数据科学研究的人太少了,数据科学的理论还需要进一步沉淀和系统梳理。就现在而言,社会和行业对数据科学的影响,要远远大于数据科学本身对社会和行业的影响。”

朝乐门这几年的工作,主要是以数据科学为直接研究对象,揭示和构建数据科学的理论体系。他在人民大学开设了《数据科学》等课程,非常受欢迎。他正在主持完成教育部-IBM产学合作协同育人课程建设项目《“数据科学导论”课程设计与教学改革研究》。他把这个系列课程搬到了网上,提出开源课程(Open-sourcing courses)的倡议,希望像开源社区一样去建设课程,使老师们从找素材、输入、排版等低级琐碎工作解放出来。

他的开源项目得到了全国高校大数据教育联盟的支持,目前有200多所学校的教师表示支持和加入到“数据科学导论”的开源课程建设中。

“数据科学起源于计算机、统计学等传统理工类学科,在传统的观念中,理工类的同学对这门课程可能感觉更加友好。”朝乐门说到,但是如今参加他课程的学生,大多来自不同的专业和背景,并不局限于传统理工类学科。数据科学已经成为了一门基础学科,正在频繁与其他学科产生交集和碰撞。

因此对朝乐门来说,培养学生兴趣而不拘泥于传统知识概念,是他在教学中最为关注的一个环节。“有些同学说,他对数据没有兴趣。这其实很正常,因为我们过去的基因中没有这个东西,它是新出现的事物。很多时候你知道的越多,你的兴趣自然而然就产生了。”

与传统的学科教育不同,朝乐门认为数据科学更加注重实战及兴趣培养,而不能局限于理论学习。对于多数人而言,兴趣并不是先天的,而是建立在自己的学习和坚持之上。

由于数据科学的内容较为流程化,在教学的时候,朝乐门经常会不断反思对这门新兴学科的教育理念。

“我曾做过一场很奇怪的噩梦,梦见我教过的学生回来看我了。但是奇怪的是,所有同学都穿着同样的工作服,好像都来自一家大企业,每人手上拿着一朵康乃馨,一起大声喊‘多亏了当年您教的那门课,您教的太好了,如今的我们都当上了经理啦!’。吓得我一身冷汗。惊醒之后,我就哭了,我开始恐惧自己的教育会失败。”朝乐门说,从此时候,他更加思考数据科学的个性化教育,不仅是为了让学生毕业去竞聘社会上的高薪岗位,更应该是培养他们的综合能力,让他们在未来二三十年,仍保持社会竞争力。

但是,如今国内开展数据科学教育的高等院校并不算多,大部分教授相关内容的都在职业教育领域。在朝乐门看来,如何培养数据科学的个性化教育,让这门学科成为素质教育的一部分依然任重道远。

数据产品才是未来

除了在大学担任讲师外,朝乐门还同时担任了章鱼大数据的首席数据科学家等社会职务,参与了很多商业项目的开发和讨论。

在章鱼大数据,朝乐门主要参与对数据战略的把控和数据产品的设计两个方面。在朝乐门看来,数据产品开发主要分为两种:一种是基于数据本身的产品,例如流量检测服务等;另一种就是让数据进入产品中,赋能产品,例如人工智能类的产品。

在朝乐门眼中,数据产品是数据科学中最重要的内容,它能够最快地结合产学研的优势,发挥出数据科学的商业和社会价值。“数据产品开发是数据科学的抓手,也是数据科学将对人类带来的最大贡献。”

数据产品并不限于“数据形态”的产品,而泛指“能够通过数据来帮助用户实现其某个目标的产品。以Google Glass为例,虽然其产品形态上看似乎是“眼镜类产品”,但从其主要竞争力之源看,却属于“数据产品”。

(图片说明:Google Glass 智慧眼镜;图片来源:Glass 官网)

他认为,数据产品开发主要关注的是如何将数据科学的理论融入传统产品开发实践之中,进而实现产品的更新换代和用户体验的提升。如果计算机科学的出现给我们带来的是软件产品,那么数据科学给我们留下的是数据产品,数据产品是数据学科领域产学研结合的中枢。

未来,数据产品开发将嵌入至传统产品的研发之中,二者的界限越来越模糊。数据科学家将成为未来产品从传统向智能过度的关键因素,以数据为中心的设计思维也将会是数据产品开发的主要思维模式。

同时,数据产品开发的兴起将推动数据科学的嵌入式应用。“数据科学将作为传统产品的创新点、增值点和竞争力之源,成为产品开发的必要环节,数据科学领域呈现出了高度融合的趋势”,在朝乐门看来,数据产品开发将是数据科学的最为直接、最为普遍的应用方式。

“Rachel Schutt 在加入哥大之前,曾在Google Research工作。她代表了未来数据科学家的职业道路:企业与高校双向流动。”朝乐门认为未来的数据科学家,一定是兼顾了学界和业界的经验与能力。

自从决定扎根这一行业,如今对于朝乐门来说,已经没有什么是比数据科学更重要的事了。“我现在奋斗目的只有一个,争取做到数据科学领域最努力的人,最舍得投入自己的时间和精力的人。其他的,都无所谓了。”

数据侠门派

朝乐门,中国人民大学数据工程与知识工程教育部重点实验室、信息资源管理学院副教授,博士生导师,章鱼大数据首席数据科学家;中国计算机学会信息系统专委员会委员、中国软件行业协会中国软件专业人才培养工程专家委员、全国高校大数据教育联盟大数据教材专家指导委员会委员

他在2016年出版了《数据科学》一书,是我国第一部系统阐述数据科学理念、理论、方法、技术和工具的作品。他另著有《数据科学理论与实践》《Python编程:从数据分析到数据科学》等作品。

数据科学50人

数据科学50人”项目是DT财经旗下数据侠计划重点内容产品,与数据科学领域KOL挖掘数据内容的价值。我们从商业数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布,第一财经数据科技及合作伙伴倾力支持。

加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加微信公号dtcaijing003并备注“数据社群”,合作请联系datahero@dtcj.com。

 

 

分享这篇文章到