期望最大化(洪亮劼的专栏) 分享技术、管理、团队和业界的思考

数据科学发展的一些感悟

上个星期,我参加了位于San Diego召开的一个工业界数据科学会议Predictive Analytics Innovation Summit。在这里分享一些参会后对于数据科学在工业界发展状况及前景的感悟。

感悟一:数据科学的思潮席卷各个行业


参加会议的代表来自各行各业,有互联网公司的数据佼佼者诸如Google、Bing、Netflix、Etsy(我所代表的公司)、Groupon;也有传统的金融产业公司Bloomberg、American Express、Visa;电信公司Verizon;保险公司Zurich;还有更传统的生产行业公司Bosch、Honeywell、Ford、GE Digital;以及一些你可能通常意义下不会认为是数据公司的代表诸如Weather.Com。除了这些有演讲内容的公司以外,还有不少医药行业的公司包括FDA的代表,以及很多其他行业的与会人员。总之从整体上看,对于数据科学的热衷已经席卷了各行各业。每一个行业都开设了诸如Chief Data Scientist、VP of Data Science的高端职位以及开始招聘各类数据科学家(Data Scientist)团队。每一个行业都在介绍自己是如何希望能够建立“数据驱动”(Data-Driven)的文化以及自己如何从数据中获益。每一个行业又是那么急切想从互联网公司、特别是已经在数据的使用和文化上有所建树的公司上得到启发和灵感。

感悟二:数据科学到底是什么,大家并不清楚


虽然数据科学的浪潮已经深入各个行业,但大家对于到底什么是“数据科学”,甚至什么是“机器学习”、“深度学习”抑或“人工智能”,其实都有一种“雾里看花”的感觉。很多公司其实并不太清楚这些感念之间的区别或者异同。比较传统的一些公司,甚至是把以前存在过的Business Analysis或者是Business Intelligence部门直接转换成为数据科学部门,感觉有一种为了抓住这个目前的浪潮不惜偷梁换柱的意味。而且究竟数据科学,甚至是人工智能的标签,能为各个企业带来什么根本的变化,大家其实可能心里有不太一样的期待,或者是并没有真正去了解自己的期望究竟是什么。比如有些企业其实只是把数据科学认知为简单的数据分析、有的企业其实也没有太多太大的数据需要真正复杂的数据科学流程和高端的数据科学人才。

感悟三:数据科学人才极度匮乏


尽管不同行业的各个企业可能还没有搞清楚数据科学到底意味着什么,但有一个共同的趋势,那就是各个行业的企业都发现了相关人才的极度匮乏。一方面,因为大家对数据科学的不确定性造成了其实各个企业并不是特别清楚自己需要的人才究竟是什么样的,也就造成了无法从现在的人才市场里清晰分别优质人才。另一方面,相对于几年前的“数据分析”人才而言,那时候公司还比较能够清晰得从统计背景的候选人中挑选,时至今日,数据科学或者人工智能人才需要全方面的背景,这使得入行门槛急剧增加。于是,目前造成的短期困境就是很多企业有大量职位空缺,但是从候选人池中很难找到如意的从事数据科学的相关人选。

感悟四:公司之间的巨大鸿沟


因为对于数据科学认识的匮乏和以及对于公司如何来利用数据科学的混沌,以及由于人才的匮乏这两个显著的特征所带来的另外一个目前一个比较明显的现象就是,传统行业或者互联网的中小企业和目前利用数据科学的佼佼者甚至是人工智能的领军企业只有有非常大的鸿沟。从数据驱动文化上,到如何利用数据上,到具体的技术链条上,到人才的管理和挖掘上,领先的企业已经把大部分的其他玩家给远远抛在脑后。行业与行业之间的鸿沟也非常明显。互联网企业已经建立起了一整套的数据工具、规范和流程以及人才池的培养,紧跟其后的是金融企业(这也是最近一段时间以来大家所宣扬的FinTech带来的结果),然后其他大部分行业都要远远落后。这里面也需要注意的是,从各行各业的对于数据的需求来看,并不是盲目地照搬互联网企业的所谓的成功经验就能够轻而易举地搭上这个数据及智能的快车。其实这也可能表明,很可能没有一个普世的数据策略,每个行业需要摸索最适合自己发展的行业数据科学文化和标准。

感悟五:数据浪潮方兴未艾


如果我们长期只看少部分互联网尖端企业而言,那么我们很容易陷入当前阶段已经达到人工智能高峰的假象。当然,也不能说这就是假象,只是说少部分企业在他们所在的领域有着巨大的优势。但是如果我们放眼所有行业而言,目前可以说还是数据科学方兴未艾的阶段,有着大量的机会。对于互联网从业人员来说,如何能够从自身的一些优势出发,走到其他行业中去,恐怕是接下来一个阶段大家需要思考的问题。