数据科学发展的一些感悟
2017年 3月 2号上个星期,我参加了位于San Diego召开的一个工业界数据科学会议Predictive Analytics Innovation Summit。在这里分享一些参会后对于数据科学在工业界发展状况及前景的感悟。
上个星期,我参加了位于San Diego召开的一个工业界数据科学会议Predictive Analytics Innovation Summit。在这里分享一些参会后对于数据科学在工业界发展状况及前景的感悟。
今年初,Intel传奇领导人物安德鲁格罗夫(Andrew Grove)病逝。格罗夫的很多思想在90年代WinTel时代曾对中国的早期IT产业带来巨大启发。他所领导的Intel几乎是个人电脑时代的代名词。而他所著的《只有偏执狂才能生存》作为危机管理的经典著作,影响了好几代人。最近买了这本书的原版来阅读,感触良多,在这篇文章中和大家分享一些读书心得。
看了韩春雨的事迹以后,很是感动,我于是在微博上谈论一下简历背景是否等于一个人的成就和水平,里面谈及了一些在招聘科学家过程中的遇到的经历和水平的问题。后来,我感觉需要系统得总结一下招聘科学家的流程,一是为了记录下在招聘过程中的一些思考,另一方面也是为了帮助年轻学者或者博士生,能够提高自身的水平。当然,一个高水平的流程,也是对自己的一种鞭策。我时常也会想,在这样的流程里,我是否能够体现自己的能力和水平。
前一阵子,有一篇新闻文章叫“雅虎记者的困扰:与卡戴珊的屁股竞争”,讲的是雅虎公司的一群高级记者所写的文章与推荐系统所推荐的文章相互竞争协调的事情,里面提到的现象可能很多做推荐系统开发的人都感同身受,似曾相识。那么今天,我们不谈具体的公司具体的案例,而来聊一下推荐系统开发中遇到“推荐结果和自己的直觉不相符合怎么办”这个事情该怎么办。
上一篇文章讲到,一个推荐系统,如果片面优化用户的喜好,很可能导致千篇一律的推荐结果。文中曾经用了一节来讨论为什么使用Exploitation & Exploration (E & E)结果可能依然不能“免俗”。其实,E & E是推荐系统里很有意思,但也非常有争议的一个算法。一方面,大家都基本明白这类算法的目的,每年有很多相关论文发表。另一方面,这是工业界对于部署这类算法非常谨慎,有的产品经理甚至视之为“洪水猛兽”。这篇文章就是要分析一下导致这个现象的一些因素。
最近,有一位网友在微博上说,推荐是不是个伪命题?连续几天试用了据说很好的某头条,某资讯以及某快报,感觉逃脱不了看什么就是什么的套路。也有人说,这是Exploitation & Exploration出了问题,没有很好得Exploration导致的结果。那么,个性化推荐到底是不是伪命题呢?为什么很多推荐系统过了一段时间以后就老是推荐类似的东西呢?本篇文章就要尝试分析和探讨这个“千篇一律”的问题。
经过一段时间的思考,我决定开一个技术、管理和团队的专栏,分享和探讨关于大数据、人工智能(AI)及机器学习(Machine Learning)的话题,以及这些相关技术的行业思考。在已经有不少优质内容(包括博客、微信公众号)的情况下,我希望这个专栏能够更加专注、专业,少一些关注个别技术的细节,多一些对数据在一个生态系统中的把握以及行业动态的分析。