黄文坚:明略数据挖掘负责人&技术合伙人本科硕士毕业于香港科技大学电子计算机工程系。硕士的研究工作获Mobi Com最佳移动应用技术奖,并获两项美国专利及一项中国专利。参加阿里巴巴大数据推荐算法大赛,于7000多支队伍中获得前10名。毕业后工作于阿里巴巴搜索算法部门。后加入明略数据,现任明略数据挖掘组Leader、技术合伙人之一,负责公司的算法建模工作。Tensor Flow Top 30 Contributor.兴趣领域包括深度学习及量化交易。
最近一段时间让黄文坚略感郁闷的是,由于经常要去见客户,而且还有好几个大的项目同时在做,他在谷歌最新人工智能学习开源社区Tensor flow的contributor排名,已经略降到22名,而一个月前他的排名还是在Top20之内。著名的Alpha Go有很多算法就是用Tensor flow的算法进行训练后得到的,从某种意义上说,黄文坚也可以算作“Alpha Go战胜李世石”背后的男人(之一),虽然他自己并不愿意这么形容。
黄文坚
作为一个人工智能和深度学习的从业者,黄文坚非常看好自己正在做的事情。尤其在Alpha Go 4:1大胜李世石后,他更加坚信自己从事的工作真的是恰逢其时。
在他看来,未来包括像驾驶、收银、保洁等一些简单的服务性劳动都将被机器和算法来替代。“这一块如果实现的话,以后整个就业形势可能就会有一个很大的改变。只有真正需要人脑,就是机器做不了的工作会保留下来。”
在人工智能领域,黄文坚认为很快就会产生巨大商业价值和社会价值的应用。“搭上一班大车,这个领域的发展趋势会特别好。”
黄文坚在Tensor flow的contributor排名
从阿里巴巴大赛到阿里巴巴“大师”2014年夏天,在香港科技大学攻读电子计算机工程硕士的黄文坚即将毕业,原计划准备继续读博的他,在暑期报名参加了阿里巴巴大数据推荐算法大赛。
当时参加这个比赛的初衷,黄文坚坦言是为了感受真正的大数据是怎么运作的。
“有很多声称数据量的公司,可能都没有达到几T的量级,而阿里有几十上百PB的数据量,五六千台服务器,可以真实的感受到这个大数据平台运作方式,还有这个数量级上的准确分析和数据挖掘,这是非常吸引我的。”
阿里这届比赛吸引了全球教育机构超过7000支队伍参加,黄文坚所在的队伍“大师威武”最终脱颖而出,在“准确率”和“召回率”两项核心指标的评判下获得了前10名的的好成绩。
“大师威武”队中其实只有他自己一名队员。
一个人的“大师威武”代表队
比赛的前十名都受邀获得了阿里面试的机会,本来黄文坚想去做更喜欢的推荐算法,不过来自天猫搜索部的面试官和他只聊了一次,就把他招入了自己的部门。就这样,“大师威武”就正式加入了阿里。
在搜索部门期间,黄文坚做了两个比较大的项目,一个是搜索个性化排序,还有一个基于以图搜图的推荐。
黄文坚当时的部门叫天猫搜索算法组,有将近20人,所有和天猫搜索排序相关业务都是他们来做。黄文坚刚开始负责的是个性化搜索项目的算法部分,“因为算法这个东西,几个人在一起只能商量一下算法特征,但中间的模型优化和调试,只能靠一个人,不是像软件工程那样可以并行化。”
搜索个性化排序的项目进行了有半年的时间,上线之后用户点击率和转化率提升明显,而且在浏览体验性上有显著改善。通常搜索出来都是很相近的爆款,有了个性推荐,可以看到一些自己可能更喜欢的小众一点的商品。
在这背后是黄文坚和同事们所做的“用户画像”,包括性别、年龄、购买力、风格偏好等等几百个特征维度,这些特征维度之间会形成组成,又形成几十万个高维度组合,最终产生的数据量是十几亿条真实点击和提升了3%的购买转化率。
在黄文坚看来,阿里的总体文化还是比较宽松开放的,并没有刻意提倡所谓的“狼性”。“当然有重要事情的时候,我们都会坚守,比如双11。我们的算法要在双11中发挥效率,监控和修复必须通宵坚守。”
那一年的双11让黄文坚印象深刻,整个阿里杭州园区大概有3万人,仅仅同事们自己买的东西,把一栋特别大的楼的大厅全部堆满了,大概半个多月后才把所有快递拿完。
黄文坚本科时在机器人比赛获奖的合影
大数据的掘金者在阿里工作一年后,黄文坚从杭州回到北京,加入明略数据。一方面是可以方便照顾北京的父母,另一方面可以接触更先进的技术。创业公司比较自由,可以通过自身的情况和方法使用一些更新、更先进的工具和组件。
“在这边我们有专用的服务器,可以让我们训练精度很高的神经网络,这可能是只有在创业公司才有时间和精力让你去尝试。”黄文坚表示。
在明略黄文坚负责公司大部分数据挖掘项目的工作,面向的客户如很多银行、保险公司、制造业公司。“他们会有一些大量数据不知道怎么用,我们就帮助他挖掘。”在服务一家保险公司时,对方期望能做到30%的复购准确率,最终的结果达到了50%。“客户非常非常满意,大大超过他们的期望。”
让黄文坚印象最深的数据挖据的案例是一个高铁制造业客户,在世界任何一个国家,高速铁路的安全性和故障率都有非常严格的要求,一旦出现宕机或者其他故障就会造成非常严重的损失。有数据表明,如果一辆高铁在铁轨上出现故障,每一分钟的损失都将达到数十万元级别。
黄文坚和同事们所做的事情是,根据高铁上几百路传感器信号,在完全无法了解这个信号含义的情况下,将它们放到一个深度学习的模型中,进行故障分类和预测,最终准确率超过90%。
预测发生类型的故障只是第一步,第二步是预测故障什么时候能发生。“例如我们预测接下来一天某些故障类型隐患可能会比较高,接下来就要精确预测,比如提前15分钟或者半小时的预报,而不是概率上的风险预测。”
黄文坚作为数据挖掘团队的负责人,由于项目的需求,因此会去见客户。一方面谈要用客户的数据做什么内容,另一方就是实际到客户的服务器上进行数据挖掘和分析,还有评测上线等工作。去见客户时必须着正装,但在日常,技术出身的他还是习惯于穿T恤。“现在有三分之一的时间在见客户,有一半时间做项目,剩下六分之一时间是在指导其他同事技术性的问题。”
和公司其他部门一样,黄文坚也会鼓励他的同事参加一些比赛,包括像他之前参加过的阿里的推荐算法比赛,包括国外的比赛,或者是鼓励他们在开源社区提交代码,做一些技术上的提升。“这可能不一定直接对公司带来价值,但是我们希望同事们在技术上是最优秀的。”
Alpha Go和人工智能的黄金时代今年2月,黄文坚加入了谷歌最新人工智能学习开源社区Tensor flow,成为其中一名contributor,而他的排名曾经长时间位居Top20。Tensorflow是去年11月才开源的一个深度学习平台,仅仅七八个月的时间,就已经在GitHub官网上获得接近3万的star(点赞、持续关注),这个star的数量比其他开源社区的总和还要多。
黄文坚对谷歌的技术水平非常信赖,所以当Tensorflow出来后,全球的程序员和从事数据挖掘的研究从业者都反响强烈,著名的AlphaGo系统有很多算法就是用Tensorflow的算法进行训练后得到的。
在AlphaGo3月份和李世石开始五番旗比赛之前,黄文坚觉得AlphaGo获胜难度很大,毕竟围棋的难度非常大,AlphaGo能赢一盘不错了,但是最终结果反而是出乎意料的,就是碾压性的获胜。
最终AlphaGo获胜后,黄文坚更加坚信自己从事的工作真的是恰逢其时。“搭上一班大车,这个领域的发展趋势会特别好。”
Alpha Go和李世石对弈五番棋
黄文坚认为,围棋更多还是一个象征意义,其商业价值并不是很大。未来包括像自动驾驶、一些简单的服务性劳动都将被机器和算法来替代。“这一块如果实现的话,以后整个就业形势可能就会有一个很大的改变。只有真正需要人脑,就是机器做不了的工作会保留下来。”
在人工智能深度学习领域,黄文坚认为会有三个应用会很快产生巨大的商业价值和社会价值。
第一个是自动驾驶。这个自不必多说,包括谷歌和其他很多公司都已经走到了商业化前夕。
第二个是用深度学习和机器学习做基因精确诊断。如果能提前将基因做检测,预测风险,会大大降低患某种癌症或者其他疾病的风险。“在这种情况下,深度学习可以发挥作用。我们可以把全球60亿人所有基因和患病史做一个统计性的风险分析,这关系到医疗健康,一定会有非常大的前景。”
第三个是使用深度学习做量化交易。事实上美国现在70%的交易,都是程序化的交易。“深度学习是一个很好的点,因为量化交易直接跟钱接触,只要算法运作的准,就可以在二级市场中获利。”
黄文坚评价自己是一个追求很远很大计划,但会慢慢分析一步一步去做的人。“我最开始读研时的想法,是想通过自己的研究来做出一些技术上的贡献。但是后面改变了想法,先通过工作有了一定的资金,再投入到研究,这样就可以雇佣更多的人来做这方面的工作。我觉得这样带来的价值更多一点,就暂时放弃了学术研究这条路。”
对于人工智能未来会发展成什么样,业界和舆论界都有非常激烈的争论。一派认为发展人工智能是非常危险的,代表人物包括马斯克、盖茨和霍金;一派以扎克伯格以及谷歌内部从事实际应用深度学习的科学家为代表,他们认为这种可能性很小。
而黄文坚说自己处于两派之间,但他认为很多年之后,人工智能一定会超越人类。他举了一个最极端的例子:未来计算机通过神经网络有了一些自我意识,给“他”摄像头、听觉、触觉,还有一些记忆后,“他”就具备规划自己未来事情的能力,可以思考更复杂的问题,开始逐渐更像人,最终的结果就产生了一种新的生命形态。
“但如果真到那一天也没什么可惜的,因为人类毕竟也只是生物进化过程中的一部分。”黄文坚说。