编者按:今天凌晨,知名数据建模和数据分析竞赛平台Kaggle发布了他们首个数据科学&机器学习全行业调查,他们向全球从业人员发布了问卷,并回收了超过16000个有效答复。在这份报告中,Kaggle展示了数据工作者的人员构成、机器学习的发展前沿及行业新人高效融入学习工作的方法,并得出了一些有趣的结论。值得一提的是,虽然近年来中国对人工智能的重视程度达到了前所未有的程度,但这份报告显示的大陆人才情况恐怕不容乐观,未来,90后、95后将成为AI事业的拓荒主力军。
在报告开头,Kaggle首先列出了一些有趣的结论:
虽然Python可能是行业内最常用的工具,但更多统计学家表示更倾向于使用R语言;
全球数据科学家的平均年龄约为30岁,但具体数值因国别、地区而异。如在接受调查的人群中,印度数据科学家就比澳大利亚的平均年轻9岁;
数据科学&机器学习从业人员的学历大多是硕士,但在年薪15万美元的受访者中,拥有博士学位的人更多。
(官方已封装了匿名调研数据集,文末附地址)
首先,Kaggle调查了数据工作者的工作和学习背景。
年龄结构
根据统计数据,Kaggle调查对象的平均年龄是30岁,但这个数据会因地区产生差异。
以中国为例,香港数据工作者的平均年龄是31岁(66个样本),台湾的是28岁(254个样本),而大陆(内地)的只有25岁(463个样本)。其中,大陆的数据工作者在年龄分布上十分不均匀,40岁以上所占比例非常小,这一方面可能是调查样本不足,影响了统计的准确性,另一方面,这可能也正是我国目前人才构成的一个缩影——AI事业刚刚起步,缺乏前人打下坚实基础。
除地区外,性别也是一大影响因素,报告显示女性受访者的平均年龄在28岁(2714个样本),男性则是31岁(13427个样本)。虽然两者的主要年龄段都集中在25岁上下,但是40岁以上男性所占比例较女性更高。
就业情况
下图是Kaggle统计的就业情况,据图中数据可知,目前全行业就业情况总体颇为乐观,受访者中全职工作者占比高达65.7%,自由工作者占8%,5.5%的人已有兼职工作,另有12.7%正在寻找工作。考虑到受访者的年龄构成和学历构成,未就业的人群中学生应当占据相当大的比重。
以上推断在大陆的就业情况分布图中可见一斑:全职工作者占比低于平均水平,只有53.5%,但在未就业人群中,有17%的受访者表示目前没有找工作的想法,而根据大陆女性受访者(74个样本)的反馈,这一比例是24.3%。相较于毕业后直接入职,有一部分学生还是更愿意选择继续在这一领域深造。
就全球来看,男性数据工作者总体受聘比例更高(67.2%全职),而女性就业意愿更强(16.6%正在寻找工作),也更愿意拓宽工作形式(兼职8.1%、自由工作者6%)。
工作岗位
虽然Kaggle把“数据科学家”定义为使用代码分析数据的人,但在实际调查中,他们发现其实有大量岗位属于数据科学研究领域。如在伊朗和马来西亚,最受数据工作者欢迎的工作岗位是“科学家/研究员”。
而在国内(除港台地区外),由于数据科学是近年来刚兴起的概念,即使是像BAT这样的大公司,他们都没有明确数据科学家(data scientist)的岗位工作,所以相应从业人员也会在具体岗位上做出不一样的选择,如排名首位的机器学习工程师(machine learning engineer)其实也属于数据科学工作者。
年薪情况
在对受访者的调查中,Kaggle发现比起“薪酬福利”,他们更看重“职业发展前景”,但以下的调查数据可以为行业合理薪资提供一个大致的参考。据了解,全球数据工作者的平均年薪是55441美元,约合人民币37万。
美国互联网行业的高薪众所周知,在数据科学和机器学习领域,美国从业人员的平均年薪为11万美元,是全球平均值的两倍,约合人民币73.7万,其中又以机器学习方向的工程师平均收入水平最高。而被戏称为“土澳”“澳村”的澳大利亚表现也不俗,数据科学工作者的平均年薪竟高达96277美元。此外,随着硅谷巨头纷纷在多伦多建立AI实验室,加拿大相关岗位的年薪也水涨船高,达到了70013美元。
中国大陆受访者中参与此项调查的只有66人(66个有效样本),显示的结果是平均年薪29835美元,约合人民币20万,考虑到样本过少,这个数值的可信度应该不高。台湾44名受访者的平均年薪是30307美元,香港地区则因数据过少,没有统计数据。
受教育水平
以上的薪资水平确实让人心动,一般来说,数据科学工作者的学历大多是硕士,但在高薪人士(年薪150k—200k美元或200k美元以上)中,拥有博士学历的人占据多数。
和全球趋势相同,中国大陆和美国的受访者以硕士学历者居多;英国更注重受教育程度,业内博士占比高达30.3%;而在澳大利亚和印度,本科生占比居首位,后者的比例更是高达52.5%。
Kaggle把数据科学家定义为“编写代码以分析数据”的人,在调查中,他们搜集了工作生活中常用的工具信息,以下是一些亮点:
工作中使用的数据科学方法
提及数据科学方法,逻辑回归无疑是使用最为频繁的一种,除了在军事和安防领域(神经网络的使用频率更高),它几乎适用于各行各业。
在高校,使用最频繁使用的前五种科学方法依次是逻辑回归、神经网络、决策树、随机森林以及贝叶斯网络。
工作中使用的语言
虽然Python是整个数据科学行业最长使用的数据分析工具,但是统计学家还是更倾向于使用R语言。
工作中使用的数据类型
关系数据是各行业最常用的数据类型,但学术界和军事安防领域更青睐文本数据。
工作中共享代码的方法
尽管大多数受访者表示自己使用Git共享代码,但大型公司的员工更偏向于把代码保存到本地,并使用电子邮件等软件共享文件。而在小公司,把代码上传到云也是一种更灵活的选择。
工作中遇到的困难
提到数据科学工作中的最大困难,脏数据(dirty data)无疑是第一选择。一般来说,脏数据是数据科学家工作中最常见的问题,即便是最细心的工程师,他也可能会以为一个小纰漏反复回滚,这一点在公司行政、财务管理系统中表现得尤为明显。脏数据堪称数据科学家工作道路上的荆棘。
当一个行业后辈开始规划自己的职业道路时,获得前人的成功经验是十分有帮助的。Kaggle的最后一块调查内容是数据科学工作者的工作成长历程:
先学什么语言
“先学什么语言比较好?”这几乎每个新人都会提出的问题。事实证明,每个数据科学家都应当对自己掌握的语言有一定了解,而其中使用Python和R语言的受访者认为他们做出了正确的选择。但是,如果你让同时使用R和Python的开发者二选一,那推荐Python的比例是三分之二。
有趣的是,在只使用Python的受访者(1954个样本)中,推荐Python的比例高达89.2%,推荐R的只有1.6%,低于C、Matlab和SQL;而在只使用R语言的受访者(999个样本)中,虽然推荐自己语言的比例是63.3%,但也有19.4%的人推荐使用Python。这两个群体对SQL都持积极评价。
去哪儿寻找学习资源
既然找到了学习工具,那第二个问题自然是学习资源。数据科学是一个快速变化的领域,拥有一些及时、宝贵的学习资源能培养你的前瞻性和大局观,让你始终行走在行业前沿。在受访者中,已经在数据科学行业工作的人更喜欢使用Stack Overflow Q&A、Conferences和Podcast来使自己保持竞争优势。同时,刚入行的新人常用的渠道有YouTube和官方平台,如果你想发布一些内容或开源软件,可以参考他们的访问偏好。
去哪儿寻找开源数据
没有数据,何谈数据科学?入行数据科学,知道如何找到用于实践和项目的优质开源数据集是一项非常有价值的能力。
怎么找工作
如果你想找一份数据科学领域的工作,上意向公司官网,或通过特定招聘平台搜集岗位招工信息都是不错的方法。而更优的方法是在前期就建立号社交网络,结识意向公司的招聘人员和相关岗位的在职人员,循序渐进地进入这个行业。对于刚离开象牙塔的新人,直接找熟人“托关系”是最不利的方法之一。
以上所有数据均来源于Kaggle 2017年数据科学&机器学习调研。为了方便统计,统计人数少于50人的国家/地区被归类为“其他”组,在可能有多种回答的问题中,一些排名靠后、占比极小的回答已被剔除,所以文中显示的比例是一个大致的值。
Kaggle报告地址:www.kaggle.com/surveys/2017
Kaggle数据库地址:www.kaggle.com/kaggle/kaggle-survey-2017
Kaggle原始问卷地址:www.kaggle.com/amberthomas/kaggle-2017-survey-results