如何变成一个数据科学家?

本文是翻译,版权归原作者所有


最近我收到一封email,如下所示几行:

我是一名聪明的喜欢统计学的前工程师。我想成为一名数据科学家。对于我来说,我要在创业公司找到一份做数据科学的工作的难度有多少?

我想很多人都面临这个问题。找到一名优秀的数据科学家是多么地困难,这是相当普遍的,有些意思。我回复了一封email,多多少少和下面的文章一样——这是关于如何被雇佣的想法,从实际上真正想找到更有才能的数据科学家的某人的眼光看的。

数量直觉

我首先关注的是通常的数量感。这真的是最低要求。某人是否知道柯西分布【注1】什么的,真的不重要。我想要的是看看在思考数量上的事情时,有多少信心。我谈到的例子有:

哪个更好:每周留存用户加倍,还是你的网站首次访问用户数加倍?

(答案:留存,很明显,组合兴趣是相当重要的)

Twitch任何时候有大约10,000个在线主持人,大约400,000个观众。你认为主持人的观众分布可能是什么?或许画个柱状图?哪一个更高:平均数或者中值?

(答案:它们应当在一小组频道里有一个非常陡峭的集中的观众,分布于大量数据组的相当一部分人都能注意到随处可见的幂次分布【注2】)

编程技能

其次,我关注编程技能。这没有数量感重要,因为它可以教,但是教会花费大量时间,因此它还是相当重要的。强调一下,不要太关注,大部分人愿意亲力亲为。例子:

文本文件有200万行日志,我想让你调出IP地址为61.22,33.4的行。不要想太多。

(答案:我真正检查的是它们不要过度思考——简单,直接的解决方法是我们想要的。这是一个真正简单的问题,他们应该认识到,不要支支吾吾或自作聪明。正则,用Python、Perl、grep的子字符串匹配——都可以。目的在于你是否意识到它是简单的。)

你了解SQL多少?用过MapReduce吗?用过AWS吗?用Python多吗?在R上面投入过时间吗? (答案:我没有期望任何人对所有这些问题或任何技术说yes,这只是表明了经验的广度,更重要的是它预测了他们能够多快做真正的工作,因为那很好地囊括了我们的工具集)

业务知识

第三个要关注的是业务知识和创新。这难以评估,但它很可能是最重要的方面。我们这一行的知识深度是相当有帮助的:它让某人把数字放到上下文环境,给他们一个什么是合理的感觉。

那是至关重要的。雇佣一个不知道什么是“合理的”的数据科学家是真正危险的,他们难以区分bug或脏数据。

我通常要求他们谈谈他们在Twitch最初几个月里有兴趣研究的地方。糟糕的回答:“我想使用集合方法组成深度学习来做出推荐!”,好的回答:“我想找到从不成功的主持人里区分出成功的英雄联盟的主持人的计划!”

哦,还有惯例

整个时间,我还要试着评估一些难以捉摸的,比如

人无完人

粗略一看这貌似是一个恐怖的要求清单,但我不认为这个要求在任何领域都是非常高的,真的。难点在于找到一个这三个方面表现合适的人。

大部分创业公司需要通常的数据科学家;做了大量机器学习的Kaggle【注3】冠军在一个创业公司没有足够要做的工作,不会编程的分析员需要太多的支持。因此,目标是比其它方面更多的技能广度。我打赌在Twitch之外的很多大公司,这是不同的,那仅仅是我的经验。

这就是说,理想是丁字形的人,他比目前小组的人至少在一个领域突出,便于他们能够相互帮助,共同提高。

成为通才!

不管怎么说,我希望这能够给你一些在招人上面所考虑的思路。我认为每个公司不应当持有和我相同的标准——越小的公司越要关注通才和聪明人,而越大的公司越要寻找更专业的人,他们在某一方面做得尤其好,但是我认为通常的规划是相当普遍的。

现在到了加广告的最佳时机:Twitch正在疯狂招人!它是工作的好地方,你会喜欢的。千真万确。

原文地址:http://spenczar.com/posts/2014/Mar/08/what-i-think-when-interviewing-data-scientist/ 注1:http://zh.wikipedia.org/zh-cn/柯西分布 注2:幂次分布:http://mmdays.com/2008/11/22/power_law_1/ 注3:Kaggle:http://tech.qq.com/a/20130429/000012.htm

译文:如何变成一个数据科学家? 》| 腊八粥