造就数据科学家(转)

我们意识到当企业不断发展,我们都需要弄明白如何称呼团队的成员。我们觉得大多数研究科学家从事的是比较创新和抽象的,我们组织的注意力集中在数据应用上,这些工作通常对于商业业务有着直接和巨大的影响。因此最最适合的称呼应该叫做“数据科学家”——那些使用数据和科学来创造新事物的人们。

结合自身的经历,从NLP开始,到在研究所做数据的TEI结构设计,再在欧盟DARIAH上介绍这个结构,以及目前手头在做的语义网,无一不是在和数据、结构打交道,始终困惑这应该属于什么类型的职位,看到这篇文章实在是帮我找到了一个位置,希望有相同困扰的朋友也看看。

当Jeff Hammerbacher和我谈到我们的数据科学团队时,我们意识到当企业不断发展,我们都需要弄明白如何称呼团队的成员。“商业分析师”看起来太受限了。“数据分析师”是考虑的对象,但我们感觉这个称谓限制了人们所能做的事情。总之,我们团队的很多人都是专家级工程师。“研究科学家”是比较合理的职位名称,通常被Sun、HP、Xerox、Yahoo和IBM这些公司使用。然而,我们觉得大多数研究科学家从事的是比较创新和抽象的,而且工作与实验室之外的那些产品开发团队是隔离的。通常来说,实验室的研究成果能用于公司关键产品需要好几年(大部分都无法最终转化为产品)。我们组织的注意力集中在数据应用上,这些工作通常对于商业业务有着直接和巨大的影响。因此最最适合的称呼应该叫做“数据科学家”——那些使用数据和科学来创造新事物的人们。

(注意:尽管“数据科学”这个词已经有很长的历史,通常是在商务智能中出现,但是“数据科学家”却是新的东西。Jeff和我都曾询问过别人有没有见过这个称呼,结果是没人见过。)

但是你如何找到数据科学家?一旦有人问起这个,我就让他们去思考一个更加根本的问题:什么造就一个好的数据科学家?下面是我的观点:

  • 技术专长:最佳的数据科学家通常在某个科学领域具备很深的技术专长。
  • 好奇心:一种透过表象、发现和提取一个问题,使之能够通过建立在一组清晰的假设集合上从而可以对其进行验证。
  • 故事性:能够借助数据讲出一个故事,并有效地进行交流。
  • 聪慧:能够从不同的、更有创造性的角度来观察一个问题。

人们常常假设数据科学家需要计算机科学的背景。以我个人经历,并不是这样的:我们的最优秀的数据科学家有各种背景。LinkedIn的People You May Know的发明者就是一个实验物理学家。我团队的一个计算化学家曾经解决了一个有了100多年历史的水的能量状态问题。一个海洋作图师在我们做欺诈行为分析的过程中产生了重要的影响。可能最令人诧异的是神经外科医生摇身一变而为一个发现数据中潜在的丰富趋势(trend)的魔术师。

所有顶尖的数据科学家都有着与生俱来的好奇心。他们的好奇心宽广远超每天的活动。他们对公司、商务、产业和技术很多不同的领域都有浓厚的兴趣。所以,他们经常可以将分隔开的领域以一种全新的方式整合起来。例如,我曾遇到数据科学家观察研究销售过程从而认识到以全新方式来使用数据,可以让销售团队变得更加高效。还有一些数据科学家将新颖的DNA序列技术应用到欺诈行为检测上。

是什么将这些人统一起来?他们都拥有强大的技术背景。大多数有着较高的学位(当然我也曾经和若干卓越的没能大学毕业的数据科学家一起工作过)但是实际上真正统一的线索是所有人在开始现实工作前都不得不处理大量的数据。

当我研究生一年级时,我对天气预报很感兴趣。我曾想过如何去理解天气的复杂性,但是需要大量的数据。大多数数据在线可获得,但是由于其规模,数据总是以特殊的形式存在并且遍布在不同的系统上。为了使数据能为我所用,我创建了一个系统可以兼顾到部门的每台电脑(从上午1点到8点)在那段时间内,系统可以获取、清洗和处理数据。一旦完成这些工作,最终所得的数据集将轻易被放入一个计算机的内存中。这就是全部的秘密。这项繁重的工作是我进行下一步研究的必备步骤。好的数据科学家深深地明白清洗和准备在某种程度上意味着问题所在,并不是简简单单的准备工作。

下面是一些数据科学家需要得到训练的例子:
1. 找到丰富的数据源
2. 处理存储大数据的硬件、软件和带宽限制
3. 清洗数据,确保数据的一致性
4. 将多个数据集合混合起来
5. 可视化数据
6. 建立丰富的工具保证其他人高效地使用数据

原文地址:http://www.jianshu.com/p/1d7750bc8abd

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.