巴蜀网

 找回密码
 免费注册

QQ登录

只需一步,快速开始

开启左侧
查看: 107|回复: 0
 上官123 发表于: 2018-1-14 18:35:00|显示全部楼层|阅读模式

[纪实·新闻] 想成为真正的数据科学家,除了资历你还需要这4个技能

 [复制链接]
源自:雷锋
Bm8i-fyqrewh5442303.jpg
雷锋网 AI 科技评论按:「数据科学家」可谓是从「大数据」和「机器学习」双双开始普及之后催生的热门职位之一了,许多接触或者学习了机器学习的学生和程序员都期待自己能够成为数据科学家。
  不过,从「会洗数据写代码」到「优秀的数据科学家」之间到底有多少距离,很多人都说不清。对于不同的企业,数据科学家的作用会有各种各样的不同,甚至同一个企业中不同团队的数据科学家都会有不小的区别。就算是想要为自己的数据科学家构建一个标准成长路径的企业都会觉得非常苦恼。
  如果没有清晰的成长路径,这些充满天分的计算机魔法师们就会有遇到瓶颈的风险。他们可能很擅长做出深刻的发现,但是他们可能永远都无法真正地成长、永远都无法带来企业所期待的真正的投资回报。
  带着这个问题,the Seattle Data Guy 采访了西雅图周边的许多顶级科技企业的管理人员,尝试了解他们对企业里的高级数据科学家有哪些期待、希望数据科学家有哪些产出。这些他们了解到的信息相信不仅可以帮助想要成长的数据科学家,也可以帮助想要激励数据科学家成长的企业管理者们。雷锋网 AI 科技评论把他们的发现介绍如下。
  根据访谈得到的结果,the Seattle Data Guy 发现科学家的成长和编程、算法设计都没什么关系(这都是初级数据科学家的基本功了)。当问及这些管理者希望从更资深的数据科学家身上看到什么时,得到的回答是「自我驱动的员工,他们能简明地沟通、能为自己考虑、对公司业务有深入的了解,而且能管理自己的上级」。
  为了让数据科学家成长,他们迎接的挑战也需要超出工作的技术部分之外。数据科学家是有机会改变公司决定的一群人,他们的肩膀上担负着责任;这也意味着他们应当对自己的工作内容有主人翁感。他们要能够质疑自己的数据来源、对信息的洞察要简明扼要、了解公司的业务并且能够帮助自己的上级领导。
不要仅仅质疑自己的结论,还要质疑自己的数据  一个资深的数据科学家不会在拿到数据后就直接信任它的。他们会反复查验数据,寻找其中的偏移、丢失的数据、重复数据等等。
  数据总会有自己的缺陷。如果你也曾在数据上花过成百上千小时,那你一定知道这是什么意思。当你在数据中浏览,或者把数据绘成图表的时候,你常常会发现一些奇怪的模式,你会不禁停下来琢磨:「为什么 x 和 z 看起来这么像?」年轻的数据科学家往往会花太多精力在完成项目本身上,他们还没有学会如何停下来仔细分析这些奇怪的模式。这些模式的出现有可能是因为系统的默认输出就是-1 或 1 这样的特定值,也有可能是让爬虫收集电商网站上的顾客购买数据时出现了偏差,以及其它一千多种可能的原因让数据产生了误导性。
  出现了这些模式不代表数据就一定是错误的、没法使用的。而且即便收集到的数据准确的时候,对数据的操作也还总会带来一些瑕疵。当设计报告、算法和量测指标时,这些因素都应当被考虑到其中。一个有经验的数据科学家不仅仅会尝试寻找数据中的缺陷,他甚至会期待着这些缺陷出现。
  「可信数据源」这个词汇会经常在数据团队中出现。它所指的就是多个团队都能认可正确性的原始数据源。作者自己刚开始做数据科学家的时候就非常天真,在最早的一个项目中,他了解到了他们团队把一个数据源标识为了可信数据源。然后在接下来的几个月里他都在为这个「可信数据源」开发分析和应用工具,以便超过 200 位管理者和总监可以访问这个数据源。不出意外地,没过多久就发现别的一些量测指标出现了一致性问题。这时候作者才意识到,他所用的这个数据源其实是真正的可信数据源经过多次 ETL(提取、转换、加载)之后的数据源。
  在和西雅图的多位科技企业管理者交流过以后,作者发现这事其实很常见。年轻的分析师、数据科学家、经验不足的员工都过于信任他们的数据源。年轻的、经验不足的员工一般来说都急于把工作完成。这就不可避免地让他们更少地理解数据真正的状况。他们并不会追究「为什么」,而是花更多时间确保产品的「功能性」。那么他们就会忽略掉数据中的缺陷。
  一个数据科学家想要,就要停止「做出一个达到要求的算法或者系统然后署上大名结束」的做法,他还需要负起责任,理解数据、弄清数据中的缺陷。这样才能在和上级沟通的时候针对自己的各种假设进行完整的沟通。作为数据科学家,如果出现了不好的输出的时候怪罪数据有问题,那他是没法成长的。
-ldX-fyqrewh5442829.jpg
能简洁地表达自己的发现的价值  一个数据科学家如果想要成长,他对自己的要求就不能只是做一个合格的程序员 & 统计员。他必须学会如何成为一个沟通者,必须掌握简洁地表达自己的发现的能力,以及能够告诉自己的上级应该如何处理这些信息。
  给自己的总监以及其它管理层成员展示研究过程中收集到的所有的的图表、所有的数据和所有的技术信息以表明自己工作得非常努力,这听上去还不赖。尤其是,数据科学领域内有时候要花几个月的时间才能在某一个问题上做出有价值的进展(背后自然是有原因的)。不过,在一切结束之后,总监们并不需要过多的信息。
  知道重点的信息,以及知道基于这些重点信息应该做什么,对于总监们来说就足够了。你的总监可能还有另外 8 支团队要管,那你跟他讲很多 ROC、讲很多为什么选了这个算法而没有选另一个,就不是很有帮助。大多数的时候你都会发现总监其实只需要 2 到 3 个简单的要点汇报。有时候甚至简单的「是」、「不是」都比「可能……在某些条件下……这个那个……第一种可能性下有这个危险,第二种可能性下有另一些危险」更有用。一个有经验的数据科学家会知道如何仔细打磨自己的洞见、如何浓缩执行步骤,以此来给自己的上级提供真正的帮助。如果你的上级想要知道更多的信息,他会开口问的(并且一个好的数据科学家总是答得上来的)。说到底,管理层们不喜欢陷在一堆不能帮助他们做出更好的决定的多余信息里面。
4Qiv-fyqrewh5443032.jpg
了解自己公司的业务
  当