跳至主要内容

“我快毕业了,想找数据科学的工作,能分享下你的经验吗?”

这些年来,LinkedIn上总是能收到类似的站内信,累计下来和不下20个人聊过天。仔细想想,大部分人问的问题都很类似,需求也基本相同(想找工作/实习)。今天想挑几个大家都好奇的问题来说说。


先简单介绍一下我的经历。我学的是经济+统计,本科毕业后就直接工作了。第一份工作是经济咨询 (economic consulting),不同于管理咨询,有非常多的数据分析需求。两年后跳到了F家。刚开始的title是Operations Analyst,后来转title成了Data Scientist。在F家做了将近5年后跳到了N家,title比较奇怪叫Analytics Engineer,但和F家的Data Scientist基本做的是同类型工作。总体来说,我走的主要是Analytics Track外加一些Inference Track(下面会聊不同的Track),比较少做modeling。

好了进入正题吧,罗列一下大家都好奇的问题 + 一些常见的误区吧。


Photo Credit: Franki Chamaki

1. 个人技能

1.1 问题:“Data Scientist / Data Analyst / Business Analyst…到底有什么区别”
数据分析行业的title特别多,让人非常困惑。遇到过new grad说只想看Data Scientist title的工作,不考虑Data Analyst。也遇到过new grad说担心Data Scientist的要求太高,只想关注Data Analyst的工作。然而实际上,数据分析行业对于title并没有统一的定义。举个例子,F家的Data Scientist, Analytics需要的技能基本等同于G家的Product Analyst,也基本等同于N家的Analytics Engineer。如果一个求职者不知道这些,只是一味地去找“Data Scientist” title的职位,那可能会错过很多其实相似的职位。为什么会出现这个情况呢?除了没有统一的定义之外,很多公司为了能吸引更多的求职者,会尽量把title写成Data Scientist —— 科学家听起来多厉害呀。这个方法亲测有效,可以吸引一大波求职者😝 那求职的时候改怎么应对这样的title不统一的情况呢?有3点:
  • 依靠大体上的判断:从大体上来分,Data Scientist的technical skill expectation一般还是比Data Analyst更高,尤其是在一个公司又有Data Scientist又有Data Analyst这两种职位上的。当然,这个说法并不一定适用于cross company comparison,比如G家的PA = F家的DS
  • 看具体职位的Job Description:这是一个最靠谱的手段。Title太迷惑,但Job Description是骗不了人的。可认真读一下Job Description上面的Requirements和Responsibilities
  • 了解自己的需求:在读Job Description的时候,思考的维度不用局限于这是不是想象中的Data Scientist,而是应该关注对岗位的描述感不感兴趣,背景和要求匹配不匹配。真正找到喜欢又合适的岗位才是最重要的,title都是排在后面的

1.2 误区:“Data Scientist = 做Modeling的”, “厉害的Data Scientist主要是Technical特别强”
这个恐怕是对Data Scientist一个很常见的误解,也是比较狭义的定义。广义上来分析一下Data Scientist到底是做些什么的吧。
  • 从支持的业务部门来分,基本可以分成Product Org和Business Org。有一些大一点的公司还会有Infra Org和Research Org。根据Org的不同,Data Scientist需要解决的问题不同。比如Product Org的目标是把产品变得更好,通过改feature,改设计来增加日活等等,key lever is the product。有一些公司也会把算法归于product的范畴之下, key lever就是核心算法啦(插一句,很多公司的核心算法是software engineer做的,并不是Data Scientist)。Business Org的目标是增加revenue,key lever是sales and marketing programs,也有一些internal product和process来助力sales和marketing。有些公司会把Product Org的数据分析岗叫做Product Analyst,而Business Org的数据分析岗叫做Business Analyst。这个是业务部分的分法
  • 虽然业务部门不同,但数据分析岗的skillset基本还是处于一个大框架的范畴下的(如图)。大方向上可以分3个Track:Analytics,Inference,和Modeling。观察下来,现实中的Data Scientist基本都会主攻一个Track,然后偶尔也做其他另外两个Track的项目。比如像我这种Analytics Track的,70%的时间都在做Analytics,而30%在做Inference (causal inference, A/B testing)。框架的底层是不管哪个track都需要的skillset,比如数据处理能力(sql/python/r),包括build data pipeline的能力(够用就好,不用到达data engineer的程度),visualization能力等等。软实力非常重要,而且是随着经验增长,越来越重要,逐渐变成区分出好的Data Scientist和一般的Data Scientist的标杆。当然也有一些nuances,比如纯modeling的领域,硬实力的“够用”要求会比analytics的“够用”高。篇幅有限,就不一一赘述啦


针对这个误区最后啰嗦一句,不管是哪个部门,不管是哪个Track,归根结底,知道什么是最重要的问题并且能解决问题的能力是最重要的。解决问题的手段只是工具。当然,有更多的工具可以帮你解决更多的问题。

2. 部门职能

2.1 问题:“Data Science function和其他部门如何合作的?”
短的回答:Data Science是自己的一条线,和其他线合作,contribute at high level vision as well as in execution。

长的回答得先从Org structure来说起。Product org一般是Product Manager + Engineer + Data Scientist,外加Design,UX等等。Business org一般是Program Manager + Engineer + Data Scientist,外加sales,marketing等等。还有一些大点的公司有Infra org和Research org,和上述的架构也类似。可能有人会认为,在这样的结构下,Product Manager定方向,engineer执行,data scientist通过a/b test来看执行的结果。但实际上并不是这样干巴巴地划分的。首先,能做好本职工作肯定是基本要求:一个写不出code的engineer和做不出分析的data scientist肯定不是好的合作对象。其次,everyone contributes to the strategy,而不是只做好自己的那一小块。产品经理的本职是定方向,组织大家,最后拍板,但所有人所有部门都得have a seat at the table,献计献策。很多项目的想法是data scientist driven或者engineer driven或者business driven的。比如,数据分析发现了这个机会,和大家聊聊;business有一个idea,和大家聊聊。总体来说,除了自己function的技能过硬外,重要的是不要局限自己,而是始终有一个thought leader的mindset来思考如何能把这个项目做得更好。纯执行的data scientist不是好的data scientist。

2.2 误区:“Data Scientist每天的主要工作是在屏幕后面产出”
从时间分配上来讲,初期的Data Scientist可能会有80%的时间是一个人在屏幕后面做manager分配的project的的。但随着经验的积累,开会的时间会越来越多,甚至达到50%以上。因为做对的事比做出一点事更重要,而开会和沟通是找到什么是对的事情的重要手段。也会花很多时间分享自己的finding和educate others about data。做的东西再fancy,合作的人不能理解或者insights不能落地的话,都是空谈。

3. 职业发展

3.1 问题:“Data Science的Career Path是什么样的?”
可以一路爬变成越来越Senior的Data Scientist。当然,最“自然”的路是爬corporate ladder,变成Data Science Manager等等。Data Science Management的空缺一般比特别Senior Data Scientist的多,而且也更容易scale and show your impact。也有很多人发现自己更喜欢做产品,那可以变成产品经理,当一个产品经理里面最懂数据的。特别喜欢写码的,可以考虑直接转software engineer。换跑道并不容易,需要很多努力,但是是可以实现的。

3.2 误区:“小公司会学得更多成长更快,大公司的分工太细,impact和成长都会受限制”
这个并不是绝对的。大小公司个有优缺点。
  • 小公司:优点是可以接触非常广的业务面,从想法到实践需要的时间很短,可以快速地尝试和学习,也会促进很多新的思维。缺点是小公司可能没什么解决问题的体系,系统学习会困难很多。人员关系也有它的复杂层面。还有一个缺点是资源有限,体现在1)可能会被抓壮丁做一些其他活 2)受资源的限制无法做某些活 3)一直在survival mode,压力可能会更大。破解方法是找靠谱的小公司来确保上面说到的风险会被弱化,比如,有够靠谱的前辈来带路就能让系统学习容易很多
  • 大公司:优点是资源很多,可以向很多不同的同事学习,许多公司也提供系统学习的方式,而且可以快速了解成熟的运作模式,也有机会了解各方各面的业务。缺点是从想法到实践流程会比小公司慢很多,所以学习速度可能会下降。另外,大公司真的很大,在一个地方呆久了容易被那个地方的思维所局限。破解方法是保持一颗好奇心,不断地激起自我学习的意识
这篇就先写这么多啦。以上都是基于我个人的经历,而我个人的经历也有限,希望大家能多和不一样类型的业界人士聊聊/读读相关文章,扩充自己对行业的了解。数据分析是一个很有意思也很有弹性的行业,希望能有越来越多的人在了解这个行业之后,开心地投入进来💪

评论

此博客中的热门博文

关于静坐的体验

1. 初体验 最早的冥想体验实在2013年左右。当时还记得看到本地有一个瑜伽馆有免费的冥想体验课,就去试了试。瑜伽馆灯光很暗,很柔和。导语结束之后不一会儿我就睡着了😂 2. Early Stage 后来再接触冥想是2016/17年左右,尝试冥想类App。用过Calm和Headspace,都有导词。当时特别喜欢Headspace里面Eve的声音,很舒缓。坚持过一段时间,但后来越来越断断续续了,直至放弃。 冥想App最有帮助的地方: 带我body scan入门 头脑特别混乱的时候,专注于导词可以集中精神 导词也是一种visualization 冥想App欠缺的地方: 比较死板,体验停在表象 会outsource effort,感觉播放完了我的任务就完成了 毕竟需要留住用户,不断地在推送新内容,把冥想也弄得商业化,需要“growth”了,感觉不太好 3. 重拾冥想 2021年又开始投入对身心灵的研究,也包括冥想。看了很多视频,尝试了各种Youtube和小红书的meditation,也摸索着尝试Mantra Meditation(也叫TM,Transcendental Meditation)。 机缘巧合,上教练课的老师正好也带冥想,我就跟着她一起学到了一些基本姿势。后来参与本地的Zen Meditation Class也学习到了一些,渐渐融合成了我自己的静坐习惯: 盘腿,垫高底盘,脊背放松而平直,略微含胸,手结金刚拳印自然垂落怀中,舌顶上颚 开始用嘴巴呼吸调息三次左右,再用鼻子呼吸 数息,只数吐气,或者观吸 虽然还没有形成固定的习惯,但开始脱离App自己静坐了。 4. 渐入佳境 到现在,在训练了很多躯体感知后,对身体反应更敏感。静坐的时候能感受到气息流动(目前阶段:双手变热,后背有tingling sensations,热量上蹿,腹部bubbly),从头脑回归身体。但也尽量不执着于身体感受,感受身体和身体外。有了这些身体感受,尝到了静坐的“甜头”,也不需要discipline自己了,会主动想要静坐。 现在早上静坐。白天头脑“发热”的时候打坐。 头脑太混乱的时候,会回到App导词、或者持咒冥想 需要10分钟以上才会舒服,但没时间的时候也做5分钟的。最长做过30分钟,还没试过更久 Photo Credit: CA

天使睡眠娃养成记

离开月子中心前,月嫂语重心长地和我说,“你们回家自己带要吃苦了。球球睡觉真的不行,不像小霸王。” (注:小霸王是月子中心另外一个宝宝,比球球大4天) 结果啪啪打脸。球球2个月不到就戒了夜奶,3个月不到就基本睡整觉了。 时间线 12/14: 球球出生,入住月子中心 1/20:从月子中心回家,二打一带娃。娃每天半夜2-3点要吃夜奶 1/27:请了白天带娃的阿姨,晚上继续自己带娃 2/7: 第一晚没有喝夜奶🎉,但还需要塞奶嘴接觉 2/24: 第一次自己睡整觉🎉 回家前 时间倒回到月子中心最后那几天。我也知道球球睡觉不好,所以也一直在思考怎么办。一方面,抓紧最后的时间向我们月嫂取经。另一方面,咬牙斥资买了妈妈群里推荐的课:taking cara babies,开始认真看。 我们月嫂带了80+娃的经验是,宝宝晚间睡眠好最重要的就是得断夜奶。什么时候可以断呢?她觉得两个月就能开始了(注:医生的说法是出生体重翻倍)。夜奶怎么断呢?并不是一下子断的,而是需要循序渐进。先从减量开始,比如开始一顿是3oz,可以减到2.5oz,过几天再减成2oz。也可以配合拉长时间。比如娃哭了不马上喂,先哄一哄(塞奶嘴或者抱哄),过15分钟再喂,过两天变成过20分钟,30分钟等等。当娃习惯了不吃夜奶,晚间睡眠也就会越来越好。 Taking cara babies也有一个体系,其中我觉得最受益的就是三点: 第一,白天要摄入足够卡路里,这样能减少晚上饿醒的程度。 第二,娃哭了之后,不能立刻抱哄或者喂奶,而应该逐渐升级干预程度。她的口诀是SITBACK:S就是stop, 先观察一下,有时候娃只是哼唧。I就是Increase sound machine volume, 增强白噪音。T就是touch, 拍拍宝宝胸口,但不抱。B就是binky,塞奶嘴。A就是add in rocking:摇晃宝宝; C就是cuddles,终于抱抱啦;K就是ok,it's feeding time, 这是真的饿了,该吃奶了。 第三,白天小觉想睡好,需要了解wake windows和sleepy cues。小月龄宝宝只能醒1-1.5个小时,随着月龄增长,wake window也会逐渐拉长。sleepy cues包括表情呆滞,揉眼睛,揉耳朵,红眉毛等等。 有了这些理论知识支持后,我和DD(瑟瑟发抖地)回了家,开启了(短暂的)

关于女性主义的一些随想:上野千鹤子、与朋友聊天

 随想一:看完了火遍全网的上野千鹤子 x 北大女生宿舍 (b站全嘻嘻)视频的感受。 1️⃣ 女性主义,或者对任何主义的探讨,都是把人类微妙又复杂的体验提炼、具像化的过程。“听你这么一说,让我之前那些隐约感觉不适、但却无法准确表达的东西变得清晰了,而且也看清了这它的来龙去脉,也知道自己不是一个人,对未来有了更多的选择。” 2️⃣ 自以为的选择,有多少是真正自由的选择,有多少是被成长环境规训内化之后的选择? 3️⃣ 诚实对待自己,不要糊弄自己(誤魔化さないで)。不要去糊弄任何关系。所有人适用。 4️⃣ 看完视屏的一个很难受的感受:为什么要求认可?得到认可后就安心了??There’s no winning or losing。  随想二:和一个女性朋友聊天的记录。 👯‍♀️ 上周和一个女性朋友聊天。她有一个4岁的小孩,6月份要生二胎了。但孕反+工作糟心,纠结了一段时间,决定辞职了,等到小娃一岁之后再出去工作。 👯‍♀️ 其他背景:她是在美国出生长大的华裔,本科哈佛,工作了很多年,做到了一个中型公司产品Director级别。之前一直比她老公赚得多。已经基本财务自由了,而且老公喜欢工作,会一直工作下去。简言之,她完全不需要为了钱工作。生完老大回去上班之后,因为实在干得不开心,也辞职休息过4个月,后来又回去工作了。平时她老公负责做饭,她负责其他大部分的家务。虽说两个人一起带娃,但操心的基本是她(比如上什么课外班,和学校沟通,升学问题等等),老公只要出现就可以了。 👯‍♀️ 跟她聊的时候,有两次我愣住了: 💔 她说,这次辞职生二胎这段时间,还是会继续支付大宝的daycare费用。她和她老公有一个共有家庭账户,平时都会从各自的独立账户往共有账户里面打等量的钱,家庭开支从这个账户走。即使她没有固定收入了,她也要继续从自己独立账户的存款里面拨款,尽打钱这个“义务”。当下我就愣住了,想问她是怎么想的,是要打钱了才能安心休息吗??但没有问出口。 💔 聊到生完二胎后一年她想再找个科技公司的工作,做到45岁退休(她35+)。我问她为什么是45岁退休,而不是什么存款达到某个程度?她说,她已经达到了“不需要为钱工作”的存款程度,但不喜欢自己的工作,所以想设置个“退休年龄”。之所以想要再做些年,是想要给自己的小孩树立榜样:“妈妈也是很独立的事业女性哦!不是只会在家庭里的那种女性。”我当下又