new grads DA/DS找工作|干货
Updated: Apr 21, 2022
找工作常识总结(扫盲向)
Job market招人时间
基本上公司在data analyst和scientist在这个方面的招聘进度条差不太多,以一个典型的即将21 summer毕业的学生为例来讲好了:
1. intern:Big name的summer intern基本上在前一年的11月-当年的2月份之间就走完了从开放opening到招收完的流程了,所以想进FLAG(Facebook, linkedin, Amazon, Google)或类似的同学一定早点下手,楼主就是错过了这波或者没有用正确的方法申请,导致和这些机会失之交臂;中大型或中型(linkedin 5000+)的公司的窗口期貌似会略长一些,同大公司基本同时间段开始,结束期有的能够延长到当年的4月份;4-6月份当然也有中型的公司还有opening,但数量会少很多,基本上就是中小型的公司还会持续有opening开放,而这种更临时性或者contractor性质的intern就很看机会了,需要大家多刷平台多关注。所以现在刚好算是申intern的最佳时间,还在校的同学加油了!
2. Fulltime:fulltime(这里专指entry-level的)比intern更讲究的是在于组里只会在有headcount的时候招人,所以每年的1,2月份之后会有一波小高潮(据一位HR说是因为新一年的headcount一般刚批下来),然后是6-9月份的暑期也会有很多的岗位。其他的时间更多的是组里的人员流动导致的空缺需要补齐。
申请方式有效性
这里分享一个中国留学生申请工作时的有效性递减链条,来自于自己跌过的坑以及与朋友们交流得到的经验总结。如果你玩过德扑的话:学生申请工作时的有效性递减链条,来自于自己跌过的坑以及与朋友们交流得到的经验总结。如果你玩过德扑的话:

1. Hiring manager邮箱内推(皇家同花顺Royal Flush):因为能最直接的让hiring manager看到你的简历,而工作邮箱的内容一般不会忽略,所以是回复率最高的方式(当然简历okay是前提)
2. 组内同title邮箱内推(四条Four of a Kind):同组的相同title的人的内推(senior data scientist/analyst更佳)有的时候可以达到内推到hiring manager同等的效果,因为ta有可能会forward你的简历给HR同时cc对应的hiring manager。
3. 一般系统内推(顺子Straight): 大公司里无所谓什么title,小公司的话同组的title更好,不过这个就不是邮件内推了,是一般意义上的system refer,只是换了一个更小的pool和别人竞争而已。关于这个有的时候地里会有各位大佬放出refer的福利。我本人并未参与过,但这肯定是一个很好的资源,大家可以关注一下相关信息。
4. 领英联系公司的HR(两对Two Pair):有的时候运气好,在领英上可以联系到HR发简历给ta,增加你的建立的曝光度,不至于从茫茫的系统内推中难以脱颖而出。
5. Career fair(一对Pair):据朋友说有在career fair上拿到面试的,不过好像几率很小,我个人就去过两次所以保留发言权。
6. 网申(not even a high card):我个人认为这个是所有新手new grads(除了简历完美到不行的大神)一定要避免的,就是疯狂海投。我之前也投了少说两三百吧,基本无一生还。听到的朋友里面网投得到回复的寥寥无几,拿到工作的貌似就更少了。所以非常不建议大家走这条路。
领英找refer的前期准备内容
由于领英是我认为最实用也成本最低的找refer的申请方式,所以在此着重介绍:
1. 大致按不同方向修改过的多版简历。(比如product方向的可能更看重你的项目经历和实际结果,偏engineering或硬核的data scientist更看重kaggle和算法相关经历,或者data analyst就主要是Sql相关等等,你需要大致准备几个不同侧重点和方向的简历,方便稍加修改之后可以直接发给refer你的人)
2. 相对应不同版本简历的不同Cover letter。修改关键字和公司就行,各个学校的career service应该会有模板。
3. 一个购买了初级(或更高级的)会员的领英账号
4. LinkedIn自家,以及Glassdoor,indeed等等可以知晓opening的平台与途径。
如何看这个岗位适不适合你
1. 第一要义,你喜不喜欢。
如果Job Description你都看的想睡,那真的别申,浪费自己和公司的时间。
2. 看工具要求你是否符合。
Data行业如果工具要求你不符合,申请起来会比较麻烦。不过类似于Tableau的倒是可以速成所以不必担心。
至于内容中具体明确要求要熟练掌握的Python和R或者Sql的经验,如果没有的话一定要提前练习和补充学习。
3. 看年限要求是否符合。
一般这里会吓退很多新人,因为动不动Fulltime就会要求一两年起步,三五年左右的工作经验。而据我申请和拿到面试的结果来看,其实:
1). 没有年限要求的最好。
2). 1-2年要求的,可以用累计1年左右的实习经验来凑,也会给面试。
3). 2-4年要求甚至以上的,必须得有至少1-2年工作经验。不过有的时候没有工作经验也不要灰心,可以先申请着,很多公司为了拿到一个大的headcount budget总是会把职位要求定的比较高,然后最终如果真的选了一个junior之后再下调salary就行,以保证充足的budget来应付各种情况。所以看到高年限,偶尔也可以申一申。
以上是一些简单的经验,目前为止尚未涉及任何专业的data知识,纯粹是为了*拿到面试*这一个目的。因为这是相当重要的第一步,否则其他的无从谈起。下一个部分则是着重讲解具体面试内容,来帮助大家克服面试准备无头绪的难关
概括性质面经+对应资料

大致有以下内容需要认真准备:Machine Learning, 统计、概率与A/Btesting,Online coding(Python+ R), SQL, 和product sense.
Machine Learning
1. 常见面试问题
1). What is overfitting? / Please briefly describe what is bias vs. variance.
2). How do you overcome overfitting? Please list 3-5 practical experience. / What is 'Dimension Curse'? How to prevent?
3). Please briefly describe the Random Forest classifier. How did it work? Any pros and cons in practical implementation?
4). Please describe the difference between GBM tree model and Random Forest.
5). What is SVM? what parameters you will need to tune during model training? How is different kernel changing the classification result?
6). Briefly rephrase PCA in your own way. How does it work? And tell some goods and bads about it.
7). Why doesn't logistic regression use R^2?
8). When will you use L1 regularization compared to L2?
9). List out at least 4 metrics you will use to evaluate model performance and tell the advantage for each of them. (F1 score, ROC curve, recall, etc…)
10). What would you do if you have > 30% missing value in an important field before building the model?
....
以上是我整理出来的被问到的差不多Top 10的问题,至于回答的深度可以因人而异或者因岗位难度而已,简单的讲一讲概念,难的可能会发散到深一些的矩阵计算和算法原理。
如果以上的问题你还有都不懂的问题,那可能需要多下一番功夫了;
如果你大致能听懂问题,但是静下心来问自己,然后让自己回答一下,哪怕是有一点不清楚,我也建议: 去花一个下午坐在那里找所有相关的资料,落到文字层面的东西,整成一个小专题,有段落摘抄有笔记有链接。然后在理解之后再确保自己可以非常简明扼要的在电面中用英语流利表达。这很重要,懂,和能让别人觉得你懂是两回事。所以面试前顺口条也是很推荐的(打辩论的职业病,会心里面准备一篇小的短稿件方便做答)
2. 相关资料准备
1). coursera上Andrew Ng的Machine learning课程(https://www.coursera.org/learn/machine-learning)
算得上考古级别的课程了,内容有些老旧但是很经典,很适合商学院BA专业的从0开始补齐ML的背景知识
2). 还有一个速成的:15 hours of expert ML videos: https://www.dataschool.io/15-hours-of-expert-machine-learning-videos/. 我没看完,只选了自己想看的了解了一些。
3). 《ISLR》(一个免费链接直通车),入门神书不解释,可惜我第一本看的不是它,所以后来大多当作工具书用了,需要的时候才查阅一下。
4). 《Practical Statistics for Data Scientists: 50 Essential Concepts》,很实用的一本书,专讲一些细小知识,不深但是读完会感觉多了些对ML的理解。
5). 书和课说完了,肯定得推一下Medium了,尤其是Towards Data Science专题,相信熟悉的人都知道里面的文章有多么实用。
我比较喜欢的是里面某个作者写Machine Learning 101(https://medium.com/machine-learning-101)这个小专题,非常浅显易懂,适合初学者用具象的方式理解抽象算法。
6). StackOverflow(https://stackoverflow.com/)自然也是不能漏掉的,学data或者编程总会遇到很细枝末节的问题,这些一般文章里没有,所以就需要求助社群的力量了。
7). 最后的最后,务必亲手写两三个project,哪怕是调包写,也比没写过的话,不然面试也会很尴尬的。
统计,概率与A/B testing
1. 常见面试问题
1). What is p-value? What is confidence interval? Explain them to a product manager or non-technical person.. (很明显人家不想让你回答: 画个正态分布然后两边各卡5% )
2). How do you understand the "Power" of a statistical test?
3). If a distribution is right-skewed, what's the relationship between medium, mode, and mean?
4). When do you use T-test instead of Z-test? List some differences between these two.
5). Dice problem-1: How will you test if a coin is fair or not? How will you design the process(有时会要求编程实现)? what test would you use?
6). Dice problem-2: How to simulate a fair coin with one unfair coin?
7). 3 door questions. (自行google吧,经典题之一)
8). Bayes Questions: Tom takes a cancer test and the test is advertised as being 99% accurate: if you have cancer you will test positive 99% of the time, and if you don't have cancer, you will test negative 99% of the time. If 1% of all people have cancer and Tom tests positive, what is the prob that Tom has the disease? (非常经典的cancer screen的题,做会这一道,其他都没问题了)
9). How do you calculate the sample size for an A/B testing?
10).