谨防5个陷阱！数据科学家新手快速上道秘诀

策划编辑 | Debra 作者 | Jan Zawadzki 译者 | Debra 编辑 | Natalie AI 前线导读： 通过之前数篇介绍数据科学家岗位的文章，我们了解到这是一个技能要求广泛，并不太容易胜任的岗位。对这个岗位感兴趣或有入门意向的朋友们可能已经学习了一大堆网上课程，参加了 Kaggle 比赛，找到了第一份数据工程师的工作，并认为自己已经做好了走上这条道路的充分准备。然而，当实际工作之后，你会发现这跟你想象的非常不一样......

更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）

在数据科学家入门阶段，你不可避免会踩到一些雷区。这篇文章介绍了 Sébastien Foucaud 博士总结的新手数据科学家最容易犯的 5 个错误。博士已经有 20 多年带领学术界和应用行业年轻数据科学家的经验，可以帮读者朋友少走些弯路，为你的实际工作提供一些指导和帮助。话不多说，上清单！

1. 热衷于 Kaggle 竞赛

资料来源：kaggle.com

参加 Kaggle 竞赛可以锻炼你的数据科学职业技能。如果你懂决策树和神经网络那再好不过了。但实话告诉你吧，数据科学家的实际工作中用不着创建那么多的模型。请记住，一般情况下，你将花费 80％的时间对数据进行预处理，只有剩下的 20％用于构建模型。

数据科学家工作时间分布

参加 Kaggle 竞赛在很多方面都会对你很有帮助。但是，参加竞赛的时候，通常数据会被完美地清理干净，所以你可以花很多时间去调整模型。而在现实工作中很少出现这种情况，你必须从不同格式和命名的不同来源收集数据。

不要害怕脏活累活，一定要好好练习数据预处理技能，因为它将占据你 80％的工作时间。比如爬取图像或从 API 收集这些图像数据；从 Genius 收集歌词数据等。准备好解决特定问题所需的数据，然后将其输入你的笔记本并训练机器学习生命周期。精通数据预处理无疑将帮助你成为真正的数据科学家，并对你的公司产生直接影响。

2. 神经网络是“万能金丹”

深度学习模型在计算机视觉或自然语言处理领域优于其他机器学习模型。但他们也有明显的缺点。

神经网络对数据十分依赖。如果样本较少，通常用决策树或逻辑回归模型结果会更好。神经网络还是一个黑匣子。众所周知，它们难以解释和说明。如果产品所有者或管理者开始质疑模型的输出，你必须能够解释清楚模型的原理。这对于传统模型来说更容易一点。

正如 James Le 在这篇优秀文章中所说（https://towardsdatascience.com/a-tour-of-the-top-10-algorithms-for-machine-learning-newbies-dde4edffae11 ），我们有很多很棒的统计学习模型。自学这些知识，了解它们的优缺点，并根据用例的条件应用这些模型。除非你在计算机视觉或自然语音识别专业领域工作，否则很有可能传统机器学习算法才是最好用的模型。你很快就会发现，最简单的模型，如 Logistic 回归，才是最好用的模型。

来源： scikit-learn.org 算法备忘单

3. 机器学习是产品

机器学习在过去的十年中都被过度炒作，太多的创业公司吹嘘机器学习能够解决任何存在的问题。

来源：过去 5 年 Google 机器学习趋势

机器学习本身不应该是产品。机器学习是创建满足客户需求的产品的强有力的工具。在客户接收精准商品推荐方面，机器学习可以有所帮助。如果客户需要准确识别图像中的对象，机器学习也有用。企业通过向用户展示有价值的广告而获益，机器学习同样可以提供帮助。

作为数据科学家，你所制定的项目需要以客户的目标为主要优先事项。只有这样，你才能评估机器学习是否会帮到客户。

4. 混淆因果关系

大约 90％的数据是在过去几年中涌现的。随着大数据的出现，机器学习从业者能够接触到大量广泛的数据。有了这么多要评估的数据，学习模型发现随机相关性的概率随之增加。

资料来源：http://www.tylervigen.com/spurious-correlations

上面的图片显示了美国小姐的年龄以及由蒸汽、热蒸气和发热物体导致的谋杀的总数。基于这些数据，算法将学习到美国小姐的年龄与特定物体导致的谋杀数量之间会互相影响的关系模型。然而，两个数据点实际上毫无关系，并且这两个变量对彼此都绝对没有任何可预测的影响。

在发现数据之间的关系时，将你的领域知识应用进去。这可能是相关性还是因果关系？回答这些问题是根据数据采取行动的关键。

5. 优化错误的参数

开发机器学习模型有一个敏捷的生命周期。首先，你要定义你的想法和关键参数。其次，你需要创建一个结果的原型。第三，你不断优化参数，直到你对它感到满意。

在构建机器学习模型时，请记住要手动进行错误分析。虽然这个过程乏味并耗力，但它会帮助你在接下来的迭代中有效地改进模型。请参阅吴恩达的深度学习专项课程，以获得更多优化模型的技巧。

https://www.coursera.org/learn/machine-learning-projectshttps://towardsdatascience.com/structuring-your-machine-learning-project-course-summary-in-1-picture-and-22-nuggets-of-wisdom-95b051a6c9dd

要点总结

练习数据管理技能
研究不同模型的优缺点
尽可能简化模型
检查你结论中的因果关系和相关性
优化最有用的参数

年轻数据科学家为公司创造了巨大的价值。他们刚刚学完在线课程，可以立刻为公司提供帮助。他们很多人通常是自学成才，因为很少有大学提供数据科学课程和学位，因此他们对此表现出巨大的决心和好奇心。他们对自己选择的领域充满热情，并渴望了解更多信息。但是，在热情满满的时候也不要盲目学习，谨防以上数据科学家新手会掉落的陷阱，会帮你少走很多弯路。

最后，祝所有人的第一份数据科学工作可以获得成功！

原文链接：

https://towardsdatascience.com/top-5-mistakes-of-greenhorn-data-scientists-90fa26201d51

今日 AI 前线福利：吴恩达新书《机器学习训练秘籍》已更新至第 49 章，公众号后台回复“吴恩达”即可下载所有章节合集！

今日荐文

点击下方图片即可阅读

Facebook如何在4年间全面转向Python 3？

课程推荐

《机器学习 40 讲》已经开始更新！副教授王天一为你讲解机器学习必备核心理论，深入剖析 30 个最流行的机器学习模型，更有基于 python 语言的实例练习，帮你打通机器学习的任督二脉。

【订阅福利】

福利一：新人注册领 30 元礼券

福利二：每邀请一位好友购买，你可获得 18 元现金返现，多邀多得，上不封顶，立即提现（提现流程：极客时间服务号 - 我的 - 现金奖励提现）

【订阅方法】识别下图二维码，微信支付，立即成功订阅。

点「阅读原文」，订阅专栏

AI前线紧跟前沿的AI技术社群

如果你喜欢这篇文章，或希望看到更多类似优质报道，记得给我留言和点赞哦！

今日荐文

Recommend

大事件！2018 年已经过半了！

很认真的聊一聊程序员的自我修养

视频：搜狗CEO王小川终于把区块链讲通透了

华为研发等部门搬迁 2700 人赴东莞上班！深圳要“凉凉”？

共建智慧城市新样本，日照市与金山云达成全面战略合作

今日头条都上线付费阅读功能了，微信呢？

如何在 iPhone 锁屏界面显示 Apple Music 歌词

寻找下一个拼多多：资本抢滩微信生态｜36氪独家

第二届大话区块链暨全球媒体联盟启动仪式（北京）圆满落幕

因为丈夫背后的一颗痘，她发现了丈夫出轨的证据......女性在感情中，简直就是侦探啊！...

About Joyk