我的数据科学成果为什么无法商业化？

大数据文摘出品

编译：Charlene、涂世文、YYY

在数据科学的实践应用中，有些工作成果可以获得数十亿级的商业回报，而绝大多数的工作成果却并没有达到预期的效果。本文作者是Nick Elprin，Domino Data Lab公司的创始人兼CEO，拥有哈佛大学计算机硕士学位。他在文中探讨了数据科学工作成果不尽如人意的四个可能原因。

当前，许多公司都面临着这样的困境：把数据科学的工作成果真正转化为商业价值。

据一项涉及250位数据科学团队主管和员工们的问卷调查显示：60% 的公司计划在2018年把他们的数据科学团队扩大一倍，90% 的公司相信数据科学会带来商业创新。但是，少于9% 的公司会量化数据模型带来的商业价值，仅仅11%的公司能把至少50个预测模型投入使用。

问卷链接：

https://www.dominodatalab.com/resources/key-factors-journey-become-model-driven/

那么造成这种困境的根源是什么?一般来说，运用数据科学的公司可以分为两种：一种是把数据科学仅看作是一种技术实践的公司;另一种是把数据科学作为一个重要部分，进一步渗透到商业实践的大环境中的公司。在进行决策制定过程中，那些能够熟练地运用技术和管理实践，并且把算法驱动的决策作为业务核心的公司，往往能获得最大的商业回报。这些公司才能够被称为 “模型驱动商业价值”型公司，比如亚马逊、Netflix、Stitch Fix、特斯拉等。

zaeaYbb.jpg!web

当然，说起来容易做起来难。让我们来看看那些投资数据科学以求商业回报的公司们正在面对的四大挑战：

团队内各自为政1+1<2

聘请数据科学家并不能保证你的公司能从中获益。对于绝大多数公司来说，根据边际效益递减规律，在已经有一个数据科学家的团队里，再额外聘用一个数据科学家，并不会有多一倍的产出。然而，少数拥有表现突出的数据科学团队的公司，会出现增加数据科学家，就能指数般提高产出的效果。

这里还有一个老生常谈的问题，那就是数据科学家们都各自为政，在独立的工作中，他们经常做重复的工作。因为他们看不到别人已经完成了什么工作，所以也没法通过继承前人的工作成果，来让自己的工作变得轻松高效。

举个例子，在一家知名保险公司里，几十名数据科学家无组织、无合作地攻克同一个商业问题，这让公司在数据科学方面的投资不值，也失去了更多本来可以用这些投资来发现的新机会。

换句话来说，一堆单单做模型的人，与一个有机结合的数据团队是有本质区别的。那些有机组合在一起的团队成员们能够熟练运用知识、技能、经验，用更短的时间，创造更好的模型，

模型部署与评估的割裂

运作良好的数据科学团队，在工作中会有持续迭代的周期(从研究到产出的循环迭代)，以及对模型效果的衡量。但是，模型研究和模型部署，这两个过程经常被完全割裂。并且，当一个模型被使用后，也没有与之对应的商业效果的分析。这会导致模型没法根据商业效果迭代更新，给公司造成损失。有一家主流财务公司声称，他们“让一个模型产生效用的时间，比建造新总部大楼的时间都要长”.

工具与技术与不匹配

尽管IT部门在过去十几年的时间里，构建了用来储存和处理数据的大数据基础设施，但是这些基础设施本身并不能完全保证数据科学的成功实践。数据科学家会在一个月内使用多达3-5种不同的工具包，并时刻追赶最前沿的技术。仅在2017年，基于流行的开源程序语言Python 的软件包，就多达36万5千次更新!

另外，数据科学家的工作需要使用弹性计算平台(云计算平台)来进行具体操作实验，譬如进行深度学习就需要配备GPU的高性能计算机。如果团队不能使用弹性计算和最前沿的工具，那么团队的效率会大大下降，研究进度会拖后，最终影响整个模型的开发进程。更糟糕的是，一些大公司(比如一家全球性的银行)的新的Python数据包审批速度太慢，导致数据科学家们最终悄悄地用私人电脑来工作。这种在没有IT部门明确审批的情况下，使用新工具的现象被称为“影子IT (shadow IT)”。

模型监管缺失

生产环境中的模型如果缺乏有效的管理和监控，最终可能会产生弊大于利的后果。如果你经常监管这种在使用的模型，那么你很有可能已经意识到了这一问题。一个没有严密监控或者被密切控制的模型可能对公司的业务产生很严重的后果，譬如公司规章被无视，营业收入受损失，品牌声誉被破坏。

举个例子，一家叫做 “Knight Capital Group”的公司，在一次模型更新失误之后，在45分钟内共损失了4.4亿美金。这虽然是一个很极端的情况，但是说明了公司必须持续评估和监控他们的模型，防止模型的误用，以及模型性能的退化。

案例链接：

https://dealbook.nytimes.com/2012/08/02/knight-capital-says-trading-mishap-cost-it-440-million/

如何克服这四大挑战决定了一家公司未来5到10年发展。如果你认为自己的公司在数据科学军备竞赛中落后了，不用过分担心，并不只有你的公司是这样：根据调查显示 46% 的公司被归入“落后”这一档，40%的公司被认为“有潜力”，只有14% 的公司在管理数据科学中显示出了他们的先进性。

所幸，为时未晚。为了评估和使用数据科学带来商业价值，公司必须构建一套围绕员工、技术、工作流程的连续有效的框架。那些把时间和精力放在这个框架上，并且把数据科学作为核心竞争力的公司，能够最终收获商业回报。譬如，Netflix把模型结合到每一个业务环节中。据估计，仅个性化推荐模型就让公司的价值上升了十亿美金

Netflix案例链接：

http://www.businessinsider.com/netflix-recommendation-engine-worth-1-billion-per-year-2016-6

显而易见的是，应用数据科学产生成效并不容易。它必须克服一些明显的障碍。他们需要搞清楚怎么样开发和部署具有很大影响力的模型，并且真正地将数据科学与商业结合。最终能够克服这些困难的公司，才能够获得长久的竞争优势。

团队内各自为政1+1<2

模型部署与评估的割裂

工具与技术与不匹配

模型监管缺失

Recommend

Redis 集群进阶之路（上）

GitHub - lujqme/douyin: 抖音 (WIn/Linux/Mac OS)

Kubernetes RBAC 详解-blog.qikqiak.com|阳明的博客|Kubernetes|Docker|Python|Golang...

Redis集群进阶之路(上)

机器学习中的AUC是什么？ | 一根笨茄子

Android AccessibilityService机制源码解析 - 简书

【翻译】03 | 微服务反模式与缺陷：代码共享反模式 | SCC

看看别人是如何快速成为数据分析师的？

大数据分析如何去助力制造行业?

对企业来说，Kubernetes是不是过于复杂了？

About Joyk