23

机器学习面临的挑战是工程问题,不是数据科学问题

 3 years ago
source link: https://www.infoq.cn/article/JywDelJDh1GQpegI5Z6e
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

本文讲述了从数据科学转向机器学习工程的途径及意义。

本文最初发表在 Towards Data Science 博客上,经原作者 Caleb Kaiser 授权,InfoQ 中文站翻译并分享。

在过去 20 年,机器学习一直围绕着这样一个问题展开: 我们能不能训练一个模型去做一些事情?

当然,有些事情可以是任何任务。比如,预测句子中的下一个单词、识别照片中的面孔、生成某种声音。我们的目标是想看一看,如果我们能够做出准确的预测,那么机器学习是否还有效。

多亏了数据科学家几十年来的研究工作,我们现在才有了如此多的模型,可以用来做很多事:

  • OpenAI 的 GPT-2(以及现在的 GPT-3),可以生成人们能够阅读的文本,效果还过得去。
  • 像 YOLOv5 这样的对象检测模型(官方版本的争论暂且不提)可以解析每秒 140 帧的视频中的对象。
  • 像 Tacotron 2 这样的文本到语音模型可以生成听起来像人类的语音。

数据科学家和机器学习研究人员所做的工作令人难以置信,因此,第二个问题便自然而然地出现了:

我们可以用这些模型来构建什么?以及我们如何才能做到呢?

这显然不是一个数据科学的问题,而是一个工程问题。为了回答这一问题,一门新学科应运而生: 机器学习工程


很遗憾的说,推酷将在这个月底关闭。人生海海,几度秋凉,感谢那些有你的时光。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK