新出生的机器狗，打滚1小时后自己掌握走路，吴恩达开山大弟子最新成果

明敏 2022-06-30 13:29:10 来源：量子位

用的机械狗还是中国牌子的（doge）

明敏发自凹非寺

量子位 | 公众号 QbitAI

现在，让机械狗自己打滚一个小时，它就能学会走路了！

1755c237bdbd403993f1c6c551c26d78~tplv-tt-shrink:640:0.image

步态看着相当有模有样：

3ae5e65158244500b2682f6d325cab94~tplv-tt-shrink:640:0.image

还能扛住大棍子的一通狂怼：

fa856c4c52a64950a914b4478dcf9c8c~tplv-tt-shrink:640:0.image

就算是摔了个四仰八叉，翻个身自己又站起来了：

39a313bacc0548a3af56b08d1d82b2e7~tplv-tt-shrink:640:0.image

如此看来，训机械狗和普通训狗真是要没什么两样了啊。

6150f858573641d8b3828034d96fc253~tplv-tt-shrink:640:0.image

这就是UC伯克利大学带来的最新成果，让机器人直接在实际环境中训练学习，不再依赖于模拟器。

应用这一方法，研究人员在短时间内训练出了4个机器人。

1859fd798dbb400cad464958eb0821cf~tplv-tt-shrink:640:0.image

比如开头看到的1小时学会走路的机械狗；

还有2个机械臂，在8-10小时实战抓取后，表现接近于人类水平；

eed9a138c2984f7a88aebb64f63db445~tplv-tt-shrink:640:0.image

以及一个拥有计算机视觉的小机器人，在自己摸索2小时后，能丝滑地滚动到指定位置。

0335dd9df5e6498d93ffab96d9069911~tplv-tt-shrink:640:0.image

该研究由Pieter Abbeel等人提出，Pieter Abbeel是吴恩达的第一位博士生，前不久他刚刚获得2021 ACM 计算奖（ACM Prize in Computing）。

目前，该方法的所有软件基础架构已经开源。

一个叫做“空想家”的算法

本文方法的pipeline大致可分为4步：

313de00f5c0146ee9a13be4e40491504~tplv-tt-shrink:640:0.image

第一步，是先把机器人放在真实环境里，收集数据。

第二步，把这些数据传输到Replay Buffer。这一步骤就是利用历史数据进行训练、“总结经验”，高效利用收集到的样本。

第三步，World Model会对已有经验进行学习，然后“脑补”出策略。

第四步，再用演员评论家（Actor Critic）算法来提升策略梯度法的性能。

然后循环往复，将已经提炼出的办法再使用到机器人身上，最后达到一种“自己摸索学习”的感觉。

具体来看，这里的核心环节是World Model。

World Models是2018年由DAVID HA等人提出的一种快速无监督学习方式，获得了NIPS 2018的Oral Presentation。

它的核心理念是认为人类是基于已有经验，形成了一个心理世界模型，我们所做的决定和行动都是基于这个内部模型。

比如人类在打棒球时，做出反应的速度远比视觉信息传达到大脑中的快，那么在这种情况下还能正确回球的原因，就是因为大脑已经做出了本能的预测。

a8e41ec939a747a28ded63762c8fa1d0~tplv-tt-shrink:640:0.image

此前，基于World Model这种“脑补”的学习方法，谷歌提出了Dreamer这种可扩展的强化学习方法。

这一次提出的方法是在此基础上，叫做DayDreamer。

（貌似可以叫做空想家？）

fa5004167489464a9ab8927b25def259~tplv-tt-shrink:640:0.image

具体来看，World Model就是一个智能体模型。

它包括一个视觉感知组件，能将看到的图像压缩成一个低维的表征向量作为模型输入。

同时还有一个记忆组件，可以基于历史信息，对未来的表征向量做出预测。

最后，还包括一个决策组件，它能基于视觉感知组件、决策组件的表征向量，决定采取怎样的动作。

6b3ede87ae74461fbefd763f57a235fc~tplv-tt-shrink:640:0.image

现在，我们回到本次UC伯克利学者提出的方法。

不难发现，其中World Model Learning部分的逻辑就是一个经验积累的过程，Behavior Learning部分则是一个动作输出的过程。

c2e8e8e0ab754848a14a6d5cb8f75f28~tplv-tt-shrink:640:0.image

本篇论文方法的提出，主要解决了机器人训练中两方面的问题：

效率和准确率。

一般来说，训练机器人的常规方法是强化学习，通过反复实验来调整机器人的运作。

不过这种方法往往需要非常大量的测试，才能达到很好的效果。

不仅效率低下，而且训练需要付出的成本也不低。

后来，不少人提出在模拟器中对机器人进行训练，可以很好增效降本。

但是本文作者认为，模拟器训练方法在准确性方面的表现还是不够好，只有真实的环境才能让机器人达到最好的效果。

从结果来看，在训练机器狗的过程中，只花10分钟时间，机器狗就能适应自己的行为了。

和SAC方法对比来看，效果有明显提升。

99cb44aa0c4a4d96ae5d9c1e8595b3a5~tplv-tt-shrink:640:0.image

在机械臂训练过程中，这一新方法还克服了视觉定位和稀疏奖励的挑战，几小时内的训练成果明显优于其他方法。

31c5f223c83e4a80998d97427638ce35~tplv-tt-shrink:640:0.image

值得一提的是，本次带来新成果的研究团队成员，也非常令人瞩目。

其中，Pieter Abbeel是吴恩达的开山大弟子。

4faf00a0aa67452c86a8c5e005d59b0c~tplv-tt-shrink:640:0.image

他现在是UC伯克利电气工程和计算机科学教授，伯克利机器人学习实验室主任，伯克利AI研究院共同主任，曾加入过OpenAI。

前不久，他还获得了2021 ACM 计算奖（ACM Prize in Computing），以表彰其在机器人学习方面的贡献。

与此同时，他还是AI机器人公司Covariant的联合创始人。

1f83edee27c642c3b27faa092b3c3098~tplv-tt-shrink:640:0.image

另一位Ken Goldberg，也是AI领域的顶级专家。

ea50592d41ab47aebe57ca7a44b770a2~tplv-tt-shrink:640:0.image

他现在是UC伯克利工程教授，研究方向为强化学习、人机交互等。

2005年，他被评选为IEEE院士。

与此同时，Goldberg还是一位艺术家，是UC伯克利艺术、科技文化研讨会的奠基人。

此外，Philipp Wu、Alejandro Escontrela、Danijar Hafner三人为共同一作。

其中Philipp Wu还只是UC伯克利一位大四的学生。

One More Thing

在观看机械狗训练的视频时，我们发现研究人员使用的是Unitree机械狗。

ab31938324ed49508ddb7c17c354779c~tplv-tt-shrink:640:0.image

这个品牌来自中国企业宇树科技，之前登上过春晚的机器小牛，也来自它家。

78a0fb219d1c4204a16bf0f4051fe728~tplv-tt-shrink:640:0.image

而且，最近宇树机器狗集体进行Go1测试的视频曝光，还在国外火了一波。

772ff60e1d7f4eaa995b500042c6a477~tplv-tt-shrink:640:0.image

论文地址：
https://danijar.com/project/daydreamer/

参考链接：
https://worldmodels.github.io/

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达开山大弟子最新成果

新出生的机器狗，打滚1小时后自己掌握走路，吴恩达开山大弟子最新成果

一个叫做“空想家”的算法

One More Thing

Recommend

European Union keeps mobile roaming fees at bay for another decade

企业保护 API 安全迫在眉睫

使用hub-tool管理你的dockerhub

如何在 elementary OS 中启用最小化、最大化窗口按钮

NFT Marketplace On Ethereum – An Entrepreneur’s Guide To Explore

China to Stick to 'Zero Covid' Despite Economic Risks, Xi Jinping Says

00后整顿职场？建议再等几年看看

知情人士：集度汽车将转红筹架构或为下一步资本运作做准备

梦华录x喜茶出联名？终究是被喜茶蹭到了

干货！2022年中国覆铜板行业龙头企业对比：建滔积层板PK生益科技谁更胜一筹？

About Joyk