2

新出生的机器狗,打滚1小时后自己掌握走路,吴恩达开山大弟子最新成果

 1 year ago
source link: https://www.qbitai.com/2022/06/35642.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

新出生的机器狗,打滚1小时后自己掌握走路,吴恩达开山大弟子最新成果

head.jpg明敏 2022-06-30 13:29:10 来源:量子位

用的机械狗还是中国牌子的(doge)

明敏 发自 凹非寺

量子位 | 公众号 QbitAI

现在,让机械狗自己打滚一个小时,它就能学会走路了!

1755c237bdbd403993f1c6c551c26d78~tplv-tt-shrink:640:0.image

步态看着相当有模有样:

3ae5e65158244500b2682f6d325cab94~tplv-tt-shrink:640:0.image

还能扛住大棍子的一通狂怼:

fa856c4c52a64950a914b4478dcf9c8c~tplv-tt-shrink:640:0.image

就算是摔了个四仰八叉,翻个身自己又站起来了:

39a313bacc0548a3af56b08d1d82b2e7~tplv-tt-shrink:640:0.image

如此看来,训机械狗和普通训狗真是要没什么两样了啊。

6150f858573641d8b3828034d96fc253~tplv-tt-shrink:640:0.image

这就是UC伯克利大学带来的最新成果,让机器人直接在实际环境中训练学习,不再依赖于模拟器

应用这一方法,研究人员在短时间内训练出了4个机器人。

1859fd798dbb400cad464958eb0821cf~tplv-tt-shrink:640:0.image

比如开头看到的1小时学会走路的机械狗;

还有2个机械臂,在8-10小时实战抓取后,表现接近于人类水平

eed9a138c2984f7a88aebb64f63db445~tplv-tt-shrink:640:0.image

以及一个拥有计算机视觉的小机器人,在自己摸索2小时后,能丝滑地滚动到指定位置。

0335dd9df5e6498d93ffab96d9069911~tplv-tt-shrink:640:0.image

该研究由Pieter Abbeel等人提出,Pieter Abbeel是吴恩达的第一位博士生,前不久他刚刚获得2021 ACM 计算奖(ACM Prize in Computing)。

目前,该方法的所有软件基础架构已经开源。

一个叫做“空想家”的算法

本文方法的pipeline大致可分为4步:

313de00f5c0146ee9a13be4e40491504~tplv-tt-shrink:640:0.image

第一步,是先把机器人放在真实环境里,收集数据

第二步,把这些数据传输到Replay Buffer。这一步骤就是利用历史数据进行训练、“总结经验”,高效利用收集到的样本。

第三步,World Model会对已有经验进行学习,然后“脑补”出策略。

第四步,再用演员评论家(Actor Critic)算法来提升策略梯度法的性能。

然后循环往复,将已经提炼出的办法再使用到机器人身上,最后达到一种“自己摸索学习”的感觉。

具体来看,这里的核心环节是World Model

World Models是2018年由DAVID HA等人提出的一种快速无监督学习方式,获得了NIPS 2018的Oral Presentation。

它的核心理念是认为人类是基于已有经验,形成了一个心理世界模型,我们所做的决定和行动都是基于这个内部模型。

比如人类在打棒球时,做出反应的速度远比视觉信息传达到大脑中的快,那么在这种情况下还能正确回球的原因,就是因为大脑已经做出了本能的预测。

a8e41ec939a747a28ded63762c8fa1d0~tplv-tt-shrink:640:0.image

此前,基于World Model这种“脑补”的学习方法,谷歌提出了Dreamer这种可扩展的强化学习方法。

这一次提出的方法是在此基础上,叫做DayDreamer。

(貌似可以叫做空想家?)

fa5004167489464a9ab8927b25def259~tplv-tt-shrink:640:0.image

具体来看,World Model就是一个智能体模型。

它包括一个视觉感知组件,能将看到的图像压缩成一个低维的表征向量作为模型输入。

同时还有一个记忆组件,可以基于历史信息,对未来的表征向量做出预测。

最后,还包括一个决策组件,它能基于视觉感知组件、决策组件的表征向量,决定采取怎样的动作。

6b3ede87ae74461fbefd763f57a235fc~tplv-tt-shrink:640:0.image

现在,我们回到本次UC伯克利学者提出的方法。

不难发现,其中World Model Learning部分的逻辑就是一个经验积累的过程,Behavior Learning部分则是一个动作输出的过程。

c2e8e8e0ab754848a14a6d5cb8f75f28~tplv-tt-shrink:640:0.image

本篇论文方法的提出,主要解决了机器人训练中两方面的问题:

效率和准确率

一般来说,训练机器人的常规方法是强化学习,通过反复实验来调整机器人的运作。

不过这种方法往往需要非常大量的测试,才能达到很好的效果。

不仅效率低下,而且训练需要付出的成本也不低。

后来,不少人提出在模拟器中对机器人进行训练,可以很好增效降本。

但是本文作者认为,模拟器训练方法在准确性方面的表现还是不够好,只有真实的环境才能让机器人达到最好的效果。

从结果来看,在训练机器狗的过程中,只花10分钟时间,机器狗就能适应自己的行为了。

和SAC方法对比来看,效果有明显提升。

99cb44aa0c4a4d96ae5d9c1e8595b3a5~tplv-tt-shrink:640:0.image

在机械臂训练过程中,这一新方法还克服了视觉定位和稀疏奖励的挑战,几小时内的训练成果明显优于其他方法。

31c5f223c83e4a80998d97427638ce35~tplv-tt-shrink:640:0.image

值得一提的是,本次带来新成果的研究团队成员,也非常令人瞩目。

其中,Pieter Abbeel是吴恩达的开山大弟子。

4faf00a0aa67452c86a8c5e005d59b0c~tplv-tt-shrink:640:0.image

他现在是UC伯克利电气工程和计算机科学教授,伯克利机器人学习实验室主任,伯克利AI研究院共同主任,曾加入过OpenAI。

前不久,他还获得了2021 ACM 计算奖(ACM Prize in Computing),以表彰其在机器人学习方面的贡献。

与此同时,他还是AI机器人公司Covariant的联合创始人。

1f83edee27c642c3b27faa092b3c3098~tplv-tt-shrink:640:0.image

另一位Ken Goldberg,也是AI领域的顶级专家。

ea50592d41ab47aebe57ca7a44b770a2~tplv-tt-shrink:640:0.image

他现在是UC伯克利工程教授,研究方向为强化学习、人机交互等。

2005年,他被评选为IEEE院士。

与此同时,Goldberg还是一位艺术家,是UC伯克利艺术、科技文化研讨会的奠基人。

此外,Philipp Wu、Alejandro Escontrela、Danijar Hafner三人为共同一作。

其中Philipp Wu还只是UC伯克利一位大四的学生。

One More Thing

在观看机械狗训练的视频时,我们发现研究人员使用的是Unitree机械狗。

ab31938324ed49508ddb7c17c354779c~tplv-tt-shrink:640:0.image

这个品牌来自中国企业宇树科技,之前登上过春晚的机器小牛,也来自它家。

78a0fb219d1c4204a16bf0f4051fe728~tplv-tt-shrink:640:0.image

而且,最近宇树机器狗集体进行Go1测试的视频曝光,还在国外火了一波。

772ff60e1d7f4eaa995b500042c6a477~tplv-tt-shrink:640:0.image

论文地址:
https://danijar.com/project/daydreamer/

参考链接:
https://worldmodels.github.io/

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK