27

远程会议让我无心工作,让AI替我去开会吧

 4 years ago
source link: https://www.jiqizhixin.com/articles/2020-04-14-9
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
不管你喜不喜欢,新冠疫情期间,人们都得使用远程办公平台开视频会议。就算是饱受批评,视频会议平台Zoom

也在最近一段时间业务量有了爆炸性增长。

不过对于一些有些腼腆(家里东西摆得比较乱)的人来说,使用视频会议软件,让摄像头对着自己拍摄老半天总觉得有点别扭。更何况你总得整理好仪容,穿上正式一点的上衣什么的。

QnIfmya.jpg!web

有没有办法避免这种尴尬呢?

最近,美国一家名为 Redpepper 的创业公司里, 工程师 Matt Reed 找到了使用 AI 技术创造虚拟形象的方法。用 AI 模拟自己的形象,代替自己参会,并与他人进行交流,看起来是个完美的解决方案

「我参加Zoom会议的数量已经突破了大气层,冲上了火星,」Reed 在自己的博客中写到。「这让我几乎没有精神放松的时间,刷刷 Reddit,或者真正地完成工作。如果Zoom是电影《头号玩家》里的虚拟现实环境 Oasis——每个人都整天泡在里面。」

他为自己设计的虚拟形象非常有针对性,名为Zoombot。其使用目前流行的基于深度学习的算法,以及文本转语音工具,其模型可以在会议中实际对其他人的交流活动做出反应。有趣的是,Reed 并不只是说说而已,他的Zoombot 虚拟形象登上公司内部会议前甚至都没有和自己同事说一声。

这位仁兄还把自己构建虚拟人的方法写在了 GitHub 上,希望能为大家「造福」:https://github.com/mcreed/zoombot

看起来只是用 js 接口做的一个小程序,你只要把自己的照片替换掉 Reed 的照片,然后将其搭建在自己的服务器上即可。

最初,Reed 是受到一条推特的启发:「世界如此美好,我却因为Zoom画地为牢。」他突然产生了一个大胆的想法,为什么不制作做一个虚拟的自己呢?让这位「孪生兄弟」替我开会。

这个梦想,你我都曾经有过,假如有个和自己一模一样的机器人,那它就可以替我上学和写作业了,岂不美哉。

Reed 盘算了一下,虽然使用虚拟人物去开会也有暴露的可能,但理想状态下,从会议开始的「Hello」到会议结束的「Bye」,很可能都不会有人注意到自己。

而且,这个操作也并没有什么难度。首先,你要把/ img 中的图像替换成自己的照片,然后把这些文件放在运行 https://的服务器上,否则 Chrome 会引发安全错误,也会无法访问麦克风。

最关键的一步是如何营造互动感。Reed 使用 Artyom.js 进行了语音互动设置,这是一个语音识别和文本转语音的库,可以用来接收你的领导或者同事所说的话,然后还能自动说出你所编写的内容,打造一种「愉快」的会议互动氛围。

这个库的优点在于,不像 Alexa 或 Siri,必须要唤醒词才能使用。它只需要听到「How are you」、「Are you OK」或者「你能发送一下吗」,就会触发命令,比如循环脸部静止图像并说出回复。

Artyom.js 项目地址:https://github.com/sdkcarlos/artyom.js/

随后,在 Chrome 中访问Zoombot https:// URL,使用左上方的按钮打开Zoombot,它开始收听所有这些关键词。最后,将Zoom的摄像头设置为「ManyCam 虚拟网络摄像头」,并打开扬声器,与Zoombot 交谈。

jIbeQnv.png!web

如此一来,你就可以化身一个没有感情的开会机器了。

  • 「How are you?」——「我很感谢您的问候。」

  • 「你明白了吗?」——「我没听清你在说什么。」

  • 「再见!」——「稍后再聊。」

IFZ36vb.jpg!web

在同事们明白 Reed 在搞什么鬼之后,大家都忍俊不禁。「这就是最有趣的地方,」Reed 说道。「但我必须在事情变得无法收拾之前提前切断会议,因为Zoombot 有可能无限循环『让我们回到上一个』或者『我听不清,你能重复一遍吗』这样无意义的对话状态。不过这足以引发所有人爆笑了。」

要说让一张照片按照你想要的方式「动起来」,在 AI 领域里还真不是什么无法实现的事。去年 5 月三星发表的一篇 CVPR 2019 论文就介绍了能让《蒙娜丽莎》动起来说话的 AI 模型。研究人员只用少量甚至一张图像或画作就合成了人物开口说话状态的头部动画。

想要做到这样的效果,我们需要利用 Few-shot learning 等技术,合成头部图像和面部 landmark。由算法创建的数字替身此前也被用于创建 deepfake 图像和视频。

IrMZBvN.gif

CVPR 2019 论文:Few-Shot Adversarial Learning of Realistic Neural Talking Head Models 呈现的效果。

效果不错?看到这里,你是不是也想搭建自己的Zoombot 了?不过在这之后,记得向大家说一声,要是来真的,很可能就被放入下一季度优化名单了。

背后的技术:https://github.com/alievk/avatarify

参考内容: https://musebycl.io/index.php/makers/agency-guy-built-ai-clone-attend-zoom-meetings-him


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK