5

会议多到爆炸,AI 克隆一个自己来 Zoom 开会?

 2 years ago
source link: https://www.infoq.cn/article/JKdUgA8HRCcmXM7zwc38
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

过去一段时间,由于全球大部分公司开启远程办公,Zoom 这类工具的使用人数疯狂上升,从视频会议到朋友聚会都可以通过 Zoom 来实现,这也让一些人感到非常有压力。于是,国外的一些技术专家脑洞大开,通过 AI 技术想方设法的让自己从 Zoom 中逃离出来。

Zoombot:克隆一个自己去开会

近日,国外一位名叫 Matt Reed 的技术专家由于无法忍受开不完的 Zoom 会议,就建立了一个 AI 驱动的克隆项目 Zoombot,可以克隆一个自己去开会。Zoombot 使用 AI 语音识别和文本转语音工具,可以在会议中对其他人的问题做出响应。Reed 并没有事先告知他的同事,以下截图看起来效果还不错。

FbeamiR.jpg!web

整个方案并不复杂,据 Reed 介绍,他先截了一些自己通过 Zoom 开会的图片,然后基于 Artyom.js 开源库(进行侦听和响应)构建了一个简单的 Web 应用程序,对其进行编程以便可以听懂一些简单的对话,比如“你好吗?”、“你明白了吗”、“再见”等。理想情况下,Zoombot 可以处理从“Hello”到“Bye”的整个会议过程,而不会引起任何人注意,但现阶段的项目更多是出于兴趣建立的,不是很完善,所以,Reed 也把项目放到 GitHub 上面了,供开发者尝试。

GitHub 地址: https://github.com/mcreed/zoombot

Reed 认为比较好的部分是不必给它一个像“Hey,Siri”这样的唤醒词,就可以开始使用。只要外界有语音触发就可以响应,配合脸部的运动给出答复。

73aYvuB.jpg!web

Zoombot 项目一共花费了大约四个小时来构建,而 Reed 又花了大约四个小时来组织 Zoom 会议并记录同事们的真实反应。Reed 调侃道:“诀窍是在聊完之前就离开会议室,因为一旦进入“我听不到你的声音,可以重复一遍吗?”的死循环中就麻烦了。

Zoom 虚拟化身项目关键:一阶运动模型

如果说上面这个项目以有趣为主,接下来介绍的这个开源项目则更加接近实用,并且其所依据的理论早在一年前便有人提出。

avatarify 项目也是一位国外开发者发布在 GitHub 上的开源项目,可以为 Zoom、Skype 这类视频通话应用添加自己的替身,项目中使用的核心模型 first order model 来源于一篇 NIPS 论文《First Order Motion Model for Image Animation》。

B3eUz2M.png!web

一阶运动模型的好处是一旦经过一组描述相同类别对象的视频训练(例如人脸、人体),这种方法就可以应用于此类的任何对象。模型采用自监督的方法将外观和运动信息分离,主要由两个主要模块组成:运动估计模块和图像生成模块。

模型动画示例 FRbYvaB.gif

如上图所示,最左边的大图像是驱动视频,右侧第一排小图像是源视频,下面一排是驱动视频。

在安装和配置完成,如果想获得一些裁剪意见,可以使用 python crop-video.py --inp some_youtube_video.mp4,它将使用 ffmpeg 生成一些命令,需要 face-alligment 库:

复制代码

git clone https://github.com/1adrianb/face-alignment
cdface-alignment
pip install -r requirements.txt
pythonsetup.pyinstall

其他内容可访问 GitHub 地址:

https://github.com/AliaksandrSiarohin/first-order-model

avatarify 项目地址:

https://github.com/alievk/avatarify

在 GitHub 上,作者给出了具体的安装方法,添加完成后在 Zoom 中选择设置摄像头使用 avatarify,就可以将生成的图像通过 OpenCV 实时推送到视频流了。

QRR3uiZ.jpg!web

需要注意的地方是尽量使用头像缩放功能在预览窗口中将您的面部与目标化身的比例和位置尽可能地对齐。对齐后,单击“ X”以使用此帧作为参考来驱动其余动画。

另外,也可以在软件上按“ F”以尝试自己找到一个更好的参考系。这会减慢帧速率,但是在发生以下情况时,可以继续移动头部:当预览窗口发现面部姿势与当前使用的头像更接近时,它将闪烁绿色。您还将看到两个数字显示:第一个数字是您当前与化身对齐的紧密程度,第二个数字是参考系对齐的紧密程度。您可以选择一个好的对齐方式。完成后,再次按“ F”退出参考帧搜索模式。整个过程不需要很严格,其他一些配置仍然可以产生很好的结果,但这是一个好的起点。

此外,开发者还演示了通过该项目让马斯克加入视频会议的效果,供大家参考。

可以通过 Reddit 观看此视频:

https://www.reddit.com/r/MediaSynthesis/comments/fxc34i/elon_musk_joined_our_zoom_call_avatarify/

参考链接:

https://musebycl.io/index.php/makers/agency-guy-built-ai-clone-attend-zoom-meetings-him

https://www.reddit.com/r/MediaSynthesis/comments/fxc34i/elon_musk_joined_our_zoom_call_avatarify/

https://aliaksandrsiarohin.github.io/first-order-model-website/

https://github.com/alievk/avatarify


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK