1

距离成为有情感的数字人主播,AI刘强东还要迈过这些坎

 1 week ago
source link: https://www.36kr.com/p/2747382976674560
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

距离成为有情感的数字人主播,AI刘强东还要迈过这些坎

36氪的朋友们·2024-04-24 12:05
市场对数字人直播的讨论,核心聚焦在如何能做到更像真人,有哪些更实际的应用场景和商业化方向等。

用数字人做直播常常会提及“120秒战斗”的说法,指的是如果120秒内,用户不觉得这是一个让他感到别扭的数字人,就会跨过“恐怖谷”效应(当人类看到类似人类的物体,特别是机器人时所表现出的积极和消极反应)。

在京东内部看来,AI刘强东做到了这一点。

自近日刘强东变身AI数字人坐镇京东采销直播间后,市场上对数字人直播的讨论也再度热了起来,核心聚焦在直播数字人如何能做到更像真人,有哪些更实际的应用场景和商业化方向等。

目前行业将直播数字人划分为三级。第一级数字人主要扮演辅助角色,填补真人主播忙碌或休息时的直播空缺,力争像真人。此类数字人将商品详情转化为视频内容参与直播,与真人主播形成互补,可利用闲时提升转化率。

第二级数字人可媲美真人,能在重要时刻独立承担直播任务。

第三级数字人更像一个真正的数字分身,而非替代关系,能深入理解并展现个体的思想、文化等深层特质,实现深度交流。

“京东云言犀数字人已经达到第二档,通过图灵测试,并可在短时间内代替真人直播。”京东云言犀负责人对界面新闻表示。

该负责人认为,虽然AI刘强东在形象、声音、动作等方面已尽可能接近本人,但要完全替代尚有难度,特别是宿迁话口音也增加了一些挑战。

从第一级到第二级的过渡,与背后的技术路线选择密切相关。

早在2020年,京东云言犀便开始了数字人相关的尝试,彼时业界普遍遵循分步构建的方式:先建模型,调整动作驱动,添加语音,适配实际动作,最后渲染。

尽管这种方法逻辑清晰,但成本高昂,也无法满足实时性要求,实际效果有限,因为每走错一步,下一步都无法修补。于是团队开始思考转向基于大模型的“端到端”直接渲染技术,即一次性输出渲染完成的视频。该技术理论上能实现更高的效果上限。

这种“端到端”的技术路线有两种应用方法,根据具体场景灵活运用:一是完全跳过中间态建模,无需3D Mesh(即三维网格,计算机图形学中的一个核心概念);二是仅通过一张照片就能构建出人脸的3D Mesh模型,实现表情、唇形的精细控制和纹理渲染。

目前京东云言犀数字人已经能做到大姿态(包括头部、躯体、手部动作)和实时交互,下一步计划实现更为复杂的实时对话交互。而实时的难度非常大,即使是Sora,生成五分钟的视频,也要在英伟达H100芯片上推理一个小时才可以做到。

谈及与Sora的对比,该负责人指出,两者虽思路相似,但在应用场景上存在显著差异。Sora属于通用的视频应用生成,京东云言犀数字人则偏重人物视频生成,并看好后者在商业价值和社会影响力上的潜力。

二者的差别还在于,Sora目前的视频生成暂不支持有声,而数字人则要求极强的音视频同步,并投入情绪,这是一大挑战。

“目前来看,数字人直播带货有很大机会成为一个大爆点,主要因为它在内容层次达到了一个新的水准,大家的接受度和信任度已经过了关键点。”该负责人对界面新闻表示。

除数字人之外,京东还将AI技术用于一系列客服与导购功能,如自动外呼、智能导购、一体化后台咨询服务等,现今重点关注数字人、深度对话导购、文生图及图片生成。

京东云言犀算法总监称,在执行层面,团队已在语音合成(TTS)技术上实现了零样本应用,无需对模型进行专门训练,即可直接合成特定音色和说话风格。

除了进一步提升数字人在直播间、短视频中的表现力,京东内部希望能以更低成本、更低门槛推进数字人,尽量少让真人拍摄录制。“但从具体技术上说,肯定是大冒险。”京东云言犀算法总监称。

商业模式方面,直播、短视频、客服、线下交互大屏等,都是数字人的应用场景,可选SaaS(一种基于互联网提供软件应用程序的模式)或KA(重点客户)定制。前者又分多种模式,比如按流量或是按标准产品,亦或是产品+服务,后者对效果和各方面要求会更高。此外还有按产品实际销售数量计算广告费用的CPS抽佣模式。

在数字人使用形式上,主要分两种:云端使用和用户本地部署。团队介绍,言犀客户采用前者居多,相较预先做好的demo,言犀数字人直播是通过训练生成式网络模型实时生成,可支持上千个直播间在云端同时播,开播成本据称降低30%。

“直播业态某种意义上是以个人为背景的一种表演和交互,而且能实时互动。”京东云言犀负责人称。

如果能完美实现实时互动,当然是理想状态,但目前市场对于数字人最大的诟病之一就是缺少情感。有人好奇未来是否有可能诞生一个类似董宇辉的超级数字人主播?

在京东云言犀负责人看来,技术上完全有可能,但伦理和感情上不一定能成立,“大家喜欢董宇辉,肯定是因为这个人作为一个实在人的特质,但不知道未来会如何解决伦理问题,预测未来是件很难的事。”

本文来自“界面新闻”,记者:查沁君,编辑:宋佳楠,36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK