4

谢赛宁辟谣:Sora和我一点关系都没有

 3 months ago
source link: https://www.36kr.com/p/2656699101397250
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

谢赛宁辟谣:Sora和我一点关系都没有

DoNews·2024-02-20 11:08
再焦虑,也不能“张冠李戴”
interlace,1

题图 | Sora 

人在家中坐,锅从天上来。昨天,知名的人工智能科学家谢赛宁很忙,忙着辟谣 。 

原因是有媒体称其为“Sora的发明者之一”(《震惊世界的Sora发明者之一,是毕业于上海交大的天才少年-谢赛宁》),但实际上,用谢赛宁的话来说,Sora和他一点关系都没有,“完全是标题党AI写稿,误导事实”,人到中年,还丢这么大的人,深以为耻。

媒体的误信误报,和强行“拉郎配”令人发笑,但从中可以看到一份焦虑——Sora带给国内科技圈的压力太大了,对中美科技水平差距拉大的焦虑,让人们急需找到安慰和发泄的出口。

自2022年11月发布ChatGPT聊天机器人以来,OpenAI一直处于这一波人工智能热潮的核心,引领着全球生成式AI的发展。2月16日,OpenAI推出的首个文生视频模型Sora,震惊了世界。

不夸张的说,输出长达一分钟的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色,对绝大多数人已经是堪比科幻电影的水平了。

人类的想象力,不够用了。

一位穿着时尚的女性走在满布霓虹灯光和城市标牌,又人来人往的东京街道上,身着黑色皮衣、红色长裙、黑色靴子,戴着墨镜涂着红唇,手拎黑色钱包。街道似乎刚下过雨,潮湿且反光,在彩色灯光的照射下形成镜面效果。

听完这一段描述,不同人的脑海里会有不同的想象,但又有多少人的想象会有这样的精致——下面动图的原视频长达59秒,镜头拉近后,甚至还能看到这位女士脸上有些许痘印和眉笔画眉的痕迹,更加真实自然,说是相机的超清镜头拍出来的也不为过。

interlace,1

图片来源:Sora

还有这段中国新年,有舞龙,街道上满是熙熙攘攘的人群,红旗招展热闹非凡,有跟着队伍前进的孩童,也有不少举着手机拍摄的男女老少,很多中国人甚至都脑补不出这样丰富的细节。

interlace,1

图片来源:Sora

下面展现的是一只毛茸茸的小怪物跪在正融化着的蜡烛旁边,睁大眼睛张开嘴巴凝视着火焰,仿佛第一次见到般好奇地探索着世界。烛火打在小怪物的脸上,使绒毛都染上了一层黄晕,3D和现实的艺术风格和暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。 

interlace,1

图片来源: Sora 

这是一段逼真的特写视频,展示了两艘海盗船在一杯咖啡内航行时互相争斗的场景。如果这两段视频是动画短片,那需要消耗制作者不少的时间精力,而现在,可以只需要一句话就完成,短视频和动画行业,无疑将是最先受到冲击的。 

interlace,1

图片来源: Sora 

这是一辆白色的老式SUV,在陡峭的山坡上一条被松树环绕的土路上加速行驶,轮胎带起一路扬尘,阳光照射在车上,给整个场景投射出温暖的光芒,土路周围是陡峭的丘陵和山脉,看起来仿佛《速度与激情》中的飙车场景。显然,游戏业也将是受到冲击的对象。 

interlace,1

图片来源: Sora 

至少很多游戏公司的产品,过场动画的精致度也就是这样了。 

interlace,1

图片来源: Sora

interlace,1

图片来源:Sora 

目前Sora也还存在一些瑕疵,比如可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例,还可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件、遵循特定的相机轨迹等。

例如下面的视频中,一位老奶奶正在吹蜡烛,但其眼神飘忽,与后面的人物没有交互。

interlace,1

图片来源:Sora 

几只灰狼幼崽在石子路上追逐打闹,但总会有新的动物自发凭空出现在场景中。

interlace,1

图片来源:Sora 

不过瑕不掩瑜,国泰君安在研报分析,Sora有三大突出的亮点,实现了AIGC领域的里程碑式进展。首先是60秒长视频,Sora可以保持视频主体与背景的高度流畅性与稳定性。其次是单视频多角度镜头,Sora在一个视频内实现多角度镜头,分镜切换符合逻辑且十分流畅。再是理解真实世界的能力,Sora对于光影反射、运动方式、镜头移动等细节处理得十分优秀,极大地提升了真实感。

一位用户在OpenAI社区论坛上写道:“你们将结束许多人的职业生涯。”这其中或许就包含着摄影师、艺术家、动画师等。马斯克在X用户发布的关于Sora生成视频的帖子下评论:“gg人类”(gg是网络用语“goodgames”的缩写,主要用于游戏结束后,输赢双方都可以用,但现在多由失败方发出,表示认赌服输、心服口服的意思)。

国内众多科技圈大佬也表达了自己的见解,360创始人周鸿祎认为,Sora意味着AGI(通用人工智能)实现将从10年缩短到1年。他表示,OpenAI训练这个模型应该会阅读大量视频,大模型加上Diffusion(扩散)技术需要对这个世界进行进一步了解,学习样本就会以视频和摄像头捕捉到的画面为主。一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube上和TikTok的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,而视频传递的信息量又远远超过一幅图,这就离AGI真的就不远了,不是10年20年的问题,可能一两年很快就可以实现。

做个直观的比喻,你刚升上高三,老师突然告诉你,还有不到一个月就要高考了,你慌不慌?

不过,在着急忙慌之前,还有些问题值得我们思考。谢赛宁在朋友圈辟谣时,也提出了他的几点看法:

对于Sora这样的复杂系统,人才第一,数据第二,算力第三,其他都没有什么是不可替代的;

如何能保证知识和创意的通畅准确传播,但又不被恶意利用?

研究部署和监管体系,我们准备好了吗?

interlace,1

图片来源:网络 

实际上,OpenAI也指出,随着Sora的推出,它可能会被滥用:“尽管进行了广泛的研究和测试,我们仍无法预测人们将使用我们的技术的所有有益方式,也无法预测人们将滥用我们的技术的所有方式。这就是为什么我们相信,随着时间的推移,从现实世界的使用中学习是创建和发布越来越安全的人工智能系统的关键组成部分。”

笔者相信,技术上的差距早晚会被追平,这方面的焦虑可以有,但不必过于焦虑,而在中国的“Sora”出现之前,技术之外值得我们准备和思考的事情还有很多。

本文来自微信公众号“DoNews”(ID:ilovedonews),作者:小不董,36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK