8

从Transformer到脑机,苹果发布会透露的远不止MR | 见智研究

 2 years ago
source link: https://awtmt.com/articles/3690451
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

从Transformer到脑机,苹果发布会透露的远不止MR | 见智研究

韩枫 发表于 2023年06月06日 07:04
摘要:苹果或许才是将脑机和AI应用结合最好的公司?

被吐槽价格太贵,实用性差,带着外接电池…但见智研究看来,苹果昨晚的发布会,超越预期。

苹果一直以来引以为傲的并不是炫技,而是把所有黑科技运用于应用,为用户创造最好的交互体验,这一次在苹果的MR设备Vision Pro上,苹果再次做到了。

无需手柄的空中直接操控,设备间的无缝投屏切换,流畅的UI操控实时反馈,3D摄像机等等,这一切看似简单的交互组合在一起就不再是简单,而是真正的软硬结合的实力。

没有炫技,却看到了苹果把黑科技应用落地

苹果WWDC23大会,没有主打炫技术,但处处都是黑科技。脑机接口、Transformer AI 模型等应用在了产品的交互体验中。

其中给见智研究印象最深的要数两只手在空中操控而Vision Pro得到的及时反馈。有过无线设备使用经验的朋友一定会对延迟这件事深恶痛绝,但是从苹果的宣传中可以看到,这些操作几乎是完全实时进行。

市场都在认为,这是苹果在Vision Pro前安装的多颗摄像头的功劳。

见智研究从今早苹果的一位神经功能开发者的推特中获得了答案,远不止摄像头这么简单!

根据苹果神经技术设计师Sterling Crispin所述:

这种全新的脑机接口方式已经成为专利技术,对瞳孔变化进行监测,能够被用来预测之后的行为,并且该技术已经被验证是有效的,通过这种监测瞳孔的方式来实时进行UI创建,这是一种非常酷的体验。

用户在混合现实或虚拟现实体验中,AI模型试图预测用户是否感到好奇、思维游离、害怕、注意、回忆过去的经历,或其他一些认知状态。

这些可以通过眼球追踪、大脑中的脑电活动、心脏跳动和节律、肌肉活动、血液密度、血压、皮肤传导等测量来推断,使预判行为成为可能。

与此同时,Sterling Crispin还提到Vision Pro采用了机器学习监测身体和大脑的信号,来预测人类的情绪,从而创建更适合的虚拟环境来增强用户体验。

由此可见,Vision Pro的这种脑机预测行为方式,突破了以往交互延迟慢的问题,配合摄像头,让UI延迟大幅降低,体验的流畅度达到了全新的高度。

adb9d3d2-acf6-4a2a-96c7-d6a73080b678.png

此前XR设备的发展路径一直是拼硬件升级,但最大的问题还是在于交互体验感、沉浸感难以提高。而苹果Vision Pro就很好的解决了这个问题,这正是在此前苹果硬件规格已经传遍市场后仍超预期的地方。

苹果:人与人不应是赛博朋克下的符号

从另外一些细节让苹果的理念更加凸显——不想让人与人之间变成赛博朋克下的符号。

苹果创造性的在Vision Pro的正面渲染显示了人的眼睛(一向热衷黑科技的付鹏老师也在第一时间换了头像),苹果强调了在人与人交流时,眼神的互动。

97a9e9ef-2705-4581-bb2b-1b3ca1f06b57.png

这并不是苹果第一次强调人与人对话时,眼神交流的重要性。苹果早在多个版本前的FaceTime中,就对视频时眼球位置进行了AI调整,将我们看着屏幕时歪掉的注意力方向调整为注视对方的方向。

而在Vision Pro中,苹果进一步增强了人与人眼神交互,当眼睛和正面走来的人进行交流的时候,透过MR设备还能够直接进行交流,而不需要摘下设备,当瞳孔行为发生变化时,又可再次进入沉浸式虚拟空间。

在使用Vision Pro的FaceTime功能时,对方会看到一个利用深度学习,渲染出来的实时的你,通过空间操作系统VisionOS把数字内容融入真实世界。

a697b814-e7c4-4b51-abff-884dd8a29ab8.png
苹果自己的AI也来了

市场认为,苹果此次发布会没有任何关于AI模型的内容,但这个也是有误的。

见智研究发现,在最新升级的iOS17系统介绍中,苹果宣布使用Transformer语言模型用于输入和语音识别文字。

4463ab60-bec9-4064-8bfa-32faecc02293.png

通过Transformer模型,苹果能够随着用户每次打字不断改进体验与准确度,进行自动语言语法纠正,方便于用户在打字时获得实时预测文字推荐,只要轻点空格键就能添加整个单词或完成句子,让文字输入比以往更加快捷。听写功能利用全新语言识别模型,准确度进一步提升。

Transformer正是OpenAI等一系列大模型的基础。而根据苹果一向的隐私政策,毫无意外,这项技术也是纯本地化运行。

苹果将语言预测模型引入输入法和语音传输中,是有一次将前沿技术和应用结合的最好案例。Transformer是人机对话助手最强的底层技术支持,而苹果是第一个将该技术内嵌在移动端产品系统中的公司,之后iOS 17在语音语言输入体验上会带来全新的感受。

同时我们可以期待的是,苹果明年很可能会给用户带来本地化LLM大模型,本地化的判断一方面是因为苹果对用户隐私的关心程度实在太高,另一方面苹果在处理硬件上已经积累了相当的技术,软硬一体化的大模型应用会更加有效。

如同Mac带入个人计算时代,iPhone带入移动计算,Vision pro将带入空间计算时代。

见智研究认为:Vision pro的出现将真正开启新的计算时代,而生成式AI对苹果MR设备或许也是相互成就,因为此前MR的实时渲染对算力的消耗要远大于生成式AI。此前我们在AI+XR将成为下一代移动端战场一文进行过分析,认为生成式AI的快速发展与MR的结合将会带来移动端产品的全面升级,特别是在应用内容创新方面会突破此前的开发方式,极大改善现阶段XR爆款内容匮乏的问题。

生成式AI和苹果MR就是时势和英雄。

7年来,苹果在用搬山的能力处理Vision Pro的每一个细节,这个软硬结合的能力并不是谁随便都能模仿的来的;每一个细小的问题都能看出来苹果是花了非常大的功夫在解决。

这也是发布会前,即便是苹果MR的硬件BOM清单到处流传,但Vision Pro亮相之后还是让见智研究认为超预期的原因。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

</div


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK