5

意念打字破新纪录!心中想着「说话」,词就蹦跶出来,斯坦福团队出品

 1 year ago
source link: https://www.qbitai.com/2023/02/41728.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

意念打字破新纪录!心中想着「说话」,词就蹦跶出来,斯坦福团队出品

韩智韩智 2023-02-01 14:54:11 来源:量子位

已开始接近正常人沟通速度。

詹士 发自 凹非寺

量子位 | 公众号 QbitAI

意念打字新纪录诞生!

受试者通过植入设备,平均输入速度能达每分钟62个单词,是团队之前纪录的3倍。

同时准确率也有明显提升,面向50个单词词汇表,识别准确率比先前纪录提升2.7倍。

据研究者称,这已开始接近正常人沟通速度(每分钟160个单词)。

3b1695ff41694869b315f66348c13541~tplv-tt-shrink:640:0.image?traceid=202302011448577F811B70F824044EC6C9&x-expires=2147483647&x-signature=4MHyPP3siLTzVZcTOqjToPak7rM%3D

不信?那就看看现场实况。

受试者“按词输入”,点点头就出了个句子,还是蛮丝滑的:

166a0aede4f3478288f8cf8440a93206~tplv-tt-shrink:640:0.image?traceid=202302011448577F811B70F824044EC6C9&x-expires=2147483647&x-signature=ZMFvWv3avR0zTnSIk7IW4G6UD50%3D

相比下,此前研究按“字母”逐个输入,显得更费劲不少:

2f0231ba5b884d33a0d53269f4eec043~tplv-tt-shrink:640:0.image?traceid=202302011448577F811B70F824044EC6C9&x-expires=2147483647&x-signature=7QaQjfAMTzODhjg9F5kGPPNEANc%3D

 2021年登Nature封面的成果展示

创造该纪录的团队来自斯坦福,前两天,他们刚将相关论文预印本放上bioRXiv,引来不小关注。

fedf8d70e9c244a8b6510299935c791f~tplv-tt-shrink:640:0.image?traceid=202302011448577F811B70F824044EC6C9&x-expires=2147483647&x-signature=sCVCzsUxDDJGfN9cO1w%2FhXlUUVc%3D

未参与项目的加州大学旧金山分校研究员Philip Sabes,将之称为“重大突破”。他认为,相关技术很快将走出实验室,进入落地阶段。

不少网友也对该成果也相当兴奋,Reddit点赞上万,有人恨不能立马给家人整一套。

07a7ff28b295415d88acdc565e3fd676~tplv-tt-shrink:640:0.image?traceid=202302011448577F811B70F824044EC6C9&x-expires=2147483647&x-signature=5P5sZnTPJYt6LLF9b9SnBrjMu7Y%3D

值得一提的是,论文发表同一天,共同主要作者之一的Krishna Shenoy因胰腺癌去世,不少学者与研究机构为此悼念。

df279f7f27a44c76a7f604bc77fc6ddf~tplv-tt-shrink:640:0.image?traceid=202302011448577F811B70F824044EC6C9&x-expires=2147483647&x-signature=Y037dY6T9bz125kajdmdMf4lCFw%3D

所以这回,科学家们如何创造出意念打字新纪录?与之前方式有什么不同?

继续往下看。

识别开口说话的神经活动情况

意念打字过去一直是脑科学领域的热门研究方向,也备受社会大众关注,更早之前的实现方法是——让受试者在脑中手写字母,或是在脑中读出特定读音,再靠系统识别。

此次,科学家们用了不同的信息识别办法——直接让受试者“说”出来,哪怕只在大脑里。

具体来说,他们依靠一套语音脑机接口(BCI)系统,识别人类说话中相关的口腔、面部神经活动情况,通过解码其动作控制信号,再去输出受试者想表达的文本。

4d1eab4c6368413ca11983542e1e011e~tplv-tt-shrink:640:0.image?traceid=202302011448577F811B70F824044EC6C9&x-expires=2147483647&x-signature=gswiqYYteZjXSNQzRwNNDoXhaoU%3D

基于上述思路,科学家们开展了一系列实验。

此番受试者是一位女性,时年67岁,她在57岁时被诊断出患有肌萎缩性侧索硬化症 (ALS),该病症让她在很长时间被吐字发音不清折磨,说话仅能发出几个元音,辅音几乎很难分辨。

为保护隐私,该受试者被团队称为T12,2021年的研究中,他们也用了同样方法,将另一位男性受试者称为T5。

2022年3月,经当事人同意,科学家为其在脑中植入四个微电极阵列,以检测语言相关神经活动情况。

de8091de67d34aa388f4b4ebb5dfb581~tplv-tt-shrink:640:0.image?traceid=202302011448577F811B70F824044EC6C9&x-expires=2147483647&x-signature=BLh3KKm2LxN4k9CUUXUebRkthKo%3D

在植入后的实验中,科学家先让受试者尝试做不同动作,观察相关区域的神经活动状况。

比如,让受试者睁眼、闭眼、眨眼以观察控制眼皮相关神经元活动;再比如让嘴唇张开、闭合、微笑,以检测相关脑区活动。当然,实验观察部位还包括:额头、下巴、喉部、舌头等。

科研团队发现,不同动作之间神经活动高度分离,在特定检测频率下,他们针对34个口部面部动作进行解码,准确率为92.7%,若面向39个音素,解码准确率为60%。这侧面说明原计划具备可操作性。

ccf8d9673ad8451b972fe14ef8386bbf~tplv-tt-shrink:640:0.image?traceid=202302011448577F811B70F824044EC6C9&x-expires=2147483647&x-signature=2QGPfsmEJRLD6t%2FK%2FVVw75Buq3U%3D

下一步是将说话的相关神经活动和文本关联起来。

科研工作者预先准备了一个RNN解码器,以80ms为间隔,检测识别神经活动信号,这当中,神经网络会依靠最大概率判断输出单词,错误的发音也将被纠正,最终输出文本。

为训练该网络,受试者需要每天尝试输出260-280语句的数据。

百天之后的测试中,无论是否发出声音,对单词的识别速度均在每分钟50词以上,该表现大约是该团队此前2021年纪录的3倍。

且无论面向50个单词,还是12500个单词,解码效率差异不大。

68f1c92268eb4117ad39bbfbd3e75654~tplv-tt-shrink:640:0.image?traceid=202302011448577F811B70F824044EC6C9&x-expires=2147483647&x-signature=Z%2FZhrKwryc9PbkbHlDytAZPmo6A%3D

识别错误率也有大幅改善。

针对50个单词的表达,识别错误率在9.1%,即便受试者进行不发声表达,错误率也仅11.2%。

针对12500单词库时,表达识别的错误率为23.8%,不发声输出错误率为24.7%,该错误率与之前研究面向50词的测试情况正误情况基本持平,能看出该方法准确度大幅上升。

9177c0236d394216930fe98c5eb1bd51~tplv-tt-shrink:640:0.image?traceid=202302011448577F811B70F824044EC6C9&x-expires=2147483647&x-signature=lIvkau36Bpp8YSMdxOMSy38CIiI%3D

上述测试之外,科学家还探究了哪些方向能进一步优化该系统。

他们考虑了三个维度——语言模型词汇量、植入脑部电极数量、训练数据集大小。

结果显示,随着单词数量提高,错误率的确会升高,但在1000词量级趋于平缓(下方左图),团队由此认为,日后研究通过压缩单词数不一定有效。

但对于植入电极数量来说,更多的通道数(精度)的确会带来错误率降低。如下方右图,从500提升到1000,错误率从4%,降低到了1.9%。

17e92db4f87d456297e7bcb770017fbc~tplv-tt-shrink:640:0.image?traceid=202302011448577F811B70F824044EC6C9&x-expires=2147483647&x-signature=2e2uBKR1aEIkUAlyI9I6ABat7Rk%3D

另值得一提的是,即便未经训练,面向新数据,系统单词错误率也只有30%。且通过训练,错误率会不断下降。

70ef0f36dd1145adb876105c0b74d2d9~tplv-tt-shrink:640:0.image?traceid=202302011448577F811B70F824044EC6C9&x-expires=2147483647&x-signature=1InVgmRNYl0orE03GPAdLyX8j8M%3D

对于后续研究,团队指出该成果目前还不是完整的、临床上可落地的系统。此外,24%错误率在日常生活中也还不够低,后续研究将在各方面努力。

意念打字一直热度不减

本文一作是Francis Willett,来自斯坦福霍华德休斯医学研究所,主要研究领域为脑机接口、运动神经科学,他也对人工神经网络模型有所涉猎。

2021年登上Nature封面的意念打字研究中,他也是一作。跟上次一样,此番他表示——将会公布研究的代码和数据。

b5c86bac71be4e48a4d3e65e435a29c7~tplv-tt-shrink:640:0.image?traceid=202302011448577F811B70F824044EC6C9&x-expires=2147483647&x-signature=AxHpqFk6eR5FA3lnZ9qez2alf2k%3D

另一位主要作者是Erin Kunz,来自斯坦福电气工程系在读博士,此前,她还曾在通用担任自动驾驶工程师。

4de6c444dc2c452e943c4b5a612036bc~tplv-tt-shrink:640:0.image?traceid=202302011448577F811B70F824044EC6C9&x-expires=2147483647&x-signature=PI%2B7ChJxBsj4LvYmn%2BGJXss0Svc%3D

前文提及刚刚过世的Krishna Shenoy也是本文主要作者。

2021年登Nature的论文,他亦是贡献者之一,此前研究中,他破译了与手写笔记相关的大脑信号,让截瘫患者快速准确地打字。

该项工作十分关键,因为当时他们使用的方法是——让受试者在脑中“写出”字母

02d7ab4ad993451bb6bd4349e7888423~tplv-tt-shrink:640:0.image?traceid=202302011448577F811B70F824044EC6C9&x-expires=2147483647&x-signature=Qme3WW4Oub3P6xAsQ%2FkNqRkz3n0%3D

除该团队,在“意念打字”这件事上,还有更多科学家在努力。

比如2022年11月,加利福尼亚大学旧金山分校(UCSF)提出的一种不同方法。他们通过植入128通道皮质电图(ECoG)阵列,外加一个经皮连接器,用来连接植入设备和外部系统。

在识别方式上,他们所想到的是——让受试者在脑中默念字母NATO代码(比如α代替a,β代替b),完成逐个字母输入,平均2秒可键入一个字母,最终平均字符错误率仅6.13%。

aea4eebba1f744709bc100f9ba628436~tplv-tt-shrink:640:0.image?traceid=202302011448577F811B70F824044EC6C9&x-expires=2147483647&x-signature=OUeupCeezJot1tWcEQYVX4jYYaA%3D

之前,量子位智库对该趋势也有所展望,认为“意念打字”乃至背后的脑机接口技术已在商业化发展上初具雏形。

清华李路明团队、瑞金医院、浙江大学及浙大二院神经外科等团队或机构,均有所积累。

09a3fc6c699b40bf8fbc722fbe5b0631~tplv-tt-shrink:640:0.image?traceid=202302011448577F811B70F824044EC6C9&x-expires=2147483647&x-signature=7K0%2B5miWzP5ysuCh2XtiURlxoIQ%3D

另值得一提的是,去年末马斯克及Neuralink还让猴子搞了一回“意念打字”,虽说是用训练猴子意念点击屏幕中的黄色按钮,但也算“蹭”了一波。

当时,马斯克还说,他和Neuralink已向FDA递交了诸多文件,预计6个月后(预计今年六月)开启人体试验。

但能不能等到,还真不一定……

毕竟同样的话,他在2022年4月已说过一次了。(狗头)

参考链接:
[1]https://www.technologyreview.com/2023/01/24/1067226/an-als-patient-set-a-record-for-communicating-via-a-brain-implant-62-words-per-minute/
[2]https://www.freethink.com/hard-tech/speech-bcis
[3]https://www.biorxiv.org/content/biorxiv/early/2023/01/21/2023.01.21.524489.full.pdf

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK