1

如何用语音记临时笔记?

 2 years ago
source link: https://zhuanlan.zhihu.com/p/443304203
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

如何用语音记临时笔记?

南开大学 情报学博士


v2-c36b6c534b5c6a101462feef9fa47c05_720w.jpg

Photo by Jason Rosewell on Unsplash

看到这个标题,你可能会有些茫然。这都快 2022 年了,还有人不知道语音输入文字功能吗?

没错,语音输入转文字,确实不是什么新奇的事儿。我在 之前的文章和视频里,也多次给你介绍过一系列的工具。

v2-8c5ba9219e813dfbbaadbb9ec48c542d_720w.jpg

它们来自于讯飞、腾讯、苹果等平台。可以用超过97%的正确率,帮助你快速把头脑中想到的内容,语音输入轻松弄成文本。

好用不好用?

不能说不好用,否则那些自带语音输入功能的鼠标,不会卖得这么火。

但也不能说足够好用,否则键盘的销量,早就该跌得一塌糊涂了。

实际上,更多人还是倾向于使用键盘来输入。注意我说的,不是后期编辑加工,而是从一开始做记录,就用键盘而非语音。

因为目前的语音输入,至少包含了以下 3 个痛点:

首先,我们的书面表达方式,和口语有区别。你可能十分钟说了2000字,但审视文本,发现过于口语化——中间有很多冗余,甚至逻辑关系上也有问题。要弄成可以给对方(尤其是重要客户)看的书面表达形式,需要整上个半小时。与其那样,似乎还不如一上来就码字儿来得直接、方便和快速。

其次,语音识别准确率,毕竟离100%还差着一点儿。这其实完全可以理解。即便是人听人说话,而且是母语,也难有100%的准确率。指导过学生毕业论文的老师们,或者带过实习生的职场人士,对此应该不乏深刻体会。准确率不到100%,就意味着必须进行审视和检查。当你输入语音时,盯着屏幕上不断出现的错字儿,你说咋办?不管,怕一会儿忘了;管,思路就断了……

第三,你是输入完毕了,可是上下文(语音),就被丢弃了。你可能认为,既然目标是要输入文字,语音丢了就丢了呗。就如同大楼盖好,为啥还要留着脚手架呢?可别忘了,一个最终的长文本,大都不是一天内写好的。最终整理的时候,你会发现识别的结果不像人话,肯定是某些关键词汇识别错误,但是时间久了,你已经想不起来当初说的是啥了。这情何以堪?

因而,受目前技术所限,一种比较好的语音录入流程,应该包含以下几个必要功能的考虑:

首先,存储语音,不要随意丢弃。这样将来发现有识别错误,可以找到原始语音。人工听几秒钟,立刻就能知道最初的准确含义。

其次,输入的时候,不要立即出现转换文字。这对输入者,是一种干扰。考验自己的毅力,不去管识别错误?那是对自己无端的折磨

第三,转换要准确和方便。既然语音输入和文字转换不要同时做,那最好可以批量转换语音,避免逐一操作的麻烦。

第四,转换后的结果,最好是细粒度对应的。例如说我点选某个词语,就可以立即跳转到对应的语音段落,方便核对。

第五,导出文本要便捷,便于其他编辑应用接续后面的操作。

这样的流程,是不是有呢?

我确实见到过满足部分要求的工具。

例如 flomo 的微信语音输入。

Flomo 是可以从微信直接输入信息的。前些日子,少楠加了个功能,调用微信语音转换 API,你可以直接在微信里滔滔不绝,那边 flomo 里就一条条涌现出来文本了。说的时候,没有任何的干扰,很方便。

但是,这里有个问题,就是语音被锁在了微信里。这样将来万一手机丢失,原始数据就没了。而且语音和识别的文本分别在不同的应用,缺乏足够的对应关系。

况且,地球人都知道,微信语音输入,是有个 1 分钟长度限制的。

这个方法,还是不能完全满足我的需求。

直到最近,看到了赵赛坡先生的 iPad Power User 会员邮件,我惊喜不已。

赵赛坡先生的工作流程,非常简单。

首先,使用苹果自带的语音备忘录(voice memo)进行记录。

这工具的好处很明显,就是系统自带,免费,而且自动同步所有账号下设备。

如此一来,即便是抬起手臂用 Apple Watch ,你也能迅速输入一段语音了。

所有记录,你可以随时导出到本地的存储设备,或者 Devonthink 上。

其次,采用飞书妙记这款工具,做语音的识别。

我之前在视频里,介绍过如何用飞书妙记做组会记录。现在我基本上离不开它了。就连每次线下组会,我都要叫上学生跟我连线,然后选择录制。

后来才发现,这用法过于幼稚。因为飞书妙记其实支持本地单机录音,方便许多。

不仅如此,你还可以通过网页版,直接导入音频做转换和分析。注意这里可以支持多个语音文件批量上传操作。

转换的结果,就跟飞书的会议记录一样全面。有文本、有时间戳,甚至还有关键词的自动提取。

点击文字,可以自动跳转到对应的语音片段。

v2-2947a7099c416cc08be0a05a5e022198_b.jpg

导出成文档、文本,甚至是字幕(因为也支持视频上传),也很方便。

这是导出纯文本的效果。

你看,咱们记录语音笔记的几个要求,通过这两款工具的结合,全都得到了满足。

这其实,还不是全部。

别忘了飞书是干啥用的,这是一款团队协作工具啊。

只需导出飞书文档,你就可以立即分享给团队成员。工作安排、内容整合…… 都可以大家协同操作。那工作效率比起一个人单独完成,要高得多。

这时候,原始的语音上下文,就显得更加重要。如果机器识别错了,原先团队成员拿着错误的识别文本,恐怕只有挠头的份儿。然后呢,只好再跟你单独沟通、确认,肯定会拖慢进度。现在只需要鼠标点一下,你彼时彼刻说的是啥,基本上就一清二楚了。

你看,随机安装,开机即用的苹果语音备忘录,我原本没有觉得它有任何的神奇之处,甚至一直弃之不用;至于飞书,我一直只是拿它当成团队协同工具,没想过它可以上传语音转换文本,还能深度融入团队协同工作流。

这两款工具结合在一起时,「1+1>2」 的效应发生了。赵赛坡先生这封邮件,不仅解决了我语音输入的痛点,还帮我找到了语音内容用于团队协作的方便路径。真是及时雨啊。

我不愿意每次分别打开两个应用,于是在 iPad 上面弄了个捷径。

只要对 Siri 一喊「秘书」,iPad 给我打开这个分屏。我就可以欢快地批量上传语音了。

看到我有多懒了吧?哈哈。

希望这篇文章,对改进你语音记录的流程,提高效率,能有帮助。

也欢迎你把自己的使用体验和感受分享给我,咱们一起交流讨论。

新书上市,感谢关照!

延伸阅读

如果你觉得本文有用,请点赞

如果本文可能对你的朋友有帮助,请转发给他们。

欢迎关注我的专栏,以便及时收到后续的更新内容。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK