75

国内风投来美国必备神器Otter

 5 years ago
source link: http://www.10tiao.com/html/754/201807/2650809962/1.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.


上周去Los Altos拜访Sam Liang,想看看他最近在做什么。Sam之前是谷歌地图的架构师,是谷歌地图团队最早的成员之一。之后他离开谷歌做了Alohar,公司2013年底被高德地图收购,现在已经归属阿里巴巴。


Alohar旗下有个产品叫PlaceUs,很有意思,它指出了地图业务的一个发展趋势,即


基础地理数据其实已经不再具竞争优势,因为某种程度上,它已经是一个可以购买的东西(已经有多种数据来源)。那么,现在什么东西具有竞争优势呢?


把“场景”也就是context引入到地图概念里。我举个例子。


当我在应用上看到我国内助理时,我得到的信息将不只是她的地理位置信息,而是她在“干什么”的一个状态,好比她在开车。那么这时我可能就不会给她打电话了,因为开车接电话不安全。显示“场景/状态”而非“地理位置”,以此帮助协调多人的生活和工作,这是AI在地图中的意义之一。



如上图,三年前的PlaceUs曾经非常开拓我的视野。那么,现在Sam在干什么呢?





去Los Altos前,我特地搜索了一下他的新公司AISense,发现去年底已经完成A轮,已有投资者包括德丰杰DFJ DragonFund、500 Startups等。早期天使投资人里,我还看到了大卫.切瑞顿。


这个人是谁?就是那个闻名硅谷的斯坦福教授,他第一个写了支票给拉里.佩奇和谢尔盖.布林,后面那两个人拿了这张支票创办了谷歌。


传奇天使投资人David Cheriton

言归正传。Sam的新作品是Otter,这是一个语音产品。我问Sam:“其实你有非常多选择,为什么二次创业选择做语音呢?”


请注意:这个时候,Otter这个App就放在我和Sam中间的桌子上。下面是Otter记录下来的Sam说的东西。我的第一感觉是:天啦,那边语音刚落,Otter已经基本全记下来了,这个速度太快。


我翻译一下:


“我做这个东西有很多原因,第一个原因是:世界上有这么多人,每个人都需要用语音沟通,尤其是对企业家,有很多重要商务会谈,比如今天这种情况,我们面对面见到,然后可能只有40分钟。


但我们会谈很多信息,而企业家的时间很贵,我们怎么才能最好地利用时间呢?那就是不要把谈话内容又忘了个精光。但我发现:人们花很多时间开会或会谈,但其实一结束就忘了大半部分,所以Otter这个App,第一个作用就是帮人们更好地记住会谈内容。”



下面,我帮大家快速拎一下Otter的核心要义。这里,已经显示出硅谷关于语音的一些趋势和洞见了。


第一,Otter关键字:转录


这是我最需要强调的一点,因为不同人用Otter,Otter能帮到他/她的地方不一样。比如中国很多小孩在美国读书,刚开始时可能英文听力不好,听教授讲课吃力,这种情况下就可以用Otter看英文文本抓关键字,因为你的阅读能力一定比听力强。


但这是Otter的核心吗?绝对不是。


Otter核心是“转录(transcription)”,也就是说:把声音转成文本信息,而且转的速度极快,几乎实时。这样的产品形态,就把一堆以“录音”为切入点然后再付费转文本文字的产品甩出去了。


那么为什么转录会成为一个趋势呢?我想是因为:文字形式的信息有其它形式的信息(如语音、视频)不可替代的功能,越是严肃/商务领域的信息,越是如此,因为你听完看完会忘,而严肃/商务领域的东西,你不想忘。


2,Highlight神器


文字信息还有一个好处,那就是能够让你在最短时间内,对内容一目了然。


这一点,语音做不到,视频做不到,甚至后两者在信息的展开中,还是不可逆的。而既然,你能够以很快的速度阅读并来回逆,你抓重点的速度肯定也就更快了。


3,技术上和亚马逊的Alexa或谷歌的Google Assistant不同


我第一次用Otter时,其实愣了一下,因为它要我先对它说一段语音,包括告诉它我是谁,我做什么职业。


我想:这应该是个“工具”,应该像谷歌地图那样打开就直奔主题,怎么往复杂方向去了呢?后来我才明白,看下图:



图里描红之处,会自动呈现你的名字和头像。但为什么要这样做呢?


因为凡涉及谈话,必然涉及两个人或多人,那这个时候,“什么信息是谁说的”这件事就很重要。而Otter被设计成:能对多人谈话进行理解和捕捉,这和亚马逊虚拟语音助手Alexa或谷歌语音助理Google Assistant的技术不同。


后者一般发生在人和设备之间,而且通常是一个人在说话,同时,你和Alexa说话时的内容都会很短,无非是问一些短问题。


但人类的谈话则要复杂多了:不少于两个人;其次一聊一小时很正常;再次,语速不会像我们对着机器说话时那样慢,而Otter的目标,就是捕捉类似情境下的对话、会议、采访、讲座等,然后把它们变成一个可搜索的档案。



值得注意的是:这里涉及的所有技术包括语音识别,都由AIsense自己构建,不用现有语音识别API。据Sam说,这是因为希望提高准确性,并优化多个扬声器。


4,也支持导入音频、视频,帮你转录


但需要打开电脑用Otter的官网搞。


5,语音世界的Dropbox和Slack


这时你闭上眼睛,脑海里出现一大片语音的海洋,我们再来看下Otter的Logo,它强调语音谈话的可记忆、可搜索和可分享。


这个概念熟不熟呢?

想起来就是一片语音的海洋


其实挺熟的,让人想起Dropbox,只不过Otter做的是语音会话。甚至在商业模式上,Otter和Dropbox也很像:


免费用户这块,每个月可以用10小时的语音转录,而如果你想要更多,则需要付费$9.99,获得一个月100小时的转录。


Sam估计:免费用户会占这个App的绝大多数,付钱的则将来自企业级用户。但就像Dropbox和Slack,他们的绝大部分付费/企业级用户,其实都由他们的消费级用户带来,比如职员用着用着觉得需要,回头和老板推荐购买。Otter应该也是这种模式。


不过,Otter应该还有一种商业模式,那就是技术授权。


目前AIsense已经和美国最大在线视频会议提供商Zoom合作。其实我也是Zoom的用户,经常用它视频采访,我知道Zoom不提供文字信息,只有在线录音功能,而现在,AIsense将为Zoom提供转录技术。


6,潜在使用场景


理论上,除了企业内部使用外,Otter的技术使用场景还可以包括医疗保健、教育等。


因为这些领域的信息,都是极严肃信息领域。Otter负责提供这些领域的语音对话搜索,就像支持用户搜索电邮和文本。


7,但其实,Otter还有一大用途


我写这篇文章,除了给到大家硅谷的一些趋势信息外,其实还有一个特别的用意。


每年,我都看到国内风投和创业者朋友一波波地呼啸而来,然后,再一波波地呼啸而去,有一些,总是很头痛自己的英文听力,加上硅谷是个移民城市,这里的英文有非常多国家的口音,印度的,爱尔兰的,英格兰的等等等等,也许你可以用Otter帮你记忆,会谈中老外说的关键信息;或者,仅仅是把它当作速记神器用,回国飞机上再全面check一遍英文文字,也很好。


总而言之,什么东西对创投圈朋友最贵呢?我想绝不是钱,而是时间。但愿你们的每一次辛苦奔波,都没有被辜负。


与之相关阅读:

1,美科技巨头在语音交互方面布局和差异

2,起底亚马逊”智能音箱“10个逻辑链


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK