2

两位40后寒门学子先后研发五笔和智能ABC输入法,改变几代中国人输入习惯

 8 months ago
source link: https://www.mittrchina.com/news/detail/12364
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

麻省理工科技评论-两位40后寒门学子先后研发五笔和智能ABC输入法,改变几代中国人输入习惯

两位40后寒门学子先后研发五笔和智能ABC输入法,改变几代中国人输入习惯
我们仍以“犬”字为例。它的发音被标准化为 quǎn,所以在标准键盘上键入 Q、U、A、N 四个字母,屏幕上就会出现这个字。
280

对大多数西方人来说,在手机上安装第三方键盘似乎完全没有必要。但在中国,这是常态。

由于汉语的书写方式可以与发音完全分离(日语、韩语和越南语都有汉字的变体),如果系统默认键盘没有对汉语进行特殊的优化,它就会非常难用。因此,中国目前有大约 8 亿人使用了第三方智能键盘,它们可以预测用户想要输入的内容。

但对第三方键盘的依赖也带来了安全风险:大多数键盘应用都会将按键点击传输到云端,以实现更好的词组和内容预测,如果应用程序没有使用足够强大的加密协议,就会为内容拦截攻击创造机会。

今天,我想带大家踏上一段关于键盘应用程序或输入法编辑器(IMEs,input method editors)历史的极客之旅。如今,输入法是如此的普遍,以至于人们很容易忘记它们诞生的背后藏着多少努力。

它们是非常经典的创新案例,弥合了数字世界和现实世界之间的鸿沟。

在 20 世纪 80 年代,市面上的个人电脑无法处理汉字。即便艰难地实现了汉字数字化,使其可以显示在电脑屏幕上,但仍然面临一个大问题:用户如何键入这些字符?特别是,你如何将成千上万的汉字与 QWERTY 键盘上的 26 个字母相匹配?

第一次的尝试与今天的键盘应用程序完全不同,因为它努力的方向主要集中在汉字的书写方式上。

1983 年 8 月,也就是 40 年前,一位名叫王永民的中国工程师开发了第一种流行的汉字输入法,名为五笔。他将一个汉字分解成不同的笔画,在 QWERTY 键盘上,每个字母都对应了几个笔画。

例如,汉字“犬”,对应了几种形状(笔画):犬(字根)、 一、丿、和丶。这些形状分别与键盘上的 D、G、T 和 Y 相匹配。因此,当用户键入“DGTY”时,五笔输入法就会将其与对应的字符匹配,并打出“犬”字。

在 QWERTY 键盘上使用五笔输入法,最多只需要四个键(码),就能打出一个汉字。这被认为是打汉字最快的方式之一。但缺点也很明显:用户需要背下来哪些键对应哪些笔画,因此学习曲线相当陡峭。

汉字输入法发展的下一步是发明了拼音打字。这听起来可能难以置信,但拼音这种用标准拉丁字母拼写每个中文单词的现代方式,直到 20 世纪 50 年代才出现。在随后的 80 和 90 年代,中国才开始尝试在学校里先教孩子们拼音,然后再教他们如何写字。

结果是,在所有将汉字与拉丁字母相匹配的方法中,拼音成为了一种更容易、更被广泛接受的方法。

我们仍以“犬”字为例。它的发音被标准化为 quǎn,所以在标准键盘上键入 Q、U、A、N 四个字母,屏幕上就会出现这个字。

a90e9f000e8d43bca34aa1d7cecb7b8b~tplv-obj.image?traceid=2023082718485421274DB914EAC91CC060&x-expires=2147483647&x-signature=zbtg6BdVkhdtgvrGWYkxHEhkbW4%3D
(来源:AI 生成)

大量基于拼音的输入法是在 20 世纪 90 年代发明的。最突出的是北京大学计算机科学教授朱守涛于 1993 年发明的智能 ABC。在微软将智能 ABC 整合进 Windows PC,并将其设为默认输入法之一后,它成为了中国使用最广的输入法(王永民和朱守涛分别来自河南和山东的农村,但他们却引领了几代人的输入法习惯,其中,王永民于 1943 年出生于河南省南阳市南召县鸭河工区的贫农家庭,朱守涛于 1946 年出生于山东省宁阳县伏山镇东代村)。

但是,用拼音打字也有问题:几十个或几百个汉字可能有相同的拼音拼写。如果你输入 QUAN,计算机无法判断在 81 个汉字中,哪一个才是你想要的。

因此,每次用户在智能 ABC 中键入一串拼音时,仍然需要从一长串候选字中选择正确的那个。

幸运的是,它们总是以相同的顺序显示,这意味着你可以记住你经常使用的字符出现在候选小窗口中的位置。

我使用智能 ABC 的亲身经历就是这样。我名字中的最后一个字是毅,拼写为 yi。yi 恰好是汉语拼音中可匹配数量最多的发音,有数百个字符有着相同的拼写(谢谢啊,我的爸爸妈妈)。当我打字的时候,刻在我的脑海里的一件事是:毅,是智能 ABC 的第四页的第六个选项。

这样打字的效率显然不高。事实上,用智能 ABC 打字比用五笔要慢。但下一代键盘程序很快就超越了前一代。

2006 年,搜狗输入法发布,它本质上结合了拼音打字的基础和搜索引擎的技术。正如搜索引擎可以推荐最接近用户查询的内容一样,键盘软件可以预测用户可能想要键入的内容。

有了搜狗,候选字符和单词不再按固定顺序显示,而是会根据用户的键入历史记录和新闻内容进行调换。例如,在这篇文章中,我已经打了几次“毅”字,搜狗记住了这一点,于是每当我输入 yi 时,它都会把“毅”放在首位。

许多其他创新的输入法与搜狗大约在同一时间发明。一些人试图将基于形状的方法与基于拼写的方法相结合。自从触控板和触摸屏开始使用以来,搭载了这种屏幕的设备允许用户直接在设备上写汉字。

但随着时间的推移,这些方法慢慢变得小众,最受欢迎的还是搜狗等智能键盘带来的更高效的打字方法,这也成为了中国人如何与技术和彼此互动的基础。

关于汉语与科技之间的历史关系,还有许多更有趣的故事。例如,中国港台地区发展出了独有的一套汉字打字方式。我推荐耶鲁大学东亚语言和文学教授石静远(Jing Tsu)的《汉字王国》一书,很适合相关知识不多的人阅读。

备注:文章标题相比原文有改动。

作者简介:Zeyi Yang为《麻省理工科技评论》报道中国和东亚的技术。此前,他的作品曾出现在《Protocol》、《Rest of World》、《哥伦比亚新闻评论》、《南华早报》、《日经亚洲》等媒体上。

支持:Ren


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK