4

中科凡语周玉:用我们这一代人的努力扛起国产NLP发展大旗-品玩

 2 years ago
source link: https://www.pingwest.com/w/262964
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

中科凡语周玉:用我们这一代人的努力扛起国产NLP发展大旗-品玩

中科凡语周玉:用我们这一代人的努力扛起国产NLP发展大旗

7小时前

过去10余年间,人工智能(AI)经历了一次复兴,其中最重要的技术进步之一发生在自然语言处理(NLP)领域。

2006年谷歌发布了万亿词语料库——Trillion Word Corpus,并从大量的公共网页中获得了n-gram频率;2010年ImageNet制作了一个包含2万张内容标签的图片的公开语料库;2014年微软推出人机对话交互平台“小冰”,对话数据累计超过300亿轮……

NLP技术的进步使得机器翻译质量大幅提高,也催生了更多数字化场景应用,随之国内NLP产业也迎来快速发展。据艾瑞咨询等统计研究,2021年中国NLP核心产品及相关产业规模超1000亿元;2022年预计NLP核心产品及相关产业规模将达到1500亿元;到2025年,这一规模将达2400亿元。

浪潮之下,NLP产品路径通用性与专用性的要素之争,人工智能下半程的技术趋势如何,中国NLP发展又将走向何方?

恰逢国内领先的跨领域多模态自然语言处理方案商、服务商、运营商——中科凡语成立4周年之际,笔者邀请到了中国科学院自动化研究所研究员、博士生导师、中科凡语董事长周玉博士,就以上问题作探讨解读,共同探讨关于NLP的技术前沿与产业趋势。

article-body

中国科学院自动化研究所研究员、博士生导师、中科凡语董事长周玉博士

从通用到定制形成动态闭环,搭建NLP底层技术平台

此次采访时已经是晚上9点,刚刚忙完工作的周玉通过电话接受了笔者的采访,期间周玉条分缕析的讲了一个多小时,言谈间难掩创业的兴奋与激情,语气铿锵有力,思维逻辑清晰,论据详实充分。见微知著,或许正是这样严谨端正的态度,才使其脱颖而出成为NLP学界为数不多的顶尖女性学者、创业者。

深耕NLP领域多年,周玉对NLP领域发展前景自是十分看好,但在谈到目前主流NLP产品的应用落地时深感任重道远。

周玉坦言,虽然未来十年在产业界被公认为NLP技术发展黄金期,但产品落地方面,尚有许多问题亟待解决。“较为典型的问题有两个,一是高定制化场景带来的高沟通门槛,使得技术人员和需求方往往需要多次磨合,沟通效率较低;二是要开发通用性较强的产品,对不同领域、不同场景的应用会需要不同的业务数据支撑,适配过程较为漫长。”

面对NLP产品的定制化和通用性难题,中科凡语的产品开发路径或许对行业有一定启示。周玉表示,NLP的产品落地的特殊性在于其必须要有一个定制化的过程,但是先通用还是先定制,这其实有点类似“先有鸡还是先有蛋”的哲学思考,具体实践时其实是更偏向于一种动态化的闭环。

“早期,可以面对不同行业领域客户先提炼出共性需求,搭建一个通用的技术框架,满足基础的模块功能;然后再构建通用场景的通用产品;之后再迁移到特定场景进行定制化开发;最后在定制化过程中再衍生出面向特定场景的产品。总的来看,其实是在动态演化过程中不断完善迭代。”

以OCR翻译(图像识别翻译)为例,目前市面上常见的方法是先做OCR的识别,然后再机器翻译,但此类方式普遍面临效率低、场景识别弱、复杂场景效果差等问题。中科凡语基于这些痛点,会先提供通用性较强的OCR模块产品部署到客户端,满足当下迫切需求,然后再通过实际应用中的反馈、长尾效应等搜集问题和需求,再通过技术人员进行二次深度开发,最大化的平衡客户需求与产品性能之间的锚点。

周玉直言,“NLP产品开发的底层逻辑是技术储备,技术储备越丰富,通用技术模块越成熟,迁移成本就会越低,在特定行业的产品化效率也就越高,行业壁垒也就随之建立起来。”

这一开发逻辑,从中科凡语过往的产品中清晰可循。比如“信译”是基于为用户提供优质、专业、准确、高效的机器翻译服务;“信推”是针对长文本完成多模态自动摘要生成和关键词提取及内容推送;“信取”则提供跨场景、多语言、多粒度的数据爬取、融合、分类及管理,等等。

“目前中科凡语所推出的‘五信’,‘飞译’或是‘洞知’产品,都是基于客户普遍的共性需求所建立的。未来的产品开发,我们还是将继续朝着系统化、模块化、工具化的方向出发,为客户提供更易组装、更加灵活、适用性更强的智能服务产品,构建多模块、广适用、高精度的底层NLP技术平台。”周玉说到。

专业领域亿级语料数据为行业发展提供动力

如果说产品路径与架构搭建了NLP技术的经脉,那么数据,或者更确切说是来自专业领域内的高质量标注数据,则是当前AI深度学习时代下NLP技术的血液,为NLP技术推动产业发展提供关键动力。

在刘慈欣的科幻小说《诗云》中,曾畅想过这样一幅“技术与艺术对抗”的终极浪漫场景:一个高等外星文明为了写出超越李白的诗歌,穷尽了太阳系的大部分能量,列举出了所有可能的字词组合,最终,他们“借助伟大的技术,写出了诗词的巅峰之作”,却还是选择了认输,因为他们“不可能把它们从诗云中检索出来”。

标注数据之于NLP,颇有异曲同工之妙。NLP技术本质上是基于深度学习的,相比于视觉或音频信息,自然语言更加抽象,蕴含了更加丰富的人类定义的知识,导致相比其他AI技术领域,NLP对标注数据的要求也更严苛、难度更大。可以说,NLP的技术效果很大程度上取决于标注数据的质量和规模。

如何获得高质量、大规模的标注数据?

周玉表示,“数据标注并非只是简单的数据层面的问题,相较图像、视频等类型,NLP采标方式更为复杂,难度大很多,因此更需要标注人员、标注数据和和算法三方面的协同作战。”

为此,中科凡语作了大量的基础准备工作。“在标注人员方面,比如以翻译样本标注为例,考虑到翻译人员对语言语种的专业性涉猎,中科凡语同全国100多所高校外国语学院达成了合作,并建立了与之相对应的人物画像,丰富语种人才库的同时,进一步降低了适配时间,提升适配效率;在标注数据方面,分层分级,重点筛选种子样本,因为相较普通样本,种子样本往往能起到1比20的效果;再通过不断优化迭代算法方面的优势,来最大化的降低标注成本,筛选出有价值的数据。”周玉解释到。

同时,通过前台数据与后台算法的深度绑定,中科凡语进一步提升了数据储备的质量和规模。“前台数据一旦有更新的标注,后台算法也会相应进行优化,确保标注数据的高质量高精度;再通过工程化开发来减轻数据标注中的重复劳动,提升业务效率,进而形成一个良性的闭环。”

基于中国科学院自动化研究所相关团队20余年的积累以及同广大国内语言类高校的深入合作,中科凡语目前已经建立了涵盖特定行业、教育、医疗、航空等多个领域的亿级双语平行语料及大规模涵盖多语言、多领域、多场景、多任务、多层次的高精准标注语料,NLP语料数据方面行业领先。同时,通过创新迭代的智能化标注算法,中科凡语也在不断充实NLP语料池,着力挖掘大规模、高质量的标注数据,致力为NLP行业的场景定制、技术突破、产业发展等提供源源不断的动力。

高质量的标注数据不仅带来效率提升、技术升级,更是NLP发展的必然趋势。现今,数据标注正处于早期阶段,但可以预见的是,随着人工智能的浪潮进入下半,数据标注将迎来井喷期,促进感知智能向认知智能的转变。

深耕行业夯实优势,NLP下一个十年中文论剑

毋论产品路径与技术趋势如何领先,NLP发展最终还是要归到产业应用的“肌肉”上来看。

纵观国内外NLP产业发展现状,国外NLP技术由于起步早、技术领先,而国内目前则处于奋起直追阶段。据伦敦帝国理工学院对NLP相关会议论文统计显示,自2012年至2020年期间,美国以近4000篇论文的数量遥遥领先,中国位居第二。随着中国企业逐渐从“辅助角色”进化为中坚力量,“学术界+工业界”的双轮驱动推动中国AI力量悄然变化。

以中科凡语为例,作为孵化于中国科学院自动化研究所的国产NLP领域先行者,承接了研究所相关团队过去20多年在NLP领域技术积累,在技术、数据乃至人才方面都有着天然优势。成立四年来,中科凡语已成功落地了100多家G端客户、50余家B端客户,同时还承担了多项国家和政府重大需求项目,例如为“一带一路”沿线国家提供翻译、信息整合及分析服务等,未来还将持续深耕认知智能、通用智能、因果推断等技术领域,进一步推动NLP成果产业化。

值得一提的是,中科凡语还于2020年11月成立了凡语AI研究院,共吸引高级发展顾问、教授级专家委员、博士青年委员等60多人加入,涵盖NLP领域技术大牛、业务精英以及语言专家等,旨在吸引行业顶尖人才共同进行前沿研究,夯实中科凡语在NLP领域的领先竞争优势,并不断探索新的基础模型与技术路线,建立竞合协同的行业生态

此外,其他业界知名公司如百度、阿里、腾讯、华为、今日头条等,也在结合自身固有业务优势,在NLP领域持续投入研发,加速业务变革与升级。

除了学术界与工业界,国家相关政策也持续出台,重点扶持人工智能相关产业发展。

2019年,由科学技术部发布的《国家新一代人工智能开放创新平台建设工作指引》中指出,要鼓励人工智能细分领域领军企业搭建开源、开放平台,面向公众开放人工智能技术研发资源,向社会输出人工智能技术服务能力。

2020年7月,由中央网信办等五部门发布的《国家新一代人工智能标准体系建设指南》中也强调,到2023年要初步建立人工智能标准体系,重点研制数据、算法、系统、服务等重点急需标准。

《中国制造2025》《“十四五”规划纲要》等重要政府文件中,都明确了人工智能在我国未来科学研究和产业发展中的重要作用。

尽管目前出现了一些挑战与瓶颈,但总的来看,在政策红利和蓝海市场的双重利好下,NLP 已步入发展快车道,并涌现了许多商业化应用,如机器翻译、舆情监测、自动摘要、问答机器人、客服机器人、电销机器人、智能推荐等。

随着AI技术不断走向“深水区”,作为AI最高层次的NLP也将伴随着数智化的产业趋势快速迭代更新。就像《技术的本质》中所说的,“技术是高度可重构的,它们是流动的东西,永远不会静止,永远不会完结,永远不会完美。”

周玉对此深以为然:“NLP技术的发展永远没有终点。中科凡语希望能通过本身在NLP领域积累的人才、算法、数据等优势,联合业界的专家学者、行业精英,一同做NLP最前沿技术和应用的探讨,无限逼近甚至超越人类的理解能力,用我们这一代人的努力扛起国产NLP发展的大旗。”

正是无数这样的科学家、创业者、奋斗者的星聚,才推动着中国NLP技术在这十余年来的快速进步,并不断建设世界范围的中文信息处理影响力。

相信下一个十年,NLP将迎来中文论剑的时代。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK