12

AI(NLP语义方向)标注工具产品设计的5个锦囊

 3 years ago
source link: http://www.woshipm.com/ai/4174185.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

编辑导读:数据是AI公司的必需品,数据标注是AI产品模型开发中重要的一环,也是AI产品经理必须要了解的基本技术,本文作者从认知基础、为什么我们需要标注、锦囊三个方面对AI标注工具的产品设计工作展开了分析说明,与大家分享。

mieaYfj.jpg!mobile

一、认知基础

个人观点的认知基础如下,如果读者不认同50%以上,那么就没必要浪费时间阅读后续内容了,反之,我希望大家多质疑与交流,通过Q&A来共同进步。

认知1:人工智能发展粗略可以分3个阶段:符号主义(第1阶段)→ 联结主义(第2阶段)→ 理想AI(第3阶段),我们将长期(>30年)处于第2阶段

符号主义:代表人物纽厄尔和西蒙,认为人类的智能不管多复杂,归根到底都是由符号计算来实现的。只要计算机科学家设计了适合的程序,计算机早晚有一天能凭着符号的计算,也能提出相对论、创造罗纳尔多的射门、而剪纸捏泥人和书法篆刻就更不在话下。

符号主义的缺陷:很难在非常复杂的求解组合中快速找到最优解。

联结主义:代表人物大卫休谟,认为人工智能的首要任务是建立大脑的模型,不是预先给定解决问题的算法,而是构建一个在计算机上模拟的“神经元网络”,让机器自主地建立不同神经元之间的“联结”,通过最终结果的反馈,不断调整联结的模式,最终逼近最优解。

联结主义的缺陷:过于依赖经验数据

理想AI:感知智能+认知智能+情感的主观感受+自我意识

理想AI的缺陷:暂时无实现方案

认知2:AI执行语义理解任务,当前已经到了技术成熟期,后续依赖产品力和数据

粗暴一点说,各家算法基本无差别(<10%)。以解决实际业务问题、实现业务价值为衡量标准的话,产品的易用性(决定落地门槛/规模/效果)、组件化程度(决定成本),数据的数量和质量,才是决定价值的砝码。

认知3:中国现阶段(10年内)ToB市场,大B的真需求都在自给自足,第三方服务中小B才是正途

大B只有探索型需求和伪需求(为了体制内的升官发财)才会留给第三方,所以一个第三方公司如果敢说只做大B,那么一定是死路一条或者半死不活(无法建立壁垒/低利润率)

二、为什么我们需要标注?

认知1中提到“联结主义的缺陷在于过度依赖经验数据”,那经验数据是什么?经验数据 = 已标注数据。

未标注数据只能用于无监督机器学习,当前执行99%以上AI任务的都是有监督机器学习模型,预计未来30年以内还会保持现状。所以数据标注就是绕不开的槛。

三、锦囊

效率高是好的标注工具的唯一标准,所以3条锦囊全部都是围绕语义标注工具效率提升。

效率 = 认知效率 + 操作效率 + 智能化,以下锦囊也都是沿着这3个提升效率的方向进行的产品设计。

锦囊1:互斥性原则

语义模型本质上是一个分类模型,分类最关键的是类别清晰,例如想想折磨我们的垃圾分类。互斥性值得就是不同类之间要做到不重不漏(漏的部分一定设置专门的“其他分类”来兜住)。

具体到产品设计上,歧义优化(根据向量相似度,自动识别不同类之间存在交叠关系的语料),分类说明(设置为必填项)等都是互斥性原理的具体体现。

锦囊2:聚类冷启动

Bert无监督聚类模型做冷启动,“效果杠杠的,谁用谁知道”。缺失此模块,数据标注人员冷启动阶段就全靠想象力“瞎编”。我见过太多数据人员编写相似句(同一语义不同句式表达方式)写到生无可恋。上线周期还会因为标注效率低和效果差一拖再拖。

锦囊3:By分类智能推荐待标注语料

来,这一条锦囊大家可以在评论区猜一猜是啥意思?

锦囊4:Badcase闭环调优

语义模型调优 = 正向调优(By准确率)+ 反向调优(By Badcase)

Badcase指模型判断结果存在偏差的语料(来自于测试集+业务侧收集反馈),是极其宝贵的复盘资料。设计原理是从点状问题(Badcase)顺藤摸瓜找到本质问题(如ASR准确率、语义分类体系问题、存在大量歧义等)进行解决。反向调优可以极大提升模型的准确率、覆盖率等核心指标。

锦囊5:隔离数据管理与标注工具

若不进行隔离,随着产品功能复杂度的提升,标注工具的认知门槛会陡增。可以理解为厨房里的原材料和锅碗瓢盆混在一起丢到了一个橱柜中。这将严重影响产品给用户的确定感,会将标注效率直接打6折。

结语

AI执行语义任务,标注是绕不过的槛。但只要我们通过“傻瓜式工具”辅助用户轻松迈过去,AI对真实场景的赋能价值将被放大100倍以上。

作者:张佳伟,AI产品经理

本文由 @张佳伟 原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自Unsplash,基于CC0协议。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK