19

直播回顾 | 58同城AI算法大赛颁奖典礼+解题方案分享

 3 years ago
source link: http://mp.weixin.qq.com/s?__biz=MzI1NDc5MzIxMw%3D%3D&%3Bmid=2247489648&%3Bidx=1&%3Bsn=d207124846db3a1d18d3a983c52ddfe3
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

以人工智能技术为核心的智能客服近年来被广泛应用,它不仅能给用户提供高效和个性化的客户服务体验,还可以为企业节省大量客服人力成本。智能客服的本质是充分理解用户的意图,在知识库中精确查找与之相匹配的内容,自动回答用户的问题。文本匹配、分类是智能客服里最核心的技术,同时也是自然语言理解领域中的核心问题之一。

58同城2017年就打造了智能客服系统,近几年一直专注于人工智能技术的优化和应用场景的拓展,目前智能客服已被广泛应用在客户服务、售前导购等场景,为公司提高了人效并增加了收益。

58技术委员会联合人力资源部神奇学院举办了58同城首届AI算法大赛,提供了一批58智能客服实际场景中的数据,跟参赛者一起探讨文本分类、匹配问题。本次 大赛历时50天,共有158支队伍参赛,吸引了国内60所高校的在校学生以及30家知名企业的技术人员,最终比赛角逐出了十强团队。

AI算法大赛十强团队

640?wx_fmt=png

2020年9月16日16:00-18:00,我们举办了颁奖典礼直播,并邀请了优胜者分享了各自的解题方案。

640?wx_fmt=png

颁奖典礼由58同城人力资源部神奇学院技术培训负责人袁媛主持,首先邀请了58同城副总裁、技术委员会主席王少峰进行致辞。

58同城AI Lab承担了此次大赛的出题工作,58同城AI Lab负责人、技术委员会AI分会主席詹坤林进行了赛题介绍。

58同城高级总监、技术委员会专业发展组组长张鹏进行了颁奖。

大赛设置了一等奖1名(奖金25000元),二等奖2名(奖金10000元),三等奖3名(奖金5000元),排名前六的在校生团队可获得奖金,并且团队内每位成员均获得了一座奖杯和一份荣誉证书,十强战队中其他战队的每位成员均获得了一份荣誉证书。

640?wx_fmt=jpeg

荣誉证书

640?wx_fmt=jpeg

奖杯

颁奖过后,邀请了十强参赛代表发言。

最后,第一名、第二名、第三名和第五名战队代表进行了解题方案分享,下面是视频录像和PPT文件, 各位技术大拿们敬请享用。

live 1

基于BERT的文本分类方案

荣获第一名的【OUCERS】战队队长崔子元(中国海洋大学在读博士)分享了《基于BERT的文本分类方案》。

崔子元分享到:“ 针对赛题,我们有两种思路,一是将其作为文本相似度的任务处理,二是作为分类任务处理。这两种思路对应bert模型的两种下游任务模式,前者对应Sentence Pair Classification Task, 这种模式下模型接收一个Sentence pair作为输入,如果这两个句子判定为相似那么输出的标签为1,判断为不相似输出为0,使用这种方法存在一个较大的问题就是如何选择样本,官方公布的训练数据里只有扩展问题和对应的标准问题ID,与此任务所需的输入不一致,因此需要将train_data和std_data中的问题结合起来。

train_data种的样本数量为25万,std_data中标准问题的数量为861,如果将train_data中的每一个扩展问题都对应std_data中的每一个标准问题生成sentence pair的话样本数量会达到2亿,这个样本量已经超过了我们的算力所能处理的规模,另外一个比较关键的问题是,在这2亿数据中只有861分之一的样本标签是1,样本严重不均衡。

分类任务对应Single Sentence Classification Task, 在这种模式下模型接收一个Sentence 作为输入,输出是Sentence 的类别标签,这里我们将std_data中标准问题的std_id作为标签输入,但这样存在的问题是标准问题本身并没有参与到微调过程,我们认为这些标准问题对应的embedding在向量空间中非常接近每个类的中心,因此就微调过程而言这些标准问题对于类别的界定极为重要。

最终我们采取的方法是将stddata中的标准问题加入到traindata中,并这些标准问题设定一个更高的权重,生成新的训练数据,使用这个新的训练数据对预训练模型进行微调。

我们对模型的调整主要有两处,第一处是对预训练阶段的调整,我们认为在本次比赛设定的场景中,每一个问题,无论是标准问题还是扩展问题,都是一个语义完整的序列,这些序列之间是相互独立的,不存在前后关系,因此在预训练阶段我们取消了nsp任务,只进行mlm任务,首先是将预训练阶段的totalloss改为mlm的loss,而这个totalloss原本是mlm+nsp的loss。

然后是在模型中将直接将nsp的next_sentence_accuracy和next_sentence_loss都去掉。第二处调整是在微调阶段,我们定义了一个新的processor,这个processor从std_data中读入std_id作为标签,读入训练数据中的问题本体作为text_a,读入问题对应的std_id作为text_a对应的标签,text_b设为none。

视频回顾

PPT下载

关注“58技术”公众号——关于我们——添加小秘书微信,备注“AI算法大赛PPT”即可获取。

live 2

面向类别不平衡文本分类任务的解决方案

荣获第二名的【 在线被大佬带躺 】战队队长江山(西安交通大学在读硕士)分享了《面向类别不平衡文本分类任务的解决方案》, 在线被大佬带躺战队的解题方案为:采用文本分类处理思路,首先在预训练文本集上进行bert和electra模型的预训练,针对数据集类别不平衡的问题,采用focal loss与f1 score作为融合损失函数,提高模型对难分类样本的识别能力,实现对类别不平衡数据集的全局识别能力。

视频回顾

PPT下载

关注“58技术”公众号——关于我们——添加小秘书微信,备注“AI算法大赛PPT”即可获取。

live 3

快速高效的预训练模型-electra

荣获第三名的【菜鸟的战队】队长刘一博(哈尔滨工业大学在读硕士)分享了《快速高效的预训练模型electra》,菜鸟的战队尝试了多种方法

(1) 文本分类方法:首先使用科大讯飞开源的ELECTRA在 预训练语料上 预训练出一个模型,然后finetune一个861类别的分类模型。

(2)文本匹配方法:利用标准问题和扩展问题构建文本匹配的数据集,训练出一个文本匹配模型,预测测试集中文本与哪个扩展问题最接近。

(3)先文本分类再文本匹配:用electra模型finetune一个34个领域类别的分类模型,基于同一个领域内的数据集训练出文本匹配模型,先用分类模型预测测试样本属于哪个领域类别,然后再将测试样本和同一领域下的扩展文本一一匹配,取匹配模型预测分数最高的结果。

视频回顾

PPT下载

关注“58技术”公众号——关于我们——添加小秘书微信,备注“AI算法大赛PPT”即可获取。

live 4

多模型融合文本匹配方案

荣获第五名的【新手上路】 战队队长王鸿霖(沈阳理工大学在读本科生) 分享了《多模型融合文本匹配方案》, 新手上路 战队融合 文本分类(如SPTM、ELMo等预训练模型)、文本相似度匹配(如DSSM、Bi-LSTM)、Seq2Seq文本生成匹配等多种模型,获得了比单个模型更优的效果。

视频回顾

PPT下载

关注“58技术”公众号——关于我们——添加小秘书微信,备注“AI算法大赛PPT”即可获取。

欢迎大家继续打榜

为了便于大家继续学习和演练技术,我们重新开启了比赛结果提交入口和AB榜单,并且将一直开放,欢迎大家继续提交结果冲击榜单,详细可访问   tech.58.com

欢迎添加58技术小秘书微信号(jishu-58),58技术小秘书将提供各类咨询。

推荐阅读:

使用qa_match开源工具完成58同城AI算法大赛

640?wx_fmt=jpeg


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK