直播回顾 | 58同城AI算法大赛颁奖典礼+解题方案分享 - JOYK Joy of Geek, Geek News, Link all geek

以人工智能技术为核心的智能客服近年来被广泛应用，它不仅能给用户提供高效和个性化的客户服务体验，还可以为企业节省大量客服人力成本。智能客服的本质是充分理解用户的意图，在知识库中精确查找与之相匹配的内容，自动回答用户的问题。文本匹配、分类是智能客服里最核心的技术，同时也是自然语言理解领域中的核心问题之一。

58同城2017年就打造了智能客服系统，近几年一直专注于人工智能技术的优化和应用场景的拓展，目前智能客服已被广泛应用在客户服务、售前导购等场景，为公司提高了人效并增加了收益。

58技术委员会联合人力资源部神奇学院举办了58同城首届AI算法大赛，提供了一批58智能客服实际场景中的数据，跟参赛者一起探讨文本分类、匹配问题。本次大赛历时50天，共有158支队伍参赛，吸引了国内60所高校的在校学生以及30家知名企业的技术人员，最终比赛角逐出了十强团队。

AI算法大赛十强团队

640?wx_fmt=png

2020年9月16日16:00-18:00，我们举办了颁奖典礼直播，并邀请了优胜者分享了各自的解题方案。

640?wx_fmt=png

颁奖典礼由58同城人力资源部神奇学院技术培训负责人袁媛主持，首先邀请了58同城副总裁、技术委员会主席王少峰进行致辞。

58同城AI Lab承担了此次大赛的出题工作，58同城AI Lab负责人、技术委员会AI分会主席詹坤林进行了赛题介绍。

58同城高级总监、技术委员会专业发展组组长张鹏进行了颁奖。

大赛设置了一等奖1名（奖金25000元），二等奖2名（奖金10000元），三等奖3名（奖金5000元），排名前六的在校生团队可获得奖金，并且团队内每位成员均获得了一座奖杯和一份荣誉证书，十强战队中其他战队的每位成员均获得了一份荣誉证书。

640?wx_fmt=jpeg

荣誉证书

640?wx_fmt=jpeg

奖杯

颁奖过后，邀请了十强参赛代表发言。

最后，第一名、第二名、第三名和第五名战队代表进行了解题方案分享，下面是视频录像和PPT文件，各位技术大拿们敬请享用。

live 1

基于BERT的文本分类方案

荣获第一名的【OUCERS】战队队长崔子元（中国海洋大学在读博士）分享了《基于BERT的文本分类方案》。

崔子元分享到：“ 针对赛题，我们有两种思路，一是将其作为文本相似度的任务处理，二是作为分类任务处理。这两种思路对应bert模型的两种下游任务模式，前者对应Sentence Pair Classification Task, 这种模式下模型接收一个Sentence pair作为输入，如果这两个句子判定为相似那么输出的标签为1，判断为不相似输出为0，使用这种方法存在一个较大的问题就是如何选择样本，官方公布的训练数据里只有扩展问题和对应的标准问题ID，与此任务所需的输入不一致，因此需要将train_data和std_data中的问题结合起来。

train_data种的样本数量为25万，std_data中标准问题的数量为861，如果将train_data中的每一个扩展问题都对应std_data中的每一个标准问题生成sentence pair的话样本数量会达到2亿，这个样本量已经超过了我们的算力所能处理的规模，另外一个比较关键的问题是，在这2亿数据中只有861分之一的样本标签是1，样本严重不均衡。

分类任务对应Single Sentence Classification Task, 在这种模式下模型接收一个Sentence 作为输入，输出是Sentence 的类别标签，这里我们将std_data中标准问题的std_id作为标签输入，但这样存在的问题是标准问题本身并没有参与到微调过程，我们认为这些标准问题对应的embedding在向量空间中非常接近每个类的中心，因此就微调过程而言这些标准问题对于类别的界定极为重要。

最终我们采取的方法是将stddata中的标准问题加入到traindata中，并这些标准问题设定一个更高的权重，生成新的训练数据，使用这个新的训练数据对预训练模型进行微调。

我们对模型的调整主要有两处，第一处是对预训练阶段的调整，我们认为在本次比赛设定的场景中，每一个问题，无论是标准问题还是扩展问题，都是一个语义完整的序列，这些序列之间是相互独立的，不存在前后关系，因此在预训练阶段我们取消了nsp任务，只进行mlm任务，首先是将预训练阶段的totalloss改为mlm的loss，而这个totalloss原本是mlm+nsp的loss。

然后是在模型中将直接将nsp的next_sentence_accuracy和next_sentence_loss都去掉。第二处调整是在微调阶段，我们定义了一个新的processor，这个processor从std_data中读入std_id作为标签，读入训练数据中的问题本体作为text_a，读入问题对应的std_id作为text_a对应的标签，text_b设为none。 ”

视频回顾

PPT下载

关注“58技术”公众号——关于我们——添加小秘书微信，备注“AI算法大赛PPT”即可获取。

live 2

面向类别不平衡文本分类任务的解决方案

荣获第二名的【在线被大佬带躺】战队队长江山（西安交通大学在读硕士）分享了《面向类别不平衡文本分类任务的解决方案》，在线被大佬带躺战队的解题方案为：采用文本分类处理思路，首先在预训练文本集上进行bert和electra模型的预训练，针对数据集类别不平衡的问题，采用focal loss与f1 score作为融合损失函数，提高模型对难分类样本的识别能力，实现对类别不平衡数据集的全局识别能力。

视频回顾

PPT下载

关注“58技术”公众号——关于我们——添加小秘书微信，备注“AI算法大赛PPT”即可获取。

live 3

快速高效的预训练模型-electra

荣获第三名的【菜鸟的战队】队长刘一博（哈尔滨工业大学在读硕士）分享了《快速高效的预训练模型electra》，菜鸟的战队尝试了多种方法：

（1）文本分类方法：首先使用科大讯飞开源的ELECTRA在预训练语料上预训练出一个模型，然后finetune一个861类别的分类模型。

（2）文本匹配方法：利用标准问题和扩展问题构建文本匹配的数据集，训练出一个文本匹配模型，预测测试集中文本与哪个扩展问题最接近。

（3）先文本分类再文本匹配：用electra模型finetune一个34个领域类别的分类模型，基于同一个领域内的数据集训练出文本匹配模型，先用分类模型预测测试样本属于哪个领域类别，然后再将测试样本和同一领域下的扩展文本一一匹配，取匹配模型预测分数最高的结果。

视频回顾

PPT下载

关注“58技术”公众号——关于我们——添加小秘书微信，备注“AI算法大赛PPT”即可获取。

live 4

多模型融合文本匹配方案

荣获第五名的【新手上路】战队队长王鸿霖（沈阳理工大学在读本科生）分享了《多模型融合文本匹配方案》，新手上路战队融合文本分类（如SPTM、ELMo等预训练模型)、文本相似度匹配（如DSSM、Bi-LSTM)、Seq2Seq文本生成匹配等多种模型，获得了比单个模型更优的效果。

视频回顾

PPT下载

关注“58技术”公众号——关于我们——添加小秘书微信，备注“AI算法大赛PPT”即可获取。

欢迎大家继续打榜

为了便于大家继续学习和演练技术，我们重新开启了比赛结果提交入口和AB榜单，并且将一直开放，欢迎大家继续提交结果冲击榜单，详细可访问 tech.58.com

欢迎添加58技术小秘书微信号（jishu-58），58技术小秘书将提供各类咨询。

推荐阅读：

58同城AI算法大赛开放报名，欢迎参赛

58同城AI算法大赛最新动态，欢迎关注

使用qa_match开源工具完成58同城AI算法大赛

640?wx_fmt=jpeg

直播回顾 | 58同城AI算法大赛颁奖典礼+解题方案分享

Recommend

网络工程师高薪之路-姜汁啤酒的网工日常

【AWS征文】ECS让容器编排更轻松-iTRunner-奔跑的猿

俄罗斯宣布计划独立探索金星

木星可能有数百颗超小型卫星

美国空军透露新战斗机原型

美国法官裁决暂停执行微信禁令

uMatrix 存档结束活跃开发

德国或将在2022年全面关闭3G网络

AVAudioSession音频配置小技巧

二进制文件分析之常用命令

About Joyk