GitHub - hecongqing/2018-daguan-conpetition: 2018年"达观杯"文本智能处... - JOYK Joy of Geek, Geek News, Link all geek

README.md

2018年"达观杯"文本智能处理挑战赛-长文本分类-rank4

非常感谢达观杯给我们提供这次机会以及科赛平台提供了很棒的GPU，再次感谢。

赛题网址：http://www.dcjingsai.com/common/cmpt/%E2%80%9C%E8%BE%BE%E8%A7%82%E6%9D%AF%E2%80%9D%E6%96%87%E6%9C%AC%E6%99%BA%E8%83%BD%E5%A4%84%E7%90%86%E6%8C%91%E6%88%98%E8%B5%9B_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html

任务：观数据提供了一批长文本数据和分类信息，结合当下最先进的NLP和人工智能技术，深入分析文本内在结构和语义信息，构建文本分类模型，实现精准分类。

解决方案：由于部分代码暂时有用，现在只公开一个单模型：B榜单模型分数可达到0.798.

对于这个文本分类任务，有个小的操作其实都可以达到很高的分数，即使模型不够优秀。通过对于词向量做一个增强，即利用word2vec与glove的差异性，构建一个鲁棒性更高的词语向量表征。大家也可以试试word2vec+glove+faxttext的组合，对于我来说，效果并不是很好，我觉得可能的原因是faxttext与word2vec的相似性很高，弱化了glove的向量表征，同时，对于glove单独的词向量我也没有尝试过，大家也可以尝试一下。

对于模型的话，我开源了一个双层的bi_GRU模型,这个模型很简单，就没啥好说的了，大家看看就好，希望大家可以取得更好的成绩！

模型运行：将原始数据集input到data文件夹然后 sh run.sh （很简单一个命令）！大概的先介绍到这里，有时间在介绍啦！

GitHub - hecongqing/2018-daguan-conpetition: 2018年"达观杯"文本智能处...

README.md

Recommend

Open Source Networking Days (OSN Days)中国行-上海、南京、北京报名进行中

历史低价:LOVO 乐我家纺科莱特全棉斜纹印花四件套 1.8米床 +凑单品 94.76元包邮（多...

iOS 野指针定位:野指针嗅探器

特斯拉，丧钟为谁而鸣？

癌症在全世界范围内增长:今年预计有960万人死于癌症

最高1099元新版iPhone保护套的价格也是相当惊人了

传亚马逊调查中国市场违规员工：删一条差评300美元

国内首例空号短信劫持案告破：与运营商“内鬼”勾结

品质消费周：黑猫投诉平台饿了么百余投诉无一处理

为何一些错误的信念如此难以动摇？

About Joyk