16

GitHub - hecongqing/2018-daguan-conpetition: 2018年"达观杯"文本智能处...

 5 years ago
source link: https://github.com/hecongqing/2018-daguan-conpetition
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

README.md

2018年"达观杯"文本智能处理挑战赛-长文本分类-rank4

非常感谢达观杯给我们提供这次机会以及科赛平台提供了很棒的GPU,再次感谢。

赛题网址:http://www.dcjingsai.com/common/cmpt/%E2%80%9C%E8%BE%BE%E8%A7%82%E6%9D%AF%E2%80%9D%E6%96%87%E6%9C%AC%E6%99%BA%E8%83%BD%E5%A4%84%E7%90%86%E6%8C%91%E6%88%98%E8%B5%9B_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html

任务:观数据提供了一批长文本数据和分类信息,结合当下最先进的NLP和人工智能技术,深入分析文本内在结构和语义信息,构建文本分类模型,实现精准分类。

解决方案: 由于部分代码暂时有用,现在只公开一个单模型:B榜单模型分数可达到0.798.

对于这个文本分类任务,有个小的操作其实都可以达到很高的分数,即使模型不够优秀。通过对于词向量做一个增强,即利用word2vec与glove的差异性,构建一个鲁棒性更高的词语向量表征。大家也可以试试word2vec+glove+faxttext的组合,对于我来说,效果并不是很好,我觉得可能的原因是faxttext与word2vec的相似性很高,弱化了glove的向量表征,同时,对于glove单独的词向量我也没有尝试过,大家也可以尝试一下。

对于模型的话,我开源了一个双层的bi_GRU模型,这个模型很简单,就没啥好说的了,大家看看就好,希望大家可以取得更好的成绩!

模型运行: 将原始数据集input到data文件夹 然后 sh run.sh (很简单一个命令)! 大概的先介绍到这里,有时间在介绍啦!


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK