云南省人工智能重点实验室

科研成果

当前位置：首页>科研成果>专利

名称：	一种基于N-gram向量和卷积神经网络的中文文本多分类方法
作者：	相艳,许莹
类型：	发明专利
状态：	已授权
专利号/登记号：	201810996666.5
申请日/受理日：	2018-08-29
公告日：	2019-01-18
授权日：	2021-08-20
简介：	本发明涉及一种基于Ngram向量和卷积神经网络的中文文本多分类方法，属于文本多分类的技术领域。针对文本多分类的效果并不十分理想的问题，本发明基于CNN框架，提出了一种初始化CNN滤波器系数的方法，在一定程度上取得较好的文本分类效果。首先对待分类语料进行词向量训练；然后挑选出对特定类别最为重要的n?gram，并将聚类后的n?gram质心向量作为初始的滤波器系数；使用uni?gram、bi?gram和tri?gram的质心分别嵌入到宽度为3、4和5的滤波器中心。初始化系数能更有效的抽取出代表不同类别的n?gram，最终改善文本分类效果。实验在两个公共的中文数据集上进行，包括搜狗新闻数据集和复旦大学中文语料，本发明方法同比一些文本分类技术，在评价指标上表现了优势。