![]() |
一种基于N-gram向量和卷积神经网络的中文文本多分类方法 |
![]() |
相艳,许莹 |
![]() |
发明专利 |
![]() |
已授权 |
![]() |
201810996666.5 |
![]() |
2018-08-29 |
![]() |
2019-01-18 |
![]() |
2021-08-20 |
![]() |
本发明涉及一种基于Ngram向量和卷积神经网络的中文文本多分类方法,属于文本多分类的技术领域。针对文本多分类的效果并不十分理想的问题,本发明基于CNN框架,提出了一种初始化CNN滤波器系数的方法,在一定程度上取得较好的文本分类效果。首先对待分类语料进行词向量训练;然后挑选出对特定类别最为重要的n?gram,并将聚类后的n?gram质心向量作为初始的滤波器系数;使用uni?gram、bi?gram和tri?gram的质心分别嵌入到宽度为3、4和5的滤波器中心。初始化系数能更有效的抽取出代表不同类别的n?gram,最终改善文本分类效果。实验在两个公共的中文数据集上进行,包括搜狗新闻数据集和复旦大学中文语料,本发明方法同比一些文本分类技术,在评价指标上表现了优势。 |