您好!欢迎访问云南省人工智能重点实验室
科研成果
当前位置:首页>科研成果>专利

专利


名称: 一种基于N-gram向量和卷积神经网络的中文文本多分类方法 
作者: 相艳,许莹 
类型: 发明专利  
状态: 已授权  
专利号/登记号: 201810996666.5 
申请日/受理日: 2018-08-29 
公告日: 2019-01-18 
授权日: 2021-08-20 
简介: 本发明涉及一种基于Ngram向量和卷积神经网络的中文文本多分类方法,属于文本多分类的技术领域。针对文本多分类的效果并不十分理想的问题,本发明基于CNN框架,提出了一种初始化CNN滤波器系数的方法,在一定程度上取得较好的文本分类效果。首先对待分类语料进行词向量训练;然后挑选出对特定类别最为重要的n?gram,并将聚类后的n?gram质心向量作为初始的滤波器系数;使用uni?gram、bi?gram和tri?gram的质心分别嵌入到宽度为3、4和5的滤波器中心。初始化系数能更有效的抽取出代表不同类别的n?gram,最终改善文本分类效果。实验在两个公共的中文数据集上进行,包括搜狗新闻数据集和复旦大学中文语料,本发明方法同比一些文本分类技术,在评价指标上表现了优势。