![]() |
一种基于聚类的新闻文本最优主题数计算方法 |
![]() |
王红斌,王健雄,余正涛,线岩团,张亚飞 |
![]() |
发明专利 |
![]() |
已授权 |
![]() |
201910884160.X |
![]() |
2019-09-19 |
![]() |
2020-02-28 |
![]() |
2022-04-05 |
![]() |
本发明公开了一种基于聚类的新闻文本最优主题数计算方法,步骤为:Step1、新闻文本语料获取和预处理;Step2、对经过预处理的语料库进行词嵌入处理,获得语料库中文本的词向量;Step3、将所有的词向量作为一个整体,利用一种基于快速搜索和寻找密度峰值的聚类方法对词向量进行聚类,获得词向量的聚类数目;Step4、将词向量聚类获得的数目确定为新闻文本的最优主题数。本发明利用词嵌入Word2Vec模型来表达主题语料之间的隐含语义关系,可以避探索词义相关关系,同时算法整体不存在迭代,计算简单,模型复杂度不高,因此可以避免现有方法在确定LDA最优主题数目所使用的都要迭代及每一步都需要求解目标函数的不足。 |