![]() |
一种基于双向长短时记忆网络模型的中文分词方法 |
![]() |
邵党国,郑娜 |
![]() |
发明专利 |
![]() |
已授权 |
![]() |
201810933201.5 |
![]() |
2018-08-16 |
![]() |
2019-01-15 |
![]() |
2021-11-19 |
![]() |
本发明公开了一种基于双向长短时记忆网络模型的中文分词方法,首先获得任一领域的数据集,并将数据集分为训练集和测试集,然后将训练集进行预处理,将预处理后的训练集和微软亚洲研究院的公开数据集msr分别进行字嵌入处理,再把处理好的训练集和数据集msr分别输入Bi?LSTM神经网络模型中进行训练,得到训练集的模型X_Bi?LSTM模型和msr_Bi?LSTM模型,然后分别用X_Bi?LSTM模型、msr_Bi?LSTM模型对测试集进行标签预测,并对两种模型的预测概率进行权重组合,得到组合后的各汉字标签的概率,然后利用Viterbe算法对组合后的各标签概率进行计算得到各汉字属于各标签的最终概率,并将概率最大值所属标签作为各汉字的标签,从而完成中文分词,本发明可获得较好的分词结果,提高了分词的准确率。 |