![]() |
基于句子特征向量的汉越伪平行句对抽取的方法 |
![]() |
余正涛,黄继豪,线岩团,郭军军,翟家欣,文永华,高盛祥 |
![]() |
发明专利 |
![]() |
已授权 |
![]() |
201910628354.3 |
![]() |
2019-07-12 |
![]() |
2019-11-22 |
![]() |
2022-07-19 |
![]() |
本发明涉及基于句子特征向量的汉越伪平行句对抽取的方法,属于自然语言处理技术领域。本发明首先收集并预处理汉越句对的平行与非平行的训练语料和测试语料,以及用于伪平行句对抽取的可比语料;标注汉越句法中差异大的词性;再在嵌入层中融入句子的外部特征与汉越句法差异特征;嵌入层的输出经过神经网络得到一个句子特征向量,再通过分类层的计算,训练伪平行语料抽取模型;使用训练好的汉越伪平行语料抽取模型在汉越可比语料中抽取汉越伪平行句对。本发明本发明能够有效地从汉越可比语料中抽取出汉越伪平行句对,且准确率高。 |