![]() |
一种基于多重CCA算法的柬汉双语词向量模型构建方法 |
![]() |
严馨,李思远,郭剑毅,周枫,王红斌 |
![]() |
发明专利 |
![]() |
已授权 |
![]() |
201811222172.8 |
![]() |
2018-10-19 |
![]() |
2019-04-05 |
![]() |
2021-08-31 |
![]() |
本发明涉及一种基于多重CCA算法的柬汉双语词向量模型构建方法,属于自然语言处理技术领域。本发明首先获取英语、柬语、汉语词向量;其次分别将英语、汉语词向量投影至同一特征空间,将英语、柬语词向量投影至同一特征空间,从而得到各自对应的投影转换矩阵;然后以英语作为多语言向量公共空间,分别将柬语和汉语投影到英语词向量空间中,并根据典型相关分析算法,分析计算投影转换矩阵之间的相关关系,得到多语词向量;多语词向量中便包含有柬汉双语词向量,进而可获得柬汉双语词向量模型。本发明有效的解决了无法直接构建柬汉双语词向量模型的问题,并且通过该方法获得的柬汉双语词向量质量较高,准确率方面有很大的提升。 |