![]() |
一种基于不对等语料的跨语言词嵌入方法 |
![]() |
王红斌,冯银汉,线岩团,余正涛,郭剑毅,文永华 |
![]() |
发明专利 |
![]() |
已授权 |
![]() |
201910499213.6 |
![]() |
2019-06-11 |
![]() |
2019-10-01 |
![]() |
2021-04-30 |
![]() |
本发明涉及一种基于不对等语料的跨语言词嵌入方法,属于自然语言处理技术领域。本发明首先对单语词向量进行归一化,对小字典词对(训练集跨语言词对)正交最优线性变换求得梯度下降初始值,然后通过对大型源语言(英语)语料进行聚类,借助小字典找到与每一聚类簇相对应的源语言词,取聚类得到的每一簇词向量均值和源语言与目标语言对应的词向量均值,建立新的双语词向量对应关系,将新建立的双语词向量扩展到小字典中,使得小字典得以泛化和扩展。最后,利用泛化扩展后的字典对跨语言词嵌入映射模型进行梯度下降求得最优值。 |