![]() |
一种基于英语枢轴的弱监督汉越双语词典构建方法 |
![]() |
余正涛,陈亚豪,张亚飞,文永华,朱俊国,高盛祥 |
![]() |
发明专利 |
![]() |
已授权 |
![]() |
202010062905.7 |
![]() |
2020-01-20 |
![]() |
2020-06-19 |
![]() |
2021-12-28 |
![]() |
本发明涉及一种基于英语枢轴的弱监督汉越双语词典构建方法,属于自然语言处理技术领域。本发明包括步骤:分别收集汉语、英语和越南语的单语语料以及对语料进行预处理;基于种子词典的方法将汉越词向量分别对齐到英语词向量共享空间;在英语词向量共享空间中通过对抗网络学习汉越词向量之间的映射关系;采用不同的抽取策略抽取汉?越词典。本发明对自动构建汉?越词典的准确率有很大提升。解决现有汉越双语词典构建方法中存在的平行语料、种子词典等非常稀缺且难以标注以及现有方法构建效果不佳的问题。 |