您好!欢迎访问云南省人工智能重点实验室
科研成果
当前位置:首页>科研成果>专利

专利


名称: 融合词簇约束的汉越跨语言词嵌入方法 
作者: 余正涛, 武照渊, 黄于欣 
类型: 发明专利  
状态: 已授权  
专利号/登记号: 202210014277.4 
申请日/受理日: 2022-01-06 
公告日: 2022-06-07 
授权日: 2023-03-10 
简介: 本发明涉及融合词簇约束的汉越跨语言词嵌入方法。本发明首先对汉越单语语料进行预处理并用于训练汉越单语词嵌入;然后利用在线词典和开源词库构建汉越双语词典及词簇词典,并将词与词簇两种粒度的对齐信息融入映射矩阵的训练过程中;最后通过跨语言映射框架得到汉越共享词嵌入空间,使具有相同含义的汉语与越南语词嵌入在空间中彼此接近。本发明使用不同类型的关联关系抽取汉越双语词典中的词簇对齐信息,使映射矩阵学习到多粒度的映射关系,以提升映射矩阵在非标注词上的泛化性,改善汉越低资源场景下双语空间对齐效果不佳的问题。实验结果表明,该模型在汉越词典归纳任务@1和@5上的对齐准确率相比VecMap模型提升了2.2个百分点。