| 李越,毛存礼,余正涛,高盛祥,王振晗,张亚飞 | |
| 融合主题及上下文特征的汉缅双语词汇抽取方法 | |
| 小型微型计算机系统(2017) | |
| 2021 | |
| 缅甸语属于低资源语言,网络中获取大规模的汉-缅双语词汇一定程度上可以缓解汉-缅机器翻译中面临句子级对齐语料匮乏的问题,为此,本文提出了一种融合主题及上下文特征的汉缅双语词汇抽取方法,首先利用 LDA 主题模型获取汉缅文档主题分布,并通过双语词向量表征将跨语言主题向量映射到共享的语义空间后抽取同一主题下相似度较高的词作为汉-缅双语候选词汇,然后基于 BERT 获取候选双语词汇相关上下文的词汇语义表征构建上下文向量,最后通过计算候选词的上下文向量的相似度对候选双语词汇进行加权得到质量更高的汉缅互译词汇,实验结果表明,相对于基于双语词典的方法和基于双语LDA+CBW 的方法,本文提出的方法准确率上分别提升了11.07%和3.82%。 | |
| 点击此处下载文章内容 | |