| 高盛祥,余正涛,郭军军 | |
| 基于句子特征向量的汉-越伪平行句对抽取 | |
| 山西大学学报:自然科学版(2017) | |
| 2019 | |
| 2019,42(04):770-776 | |
| 中文核心 | |
| 从可比语料中抽取伪平行句对是翻译语料扩充的重要方法之一。汉-越机器翻译是典型的资源稀缺型机器翻译,提高汉越翻译语料的规模能够显著提升汉越神经机器翻译性能。文章提出基于句子特征向量的汉越伪平行句对抽取方法,该方法首先根据汉越句法特性,将汉越句法差异部分的词性融入嵌入层,再使用自我注意力机制的神经网络抽取句子特征,生成一个句子特征向量,用这个句子特征向量来判断汉越句对是否为伪平行句对,实现从汉-越可比语料中抽取汉-越伪平行句对。实验表明,文章所提方法能够有效地从汉越可比语料中抽取出汉越伪平行句对。关键词: 句子特征向量;自我注意力机制;伪平行句对抽取;汉越机器翻译; | |
| 点击此处下载文章内容 | |