您好!欢迎访问云南省人工智能重点实验室
科研成果
当前位置:首页>科研成果>论文列表

论文列表



 论   文  作   者: 王可超,郭军军,张亚飞,高盛祥*,余正涛
 论   文  名   称: 基于回译和比例抽取孪生网络筛选的汉越平行语料扩充方法
 论文发表刊物: 计算机工程与科学
 论文发表时间: 2022
 卷   号  页   码:
 论   文  描   述:
 收   录  情   况:
  论   文  摘   要:
        回译作为翻译中重要的数据增强方法,受到了越来越多研究者的关注。其基本思想为首先基于平行语料训练基础翻译模型,然后利用模型将单语语料翻译为目标语言,组合为新语料用于模型训练然而在汉越低资源场景下,训练得到的基础翻译模型性能较差,导致在其上应用回译方法得到的平行语料中含有较多噪声,较难用于下游任务。针对此问题,构建基于比例抽取的李生网络筛选模型,通过训练使得模型可以识别平行句对和伪平行句对,在同一语义空间上对回译得到的伪平行语料进行筛选去噪,进而得到更优的平行语料。在汉越数据集上的实验结果表明,所提方法训练的模型的性能相较基线模型有显著提升。
点击此处下载文章内容