您好!欢迎访问云南省人工智能重点实验室
科研成果
当前位置:首页>科研成果>专利

专利


名称: 验证共有子词对XLM翻译模型效果影响的实验方法 
作者: 余正涛, 杨晓霞, 吴霖, 朱俊国, 王振晗, 文永华 
类型: 发明专利  
状态: 已授权  
专利号/登记号: 202110079357.3 
申请日/受理日: 2021-01-21 
公告日: 2021-05-28 
授权日: 2023-05-16 
简介: 本发明涉及验证共有子词对XLM翻译模型效果影响的实验方法。本发明包括:对XLM翻译模型预训练的语料库进行预处理;验证XLM翻译模型性能是否退化:用预处理后的语料库对XLM翻译模型进行预训练,用预训练后的模型初始化翻译模型,观察新的翻译模型的BLEU值。预处理包括如下:首先获取英语和法语子词中的共有子词及所有子词词频;然后根据分离比例,随机对共有子词进行分离;随后读取所有英法子词的词表保存在词典中,用于后续生成分离子词文件;使用生成的分离子词文件初始化词典,最后使用初始化后的词典来结构化模型语料库文件。本发明验证了共有子词对BLEU值的影响,且本发明对非同源语言的低资源神经机器翻译研究有帮助。