![]() |
验证共有子词对XLM翻译模型效果影响的实验方法 |
![]() |
余正涛, 杨晓霞, 吴霖, 朱俊国, 王振晗, 文永华 |
![]() |
发明专利 |
![]() |
已授权 |
![]() |
202110079357.3 |
![]() |
2021-01-21 |
![]() |
2021-05-28 |
![]() |
2023-05-16 |
![]() |
本发明涉及验证共有子词对XLM翻译模型效果影响的实验方法。本发明包括:对XLM翻译模型预训练的语料库进行预处理;验证XLM翻译模型性能是否退化:用预处理后的语料库对XLM翻译模型进行预训练,用预训练后的模型初始化翻译模型,观察新的翻译模型的BLEU值。预处理包括如下:首先获取英语和法语子词中的共有子词及所有子词词频;然后根据分离比例,随机对共有子词进行分离;随后读取所有英法子词的词表保存在词典中,用于后续生成分离子词文件;使用生成的分离子词文件初始化词典,最后使用初始化后的词典来结构化模型语料库文件。本发明验证了共有子词对BLEU值的影响,且本发明对非同源语言的低资源神经机器翻译研究有帮助。 |