云南省人工智能重点实验室

科研成果

当前位置：首页>科研成果>专利

名称：	融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置
作者：	毛存礼,高旭,余正涛,王振晗,高盛祥,满志博
类型：	发明专利
状态：	已授权
专利号/登记号：	202010980757.7
申请日/受理日：	2020-09-17
公告日：	2021-01-29
授权日：	2022-02-11
简介：	本发明涉及融合预训练语言模型及结构特征的英?缅双语平行句对抽取方法及装置，属于自然语言处理技术领域。本发明包括步骤：数据预处理构建英?缅平行句对数据集；利用基于多语言预训练语言模型训练英语和缅甸语词向量，以共享语义空间；通过融合英?缅句子结构特征及孪生神经网络构建英?缅双语平行句对抽取模型；收集双语文本并使用融合多语言预训练语言模型及英?缅句子结构特征及孪生网络的英?缅双语平行句对抽取模型计算每一句对的相似度，并设定相似度阈值来抽取英?缅双语平行句对。本发明有效的从英?缅可比语料中抽取平行句对并且降低对语义相似但不平行的句对的误判，为开展英?缅神经机器翻译研究工作提供了数据支撑。