![]() |
一种以泰语为枢轴的老-汉双语语料库构建方法及装置 |
![]() |
毛存礼,高旭,余正涛,高盛祥,王振晗,聂男 |
![]() |
发明专利 |
![]() |
已授权 |
![]() |
201910856645.8 |
![]() |
2019-09-11 |
![]() |
2020-01-21 |
![]() |
2022-06-14 |
![]() |
本发明涉及以泰语为枢轴的老?汉双语语料库构建方法及装置,属自然语言处理领域。本发明先对汉语?泰语平行语料数据进行泰语分词处理;构建老挝语?泰语双语词典,并利用其将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语?泰语平行句对;构建基于双向LSTM的老挝语?泰语平行句对分类模型,对候选的老挝语?泰语平行句对进行分类,获取老挝语?泰语双语平行句对;以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语?汉语双语平行语料库。并根据上述步骤功能模块化制成以泰语为枢轴语言的老?汉双语平行语料库构建装置,本发明解决了老挝语?汉语语料稀缺的问题,对老?汉双语语料库的构建具有一定的理论意义和实际应用价值。 |