您好!欢迎访问云南省人工智能重点实验室
科研成果
当前位置:首页>科研成果>专利

专利


名称: 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 
作者: 毛存礼,高旭,余正涛,高盛祥,王振晗,聂男 
类型: 发明专利  
状态: 已授权  
专利号/登记号: 201910856645.8 
申请日/受理日: 2019-09-11 
公告日: 2020-01-21 
授权日: 2022-06-14 
简介: 本发明涉及以泰语为枢轴的老?汉双语语料库构建方法及装置,属自然语言处理领域。本发明先对汉语?泰语平行语料数据进行泰语分词处理;构建老挝语?泰语双语词典,并利用其将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语?泰语平行句对;构建基于双向LSTM的老挝语?泰语平行句对分类模型,对候选的老挝语?泰语平行句对进行分类,获取老挝语?泰语双语平行句对;以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语?汉语双语平行语料库。并根据上述步骤功能模块化制成以泰语为枢轴语言的老?汉双语平行语料库构建装置,本发明解决了老挝语?汉语语料稀缺的问题,对老?汉双语语料库的构建具有一定的理论意义和实际应用价值。