您好!欢迎访问云南省人工智能重点实验室
科研成果
当前位置:首页>科研成果>专利

专利


名称: 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法 
作者: 周兰江,贾善崇,张建安  
类型: 发明专利  
状态: 已授权  
专利号/登记号: 201910520523.1 
申请日/受理日: 2019-06-17 
公告日: 2019-10-22 
授权日: 2022-11-01 
简介: 本发明公开了一种基于Bi-LSTM算法的老汉双语平行句子抽取方法,属于自然语言处理和机器学习技术领域。首先将篇章级对齐的语料作为输入,由于老挝语与中文的句子成分排序大致是一致的,所以先将篇章级的语料通过标点符号,处理为单个的对齐语句,之后将对齐的语句进行拆分,组成两个文本。这两个文本中包含一些非对齐的语句,之后将这些对齐的语句进行分词,分词之后,将两个文本组合为一个统一文本,因包含中文以及老挝语,以及是否为对齐的标志,作为训练数据,将得到的中文以及老挝语分词之后的句子作为Bi?LSTM的输入,经过Bi?LSTM的输出得到的结果,通过曼哈顿距离公式,计算两个句子的相似度,进而从篇章级的双语语料库中抽取出平行句对。