![]() |
一种基于Bi-LSTM算法的老汉双语平行句子抽取方法 |
![]() |
周兰江,贾善崇,张建安 |
![]() |
发明专利 |
![]() |
已授权 |
![]() |
201910520523.1 |
![]() |
2019-06-17 |
![]() |
2019-10-22 |
![]() |
2022-11-01 |
![]() |
本发明公开了一种基于Bi-LSTM算法的老汉双语平行句子抽取方法,属于自然语言处理和机器学习技术领域。首先将篇章级对齐的语料作为输入,由于老挝语与中文的句子成分排序大致是一致的,所以先将篇章级的语料通过标点符号,处理为单个的对齐语句,之后将对齐的语句进行拆分,组成两个文本。这两个文本中包含一些非对齐的语句,之后将这些对齐的语句进行分词,分词之后,将两个文本组合为一个统一文本,因包含中文以及老挝语,以及是否为对齐的标志,作为训练数据,将得到的中文以及老挝语分词之后的句子作为Bi?LSTM的输入,经过Bi?LSTM的输出得到的结果,通过曼哈顿距离公式,计算两个句子的相似度,进而从篇章级的双语语料库中抽取出平行句对。 |