![]() |
一种基于Dirichlet过程的可比语料双语平行片段抽取的方法 |
![]() |
严馨,蒋亚芳,余正涛,徐广义,周枫,郭剑毅 |
![]() |
发明专利 |
![]() |
已授权 |
![]() |
201811093818.7 |
![]() |
2018-09-19 |
![]() |
2019-02-01 |
![]() |
2021-07-16 |
![]() |
本发明涉及一种基于Dirichlet过程的可比语料双语平行片段抽取的方法,属于机器学习翻译与自然语言处理技术领域。本发明首先需要通过双语主题模型获得双语可比语料对的主题分布,再通过泊松分布随机切分双语可比语料,然后设定一个主题阈值,通过阈值初步筛选可比语料平行片段集,最后由Dirichlet过程获得各个平行片段之间的匹配概率,再经过吉布斯抽样进一步获得最终精确的平行片段对。在相同的可比语料环境下,本发明基于Dirichlet过程的抽取方法获取平行片段对的效果更佳。 |