您好!欢迎访问云南省人工智能重点实验室
科研成果
当前位置:首页>科研成果>专利

专利


名称: 一种基于Dirichlet过程的可比语料双语平行片段抽取的方法 
作者: 严馨,蒋亚芳,余正涛,徐广义,周枫,郭剑毅 
类型: 发明专利  
状态: 已授权  
专利号/登记号: 201811093818.7 
申请日/受理日: 2018-09-19 
公告日: 2019-02-01 
授权日: 2021-07-16 
简介: 本发明涉及一种基于Dirichlet过程的可比语料双语平行片段抽取的方法,属于机器学习翻译与自然语言处理技术领域。本发明首先需要通过双语主题模型获得双语可比语料对的主题分布,再通过泊松分布随机切分双语可比语料,然后设定一个主题阈值,通过阈值初步筛选可比语料平行片段集,最后由Dirichlet过程获得各个平行片段之间的匹配概率,再经过吉布斯抽样进一步获得最终精确的平行片段对。在相同的可比语料环境下,本发明基于Dirichlet过程的抽取方法获取平行片段对的效果更佳。