您好!欢迎访问云南省人工智能重点实验室
科研成果
当前位置:首页>科研成果>专利

专利


名称: 融合关键词和语义特征的汉越文本相似度计算方法 
作者: 高盛祥,潘润海,余正涛,毛存礼,朱俊国,王振晗 
类型: 发明专利  
状态: 已授权  
专利号/登记号: 202011006911.7 
申请日/受理日: 2020-09-23 
公告日: 2021-01-22 
授权日: 2022-02-22 
简介: 本发明涉及融合关键词和语义特征的汉越文本相似度计算方法,属于自然语言处理技术领域。本发明包括步骤:提取汉语、越南语文章的关键词,将越南语关键词翻译为中文,计算出两篇文章中的共现关键词,得到词的相似信息;然后利用共现关键词抽取出与其紧密相关的句子进行拼接来表征文本,并去除无关的句子以压缩文本;再利用知识蒸馏训练出汉越BERT模型对压缩后的文本进行编码,以获得上下文语义特征;最后将词的相似信息和上下文语义特征融合实现文本相关性判断。本发明提升了汉?越文本相似度计算的准确率。