您好!欢迎访问云南省人工智能重点实验室
科研成果
当前位置:首页>科研成果>专利

专利


名称: 低资源条件下融合多策略数据增强的依存句法分析方法 
作者: 线岩团,高凡雅,余正涛,相艳 
类型: 发明专利  
状态: 已授权  
专利号/登记号: 202111078682.4 
申请日/受理日: 2021-09-15 
公告日: 2022-01-07 
授权日: 2022-09-23 
简介: 本发明涉及低资源条件下融合多策略数据增强的依存句法分析方法,属于自然语言处理领域。本发明包括:构造泰语、越南语和英语的同词性同义词典;利用同义词典对三种语言的小规模UD(UniversalDependenciestreebanks)数据集进行同义词替换扩充训练数据;利用多种mixup数据增强策略在模型训练不同阶段对训练数据中原词与同义词进行mixup产生虚拟新词进行后续训练。本发明针对低资源依存句法分析问题提出多种数据增强策略。提出的方法通过同义词替换有效扩充了训练数据,缓解了未知词问题。通过多种mixup的数据增强策略,有效缓解了模型过拟合问题,提高模型的泛化能力。