![]() |
低资源条件下融合多策略数据增强的依存句法分析方法 |
![]() |
线岩团,高凡雅,余正涛,相艳 |
![]() |
发明专利 |
![]() |
已授权 |
![]() |
202111078682.4 |
![]() |
2021-09-15 |
![]() |
2022-01-07 |
![]() |
2022-09-23 |
![]() |
本发明涉及低资源条件下融合多策略数据增强的依存句法分析方法,属于自然语言处理领域。本发明包括:构造泰语、越南语和英语的同词性同义词典;利用同义词典对三种语言的小规模UD(UniversalDependenciestreebanks)数据集进行同义词替换扩充训练数据;利用多种mixup数据增强策略在模型训练不同阶段对训练数据中原词与同义词进行mixup产生虚拟新词进行后续训练。本发明针对低资源依存句法分析问题提出多种数据增强策略。提出的方法通过同义词替换有效扩充了训练数据,缓解了未知词问题。通过多种mixup的数据增强策略,有效缓解了模型过拟合问题,提高模型的泛化能力。 |