![]() |
基于音节切分和词切分联合学习的多任务泰语分词方法 |
![]() |
线岩团,王悦寒,余正涛,相艳,毛存礼 |
![]() |
发明专利 |
![]() |
已授权 |
![]() |
202110079486.2 |
![]() |
2021-01-21 |
![]() |
2021-06-01 |
![]() |
2021-12-28 |
![]() |
本发明涉及基于音节切分和词切分联合学习的多任务泰语分词方法。本发明包括:预处理泰语文本数据集;使用窗口化的方式选择泰语字符特征和字符类别特征作为特征输入;之后利用注意力机制获得丰富的上下文特征;最后输出层使用线性变换和Sigmoid函数去预测当前序列中的音节序列标签和词序列标签。本发明采用多任务学习的方式,它能够同时学习同一个句子在音节切分和词切分的序列标签,用音节切分辅助词切分,以提高模型泛化能力。本发明在InterTEST2010数据集上有更高的准确性,与DeepCut泰语分词模型相比,系统运行速度至少提高了1.6倍,为后续的文本分类、信息检索和机器翻译提供了支撑。 |