您好!欢迎访问云南省人工智能重点实验室
科研成果
当前位置:首页>科研成果>专利

专利


名称: 基于音节切分和词切分联合学习的多任务泰语分词方法 
作者: 线岩团,王悦寒,余正涛,相艳,毛存礼 
类型: 发明专利  
状态: 已授权  
专利号/登记号: 202110079486.2 
申请日/受理日: 2021-01-21 
公告日: 2021-06-01 
授权日: 2021-12-28 
简介: 本发明涉及基于音节切分和词切分联合学习的多任务泰语分词方法。本发明包括:预处理泰语文本数据集;使用窗口化的方式选择泰语字符特征和字符类别特征作为特征输入;之后利用注意力机制获得丰富的上下文特征;最后输出层使用线性变换和Sigmoid函数去预测当前序列中的音节序列标签和词序列标签。本发明采用多任务学习的方式,它能够同时学习同一个句子在音节切分和词切分的序列标签,用音节切分辅助词切分,以提高模型泛化能力。本发明在InterTEST2010数据集上有更高的准确性,与DeepCut泰语分词模型相比,系统运行速度至少提高了1.6倍,为后续的文本分类、信息检索和机器翻译提供了支撑。