![]() |
唐文,周兰江*,张建安 |
![]() |
融合多粒度特征的老挝语词性标注研究 |
![]() |
中文信息学报(2017) |
![]() |
2023 |
![]() |
|
![]() |
|
![]() |
|
![]() |
|
词性标注是自然语言处理领域的基础任务之一。语料稀缺、词形复杂、存在大量低频词和未登录词,句式较长,在数据传递过程中信息易丢失,这些都是导致老挝语词性标注不准确的主要原因。因此,该文提出一种融合多粒度特征的老挝语词性标注方法,构建了融合老挝词、字符和音节特征的 Transformer-CRF 模型。首先,在传统词向量的基础上融合老挝语字符和音节特征向量,使模型在三个粒度级别上充分利用语料信息;其次,使用 Transformer 对老挝语句子进行长远上下文信息提取,解决重要信息丢失问题;最后,使用 CRF 提取相邻词性约束关系。从而获取最优词性标签。实验结果表明,在语料有限的情况下,该模型与其他主流模型相比达到了更显著的效果,精确率、召回率和F,值分别为 94.76%、93.93%、94.34%。 | |
点击此处下载文章内容 |