![]() |
利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法 |
![]() |
线岩团,王悦寒,余正涛,相艳 |
![]() |
发明专利 |
![]() |
已授权 |
![]() |
202111078804.X |
![]() |
2021-09-15 |
![]() |
2022-01-07 |
![]() |
2022-12-13 |
![]() |
本发明涉及利用局部多头注意力机制融合词?音节对的泰文和缅甸文词性标注方法,属自然语言处理领域。本发明包括:预处理泰文或者缅甸文文本数据集;使用窗口化的方式选择词语?音节对特征作为模型输入;之后利用局部多头注意力机制从词语?音节对序列中学习上下文特征;最后通过条件随机场建模词性依赖关系,进行词性标签的预测。针对泰文和缅甸文词性标注数据集的实验结果表明,与当前最优模型相比,本发明将音节作为词语的形态学特征进行融入,有助于学习未知词的上下文特征,缓解未知词错误标注对模型性能的影响。并且本发明采用局部多头自注意力机制可以使模型获取更丰富的局部依赖特征,在词性标注任务中取得更好的标注结果。 |