![]() |
一种基于跨语言资源的柬语命名实体识别的方法 |
![]() |
严馨,谢俊,郭剑毅,余正涛,线岩团 |
![]() |
发明专利 |
![]() |
已授权 |
![]() |
201711084450.3 |
![]() |
2017-11-07 |
![]() |
2018-03-30 |
![]() |
2021-01-05 |
![]() |
本发明涉及一种基于跨语言资源的柬语命名实体识别的方法,属于自然语言处理技术的领域。本发明首先获取英柬双语平行文本语料及柬语单语文本语料;然后使用工具Word2vec对柬语单语文本进行处理得到柬语单词的向量表示;再通过余弦方法计算柬语单词之间的相似度值同时使用IBM模型实现柬英双语词之间的词对齐;运用双语图模型中的标签传播算法对柬英双语语料进行处理进而得到在该文本中的柬语单词的对应类别,再将其作为跨语言特征并且连同词性特征、标记特征,包括标记人名、地名的单词特征运用到机器学习模型进而实现对所获得语料进行实体命名识别。 |