![]() |
一种基于样本相似性计算的负采样远程监督实体识别方法 |
![]() |
线岩团, 刘杨, 相艳, 郭军军 |
![]() |
发明专利 |
![]() |
已授权 |
![]() |
202311045140.6 |
![]() |
2023-08-18 |
![]() |
2023-09-19 |
![]() |
2023-10-31 |
![]() |
本发明涉及一种基于样本相似性计算的负采样远程监督实体识别方法,属于自然语言处理技术领域。本发明首先获取训练样本和增强样本,将增强样本与原有训练样本一起,使用预训练语言模型PLM的词编码模块进行编码,得到文本的词嵌入,然后通过预训练语言模型里的双向Transformer编码器对词嵌入进行编码处理,得到所有样本最终的特征向量,将其中的负样本部分与正样本部分进行相似度计算并对其打分,从中取出得分靠前的K个负样本,这K个得分高的负样本就认为其为漏标实体,而后与原有正样本一起参与训练,以此实现完成漏标实体的发现和模型泛化能力的提高。 |