云南省人工智能重点实验室

科研成果

当前位置：首页>科研成果>论文列表

论文作者：	邵党国,孔宪媛,相艳, 安青, 黄琨, 郭军军
论文名称：	QV-Electra: 引入Query-Value注意力机制的预训练文本分类模型
论文发表刊物：	中文信息学报（2017）
论文发表时间：	2023
卷号页码：
论文描述：
收录情况：
论文摘要：
预训练语言模型的作用是在大规模无监督语料上基于特定预训练任务获取语义表征能力,故在下游任务中仅需少量语料微调模型且效果较传统机器学习模型(如 CNN、RNN、LSTM等)更优。常见的预训练语言模型如BERT、Electra、GPT等均是基于传统 Attention 机制搭建。研究表明,引入 Query-Value 计算的 QV-Attention 机制效果较 Attention机制有所提升。该文模型 QV-Flectra将 OV-Attention引入预训练模型 Hectra,该模型在保留Electra 预训练模型参数的同时仅通过添加 0.1%参数获得性能提升。实验结果表明,QV-Electra 模型在同等时间的情况下,相较于传统模型以及同等参数规模预训练模型能取得更好的分类效果。
点击此处下载文章内容