云南省人工智能重点实验室

科研成果

当前位置：首页>科研成果>论文列表

论文作者：	邵党国*，黄初升，马磊，贺建峰，易三莉
论文名称：	基于Bi-LSTM的医学文本分词模型
论文发表刊物：	通信技术（2017）
论文发表时间：	2022
卷号页码：
论文描述：
收录情况：
论文摘要：
中文分词(Chinese Word Segmentation，CWS)是自然语言处理(Natural LanguageProcessing，NLP)中一项重要的基础任务。由于不同领域中文词汇的特殊性以及缺乏相关领域的标记数据，面向特定领域的分词任务是近年来中文分词研究面临的挑战之一。因此，提出了一种基于双向长短时记忆网络(Bidirectional Long Short-Term Memory，Bi-LSTM)的分词模型，其中分别使用了大规模的中文通用语料以及少量中文医学语料训练模型来构建这种全新的分词模型。该模型在仅使用少量中文医学领域标记数据的情况下，在该领域的分词任务上获得了较好的分词效果，实验结果中的最优 F1 值为 95.54%，相比单独使用中文医学语料训练的分词模型，有比较明显的提升。
点击此处下载文章内容