| 邵党国*,黄初升,马磊,贺建峰,易三莉 | |
| 基于Bi-LSTM的医学文本分词模型 | |
| 通信技术(2017) | |
| 2022 | |
| 中文分词(Chinese Word Segmentation,CWS)是自然语言处理(Natural LanguageProcessing,NLP)中一项重要的基础任务。由于不同领域中文词汇的特殊性以及缺乏相关领域的标记数据,面向特定领域的分词任务是近年来中文分词研究面临的挑战之一。因此,提出了一种基于双向长短时记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM)的分词模型,其中分别使用了大规模的中文通用语料以及少量中文医学语料训练模型来构建这种全新的分词模型。该模型在仅使用少量中文医学领域标记数据的情况下,在该领域的分词任务上获得了较好的分词效果,实验结果中的最优 F1 值为 95.54%,相比单独使用中文医学语料训练的分词模型,有比较明显的提升。 | |
| 点击此处下载文章内容 | |