![]() |
赖华,余正涛 |
![]() |
融合结构和内容特征提取多类型网页文本要素 |
![]() |
山西大学学报. 自然科学版(2011) |
![]() |
2016 |
![]() |
2016,39(03):386-391. |
![]() |
中文核心 |
![]() |
|
![]() |
|
针对网页设计结构与文本内容上的关联特点,提出了融合结构和内容特征的多类型网页文本要素提取方法。依据网页头部标题元素与网页体内容上的联系提取网页标题;提取网页正文区域的网页结构和内容上的多个特征分类网页DOM节点,定义节点的扩展、整合规则获得正文候选块,引入密度值和影响因子从各候选块中甄别正文块;利用发布时间与标题、正文之间的位置关系,通过正则表达式实现发布时间的提取。对国内新闻网站、博客、论坛及贴吧进行抽取试验,结果表明该方法具有较好的效果。关键词: 多类型网页;网页要素自动提取;结构特征;内容特征; | |
点击此处下载文章内容 |