您好!欢迎访问云南省人工智能重点实验室
科研成果
当前位置:首页>科研成果>论文列表

论文列表



 论   文  作   者: 赖华,余正涛
 论   文  名   称: 融合结构和内容特征提取多类型网页文本要素
 论文发表刊物: 山西大学学报. 自然科学版(2011)
 论文发表时间: 2016
 卷   号  页   码: 2016,39(03):386-391.
 论   文  描   述: 中文核心
 收   录  情   况:
  论   文  摘   要:
        针对网页设计结构与文本内容上的关联特点,提出了融合结构和内容特征的多类型网页文本要素提取方法。依据网页头部标题元素与网页体内容上的联系提取网页标题;提取网页正文区域的网页结构和内容上的多个特征分类网页DOM节点,定义节点的扩展、整合规则获得正文候选块,引入密度值和影响因子从各候选块中甄别正文块;利用发布时间与标题、正文之间的位置关系,通过正则表达式实现发布时间的提取。对国内新闻网站、博客、论坛及贴吧进行抽取试验,结果表明该方法具有较好的效果。关键词: 多类型网页;网页要素自动提取;结构特征;内容特征;
点击此处下载文章内容