期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	1篇
免费	0篇

学科分类

工业技术

1篇

出版年

2012年

1篇

排序方式： 共有1条查询结果，搜索用时 0 毫秒

基于正文特征及网页结构的主题网页信息抽取

段晓丽王宇谷静刘玮楠《计算机工程与应用》2012,48(30):151-156

Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础。在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法。在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息。实验证明,这种方法具有很好的准确率及召回率。相似文献