首页 | 官方网站   微博 | 高级检索  
     

一种基于页面Block的Web信息提取方法
引用本文:蒙韧,邵延振,袁鼎荣. 一种基于页面Block的Web信息提取方法[J]. 计算机技术与发展, 2010, 20(1): 197-200
作者姓名:蒙韧  邵延振  袁鼎荣
作者单位:广西师范大学,广西,桂林,541004
摘    要:基于页面结构的信息提取是Web数据挖掘中三大研究领域之一。该研究的关键技术是如何识别Web页面的组织形式,从中挖掘所需要的页面信息。文中基于页面的语义分块(Block)给出一个新的块主题提取算法,与传统的以页面为单位的Web信息提取相比,更符合实际情况,粒度优势明显。该算法针对页面中不同分块的重要性给予不同的权值,依据权值大小取舍页面信息提供给用户。针对该算法进行了模拟实验,从实验结果可以看出该算法具有一定的实用性和有效性。

关 键 词:语义Block  Block权值  Block主题提取  Web信息挖掘

A Web Information Extraction Algorithm Based on Web Page
MENG Ren,SHAO Yan-zhen,YUAN Ding-rong. A Web Information Extraction Algorithm Based on Web Page[J]. Computer Technology and Development, 2010, 20(1): 197-200
Authors:MENG Ren  SHAO Yan-zhen  YUAN Ding-rong
Abstract:
Keywords:
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号