首页 | 官方网站   微博 | 高级检索  
     

基于查询接口特征的Deep Web数据源自动分类
引用本文:赵朋朋,高岭,崔志明.基于查询接口特征的Deep Web数据源自动分类[J].微电子学与计算机,2006,23(10):47-50.
作者姓名:赵朋朋  高岭  崔志明
作者单位:苏州大学,智能信息处理及应用研究所,江苏,苏州,215006
基金项目:教育部科学技术研究重点项目;教育部"高校博士学科点科研基金;江苏省高技术研究发展计划项目
摘    要:搜索引擎可以很好地搜索出大部分可索引页面,然而,Internet上有大量的页面是由后台数据库动态产生的.传统的搜索引擎搜索不出这部分页面,我们称之为Deep Web。其中大部分Deep Web是结构化的,它提供结构化的查询接口和结构化的结果。把这些结构化的Deep Web数据源按所属领域进行组织可以方便用户浏览这些有价值的资源.并且这也是大规模Deep Web集成搜索的一个关键步骤。提出了一种基于查询接口特征的Deep Web数据源自动分类方法.并通过实验验证该方法是非常有效的。

关 键 词:自动分类  机器学习  数据集成
文章编号:1000-7180(2006)10-0047-04
修稿时间:2006年7月11日

Automatic Classification of Deep Web Sources Based on Search Interface Schemas
ZHAO Peng-peng,GAO Ling,CUI Zhi-ming.Automatic Classification of Deep Web Sources Based on Search Interface Schemas[J].Microelectronics & Computer,2006,23(10):47-50.
Authors:ZHAO Peng-peng  GAO Ling  CUI Zhi-ming
Abstract:Web search engines work well for finding crawlable pages, but not for finding datasets hidden behind Web search forms. On this deep Web, many sources are structured by providing structured query interfaces and results. Organizing such structured sources into a domain hierarchy that users can browse to find these valuable resources and is one of the critical steps toward the large-scale integration of heterogeneous Deep Web sources. We propose a Automatic Classification of Structured Deep Web Sources based on the features available on the search interfaces. Our experimental results indicate that this approach can achieve good results.
Keywords:Deep Web
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号