首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
深网资源是指隐藏在HTML表单后端的Web数据库资源,这些资源主要通过表单查询的方式访问。然而,目前的网页采集技术由于采用页面超链接的方式采集资源,所以无法有效覆盖这些资源,为此,该文提出了一种基于领域知识抽样的深网资源采集方法,该方法首先利用开源目录服务创建领域属性集合,接着基于置信度函数对属性进行赋值,然后利用领域属性集合选择查询接口并生成查询接口赋值集合,最后基于贪心选择策略选择置信度最高的查询接口赋值生成查询实例进行深网采集。实验表明,该方法能够有效地实现深网资源的采集。  相似文献   

2.
随着Internet的发展,Web正在不断深人人们的生活.传统搜索引擎只能检索浅层网络(Surface Web),不能直接索引到深层网络(Deep Web)的资源.为了有效利用Deep Web资源,对Deep Web数据源发现并进行领域类别的划分,已成为一个非常迫切的问题.该模型首先抽取Deep Web页面查询接口的特征,构造了一个Deep Web页面过滤器,从而能够发现Deep Web的数据源,其次在对查询接12特征进行分析后,构建了一个基于KNN的分类器,并通过该分类器对新产生的Deep Web数据源进行领域分类.试验结果表明,这种模型的平均分类准确率达到86.9%,具有良好的分类效果.  相似文献   

3.
本文设计实现了一种Web信息检索系统,面向有特定需求的特殊用户群,采用基于web站点处理的情报采集策略。先对各站点页面随机采样,提取出包含敏感信息页面的web站点,再采集敏感站点中的相关页面生成本地敏感资源库,并对库中的文本页面用改进的TFIDF算法分析处理,以满足用户的查询。该系统能够提高Web页面信息的检索精确度和检测更新率,并可据某一专题方向对Web站点进行简单的自动分类。  相似文献   

4.
基于Web的种子植物分科检索系统的设计与实现   总被引:2,自引:0,他引:2       下载免费PDF全文
徐胜祥  徐运清 《计算机应用研究》2007,24(11):169-171,174
结合Web和数据库技术,以种子植物(科级)的形态特征建库,使用二叉式检索原理实现在Internet/Intranet上进行种子植物分类信息的查询与未知种类的鉴定,这对综合开发和合理利用种子植物资源具有指导意义.重点介绍了系统的总体结构、特征库和二叉式检索的建造,并给出了系统的运行实例.  相似文献   

5.
数字化资源增多使得共享信息查询难度增加,为此,设计了基于Web的数字化资源共享信息查询系统。通过统一用户接口,实现数字化资源共享信息的交互和集成,构建查询系统管理平台。连接外部共享信息提供程序和服务执行个体,利用Web服务器的索引服务,完成信息局部查询。管理远程信息查询节点服务的请求,改变创建端点的新路由,防止信息丢失,结合语义相关优化系统,根据关键字的反向资源频次,获得辨识能力,实现数字化资源共享信息全局查询。实验结果表明,基于Web的信息查询系统的查询处理能力较强,能够提高查询准确率和查询效率。  相似文献   

6.
日常生活中,上网重复查询相关资源等情况十分普遍,但由于网络信息一直处于变化之中,Web资源二次查询与一般一次查询结果可能存在差异。主要通过实验方法针对Web资源二次查询检索行为特性进行分析与研究。研究结果显示,相对比于信息一次查询行为,在Web资源二次查询过程中所使用的检索方式、检索策略更为多元化、所采用的检索优化方法更丰富。为搜索引擎技术的发展进行了信息检索角度的有益探讨。  相似文献   

7.
随着Web的发展,可供选择的功能相同或相似的Web服务越来越多,因此有必要为用户提供一种高效的基于服务质量(QoS)的Web服务查询机制.然而现有的Web服务QoS管理模型并不能很好的支持如动态查询等查询需求,其查询性能也有待提高.鉴于此,本文提出一种新的Web服务管理模型——多维QoS模型(MQM:Multi-dimensional QoS Model),并介绍了该模型的创建方法和相关算法.MQM通过多维模型来管理QoS数据,提供查询和OLAP操作.实验证明MQM能够使用户能更准确和快速的按QoS查询现有服务,很好地解决了传统查询方法无法确定查询条件、无法动态改变查询区间、查询性能不高等问题,进而改善了用户体验.  相似文献   

8.
利用人工和自动生成的资源进行中文信息检索查询扩展   总被引:4,自引:0,他引:4  
在中文信息检索的研究和实践中,由于查询与文件集中词的不匹配现象导致一些相关的文件不能被成功地检索出来,这是影响检索效果的一个很关键的问题。该文提出并实现了利用人工和自动生成的资源进行中文信息检索查询扩展,在NTCIR-2中文信息检索测试集上进行的实验表明,相对于不进行查询扩展的检索结果,该扩展方法取得了具有统计意义提高的检索效果。  相似文献   

9.
网络信息的爆炸式增长,使得当前任何搜索引擎都只可能索引到Web上一小部分数据,而其中又充斥着大量的低质量信息.如何在用户查询无关的条件下找到Web上高质量的关键资源,是Web信息检索面临的挑战.基于大规模网页统计的方法发现,多种网页非内容特征可以用于关键资源页面的定位,利用决策树学习方法对这些特征进行综合,即可以实现用户查询无关的关键资源页面定位.在文本信息检索会议(TREC)标准评测平台上进行的超过19G文本数据规模的实验表明,这种定位方法能够利用20%左右的页面覆盖超过70%的Web关键信息;在仅为全部页面24%的关键资源集合上的检索结果,比在整个页面集合上的检索有超过60%的性能提高.这说明使用较少的索引量获取较高的检索性能是完全可能的.  相似文献   

10.
查询扩展作为查询优化的重要组成部分,对改善信息检索系统的性能起到了至关重要的作用.传统的伪相关反馈查询扩展方法虽然在一定程度上提高了检索性能,但选择的扩展词中会包含一部分与原查询不相关的词语,这对检索性能的提升产生了不利影响.提出了一种基于分类模型的查询扩展方法,该算法综合候选扩展词的统计信息和多种特征,采用朴素贝叶斯分类模型对初次得到的候选扩展词进行再次分类选择,进一步去除与查询词相关性小的扩展词.在TREC 2013数据集上的实验结果表明,提出的查询扩展方法能够有效提高用户查询的查准率和查全率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号