首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 257 毫秒
1.
随着Web服务量的急剧增长,传统的基于UDDI的服务发现机制已经很难满足用户的需求,其根本原因是其缺乏语义信息.为了提高Web服务发现的质量,提出了一种基于Agent技术的语义Web服务发现模型(ASWS matchmaker),该模型对所搜索内容进行语义描述并通过Agent对Web服务进行智能搜索,从而发现用户感兴趣的服务.最后,给出了该模型用于Web服务的一个实例,实例表明该模型不仅提高了Web服务发现的准确率,还能够更好地满足用户的个性化需求.  相似文献   

2.
基于对等网的Web服务发布和发现机制研究   总被引:5,自引:1,他引:5  
传统的Web服务发布和发现机制在效率、可靠性、安全等方面存在一定缺陷,提出了一种基于对等网技术的Web服务发布和发现新机制.该机制利用对等体服务发布技术实现了Web服务的快速和即时发布,利用对等网通告发现策略实现了Web服务的高效搜索和定位.同时给出了在JXTA对等网络中即时发布和异步发现Web服务的算法实现.研究表明,该机制有助于普及网络边缘服务,增强应用的服务能力,是一种效率更高的分布式动态发布和发现Web服务的新机制.  相似文献   

3.
网络爬虫在Web信息搜索与数据挖掘中应用   总被引:2,自引:1,他引:1  
分析了万维网不良网络信息对网络文化安全带来的挑战,提出了Web信息搜索与数据挖掘体系结构,并介绍了该体系结构中的关键技术和运行原理.分析了普通爬虫所实现的功能和不足之后,重点论述了该爬虫的工作原理、实现方式和性能分析以及该爬虫不同于其它爬虫的功能和在Web信息搜索与数据挖掘体系中应用.通过试验测试表明,该爬虫能够很好地获取万维网上的各种信息资源,有助于网络文化内容监测与管理.  相似文献   

4.
一种需求驱动的自主Web服务聚集方法   总被引:6,自引:0,他引:6  
引入具有主动搜索需求能力的自主Web服务概念,提出基于环境本体的意图-行为-实现机制,用于描述服务请求和自主Web服务能力,构型了一种需求驱动的自主Web服务聚集的模型.给出了基于意图-行为-实现机制的需求能力匹配算法和自主Web服务聚集算法.最后,通过对应用案例的研究来展示该方法的可行性.  相似文献   

5.
Deep Web数据源聚类与分类   总被引:1,自引:0,他引:1  
随着Internet信息的迅速增长,许多Web信息已经被各种各样的可搜索在线数据库所深化,并被隐藏在Web查询接口下面.传统的搜索引擎由于技术原因不能索引这些信息--Deep Web信息.本文分析了Deep Web查询接口的各种类型,研究了基于查询接口特征的数据源聚类方法和基于聚类结果的数据源分类方法,讨论了从基于规则与线性文档分类器中抽取查询探测集的规则抽取算法和Web文档数据库分类的查询探测算法.  相似文献   

6.
基于P2P的Web搜索技术   总被引:4,自引:0,他引:4  
方启明  杨广文  武永卫  郑纬民 《软件学报》2008,19(10):2706-2719
Web搜索引擎已经成为人们从海量Web信息中快速找到所需信息的重要工具,随着Web数据量的爆炸性增长,传统的集中式搜索引擎已经越来越不能满足人们不断增长的信息获取需求.随着对等网络(peer-to-peer,简称P2P)技术的快速发展,人们提出了基于P2P的Web搜索技术并迅速成为研究热点.研究的目的是对现有的基于P2P的Web搜索技术进行总结,以期为进一步研究指明方向.首先分析了基于P2P的Web搜索面临的诸多挑战;然后重点总结分析了基于P2P的Web搜索的各项关键技术的研究现状,包括系统拓扑结构、数据存放策略、查询路由机制、索引切分策略、数据集选择、相关性排序、网页收集方法等;最后对已有的3个较有特色的基于P2P的Web搜索原型系统进行了介绍.  相似文献   

7.
钱雪忠  孙华峰 《计算机工程与设计》2007,28(14):3370-3372,3375
随着Web Services的广泛流行,怎样发现适当Web Services来支持Web Services的组合已经成为一种挑战.由于传统的关键字搜索具有太低的记忆性和精确性,因此这种方法是很低效的.基于Web Services的描述信息,介绍了一种有效的Web Services发现机制.此服务发现方法是简单可用的,通过引入语义变得十分高效,因此该机制成功的在服务组合模型上得到了实现.  相似文献   

8.
为满足用户精确化和个性化获取信息的需要,通过分析Deep Web信息的特点,提出了一个可搜索不同主题Deep Web 信息的爬虫框架.针对爬虫框架中Deep Web数据库发现和Deep Web爬虫爬行策略两个难题,分别提出了使用通用搜索引擎以加快发现不同主题的Deep Web数据库和采用常用字最大限度下载Deep Web信息的技术.实验结果表明了该框架采用的技术是可行的.  相似文献   

9.
基于Web企业竞争对手情报自动搜集平台   总被引:4,自引:1,他引:4  
从互联网中准确有效及时地自动搜索出需要的信息,是Web信息处理中的一个重要研究课题。本文在所提出的基于搜索路径Web网页搜索和基于多知识网页信息抽取方法基础上,给出基于Web企业竞争对手情报自动收集平台的实现方法,该平台可以有效地从多个企业门户网站中,自动搜索出所需要的目标网页,并能够从目标网页中自动抽取其中多记录信息。本文利用该平台进行了企业人才招聘信息的自动搜索实验。实验结果证实了该平台在信息自动搜集方面的有效性和准确性。  相似文献   

10.
基于页面Block的Web档案采集和存储   总被引:1,自引:0,他引:1  
提出了基于页面Block对Web页面的采集和存储方式,并详细表述了该方法如何完成基于布局页面分区、Block主题的抽取、版本和差异的比较以及增量存储的方式.实现了一个Web归档原型系统,并对所提出的算法进行了详细的测试.理论和实验表明,所提出的基于页面Block的Web档案(Web archive)采集和存储方法能够很好地适应Web档案的管理方式,并对基于Web档案的查询、搜索、知识发现和数据挖掘等应用提供有利的数据资源.  相似文献   

11.
如何发现主题信息源是主题Web信息整合的前提。提出了一种主题信息源发现方法,将主题信息源发现转化为网站主题分类问题,并利用站外链接发现新的信息源。从网站中提取出能反映网站主题的内容特征词和结构特征词,建立描述网站主题的改进的向量空间模型。以该模型为基础,通过类中心向量法与SVM相结合对网站主题进行分类。提出一种能尽量少爬取网页的网络搜索策略,在发现站外链接的同时爬取最能代表网站主题的页面。将该主题信息源发现方法应用于林业商务信息源,通过实验验证了该方法的有效性。  相似文献   

12.
杨创新  彭宏  杨沛 《计算机工程与应用》2004,40(16):184-187,226
面向主题的Web检索是当前的一个研究热点。而常规的关键词检索方式的主要缺点是不能准确地表达用户的查询意图。为此,文章在概念语义空间的基础上构建了一个新的主题树模型,并提出了一种基于主题树模型的主题扩展算法,可应用于主题检索;同时,提出了主题偏移度和切题度等概念,用于动态跟踪用户的检索过程以进行查询反馈。实验表明,主题树模型及相关的检索算法,能对主题检索进行有效地扩展,减少用户检索过程中产生的主题漂移,提高检索的速度和查准率。  相似文献   

13.
《Information Systems》2006,31(4-5):232-246
One of the major problems for automatically constructed portals and information discovery systems is how to assign proper order to unvisited web pages. Topic-specific crawlers and information seeking agents should try not to traverse the off-topic areas and concentrate on links that lead to documents of interest. In this paper, we propose an effective approach based on the relevancy context graph to solve this problem. The graph can estimate the distance and the relevancy degree between the retrieved document and the given topic. By calculating the word distributions of the general and topic-specific feature words, our method will preserve the property of the relevancy context graph and reflect it on the word distributions. With the help of topic-specific and general word distribution, our crawler can measure a page's expected relevancy to a given topic and determine the order in which pages should be visited first. Simulations are also performed, and the results show that our method outperforms than the breath-first and the method using only the context graph.  相似文献   

14.
张娜  张化祥 《计算机应用》2006,26(5):1171-1173
在网络环境下,经典的链接分析方法(HITS算法)过多的关注网页的权威性,忽视了其主题相关度,易产生主题漂移现象。文本在简要介绍HITS算法的基础上,分析了其产生主题漂移的原因,并结合内容相关度评价方法,提出了一种新的搜索算法——WHITS算法。实验表明,该算法挖掘了超链接间的潜在语义关系,能有效的引导主题挖掘。  相似文献   

15.
针对快速发现用户适合度较高的Web服务问题,提出了一种基于用户情境聚类的Web服务发现方法.将聚类与倒排索引技术融入Web服务发现算法,利用BIRCH聚类思想进行用户情境聚类,有效地缩小了Web服务的查找范围,而倒排索引技术则能够快速定位服务,进一步优化了Web服务发现的时间.结合实例和实验,并与其他Web服务发现方法进行比较,结果表明了该方法的服务发现结果和时间效率均优于其他方法.  相似文献   

16.
为提高搜索的查准率和查全率,设计一个主题式的元搜索引擎和一个类似于爬行器的伪爬行器,通过调用通用搜索引擎采集信息,查全率高于通用搜索引擎。利用反馈机制,参考用户查询历史记录,搜索结果更加接近用户的要求。通过采用主题式策略,改进文档相似度算法,提高分类的正确率和搜索引擎的查准率与搜索范围,同时减少系统响应时间,降低对服务器性能的要求。  相似文献   

17.
随着Web上信息的快速增长,如何将潜藏于非结构化文档中的商业信息有效提取并分析服务于商业管理已成为新的研究热点。利用现有的Web信息挖掘技术,针对原始数据的混合异构性,提出信息块多主题分割的方法,在建立的商业领域实体名字典指导下对商业信息进行抽取和分类,并引入一种信用评级机制,构造了一个基于Web信息挖掘的商业信息分析系统(CABWIM),实验结果表明系统能有效地将散落在Web中游在的商业信息抽取并加工整理,形成真正有实用价值的商业信息。  相似文献   

18.
本文介绍了基于向量空间的常用距离的算法,并在概念语义空间的基础上,提出一种面向主题的距离和分类的算法。实验结果表明,该算法能有效地提高主题分类的准确度,可用于主题检索、搜索和聚类等方面。  相似文献   

19.
There are hidden and rich information for data mining in the topology of topic-specific websites. A new topic-specific association rules mining algorithm is proposed to further the research on this area. The key idea is to analyze the frequent hyperlinked relati ons between pages of different topics. In the topic-specific area, if pages of onetopic are frequently hyperlinked by pages of another topic, we consider the two topics are relevant. Also, if pages oftwo different topics are frequently hyperlinked together by pages of the other topic, we consider the two topics are relevant.The initial experiments show that this algorithm performs quite well while guiding the topic-specific crawling agent and it can be applied to the further discovery and mining on the topic-specific website.  相似文献   

20.
一种基于支持向量机的专业中文网页分类器   总被引:4,自引:1,他引:4  
文中提出了一种基于支持向量机的专业中文网页分类算法,利用支持向量机对网页进行二类分类,找出所需专业的中文网页;然后利用向量空间模型,对分类好的专业网页进行多类分类。在构造支持向量机的过程中,为了提高分类的召回率,采用了一种偏移因子。该算法只需要计算二类SVM分类器,实验表明,它不仅具有较高的训练效率,同时能得到很高的分类精确率和召回率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号