首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
HITS算法是影响相当广泛的链接分析算法.但是,深入的研究表明,它很容易产生主题漂移.而HITS算法产生主题漂移的很大一部分原因在于页面被投影到错误的潜在语义基上.提出一种基于权值调整的超链主题提取算法(weighted adjustments based hyperlinks topic distillation),先在获得根集的过程中,用改进的权值进行相似度计算,得到相对更为准确的个性化根集,再利用HITS算法计算Web页面的权威值和中心值.实验结果表明,基于权值调整的超链主题提取算法可以很好地改善HITS算法所导致的主题漂移问题,更适合于Web查询的需要.  相似文献   

2.
一种基于相似度分析的主题提取和发现算法   总被引:19,自引:1,他引:19       下载免费PDF全文
王晓宇  熊方  凌波  周傲英 《软件学报》2003,14(9):1578-1585
试图从另一个角度来考察主题提取算法HITS,即提出一种基于相似度的链接分析模型来观察主题提取的过程.通过给出一种一般化的相似度定义,提出了一种仅使用链接分析来改善主题提取的质量的主题提取算法.同时,还将主题发现的功能也结合到了算法的框架中.通过该功能,用户可以搜索到次流行的主题.实验结果显示了这一新算法的两个优点:不必使用内容分析即能改善主题提取的质量以及能够进一步发现在查询结果中显现出来的不同主题.  相似文献   

3.
Web结构挖掘中基于熵的链接分析法   总被引:1,自引:0,他引:1  
王勇  杨华千  李建福 《计算机工程与设计》2006,27(9):1622-1624,1688
在Web结构挖掘中,传统的HITS(hyperlinkinducedtopics search)算法被广泛应用来寻找搜索引擎返回页面中的Auto-rity页面和Hub页面.但是在网站中除了有价值的页面内容外,还有很多与页面内容无关的链接,如广告、链接导航等.由于这些链接的存在,应用HITS算法时就会导致某些广告网页或无关网页获得较高的Authority值和Hub值.为了解决这个问题,在原有HITS算法的基础上,引入了香农信息熵的概念,提出了基于熵的网页链接分析方法来挖掘网页结构.该算法的核心思想是用信息熵来表示链接文本所隐含的知识.  相似文献   

4.
以一个自行开发的搜索引擎系统为背景研究主题提取算法.通过对几种经典主题提取算法的分析、融合,提出了一个新的主题提取算法.用该搜索引擎证明了新提出算法比经典的HITS算法在性能上有很大的提高.  相似文献   

5.
针对现有Deep Web查询接口判定方法误判较多、无法有效区分搜索引擎类接口的不足,提出了基于决策树和链接相似的Deep Web查询接口判定方法。该方法利用信息增益率选取重要属性,并构建决策树对接口表单进行预判定,识别特征较为明显的接口;然后利用基于链接相似的判定方法对未识别出的接口进行二次判定,准确识别真正查询接口,排除搜索引擎类接口。结果表明,该方法能有效区分搜索引擎类接口,提高了分类的准确率和查全率。  相似文献   

6.
针对"多义词"和"词典问题",结合文本分析和用户行为分析,提出了一种基于主题的个性化查询扩展模型.分析文本时,结合关联规则和图排序算法构建TextRank模型,脱离了对人工词典的依赖,并用此模型提取多文本主题;在用户行为分析上,使用移动时间窗口法建立用户模型,有效地捕获了当前的查询主题.查询扩展时,匹配用户主题与文本主题,选择相应的关联规则进行扩展.对结合关联规则与图排序的主题提取进行了实验,并将基于主题的查询扩展模型与其它查询扩展模型进行了比较.  相似文献   

7.
《软件》2016,(11):30-32
为了快速提取网页中的主题内容,本文对基于Web的主题内容提取与存储系统进行了较为深入的研究,从系统总的设计思想、架构设计、各个组件的关键实现技术等方面进行了分析,使人们可以基于WEB准确且迅速的提取到相应的主题内容,大大提高人们的工作效率。  相似文献   

8.
网页链接的主题相关性影响页面的权威性计算,传统的HITS算法仅从页面的链接结构评估页面的权威性,易导致主题漂移.对HITS算法进行了扩展,提出了一种主题驱动的HITS算法.该算法分析页面文档、链接的主题相关性,把主题相关性融入权威性计算,利用页面链接的拓扑结构传播页面的权威性.该算法能够搜索到与主题高耦合的结果,有效控制主题漂移,改善搜索质量.  相似文献   

9.
针对传统社区发现方法大多基于链接或主题关系, 且没有考虑获取微博用户社会信息时的限制, 无法有效识别微博中多个社区的问题, 提出了一种综合基于主题和链接分析的微博社区发现算法来挖掘微博中多个社区。算法首先研究微博用户的链接及博文主题特性, 定义了链接相关度和主题相关度公式; 然后推出用户总相关度公式, 以此来计算节点间的传递概率, 用改进后的标签传递算法对用户分类; 最终划分出兴趣相似且社会联系紧密的用户群。真实数据集上的仿真实验验证了该方法的合理性和有效性。  相似文献   

10.
周红芳  冯博琴 《计算机工程》2007,33(18):40-41,4
从语义相关性角度分析超链归纳主题搜索(HITS)算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,提出了一种基于模糊集的主题提取和层次发现算法(FSTH),通过用户日志扩展查询词,构造符合用户需要的个性化根集和基础集合,达到防止主题漂移的目的。FSTH采用模糊集划分方法,层次地发现与用户查询相关的主题页面集合,利用HITS算法分别计算每个主题页面集合中页面的权威值,返回与查询相关的其他主题权威页面。在14个查询上的实验结果表明,与HITS算法相比,FSTH算法不仅可以减少7%~53%的主题漂移率,而且可以发现与查询相关的多个主题.  相似文献   

11.
Web信息检索中主题精选算法的研究与改进   总被引:3,自引:0,他引:3  
搜索引擎是目前最主要的Web信息检索工具,然而它的效果还不能令人满意。基于Web链接结构的主题精选算法的链接分析迭代往往会收敛于链接图中与查询主题不太相关的紧密交织区域(TKC),从而导致主题偏移。笔者对经典主题精选算法HITS的分析表明该算法还有给不同的Web站点规定了不平等的影响权重以及不能满足用户多粒度的信息需求等缺点。文章在分析主题精选算法研究的基础上针对其不足提出了改进算法g-HITSc,实验表明该算法是合理和有效的。  相似文献   

12.
Web社区发现技术综述   总被引:23,自引:1,他引:22  
Web是一个复杂超文本所组成的巨大的信息源,而且以很快的速度在不断的扩大.针对这样一个不断变化的信息源,如何利用和发现Web中的有用信息变得具有挑战性.Web在发展过程中存在着大量的社区,这些社区是Web组织中非常重要的信息.通过对社区信息的认识可以帮助我们总览Web的全貌.而将Web按照社区来组织有许多优点.社区可以引导用户找到感兴趣的信息;社区可以帮助Internet/Intranet服务提供者有效地组织门户;社区可以帮助制造商准确地找到消费者.社区还代表了Web的社会活动,因为Web就是一个社会性的网络.目前,许多社区的发现和维护是依靠人工来完成的,维护成本较高,修改也困难;此外,还存在着许多不为人知或者称为潜在的社区,而这些社区是无法通过人工来发现的.因此,许多研究都在致力于社区的自动或半自动发现技术.社区的发现主要采用基于Web图形的链接分析技术.在方法上大致上分为两类,一类是面向某个主题的社区发现,而另一个是无主题的社区发现技术.对于社区的发现技术做了较为全面的分析,并且总结了社区发现技术中依然存在的、挑战性的问题和未来的研究趋势.  相似文献   

13.
金侠  杨卫东 《计算机工程》2010,36(20):58-60
在Web服务发现领域中,引入Top-K查询且同时考虑服务质量的研究相对较少。针对这种情况,提出一种重点考虑质量的Web服务Top-K查询方案。在该方案中,规范化服务的质量数据,给出质量评价函数,根据质量定义服务之间的从属关系,并且改进传统Top-K查询的门槛算法,提出收敛速度更快的StopLine算法。实验表明,该算法能更快地得到前K个服务,效果良好。  相似文献   

14.
提出一种贪心算法,以最佳方式把查询中所有Web services调用排列到一管线化执行方案中,使所有Web services以最佳并列方式工作,减少整个查询过程的总运行时间,解决以选择-投影-连接方式查询多个Web services的查询优化问题。该优化方案适用于在Web services之间存在任意优先约束的情况。  相似文献   

15.
漏洞库是用来存储漏洞信息的数据库,是信息安全基础设施的重要组成部分。将主题爬虫技术引入漏洞数据库的维护工作,通过主题网络爬虫获取与"漏洞"相关的网页,从中提取漏洞信息来更新漏洞数据库,降低了人工维护的工作量,改善了现有漏洞库存在漏洞覆盖不全面、内容不丰富的问题。分析当前国内外主要漏洞库的结构特征,研究漏洞诸多属性间的关系,运用组群分类描述法构建漏洞库结构模型。在研究主题网络爬虫的基础上,提出一种面向漏洞主题的动态主题构建方案。介绍漏洞库维护系统的总体设计和实现方法。  相似文献   

16.
Web访问日志中的会话(session)是指特定用户在一定时间范围内的访问行为的连续序列。会话主题(topic)是指会话中具有相同用户意图的部分。从会话中进一步识别出能体现用户意图的处理单元(topic)是进行用户访问行为分析的重要基础。目前相关工作主要集中在边界识别上,无法处理用户意图交叉情况。为了解决该问题,该文重新形式化定义了session和topic的相关概念,提出最大划分的求解任务,并设计出了基于用户群体智慧的会话主题识别算法。在使用大规模真实Web访问日志的实验中,我们的算法取得了不错的效果。  相似文献   

17.
给出了为主题精选算法(如HITS)构造Web邻域图的方法和实用系统。该系统基于Web搜索引擎(AltaVista),使用额外的Visual C 软件模块构造一个查询特定的邻域图,并将图节点和边信息存储于数据库中以供超链分析使用。Web环境的实验表明该邻域图构造方法是可行的,邻域图构造系统是可靠的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号