首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 140 毫秒
1.
网页链接的主题相关性影响页面的权威性计算,传统的HITS算法仅从页面的链接结构评估页面的权威性,易导致主题漂移.对HITS算法进行了扩展,提出了一种主题驱动的HITS算法.该算法分析页面文档、链接的主题相关性,把主题相关性融入权威性计算,利用页面链接的拓扑结构传播页面的权威性.该算法能够搜索到与主题高耦合的结果,有效控制主题漂移,改善搜索质量.  相似文献   

2.
垂直搜索引擎的主题搜索策略有基于内容评价的搜索策略和基于Web链接分析的搜索策略,其中HITS算法是一种经典的基于Web链接分析的搜索策略,其主要的缺点是容易发生主题漂移。为了最大程度地避免主题漂移,提出了一种结合网页文本分析和扩散速率改进的F-HITS算法。实验结果表明,这些改进不仅节省了系统的开销,并且提高了页面搜索的准确率。  相似文献   

3.
高琪  张永平 《计算机应用》2009,29(11):3100-3102
超链接导向搜索(HITS)算法是比较经典的基于超链接的算法,但它忽视了链接页面的文本信息内容,没有区分链接的重要性,从而导致算法不可避免地发生主题漂移现象。为了解决这一问题,在原HITS算法的基础上,引入了经典的tf-idf算法,通过计算链接页面与查询主题的相关度来区分链接的重要性,以解决主题漂移的问题。改进算法使搜索引擎的排序结果更符合查询条件,相应的查确率也有很大提高。  相似文献   

4.
传统的HITS算法单纯地对网页的链接结构进行分析,忽视了页面内容分析和网页的链接增幅,导致了主题偏离和搜索精度不高的问题。针对上述问题进行研究与分析,将超链接信息检索方法与页面内容相结合,根据优先情节和增长定律,提出了一种改进的基于扩散理论的HITS算法。实验结果表明,与传统的HITS和SALSA算法相比,该HITS算法能够有效地限制主题偏离,提高搜索精度,具有较高的实用价值。  相似文献   

5.
周红芳  冯博琴 《计算机工程》2007,33(18):40-41,4
从语义相关性角度分析超链归纳主题搜索(HITS)算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,提出了一种基于模糊集的主题提取和层次发现算法(FSTH),通过用户日志扩展查询词,构造符合用户需要的个性化根集和基础集合,达到防止主题漂移的目的。FSTH采用模糊集划分方法,层次地发现与用户查询相关的主题页面集合,利用HITS算法分别计算每个主题页面集合中页面的权威值,返回与查询相关的其他主题权威页面。在14个查询上的实验结果表明,与HITS算法相比,FSTH算法不仅可以减少7%~53%的主题漂移率,而且可以发现与查询相关的多个主题.  相似文献   

6.
HITS算法是影响相当广泛的链接分析算法.但是,深入的研究表明,它很容易产生主题漂移.而HITS算法产生主题漂移的很大一部分原因在于页面被投影到错误的潜在语义基上.提出一种基于权值调整的超链主题提取算法(weighted adjustments based hyperlinks topic distillation),先在获得根集的过程中,用改进的权值进行相似度计算,得到相对更为准确的个性化根集,再利用HITS算法计算Web页面的权威值和中心值.实验结果表明,基于权值调整的超链主题提取算法可以很好地改善HITS算法所导致的主题漂移问题,更适合于Web查询的需要.  相似文献   

7.
利用传统的搜索引擎寻找信息,返回的页面结果集查准率低且信息冗余,基于Web结构挖掘技术的HITS算法可以提高页面搜索的有效性.在深入分析HITS算法及其相关改进算法的基础上,提出一种基于相似度值的向量空间投影HITS算法.该算法在超链接结构分析的基础上结合页面文本内容,能较好地消除HITS算法存在的主题偏移现象,且不增加顿外的系统开销.  相似文献   

8.
从语义相关性角度分析超链归纳主题搜索(HITS)算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,因此引入局部密集因子LDF(Local Density Factor)的概念。为了解决Web内容的重叠性,基于切平面的概念提出了一种新的主题提取算法(CPTDA)。CPTDA不但可以发现用户最感兴趣的主题页面集合,还可以发现与查询相关的其他页面集合。在10个查询上的实验结果表明,与HITS算法相比,CPTDA算法不仅可以减少30%-52%的主题漂移率,而且可以发现与查询相关的多个主题。  相似文献   

9.
PageRank基于链接分析计算页面的权威度,衡量网页的权威性,实现搜索结果的等级排序。文章针对传统PageRank存在的主题漂移问题提出了一种基于查询主题相关性的改进算法。通过引入搜索页面与查询主题的相关性度量,有效地抑制了传统PageRank算法的主题漂移问题,并通过实例加以验证。  相似文献   

10.
基于查询扩展的Web链接主题提取算法   总被引:1,自引:0,他引:1  
HITS(Hypertext-Induced Topic Search)算法被广泛用于W曲链接结构分析,但它很容易产生主题漂移.从语义相关性角度进行分析,发现HITS算法产生主题漂移的原因在于页面被投影到错误的潜在语义基上.提出一种基于查询扩展的超链主题提取算法,利用用户查询日志扩展查询词,构造符合用户需要的个性化根集和基础集合,再利用HITS算法计算Web页面的权成值和中心值.实验结果表明,基于查询扩展的超链主题提取算法可以很好地改善HITS算法所导致的主题漂移问题,更适合于Web查询的需要.  相似文献   

11.
面向垂直搜索引擎的主题提取算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对HITS算法对所有链接分配相等权重导致产生主题漂移的问题,提出基于计算链接价值度及Web页面语义主题相似度对链接分配合理权重的HITS改进算法,突出链接重要度的差异。实验表明,该算法的主题相关度提高了13%~42%,且较好地避免了主题漂移问题,增强了采集信息的准确性,对垂直搜索引擎的研究有重要的理论和实际应用价值。  相似文献   

12.
基于链接相似度Web挖掘算法的研究与改进   总被引:1,自引:0,他引:1  
在Web挖掘分类模式基础上,研究和分析了基于链接分析的Web结构挖掘算法HITS(Hyperlink induced topic Search)。针对HITS算法在获取拓展集处理过程中只考虑基于根集网页链接出、入网页,不考虑出、入网页相似度的不足之处,提出了一种改进的DS-HITS(Document Similarity hyperlink induced topic search)算法。该算法在拓展集处理过程中引进多种反映网页相似度的权值,从而使获取的网页在核心和权威值方面明显得到改进。最后,基于Webla开源项目初始数据,对比了DS-HITS算法和HITS算法的搜索结果。  相似文献   

13.
随着互联网的快速发展,网络信息呈现海量和多元化的趋势。如何为互联网用户快速、准确地提取其所需信息,已成为搜索引擎面临的首要问题。传统的通用搜索引擎虽然能够在较大的信息范围内获取目标,但在某些特定领域无法给用户提供专业而深入的信息。提出基于SVM分类的主题爬虫技术,其将基于文字内容和部分链接信息的主题相关度预测算法、SVM分类算法和HITS算法相结合,解决了特定信息检索的难题。实验结果表明,使用基于SVM分类算法的爬取策略,能够较好地区分主题相关网页和不相关网页,提高了主题相关网页的收获率和召回率,进而提高了搜索引擎的检索效率。  相似文献   

14.
介绍了目前应用较为广泛的两种算法——PageRank算法和HITS算法。PageRank算法是基于用户随机的向前浏览网页的直觉知识,HITS算法考虑的是Authoritive网页和Hub网页间的加强关系。PageRank算法的基本思想是:如果一个页面被许多其他页面引用,则这个页面很可能是重要页面;一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面;一个页面的重要性被均分并传递到它所引用的页面。而HITS算法则专注于改善泛指主题检索的结果,通过一定的计算(迭代计算)方法以得到针对某个检索提问的最具价值的网页,即排名最高的authority。  相似文献   

15.
根据专业搜索引擎的特点,提出了一种新颖的基于词语共现与HITS算法的查询推荐算法QR-CH(Query Recommendation algorithm based on word Co-occurrence and HITS algorithm)。该算法一方面利用HITS算法对基于词语共现筛选出的关联词按语义关联性进行排序,选取排序靠前的关联词作为推荐词,提高了推荐词与原查询词的相关性;另一方面使用HITS算法排序关联文档,从查询结果文档集的角度来判断推荐是否冗余,降低了推荐词的冗余性。该算法将推荐相关的信息存储到知识树中,利用知识树实现查询推荐。实验结果表明QR-CH算法在推荐词的相关性和冗余词的判断方面均优于文献中已有的类似算法。  相似文献   

16.
基于超链接和标记文本的信息检索算法   总被引:6,自引:0,他引:6  
在HITS超链接主题查找算法的基础上提出了一种检索改进算法,该算法首先通过网页之间的链接关系计算出每一网页的出度值和入度值,并将查询条件与超链接上的标记文本或网页全文内容进行相似度匹配。得出每一网页的权值,综合权值与出度或入度值,将检索结果进行排序输出。实验结果表明,与HITS、TF*IDF算法相比,该信息检索方法在相同查全率的条件下具有更好的查准率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号