共查询到17条相似文献,搜索用时 93 毫秒
1.
介绍了网页分析算法HITS算法,并对HITS算法进行改进,提出了一种基于超链接和内容相关度的网页排序算法VHITS算法.VHITS算法引入向量空间模型计算网页内容的主题相关度,并用来评价超链接的重要性,从而避免了HITS算法所产生的主题漂移现象,有效的引导主题挖掘. 相似文献
2.
从Web结构挖掘的角度出发,比较了基于链接结构分析的PageRank和HITS 2个经典算法,针对HITS单纯利用链接,忽略主题相关性问题,利用模糊关系的合成,得到页面与查询词之间的模糊隶属关系,对原有的HITS算法进行改进.实例验证了算法的有效性. 相似文献
3.
利用传统的搜索引擎寻找信息,返回的页面结果集查准率低且信息冗余,基于Web结构挖掘技术的HITS算法可以提高页面搜索的有效性.在深入分析HITS算法及其相关改进算法的基础上,提出一种基于相似度值的向量空间投影HITS算法.该算法在超链接结构分析的基础上结合页面文本内容,能较好地消除HITS算法存在的主题偏移现象,且不增加顿外的系统开销. 相似文献
4.
HITS(Hyperlink-Induced Topic Search)算法是一种基于超链接结构的搜索结果排序算法。文章针对传统HITS算法存在的主题漂移问题提出了一种基于页面关联度的改进算法。通过引入搜索页面间关于查询主题的关联来为每个链接赋予不同的权重,进而改变邻接矩阵的项值。改进的HITS算法有效地抑制了主题漂移问题,并用实例得以验证。 相似文献
5.
随着网络与数据挖掘技术的发展,Web数据挖掘得到了较多的研究。本文从Web结构挖掘的角度出发,在分析了Web结构挖掘技术的基础上,研究了HITS算法。针对HITS算法的多主题性、无关页面、无关链接等问题,提出了HITS算法改进算法。 相似文献
6.
7.
在介绍 Web结构的基础上,研究了基于Web超链接的HITS算法,分析该算法存在的若干问题并提出了两种改进的算法. 相似文献
8.
9.
HITS算法是影响相当广泛的链接分析算法.但是,深入的研究表明,它很容易产生主题漂移.而HITS算法产生主题漂移的很大一部分原因在于页面被投影到错误的潜在语义基上.提出一种基于权值调整的超链主题提取算法(weighted adjustments based hyperlinks topic distillation),先在获得根集的过程中,用改进的权值进行相似度计算,得到相对更为准确的个性化根集,再利用HITS算法计算Web页面的权威值和中心值.实验结果表明,基于权值调整的超链主题提取算法可以很好地改善HITS算法所导致的主题漂移问题,更适合于Web查询的需要. 相似文献
10.
基于链接相似度Web挖掘算法的研究与改进 总被引:1,自引:0,他引:1
在Web挖掘分类模式基础上,研究和分析了基于链接分析的Web结构挖掘算法HITS(Hyperlink induced topic Search)。针对HITS算法在获取拓展集处理过程中只考虑基于根集网页链接出、入网页,不考虑出、入网页相似度的不足之处,提出了一种改进的DS-HITS(Document Similarity hyperlink induced topic search)算法。该算法在拓展集处理过程中引进多种反映网页相似度的权值,从而使获取的网页在核心和权威值方面明显得到改进。最后,基于Webla开源项目初始数据,对比了DS-HITS算法和HITS算法的搜索结果。 相似文献
11.
基于Hyperlink和相关度发现Web相关文档的研究 总被引:2,自引:0,他引:2
分析了Web文档的相似度计算方法,提出了Web上查询相关信息发现的SW0HITS算法,它结合了Web超链接、网页知识表示的信息相关度以及HITS方法来搜索Web上相关知识.本文通过它们搜索网上有关医药的信息和知识,其效果和查准率比传统HITS和IR方法有一定提高。 相似文献
12.
超链接导向搜索(HITS)算法是比较经典的基于超链接的算法,但它忽视了链接页面的文本信息内容,没有区分链接的重要性,从而导致算法不可避免地发生主题漂移现象。为了解决这一问题,在原HITS算法的基础上,引入了经典的tf-idf算法,通过计算链接页面与查询主题的相关度来区分链接的重要性,以解决主题漂移的问题。改进算法使搜索引擎的排序结果更符合查询条件,相应的查确率也有很大提高。 相似文献
13.
基于查询扩展的Web链接主题提取算法 总被引:1,自引:0,他引:1
HITS(Hypertext-Induced Topic Search)算法被广泛用于W曲链接结构分析,但它很容易产生主题漂移.从语义相关性角度进行分析,发现HITS算法产生主题漂移的原因在于页面被投影到错误的潜在语义基上.提出一种基于查询扩展的超链主题提取算法,利用用户查询日志扩展查询词,构造符合用户需要的个性化根集和基础集合,再利用HITS算法计算Web页面的权成值和中心值.实验结果表明,基于查询扩展的超链主题提取算法可以很好地改善HITS算法所导致的主题漂移问题,更适合于Web查询的需要. 相似文献
14.
15.
裴林 《数字社区&智能家居》2009,(36)
包分类算法在网络安全产品中至关重要,该文介绍常见的包分类算法,针对现有包分类算法的不足,构造了一种基于Hash函数的可快速查找、快速定位五元一维包分类算法,并给出算法准确性、快速性的理论证明。 相似文献
16.
北京时间2011年3月11日日本发生强烈地震,随后在新浪微博上引发了热烈的讨论。该文利用基于情感的HITS算法对日本地震发生后一周内爬取的新浪微博进行事件分析。首先将候选主题词与情感类别构成二部图,再根据HITS算法的得分和候选主题词的频率,计算候选主题词的得分,得到每日的主题词。然后采用互信息的特征选取的方法分析了特定主题词在七天中的变化,以此分析日本地震中的主题变化,同时采用基于规则的情感分类的方法分析人们在特定主题词下表现的情感。该文通过实验证明了基于情感的HITS算法的可行性,同时发现实验语料中网民讨论的话题以两天为单位,以及在微博上对于日本地震,网民并不是表现出高兴或悲哀的情感,而是更倾向于表现出赞扬和贬责这类体现争论的情感。 相似文献
17.
Web结构挖掘中基于熵的链接分析法 总被引:1,自引:0,他引:1
在Web结构挖掘中,传统的HITS(hyperlinkinducedtopics search)算法被广泛应用来寻找搜索引擎返回页面中的Auto-rity页面和Hub页面.但是在网站中除了有价值的页面内容外,还有很多与页面内容无关的链接,如广告、链接导航等.由于这些链接的存在,应用HITS算法时就会导致某些广告网页或无关网页获得较高的Authority值和Hub值.为了解决这个问题,在原有HITS算法的基础上,引入了香农信息熵的概念,提出了基于熵的网页链接分析方法来挖掘网页结构.该算法的核心思想是用信息熵来表示链接文本所隐含的知识. 相似文献