首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
HITS算法是影响相当广泛的链接分析算法.但是,深入的研究表明,它很容易产生主题漂移.而HITS算法产生主题漂移的很大一部分原因在于页面被投影到错误的潜在语义基上.提出一种基于权值调整的超链主题提取算法(weighted adjustments based hyperlinks topic distillation),先在获得根集的过程中,用改进的权值进行相似度计算,得到相对更为准确的个性化根集,再利用HITS算法计算Web页面的权威值和中心值.实验结果表明,基于权值调整的超链主题提取算法可以很好地改善HITS算法所导致的主题漂移问题,更适合于Web查询的需要.  相似文献   

2.
基于查询扩展的Web链接主题提取算法   总被引:1,自引:0,他引:1  
HITS(Hypertext-Induced Topic Search)算法被广泛用于W曲链接结构分析,但它很容易产生主题漂移.从语义相关性角度进行分析,发现HITS算法产生主题漂移的原因在于页面被投影到错误的潜在语义基上.提出一种基于查询扩展的超链主题提取算法,利用用户查询日志扩展查询词,构造符合用户需要的个性化根集和基础集合,再利用HITS算法计算Web页面的权成值和中心值.实验结果表明,基于查询扩展的超链主题提取算法可以很好地改善HITS算法所导致的主题漂移问题,更适合于Web查询的需要.  相似文献   

3.
针对PageRank算法忽略了页面内容的不足,根据用户浏览页面的习惯,将Web内容挖掘的页面相似度引入到算法中,对其进行改进。实验结果表明,改进后的算法可以使页面的PageRank值依据页面相似度发生变化,符合人们的一般期望,效果明显有效。  相似文献   

4.
周红芳  冯博琴 《计算机工程》2007,33(18):40-41,4
从语义相关性角度分析超链归纳主题搜索(HITS)算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,提出了一种基于模糊集的主题提取和层次发现算法(FSTH),通过用户日志扩展查询词,构造符合用户需要的个性化根集和基础集合,达到防止主题漂移的目的。FSTH采用模糊集划分方法,层次地发现与用户查询相关的主题页面集合,利用HITS算法分别计算每个主题页面集合中页面的权威值,返回与查询相关的其他主题权威页面。在14个查询上的实验结果表明,与HITS算法相比,FSTH算法不仅可以减少7%~53%的主题漂移率,而且可以发现与查询相关的多个主题.  相似文献   

5.
李莹  吴晓军 《微机发展》2011,(10):112-115
针对Web结构挖掘算法容易出现“主题漂移”以及主机间的多重互相加强关系的问题,提出了一种基于最大流与页面相似度值的超链接结构挖掘方法。该方法在传统的超链接结构挖掘算法HITS的基础上引入页面相似度值构造邻接矩阵,并结合基于最大流的Web社区发现技术来构建特征向量空间模型,通过迭代计算最终获得价值最高的权威结果集和中心结果集。实验结果证明该方法有较好的查准率与查全率,并有效抑制了“主题漂移”现象,具有一定的实用价值。  相似文献   

6.
如何有效利用Web上的信息,传统的基于(基于频繁度的Web图的权威资源挖掘)算法利用Web页面间链接结构隐含地表达着"谁是权威"这个事实,提出了一种有效方法.文中诠释了新的权威页面定义,提出了带阶的频繁子图和权威社团等概念.  相似文献   

7.
加速评估算法:一种提高Web结构挖掘质量的新方法   总被引:13,自引:1,他引:13  
利用Web结构挖掘可以找到Web上的高质量网页,它大大地提高了搜索引擎的检索精度,目前的Web结构挖掘算法是通过统计链接到每个页面的超链接的数量和源结点的质量对页面进行评估,基于统计链接数目的算法存在一个严重缺陷:页面评价两极分化,一些传统的高质量页面经常出现在Web检索结果的前面,而Web上新加入的高质量页面很难被用户找到,提出了加速评估算法以克服现有Web超链接分析中的不足,并通过搜索引擎平台对算法进行了测试和验证。  相似文献   

8.
Web结构挖掘及其算法   总被引:10,自引:0,他引:10  
王艳华  张纪 《计算机工程》2005,31(Z1):125-127
随着网络和数据挖掘技术的发展,Web数据挖掘得到了较多的研究。该文从Web结构挖掘的角度出发,在分析了网络有向图的总体结构以及导航页面、目标页面和网络功能的基础上,研究了结构挖掘算法,针对Hub页面的多主题性、无关页面、无关链接等问题,提出了HITS算法的改进算法。  相似文献   

9.
Web用户访问多是匿名访问,Web日志挖掘的主要目标是从Web访问记录中抽取用户行为模式,通过分析挖掘结果理解用户的行为,从而改进站点的结构.Web日志挖掘第一步是进行数据预处理.数据预处理是Web页面分析中最耗时的阶段,首先研究了数据预处理的过程,包括数据清洗、用户识别、会话识别、路径补充.提出了一种路径补充的算法,...  相似文献   

10.
Web日志挖掘预处理中的Frame页面过滤算法   总被引:12,自引:0,他引:12  
Web日志挖掘是将数据挖掘技术应用到Web服务器的日志中,发现Web用户的行为模式,在介绍了典型的数据预处理技术的基础上,指出Frame页面降低了挖掘结果的兴趣性,并提出相应的解决方法-Frame页面过滤算法消除其影响。通过实验数据对该算法进行验证,说明Frame页面过滤算法可以显著地提高Web日志挖掘结果的兴趣性。  相似文献   

11.
基于改进的模糊聚类算法的Web日志挖掘   总被引:1,自引:1,他引:0  
Web日志挖掘是Web数据挖掘领域中的一个重要研究方向,是通过对Web日志记录的挖掘发现用户访问Web页面的浏览模式用以改进Web站点的性能和组织结构。在介绍Web日志挖掘的原理和技术的基础上对Web日志挖掘中的聚类技术进行了分析研究,并重点讨论了有关模糊聚类算法的原理及计算过程,对这一算法进行了改进后的优化和应用,最后用实例对算法加以验证。  相似文献   

12.
基于页面结构的信息提取是Web数据挖掘中三大研究领域之一。该研究的关键技术是如何识别Web页面的组织形式,从中挖掘所需要的页面信息。文中基于页面的语义分块(Block)给出一个新的块主题提取算法,与传统的以页面为单位的Web信息提取相比,更符合实际情况,粒度优势明显。该算法针对页面中不同分块的重要性给予不同的权值,依据权值大小取舍页面信息提供给用户。针对该算法进行了模拟实验,从实验结果可以看出该算法具有一定的实用性和有效性。  相似文献   

13.
基于页面结构的信息提取是Web数据挖掘中三大研究领域之一。该研究的关键技术是如何识别Web页面的组织形式,从中挖掘所需要的页面信息。文中基于页面的语义分块(Block)给出一个新的块主题提取算法,与传统的以页面为单位的Web信息提取相比,更符合实际情况,粒度优势明显。该算法针对页面中不同分块的重要性给予不同的权值,依据权值大小取舍页面信息提供给用户。针对该算法进行了模拟实验,从实验结果可以看出该算法具有一定的实用性和有效性。  相似文献   

14.
Web结构分析算法HITS的改进及应用   总被引:4,自引:0,他引:4  
李昕  朱永胜  武港山 《计算机工程》2005,31(6):40-42,83
在网络环境下,传统检索技术不可避免地存在种种不足,而超链分析技术可以直接或间接地解决这些问题.该文在介绍网络结构的基础上,描述了已有的HITS算法及其改进策略,并提出了该算法的简单实现架构.HITS算法着眼于挖掘超链间的潜在语义关系,有助于在更深层次上挖掘Web中蕴含的语义信息.  相似文献   

15.
集成Web使用挖掘和内容挖掘的用户浏览兴趣迁移挖掘算法   总被引:2,自引:0,他引:2  
提出了一种集成Web使用挖掘和内容挖掘的用户浏览兴趣迁移模式的模型和算法。介绍了Web页面及其聚类。通过替代用户事务中的页面为相应聚类的方法得到用户浏览兴趣序列。从用户浏览兴趣序列中得到用户浏览兴趣迁移模式。该模型对于网络管理者理解用户的行为特征和安排Web站点结构有较大的意义。  相似文献   

16.
Web页面的主要信息被广告、超链等无用信息包围,是Web信息自动处理所要解决的难题.传统的信息提取方法是从内容着手,或者从结构出发,很少将两者相结合,因此提出了一种Web主要信息提取方法.该方法可以从Web页面的结构和内容两方面出发,准确地将Web内容进行分块,并对分块内容进行分析处理,从而提取出Web页面的主要信息.  相似文献   

17.
通过给出页面层次的概念,充分考虑用户在页面上的浏览时间以及在路径选择上表现出来的浏览偏爱,结合Web站点的结构层次特征,提出了一种改进的Web用户浏览偏爱模式挖掘算法.通过具体的事例和试验数据证明,新的模型能够更准确地寻找用户浏览偏爱模式,从而发现用户的兴趣和爱好.  相似文献   

18.
个性化Web推荐服务研究   总被引:12,自引:1,他引:12  
本文主要论述了个性化Web推荐构成,提出了基于Web挖掘的个性化推荐服务研究中的用户聚类、Web页面聚类、n元预测模型及页面加权算法。利用这些算法得到的个性化信息可以准确把握用户兴趣模式并为用户提供“一对一”的具备自适应性的智能个性化服务。  相似文献   

19.
随着网络与数据挖掘技术的发展,Web数据挖掘得到了较多的研究。本文从Web结构挖掘的角度出发,在分析了Web结构挖掘技术的基础上,研究了HITS算法。针对HITS算法的多主题性、无关页面、无关链接等问题,提出了HITS算法改进算法。  相似文献   

20.
利用传统的搜索引擎寻找信息,返回的页面结果集查准率低且信息冗余,基于Web结构挖掘技术的HITS算法可以提高页面搜索的有效性.在深入分析HITS算法及其相关改进算法的基础上,提出一种基于相似度值的向量空间投影HITS算法.该算法在超链接结构分析的基础上结合页面文本内容,能较好地消除HITS算法存在的主题偏移现象,且不增加顿外的系统开销.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号