首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
基于云计算的用户浏览偏爱路径挖掘算法   总被引:2,自引:0,他引:2       下载免费PDF全文
从Web日志中挖掘用户浏览偏爱路径是一个重要的研究课题。目前的挖掘算法注重客观访问频度,忽略了用户对这一频繁访问路径是否感兴趣。在分析目前用户偏爱路径挖掘算法存在的问题的基础上,结合网站拓扑结构图修正基于频度的用户偏爱路径的衡量标准,提出了有用偏爱度的概念,从而剔除由于页面放置和链接等因素对挖掘的影响;针对目前基于单一节点的挖掘系统的计算能力不足的问题,利用云计算的分布式处理和虚拟化技术的优势,给出了一种基于云计算的数据处理方法,在此基础上挖掘用户浏览偏爱路径。实验表明,该算法针对大数据量的日志进行挖掘,准确率和效率比普通基于频度进行用户浏览偏爱路径挖掘的算法有所提高。  相似文献   

2.
从Web日志中挖掘用户浏览偏爱路径   总被引:55,自引:0,他引:55  
邢东山  沈钧毅  宋擒豹 《计算机学报》2003,26(11):1518-1523
Web日志中包含了大量的用户浏览信息,如何有效地从其中挖掘出用户浏览兴趣模式是一个重要的研究课题.作者在分析目前用户浏览模式挖掘算法存在的问题的基础上,利用提出的支持一偏爱度的概念,设计了网站访问矩阵,并基于这个矩阵提出了用户浏览偏爱路径挖掘算法:先利用Web日志建立以引用网页URL为行、浏览网页URL为列、路径访问频度为元素值的网站访问矩阵.该矩阵为稀疏矩阵,将该矩阵用三元组法来进行表示.然后,通过对该矩阵进行支持一偏爱度计算得到偏爱子路径.最后进行合并生成浏览偏爱路径.实验表明该算法能准确地反映用户浏览兴趣,而且系统可扩展性较好.这可以应用于电子商务网站的站点优化和个性化服务等.  相似文献   

3.
挖掘用户偏爱的浏览模式就是从Web日志中发现多数用户偏爱的浏览路径.网页上的浏览时间被转换成一个模糊语言变量来体现网页上浏览时间的特征,最后从建立的包含所有用户浏览信息的FLaAT(Frequent Link and Access Tree)中挖掘增量式带有模糊语言变量的用户偏爱浏览模式.  相似文献   

4.
集成Web使用挖掘和内容挖掘的用户浏览兴趣迁移挖掘算法   总被引:2,自引:0,他引:2  
提出了一种集成Web使用挖掘和内容挖掘的用户浏览兴趣迁移模式的模型和算法。介绍了Web页面及其聚类。通过替代用户事务中的页面为相应聚类的方法得到用户浏览兴趣序列。从用户浏览兴趣序列中得到用户浏览兴趣迁移模式。该模型对于网络管理者理解用户的行为特征和安排Web站点结构有较大的意义。  相似文献   

5.
Web用户访问模式挖掘研究   总被引:5,自引:0,他引:5  
1 引言目前World Wide Web(WWW)已经发展成为拥有近亿个工作站、数十亿页面的分布式信息空间,在这个分布式信息空间中蕴涵着具有巨大潜在价值的知识,也带来了巨大的经济效益和社会效益。对于不同层次、不同使用目的和爱好的浏览者需要个性化的信息服务,希望网站能够根据自己的浏览习惯,动态定制  相似文献   

6.
提出一个基于Web日志的web用户群体和站点URL聚类算法.使用用户浏览行为描述和用户浏览时间离散化方法建立了Web站点的用户事务矩阵,并在此基础上对Web用户群体和站点URL进行聚类.由于在聚类过程中同时考虑了用户对URL的浏览时间和访问次数,使算法的精度和效率都大大提高.同时,该算法能较好地处理类间重叠问题,使算法具有较好的实用性.最后对算法的有效性和可伸缩性进行了研究.  相似文献   

7.
基于自顶向下的投影挖掘策略,提出一种无需多遍扫描数据库的Web访问模式算法TAM-WAP.其特点是用当前所挖掘数据的特征去驱动一个预测算法,根据预测结果,有选择性地生成中间数据.对多种实际数据和模拟数据的实验表明,本文算法优于传统算法.  相似文献   

8.
一种新的基于Web日志的挖掘用户浏览偏爱路径的方法   总被引:2,自引:0,他引:2  
任永功  付玉  张亮  吕君义 《计算机科学》2008,35(10):192-196
提出了一种新的基于Web日志的挖掘用户浏览偏爱路径的方法.该方法首先在单元数组存储结构(存储矩阵)基础上建立以浏览兴趣度为基本元素的会话矩阵和路径矩阵.然后,在会话矩阵上采用两个页面向量夹角余弦作为相似用户的页面距离公式进行页面聚类,求得相似用户的相关页面集.最后,利用路径选择偏爱度在相似用户的路径矩阵上挖掘出相似用户的浏览偏爱路径.实验证明此方法是合理有效的,能够得到更准确的偏爱路径.  相似文献   

9.
基于Web数据挖掘的用户浏览兴趣路径研究   总被引:1,自引:0,他引:1  
使用Web日志与用户浏览行为相结合的方式对用户浏览兴趣模式进行挖掘。分别建立以访问次数、平均到网页中字符数的访问时间和拉动滑动条次数为元素值的矩阵,通过对矩阵进行路径兴趣度的计算得到兴趣子路径,进行合并生成用户兴趣路径集。实例分析表明该算法是可行和有效的,对于电子商务网站的优化和实施个性化服务具有意义。  相似文献   

10.
一种挖掘用户浏览模式的新方法   总被引:3,自引:0,他引:3  
提出了页面兴趣度的概念,并把它用一个三元组(页面的访问时间,页面的大小,页面访问次数)表示.这个概念准确地反映了用户对页面的访问情况.在此基础上建立了以引用网页URL为行、浏览网页URL为列,页面兴趣度为元素值的网站访问矩阵.通过对该矩阵计算得到用户浏览偏爱路径.实验表明该算法能准确地反映用户浏览兴趣.  相似文献   

11.
通过获取的匿名用户浏览路径集,依据新的路径相似度定义,建立用户浏览路径相似度矩阵,并在此基础上设计实现了匿名用户浏览路径聚类算法,获得聚类结果集,并计算各类的中心,得到典型匿名用户路径.挖掘结果显示典型匿名用户路径代表了不同类用户网络浏览路径,可有效地作为网站信息推荐的依据.  相似文献   

12.
FP-growth算法是一种基于FP-tree数据结构的高效的频繁模式挖掘算法,它不产生候选集。构造频繁模式树FP-tree需扫描数据库两次,在第二遍扫描中还扫描了那些仅包含了非频繁项的事务,针对此问题,在深入分析了FP-tree特性的基础上, 改进了FP-tree构造过程,同时用一种基于Hash表的辅助存储结构,节省了项目查找时间,提高了挖掘效率。  相似文献   

13.
一种改进的基于密度的离群数据挖掘算法   总被引:2,自引:1,他引:1  
利用基于密度的离群数据挖掘算法离群数据不在非离群数据指定的邻域内的特点,改进了原有的离群数据挖掘算法:首先判断数据是否在某个非离群数据指定的邻域内,如果不在,再判断其邻域内数据的个数。通过对二维空间数据测试表明,改进的算法能够快速有效地挖掘出数据集中的离群数据,速度上数倍于原来的算法。  相似文献   

14.
提出了一种改进的会话识别方法.该方法基于访问站点的首页和导航页,以首页或导航页作为新会话开始的标识.选取真实的Web日志,用PL/SQL编程实现改进的会话识别方法,并与现有方法进行比较.实验结果证明,改进的会话识别方法比现有方法识别会话更有效.  相似文献   

15.
Many algorithms have been proposed to efficiently mine association rules. One of the most important approaches is FP-growth. Without candidate generation, FP-growth proposes an algorithm to compress information needed for mining frequent itemsets in FP-tree and recursively constructs FP-trees to find all frequent itemsets. Performance results have demonstrated that the FP-growth method performs extremely well. In this paper, we propose the IFP-growth (improved FP-growth) algorithm to improve the performance of FP-growth. There are three major features of IFP-growth. First, it employs an address-table structure to lower the complexity of forming the entire FP-tree. Second, it uses a new structure called FP-tree+ to reduce the need for building conditional FP-trees recursively. Third, by using address-table and FP-tree+ the proposed algorithm has less memory requirement and better performance in comparison with FP-tree based algorithms. The experimental results show that the IFP-growth requires relatively little memory space during the mining process. Even when the minimum support is low, the space needed by IFP-growth is about one half of that of FP-growth and about one fourth of that of nonordfp algorithm. As to the execution time, our method outperforms FP-growth by one to 300 times under different minimum supports. The proposed algorithm also outperforms nonordfp algorithm in most cases. As a result, IFP-growth is very suitable for high performance applications.  相似文献   

16.
Web使用挖掘是近年来Web数据挖掘中的研究热点。针对传统遗传算法在提取关联规则问题时常采用固定染色体交叉概率和染色体变异概率,容易出现早熟、收敛速度较慢的问题,提出了改进的遗传算法,并在关联规则的提取中增加了用户页面兴趣度这一阈值,成功地运用到某商业网站服务器日志挖掘。实验证明,这种改进的遗传算法能够有效避免早熟收敛现象,是一种有效的方法。  相似文献   

17.
针对高校校园网受考生及家长关注度越来越高的现象,为深入分析和理解用户的访问模式及其访问热点的变化规律等知识,设计一种隐马尔科夫模型和分层聚类策略相结合的混合聚类算法。基于隐马尔科夫模型将时序数据转换到似然空间,其中似然度的大小通过对称性KL(Kullback-Leibler)距离来标识。构建对称性KL转移矩阵,并借助于分层聚类方法实现对用户访问模式进行聚类。通过将该方法应用于考生及家长对我校官网访问的网络日志数据挖掘进而得到用户访问的三种模式,表明该方法的可行性和有效性。  相似文献   

18.
针对带时间约束的序列模式,提出了一种改进的挖掘算法TSPM,克服了传统的序列模式挖掘方法时空开销大,结果数量巨大且缺少针对性的缺陷.算法引入图结构表示频繁2序列,仅需扫描一次数据库,即可将与挖掘任务相关的信息映射到图中,图结构的表示使得挖掘过程可以充分利用项目之间的次序关系,提高了频繁序列的生成效率.另外算法利用序列的位置信息计算支持度,降低了处理时间约束的复杂性,避免了反复测试序列包含的过程.实验证明,该算法较传统的序列模式发现算法在时间和空间性能上具有优越性。  相似文献   

19.
模式匹配在计算机应用中扮演着很重要的角色。通过分析BM,BMH和BMHS算法及相关改进算法,提出BMHS算法的改进算法(DBMHS)。该算法(DBMHS)充分利用模式串两端字符,通过比较模式串两端字符的跳转距离来实现更大距离的跳转。实验证明,改进后的算法显著增加了匹配窗口的跳转距离,有效地提高了匹配效率。  相似文献   

20.
应用Web结构挖掘的PageRank算法的改进研究   总被引:1,自引:0,他引:1       下载免费PDF全文
随着Internet技术的发展,Web网页成为人们获取信息的有效途径,Web数据挖掘逐渐成为研究的热点。基于Web结构挖掘的PageRank算法存在不足的情况下,提出了一种改进的算法,实验结果证明改进的算法较原算法具有较好的效果,具有一定的实用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号