共查询到18条相似文献,搜索用时 68 毫秒
1.
2.
Web预取是减少用户访问延时、提高网络服务质量的关键技术之一,近年来已成为国内外的研究热点.通过利用WWW访问的空间局部性,Web预取使缓存机制从时间局部性向空间局部性扩展.归纳了Web预取技术的分类,概括和比较了不同类别的优势和局限性,给出了预取模型的基本框架及每部分的主要功能,并对各种评价标准进行了详细介绍.同时,深入分析和探讨了现有的几种典型预取算法,系统地比较了这些算法的优缺点.最后从在线性、协作预取、动态流行度、划分用户会话和基于语义与基于路径相结合等方面指出了Web预取技术的研究方向. 相似文献
3.
预取作为一种提升存储系统性能的有效手段被广泛使用,然而传统的预取算法大多基于顺序性访问特征的探测,这使得它们在非顺序数据访问环境下很难奏效,甚至可能因为预取准确率较低而对存储系统的性能带来负面影响.而基于频繁序列挖掘的预取算法则能够通过分析数据的访问行为找出潜在规律,从而能在非顺序访问模式下也取得一定的性能提升.同时,为了应对某些缓存受限的应用场景,如嵌入式系统,预取算法通过提高分析的准确率减少预取可能对缓存带来的不利影响.新提出的预取算法基于频繁序列挖掘技术,并使用字典树组织预取规则,通过多步匹配和子树分割技术精细地控制规则的使用,提升预取的准确率,从而使得预取算法能够有效提升存储系统的性能. 相似文献
4.
5.
内存网格(RAM(random access memory) grid)是一种面向广域网上内存资源共享的新型网格系统.它的主要目标是在物理内存不足的情况下,提高内存密集型应用或IO密集型应用的系统性能.内存网格的应用效果取决于网络通信开销.在减少或隐藏网络通信开销的情况下,其性能可以进一步提高.通过对内存网格的分析,设计了一种基于\"推\"数据的内存网格预取机制.借助数据挖掘领域中序列模式挖掘的方法,提出了相应的预取算法.通过基于真实运行状态的模拟,对预取算法进行了评估和验证. 相似文献
6.
Web对象可预取性研究 总被引:1,自引:0,他引:1
目前的Web预取模型一般是基于预测算法来提前取得Web对象,缺乏对Web对象可预取性的研究.若在预取Web对象之前考虑该对象的可预取性,将减少不必要的预取,不仅可以提高预取算法的命中率,也可以减少网络流量和系统负载.详细讨论了Web对象的可预取性概念及相应的度量方法,并推导出在预取缓存交互的情况下,基于网络资源和系统负载计算预取阈值的公式,可用于Web对象的可预取性判断,指导预取控制,使得预取技术更加有效. 相似文献
7.
用户Web日志序列模式挖掘研究 总被引:2,自引:0,他引:2
单个用户访问网站能够留下大量的访问信息,合理地挖掘这些信息便能够得到用户个人的访问模式。文中将序列模式挖掘运用到单一用户Web日志上.最终可以得到单一用户的访问序列模式。在序列模式挖掘过程中,将传统的序列模式挖掘概念进行了扩充,对应到单一用户的序列模式上;运用Session来划分时间段,增强了时间的概念;运用概念格的理论,很好地实现了增量序列模式挖掘。并使用一个新的算法,解决MFP(最大前向路径)在Web日志中获取存在的一些问题。 相似文献
8.
序列模式挖掘的典型算法-GSP算法及其之后的许多相关算法的重点都是放在寻找所有的序列模式上面。CloSpan算法首先提出搜索封闭集合的思想。封闭集合比全集合更精简有效,并且和全集合有着相同的表达能力。文章的ERIC算法同样用于搜索封闭集合。然而不同于之前算法多采用深度优先的策略,ERIC算法是基于广度优先的。它利用列表来保存序列的位置数据,通过利用序列的有序性,以及基于后向超模式与等位置数据的两个修剪技巧来提高算法的搜索效率。为了确保储存最终结果列表的简洁,ERIC算法对一些特殊情况进行了分析。从最终的试验结果可以看出,ERIC算法在较小支持度的情况下对中大型数据库有很好的搜索效率。 相似文献
9.
对比序列模式可以用来表征不同类别数据集之间的差异。在生物信息、物流管理、电子商务等领域,对比序列模式有着广泛的应用。Top-k对比序列模式挖掘的目标是发现数据集中对比度最高的前k个序列模式。在Top-k对比序列模式挖掘中,可能挖掘出冗余的序列模式。目前,虽然有Top-k对比序列模式发现算法被提出,但这些算法并未考虑冗余序列模式的问题。为此,本文提出了基于广度优先生成树的去冗余Top-k对比序列模式挖掘算法BFM(breadth-first miner)。使用BFM算法可以有效地解决冗余问题,得到去冗余的Top-k对比序列模式。在BFM算法的基础上,提出了性能更好的算法PBFM(pruning breadth-first miner)。通过在真实数据集上的实验分析与对比 ,验证了本文算法的有效性。 相似文献
10.
单个用户访问网站能够留下大量的访问信息,合理地挖掘这些信息便能够得到用户个人的访问模式.文中将序列模式挖掘运用到单一用户Web日志上,最终可以得到单一用户的访问序列模式.在序列模式挖掘过程中,将传统的序列模式挖掘概念进行了扩充,对应到单一用户的序列模式上;运用Session来划分时间段,增强了时间的概念;运用概念格的理论,很好地实现了增量序列模式挖掘.并使用一个新的算法,解决MFP(最大前向路径)在Web日志中获取存在的一些问题. 相似文献
11.
Web序列模式挖掘是Web数据挖掘重要研究内容之一。在WAP算法的基础上提出了一种改进算法,该算法在Web序列模式挖掘过程中不需要反复生成条件树,从而提高了算法的运行效率。实验表明,该算法在运行时间上相对于WAP算法具有明显的优势。 相似文献
12.
Integrating Web Prefetching and Caching Using Prediction Models 总被引:2,自引:0,他引:2
Web caching and prefetching have been studied in the past separately. In this paper, we present an integrated architecture for Web object caching and prefetching. Our goal is to design a prefetching system that can work with an existing Web caching system in a seamless manner. In this integrated architecture, a certain amount of caching space is reserved for prefetching. To empower the prefetching engine, a Web-object prediction model is built by mining the frequent paths from past Web log data. We show that the integrated architecture improves the performance over Web caching alone, and present our analysis on the tradeoff between the reduced latency and the potential increase in network load. 相似文献
13.
通过对Web通信量的分析,人们发现用户对Web对象的访问模式服从Zipf定律或类Zipf定律。在Web缓存的设计中,为得到所期望的Web对象命中率的要求,设计人员可以根据Zipf定律近似计算出相应的缓存大小。因此,Zipf定律为Web缓存结构的设计提供了重要的依据。适当的缓存大小结合P-LFU替换策略可以得到很高的Web缓存命中率。 相似文献
14.
基于存取模式的Cache预取自适应策略研究 总被引:1,自引:1,他引:0
不同的Cache预取策略适用于不同的存取模式。本文介绍了存储系统Cache预取技术的研究现状,从分析存取模式出发,构造了存取模式三元组模型,并在磁盘阵列上测试了适 用于复杂环境下的Cache预取自适应策略,结果证明,自适应策略能够在不同环境上获得磁盘阵列的最优性能。 相似文献
15.
Web预取技术的研究 总被引:1,自引:0,他引:1
预取技术是提高缓存命中率和解决Web访问延迟问题的主要方案,本文研究了网页预取技术,将数据挖掘应用于Web预取中,设计了一个为用户提供个性化服务的Web预取模型;详细介绍了对Web日志进行预处理的方法;提出了新的预取替换算法。 相似文献
16.
17.
周期高效用序列模式挖掘(PHUSPM)因其能够发现时间序列中更具实际价值的规律性模式而备受关注,但现有的PHUSPM算法难以有效地处理数据集的增量更新,且未考虑大规模数据下算法的向下闭包性和复杂性。针对该问题,提出了IncPUS-Miner算法,有效地实现了周期高效用序列模式(PHUSPs)的增量挖掘。IncPUS-Miner引入了一种名为pu-tree的新型数据结构,每个树节点对应一个更新效用列表(UUL)用于存储相应序列的辅助信息,当有增量数据加入时,该结构使得项目信息能够灵活更新,从而增强了算法的动态适应性和可扩展性。此外,还提出了两种新的序列效用上界PUB和EUB,以及两种相应的剪枝策略,有效地减少了计算负担。实验结果表明,在真实数据集上,IncPUS-Miner算法可以有效地增量挖掘PHUSPs,与其他算法相比,在运行效率和内存消耗上展现出了优越的性能。 相似文献
18.
基于频繁序列模式压缩技术的网站结构优化算法旨在发现用户在浏览过程中频繁访问的序列关联,为优化站点结构提供有力的依据。分析了现有频繁模式聚类算法的不足,提出了在模式聚类函数的基础上生成一个压缩的偏序(Partial Order)的算法,实验结果显示该算法可以对频繁序列模式进行高效、高质量的压缩,可以得到数量更少、信息量更大的模式,从而提高发现的频繁访问序列的兴趣性。 相似文献