共查询到20条相似文献,搜索用时 62 毫秒
1.
数据流上的频繁项集挖掘是数据挖掘的一个重要话题,并在现实生活中应用广泛.可是这个问题存在两个限制:(1)项在数据流中的权重没有被考虑;(2)项在每条事务中的数量没有被考虑.因此,研究人员提出了"数据流上的高效用项集挖掘"的研究问题.在这一问题中,项的权重及项在事务中的数量被考虑,数据流上的高效用项集挖掘是指在数据流中挖掘所有效用值不小于用户指定最小效用阈值的项集.对用户而言,由于不了解数据流中数据的统计特性,很难设置一个合适的最小效用阈值,如果最小效用阈值设置过高,则挖掘算法返回高效用项集的数量过少,使得用户无法准确分析;如果最小效用阈值设置过低,则挖掘算法返回太多的高效用项集,使得用户需要对结果集二次分析,为此研究人员提出了"数据流上的Top-K高效用项集挖掘"的研究问题.数据流上的Top-K高效用项集挖掘是指在数据流中寻找前k个具有最高效用值的项集,通过设置k值取代最小效用阈值,可有效地控制算法的输出规模,对用户而言更直观.与静态数据相比,数据流具有如下特点:快速的数据到达速率、数据流的尺寸未知和不能访问以前到达数据的特点,因此很难将整个数据流放入内存中处理,通常研究人员采用流滑动窗体模型.流滑动窗体是由固定数量的、最近到达的批数据组成,每个批数据包含一组事务集.现有的挖掘流滑动窗体上Top-K高效用项集的研究方法通常包含两个阶段:(1)采用高估技术高估项集在流滑动窗体中的效用,将高估效用不小于由阈值提升技术获得的最小效用阈值的项集选定为Top-K高效用项集候选项集;(2)通过扫描流滑动窗体内的批数据,计算第一阶段生成的候选项集的真实效用.可是,这个方法存在两个问题:(1)第一阶段生成的候选项集通常数量巨大,需要大量的存储空间;(2)计算第一阶段生成的候选项集的真实效用是非常耗时的.因此,本文提出一个在挖掘过程中不生成候选项集的流滑动窗体上Top-K高效用项集挖掘算法TK-HIS,TK-HIS采用提出的HUIL-Tree和效用数据库存储流滑动窗体中的项集及其在窗体事务中的效用,在HUIL-Tree和效用数据库的构建过程中提出两个阈值提升策略提升初始值为0的最小效用阈值,在挖掘过程中TK-HIS维护前k个具有最高效用值的项集,使用模式增长的方法生成搜索空间中的项集,对每一个项集通过效用数据库直接计算其在流滑动窗体中的效用.研究在稀疏数据流上进行了大量的实验评估TK-HIS的性能,并与当前最好的流滑动窗体Top-K高效用项集挖掘算法T-HUDS进行比较,实验结果表明在稀疏数据流上TK-HIS显著优于T-HUDS:运行时间最快可提升一个数量级. 相似文献
2.
提出了一种基于布尔矩阵的最大频繁项集挖掘算法,通过将FP-tree映射成布尔矩阵和权值表,运用布尔逻辑运算进行矩阵投影操作得到最大频繁项集,算法在挖掘过程中不用生成最大频繁候选项集,从而大大提高了算法的时间效率和空间可伸缩性。 相似文献
3.
4.
增量关联挖掘领域是近几年数据挖掘研究的一个热点,而CAN-tree的提出是增量关联挖掘发展的一个重要里程碑.虽然CAN-tree适用于增量关联挖掘,但CAN-tree构建时间长,挖掘效率偏低;针对此问题,提出了一种基于CAN-tree快速构建算法,该算法增加基于哈希表的辅助存储结构,用于减少项目的查找时间,从而提高CANtree的构建速度;增加叶子地址表并修改节点结构及改child指针为parent指针,目的是减少剪枝时间和条件模式基的生成时间,从而提高数据挖掘效率.实验结果表明该算法有效. 相似文献
5.
最大频繁序列挖掘是数据挖掘的重要内容之一.在深入分析频繁序列特点以及已有序列挖掘算法的基础上,提出一种新的最大序列挖掘算法Huffman-MaxSeq.与传统的"候选最大频繁序列集生成——测试"思路不同,该算法采用"边生成候选序列边测试"的思想,从而有效地减少了候选序列的生成.该算法基于构造哈夫曼树(最优树)的方法,对每个序列赋予权值,按权值的大小选取序列,连接生成新的候选频繁序列,再产生最大频繁序列. 相似文献
6.
KNN算法是经典的文本分类算法.训练样本的数量和类别密度是影响算法性能的主要瓶颈,合理的样本剪裁可以提高分类器效率.文中提出了一种基于聚类的改进KNN分类模型.首先对训练集进行聚类,基于测试样本与簇之间的相对位置对训练集进行合理裁剪以节约计算开销;然后基于簇内样本分布进行样本赋权,改善大类别样本的密度占优现象.实验结果表明,本文提出的样本剪裁方法提高了KNN算法的分类性能. 相似文献
7.
频繁项集挖掘算法是数据挖掘的主要研究方向。目前主流的频繁项集挖掘算法有:产生候选频繁项集和不产生候选频繁项集两种,分别是Apriori算法、FP_growth算法。这两种算法各有优缺点。本文在分析现有算法的基础上,充分利用FP_tree信息压缩的优点,设计出一种产生候选项集的最大频繁项集挖掘算法。该算法首先构造一棵单向FP_tree,再利用最大频繁项集特性对候选项集进行剪枝,不需要扫描数据库计算候选项集的支持数。仿真实验表明,与现有算法相比,该算法的时、空效率都有巨大提高。 相似文献
8.
针对HEVC帧内预测编码计算复杂度高的问题,提出了一种基于分组自适应的帧内预测模式快速选择算法.该算法抽选12个候选模式进行预测方向初步判断,然后根据初步判断结果再精选预测模式;并根据粗选的HCost代价排除部分可能性较低的候选模式,以达到减少候选模式数量,降低计算复杂度的目的.在HEVC参考软件HM12.0上的测试表明,该算法在BD-PSNR平均损失0.041 dB的情况下,平均可降低36.521%的编码时间,显著提高了编码速度.实验结果显示,该算法的适应性强,对不同尺寸、不同纹理和运动特点的测试序列均有明显效果,具有良好的实际应用价值. 相似文献
9.
10.
11.
为解决当前基于效用的网络资源调度中模型通用性不强、求解算法效果差、速度慢等问题,提出了基于边际效用函数的效用最优化资源调度方法.它根据边际效用函数的特点,将网络应用分为弹性和非弹性应用,并通过每个应用的边际效用函数求出其效用函数.将上述效用函数应用于网络资源调度问题中,给出了问题求解的高效算法.仿真实验表明,与目前最新的同类算法及经典优化求解工具Lingo9.0中的算法相比,本文算法求得的总效用值平均提高5%和4%,而所用时间仅为上述算法的0.2%和0.003%. 相似文献
12.
13.
Mining high utility itemsets (HUIs) from transaction databases considers such factors as the unit profit and quantity of purchased items. Two-phase tree-based algorithms transform a database into compressed tree structures and generate candidate patterns through a recursive pattern-growth procedure. This procedure requires a lot of memory and time to construct conditional pattern trees. To address this issue, this study employs two compressed tree structures, namely, Utility Count Tree and String Utility Tree, to enumerate valid patterns and thus promote fast utility computation. Furthermore, the study presents an algorithm called single-phase utility computation (SPUC) that leverages these two tree structures to mine HUIs in a single phase by incorporating novel pruning strategies. Experiments conducted on both real and synthetic datasets demonstrate the superior performance of SPUC compared with IHUP, UP-Growth, and UP-Growth+ algorithms. 相似文献
14.
高低压变配电系统配置方案和供电方式的取定与各种通信设备、建筑设备用电可靠性的要求、外市电类别等因素密切相关。在不同市电类别的前提下,对交流供电系统的不同配置进行比较,给出了如何减少高低压变配电机房及油机房所需的使用面积的手段。 相似文献
15.
用户公平的活动队列管理 总被引:2,自引:0,他引:2
用户公平活动队列管理算法UFQ(User Fair Queuing)的目标是在各种网络环境中都能为所有的用户提供满意度一致的服务.UFQ采用在网络边缘标记用户所属数据报的期望服务满意度u,在网络核心根据数据报的满意度高低,结合当前数据报流经节点的拥塞程度,来决定数据报的丢弃或标记(使用ECN),从而获得不同用户一致满意的服务.UFQ不要求接纳控制和信令.它仅在网络边缘保持数据流的状态信息;只维护一个先进先出队列,通过拥塞时丢弃或标记较高满意度的数据报,在不同的用户之间公平地分配网络带宽,从而有效地控制、减轻拥塞.通过TCP/IP网络的模拟,证实了算法能够按照用户期望满意度公平地分配网络带宽,提高网络的服务质量. 相似文献
16.
17.
我国实用新型制度自实施以来一直受到国内外公众的普遍重视,我国的创新能力正在成为一个日益重要的全球性话题.不仅国内高度重视实用新型授权质量,国外也对我国实用新型授权质量持续关注,图像通信领域技术日新月异,实用新型申请数量高速增长.主要研究涉及图像通信领域实用新型适度检索,从相关法规入手,通过对典型案例的分析,提出对图像通信领域实用新型适度检索的一些思考. 相似文献
18.
对现有干扰系统中非合作博弈功率控制问题进行了总结和分析。主要分析了四种效用函数,并研究了相应的应用策略。从中可以看出,基于互信息量的效用函数运算较复杂,目标容量确定下的效用函数与目标信干噪比确定下的效用函数在性能不影响的情况下,计算复杂度大大降低。基于效率的效用函数能有效抑制各用户对发射功率的盲目追求,提高了用户单位功率下的性能,即提高了效率。 相似文献
19.
设计模式在数据采集系统中的应用 总被引:3,自引:0,他引:3
为了建立一个具有良好的可扩展性和可维护性的系统,必须有一个具有高度可复用性和灵活性的设计。设计模式代表了成功的可复用的优秀设计经验,在系统设计中引入设计模式将有效的提高系统的可扩展性和可维护性。首先简要分析了设计模式,然后介绍了数据采集系统的功能、体系结构,并详细描述了工厂方法模式、观察者模式、单件模式在数据采集系统中的应用。经实践检验,设计模式的应用,使得软件系统的开发效率和软件系统的质量都得到了很大的提升。该方法具有较高的理论和实践意义。 相似文献
20.
考察了在不确定条件下的双边多议题协商中对Agent的效用建模的问题,给出一个引入了不确定因素的Agent的效用函数形式,更为准确地描述了不确定条件下Agent的偏好.提出了一个不确定条件下的自动协商模型,基于遗传算法设计了协商算法.仿真实验结果表明,该模型能够降低风险,改善Agent在协商过程中的决策效果. 相似文献