首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 57 毫秒
1.
传统的频繁项集挖掘用支持度来衡量项集的重要性会丢失一些支持度不高,但效用很高、用户很可能感兴趣的模式.高效用项集能反映用户的偏好,弥补传统频繁项集挖掘的不足.本文提出了一种基于数据库垂直表示的高效用项集挖掘算法,通过执行事务支持集的交运算来找寻候选高效用项集,通过扫描一遍数据库,从候选高效用项集中发现高效用项集.本算法利用了数据库垂直表示方法存储量小、运算快的优势.实验结果表明,该算法具有较高的挖掘效率和良好的可扩展性.  相似文献   

2.
提出了一种基于最小支持度变化的挖掘最大频繁项集的增量式更新算法MFIU(Maximum Frequent Itemsets Updating).针对最大频繁项集更新时的特性,分别对最小支持度变大和变小提出了两种不同的处理方法,对于最小支持度变大的复杂情况,采取了分块的更新策略,并为减少不必要的候选项集,利用了如果X是一个最大频繁项集,则其所有子集都是频繁项集,但都不可能是最大频繁项集,而进行了独特的剪枝方法.最后通过实例分析了该算法.  相似文献   

3.
针对Apriori算法在频繁项集挖掘过程中的缺陷,提出了一种基于权重的改进Apriori算法。该改进算法通过一次扫描事务数据库构造出二元事务矩阵,再用各事务和各项的平均权重替代权重支持度,最终挖掘出事务库中的频繁项集。通过实例分析和性能测试,证明了改进的Apriori算法避免了重复扫描事务数据库,使得算法在性能上有了明显优化,并且挖掘出了Apriori挖掘不到的、隐藏的、有价值的规则。  相似文献   

4.
海量数据利用传统Apriori算法进行挖掘会浪费大量存储空间和通信资源,导致算法效率低下,因此,提出MapReduce框架下Aprioi算法的改进方法,首先采用水平划分的方法将MapReduce数据库分成n个独立的数据块,然后发送到采用动态负载均衡划分的m个工作节点上。每个节点扫描各自的数据块,产生局部候选频繁项集,计算每个候选频繁项集的支持度阈值并与最小支持度阈值进行比较以确定最终的频繁项集。改进后的算法可以减少各个节点之间的数据流动,只需要扫描两次事务数据库就能挖掘出全部频繁项集,节省扫描时间和存储空间,提高挖掘效率。  相似文献   

5.
大量的动态数据使得传统数据挖掘方法难以适应流数据.频繁模式挖掘算法大多在挖掘频繁项集时使用一个固定的最小支持度,然而实际使用中支持度阈值应该随用户需求和流数据的特点而改变.针对此问题提出一种名为VSSDM的算法,用于在流数据中以可变支持度挖掘频繁项集.  相似文献   

6.
基于事务相似矩阵的关联规则挖掘算法   总被引:3,自引:0,他引:3  
通过对Apriori算法挖掘过程的深入分析,提出一种改进的关联规则挖掘算法——基于事务相似矩阵的关联规则挖掘算法(ARBSM):在压缩事务布尔矩阵的基础上构建一个事务相似矩阵,直接查找高阶肛项频繁集,有效解决了Apriori算法逐层搜索的迭代产生频繁项集的瓶颈问题。测试结果表明,ARBSM算法可以高效地挖掘潜在的强关联规则。  相似文献   

7.
针对Apriori算法需要多次扫描数据库的缺陷,提出一种基于垂直事务关系的改进算法XApriori。该方法对原始事务数据库扫描后,采用项集事务垂直对应关系的位集合数据存储结构,并构建逻辑生成候选项集策略,利用数值统计的方法生成候选项集并确定频繁项集,实现关联规则的挖掘。对比实验结果表明,改进算法比Aprior算法关联规则挖掘的效率有所提高。  相似文献   

8.
大数据环境下频繁项集挖掘的研究   总被引:1,自引:0,他引:1  
多种频繁项集挖掘(FIM)方法组合用来对大数据进行挖掘会暴露很多问题。针对暴露的问题,在MapReduce平台上对两种频繁项集挖掘算法进行了研究。采用两种新的大数据集挖掘方法:Dist-Eclat和BigFIM,前者侧重于速度,利用基于k-FIs的简易负荷平衡方案来解决问题。而后者通过先验变体对k-FIs进行挖掘后将找出的频繁项集分配给映射程序,通过优化后在真正大的数据集上运行。最后通过实验证明该方法时间复杂度较低,数据量越大优势将越明显,扩展效果越好。  相似文献   

9.
针对频繁项集挖掘算法中多次扫描数据库、生成大量无效频繁项集的问题,提出一种基于倒排索引和二维数组的挖掘算法。通过一次扫描数据库建立包含事务的倒排索引,解决多次扫描数据库的问题。在二维数组存储候选频繁项集时,引入标志位约束,避免产生大量无效的频繁项集。与其他算法在不同规模的数据集上进行性能比较,发现算法在数据集超过25万时执行效率优于其他算法。通过实验验证了所提出算法的高效性和可行性。  相似文献   

10.
关联规则是当前数据挖掘研究最重要的分支之一,目前的关联规则多是在频繁项集的基础上进行挖掘,而没有挖掘非频繁项集的算法。本文在多支持度算法的基础上,提出了一种新的算法模型,在挖掘频繁项集的同时还能够对非频繁项集进行挖掘。  相似文献   

11.
针对普通遗传算法中均采用单点交叉和基本变异算子的不足,引进数据挖掘中聚类分析随机分类重组的思想,采用随机分类的遗传算子并实现了其算法,并简单的模拟两种算法,计算结果表明新的遗传算法有较明显的改进.  相似文献   

12.
主要阐述了决策树学习算法在交通方式选择模型中的应用.在基本决策树的基础上,使用随机森林组合学习算法来建立交通方式选择模型,以Bagging预测方法和CART算法为主,以随机特征选择和"投票"方法为辅,并相互融合,结合具体实例详细介绍该模型的建立,从数据的选择到整个森林中树的数目和每个结点处抽取的候选属性的个数调整,并对模型进行了相应的评估.实验结果表明,随机森林预测精度高,且对噪声数据具有较强的稳健性,采用决策树学习算法得出的规则在交通方式选择的分析中具有较好的实用价值.  相似文献   

13.
随着数据挖掘应用领域的扩大,隐私保护的数据挖掘技术研究变得越来越重要.作为隐私保护数据挖掘的主要类型——隐私保护的分类数据挖掘已经成为近年来数据挖掘领域的热点之一.如何对原始数据进行变换,然后在变换后的数据集上构造判定树是隐私保护分类数据挖掘研究的重点.基于随机扰动矩阵提出一种隐私保护分类挖掘算法.该方法适用于字符型、布尔类型、分类类型和数字类型的离散数据,并且在隐私信息的保护度和挖掘结果的准确度上都有很大的提高.  相似文献   

14.
基于差分隐私下包外估计的随机森林算法   总被引:1,自引:0,他引:1  
针对差分隐私随机森林算法在对高维数据进行分类时准确率不理想的问题,本文通过引入差分隐私下的包外估计来计算决策树权重以及特征权重,从而提出一种基于差分隐私下包外估计的随机森林算法(random forest under differential privacy based on the out-of-bag estimate, RFDP_OOB).本算法首先在差分隐私保护下生成一部分的随机森林,利用差分隐私下包外估计的特性对决策树和特征的重要性进行评估,从而计算出决策树权重以及特征权重,然后通过特征权重对特征进行划分,得到非重要特征集.接着在生成剩下的一部分随机森林的过程中,对最佳特征为非重要特征的结点进行预剪枝操作,使其成为叶子结点,从而减小噪声、提高决策树分类准确率,并具有较好的执行效率.最后在预测分类结果时,取所对应的决策树权重最大的分类结果作为随机森林算法的分类结果,从而提高随机森林算法的分类准确率.本文还对算法的有效性和隐私性进行了理论分析,并通过实验结果验证了本算法的有效性,本算法可以在保护数据隐私性的同时提高算法的分类准确率.  相似文献   

15.
Slope stability is of critical importance in the process of surface-underground mining combination. The influence of underground mining on pit slope stability was mainly discussed, and the self-stabilization of underground stopes was also studied. The random finite element method was used to analyze the probability of the rock mass stability degree of both pit slopes and underground stopes. Meanwhile, 3D elasto-plastic finite element method was used to research into the stress, strain and rock mass failure resulting from mining. The results of numerical simulation indicate that the mining of the underground test stope has certain influence on the stability of the pit slope, but the influence is not great. The safety factor of pit slope is decreased by 0.06, and the failure probability of the pit slope is increased by 1.84%. In addition, the strata yielding zone exists around the underground test stope. The results basically conform to the information coming from the field monitoring.  相似文献   

16.
从上市公司股东大会召开中存在的实务问题出发,结合我国现有规定,就股东大会议案的变更、董事会对股东提案的审核、股东大会的参加人员、股东的质询权、股东大会的表决方式等问题逐个进行了分析,有针对性地提出了立法解决建议。  相似文献   

17.
网络计划技术是运筹学的一个分支,该技术在项目管理上得到了广泛应用。但这项技术在大型体育活动中的应用不多,这方面的理论研究也远远不够。通过对高校田径运动会比赛项目进行分析后,把比赛项目绘制成网络图,找出关键路线,进而进行时间-资源优化,经实际操作后,证明网络计划技术应用于体育运动会编排能收到较好的效果。  相似文献   

18.
本文以人的暗适应现象和车辆高速运行的基本规律为依据,对我国道路交通管理条例中所规定的“汽车夜间会车应距对方150米以外进行变光”的条文进行了工效学分析,指出了该项规定欠科学性的机理,并为制定新的法规条款指出了有关可操作的途径。  相似文献   

19.
晚年李侗曾书信朱子二十四封,在其信中,李侗通过直接的邀约及一些暗示语言,表达了对朱子有着面会的期许,此种期许是迫切的。李侗期望面会朱子有着学业、学术、心灵上的原因。在历史境遇之下,朱子定然知晓李侗书信中的期许相见,但由于家庭及公务的羁绊,朱子在与李侗仅有的五次邂逅之后,再无应约相见。  相似文献   

20.
从经济发展水平、旅游吸引力、客源市场三个方面考察论证了上海市发展会展旅游业的条件优势,讨论上海会展旅游业目前存在的人才瓶颈,并根据上海会展旅游业的本土特点,提出了培养会展旅游高素质人才的若干建议,主要包括:学校培养与职业培训相结合、走国际化市场化道路、坚持产学研结合。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号