首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
《微型机与应用》2016,(15):78-81
提出一种基于统计关联规则的增量决策树分类算法,称为SARMT(Statistic Association Rules Miner Tree),它基于快速决策树(Very Fast Decision Tree,VFDT)技术来挖掘医疗数据。与VFDT不同,改进的SARMT算法不依赖于样本分裂节点的数量。在医疗大数据中,通常缺少大量可用的数据样本,因此SARMT算法更加适用于医疗环境中。将SARMT算法和VFDT算法应用于不同的三个医疗数据集上,实验结果表明在执行时间相当的情况下,SARMT算法在处理医疗数据中有更高的准确率。  相似文献   

2.
传统关联规则挖掘在面临分类决策问题时,易出现非频繁规则遗漏、预测精度不高的问题。为得到正确合理且更为完整的规则,提出了一种改进方法 DT-AR(decision tree-association rule algorithm),利用决策树剪枝策略对关联规则集进行补充。该方法利用FP-Growth(frequent pattern growth)算法得到关联规则集,利用C4.5算法构建后剪枝决策树并提取分类规则,在进行置信度迭代筛选后与关联规则集取并集修正,利用置信度作为权重系数采取投票法进行分类。实验结果表明,与传统关联规则挖掘和决策树剪枝方法相比,该方法得到的规则在数据集分类结果上更准确。  相似文献   

3.
决策树算法从一组无规则、无次序的事例中推理出分类规则,同样适用于医疗数据的挖掘。本文研究基于决策树的乳腺肿瘤医疗数据的分析和挖掘,提高癌症诊断的准确率。  相似文献   

4.
大数据、云计算技术的迅猛发展为挖掘气象数据丰富的科研和经济价值提供了技术支撑,促进了Hadoop及其包含的文件存储系统(HDFS,Hadoop Distributed File System)和分布式计算模型在气象数据处理领域广泛应用。由于气象数据具有大数据的4V特征,还需要引入新的数据处理算法来提高气象数据处理效率。通过对决策树算法原理的研究,基于Hadoop云平台,创建随机森林模型,为数据挖掘算法在云平台上的应用提供一种新的可能性。基于决策树(CART,Classification And Regression Trees)挖掘算法的气象大数据云平台设计,采用Hadoop系统架构和MapReduce工作流程,对气象大数据云平台采用集群部署。平台总体架构分为基础设施层、数据管理与处理层、应用层,减少了决策树建立的时间,实现了气象数据高效加工和挖掘分析等平台功能。  相似文献   

5.
针对子宫癌病人住院人数的不断增加和住院期间医生所开药方种类繁多的大数据特点,以及传统关联规则算法存在时间效率低的缺点,采用了结合加权萤火虫优化算法和Apriori算法的关联规则挖掘算法Firefly-Apriorialgorithm(YHC-Apriori算法),萤火虫算法具有快速寻找最优解的特点,可以提升关联规则算法的运行效率.将此算法应用到对子宫癌疾病的用药规律方向进行数据挖掘,使得出的结论更准确并且减少算法运行时间.通过医疗大数据得出的宫颈癌常用药以及用药组合,使医生开的药方更精确,更有效.  相似文献   

6.
张棪  曹健 《计算机科学》2016,43(Z6):374-379, 383
决策树作为机器学习中的一个预测模型,因其输出结果易于理解和解释,而被广泛应用于各个领域,成为了学术界研究的热点。随着数据产生速度的剧增,由于内存容量和处理器速度等限制,常规的决策树算法无法对大数据集进行处理,因此需要对决策树算法的实现进行针对性的处理。首先阐述了决策树的基本算法和优化方法,在此基础上结合大数据带来的挑战,分类比较了各类针对性算法的优缺点,并介绍了支撑这些算法运行的平台。最后讨论了面向大数据的决策树算法的未来发展方向。  相似文献   

7.
周亮  晏立 《计算机应用研究》2010,27(8):2899-2901
为了克服现有决策树分类算法在大数据集上的有效性和可伸缩性的局限,提出一种新的基于粗糙集理论的决策树算法。首先提出基于代表性实例的原型抽象方法,该方法从原始数据集中抽取代表性实例组成抽象原型,可缩减实例数目和无关属性,从而使算法可以处理大数据集;然后提出属性分类价值量概念,并作为选择属性的启发式测度,该测度描述了属性对分类的贡献价值量的多少,侧重考虑了属性之间以及实例与分类之间的关系。实验表明,新算法比其他算法生成的决策树规模要小,准确率也有显著提高,在大数据集上尤为明显。  相似文献   

8.
随着网络复杂度的增加,传统的入侵检测方法已经无法满足日益增长的安全需求。采用大数据的挖掘算法提高入侵检测的检测率是当前研究的热点。为此,本文提出一种基于k-means和决策树算法的混合入侵检测算法(KDI)。该算法首先对数据预处理的离散化方法进行改进,获取高质量样本数据,并根据现实中易出现类别信息增益比差异小的特点,利用k-means算法根据增益比差异将样本数据先分类再建立决策树,提升了算法的检测率。实验结果表明KDI算法能够有效地检测网络数据中隐含的已知和未知的入侵行为。  相似文献   

9.
关联规则挖掘算法在分类中的应用研究   总被引:1,自引:0,他引:1  
提出了一个基于关联规则挖掘算法的医疗数据分类方法。介绍了关联规则的理论基础、关联规则挖掘算法及其在医疗数据挖掘中的应用方法,并利用介绍的算法对乳腺癌数据进行挖掘。获得了分类的实验结果,该模型系统达到了较高的分类准确率,证明了数据挖掘在辅助医疗诊断中有着广泛的应用前景。  相似文献   

10.
目前的聚类方法单纯从某个角度研究数据聚类问题,对基于云模式的混沌的物联网大数据聚类的考虑不足,聚类质量不高。为实现敏捷、智能、平稳的物联网大数据聚类,基于开展物联网事件的云模式通用描述模型、物联网事件混沌关联特征的云模式通用解析模型、基于云模式的物联网事件混沌关联特征提取算法、基于云模式混沌关联特征的物联网大数据关联挖掘研究,改进分解奇异值算法、网格耦合聚类算法、K-means算法、决策树学习法、分析主成分法、分层合并法等算法和分布概率函数,设计了一种基于事件混沌关联特征、敏捷、智能、平稳的物联网大数据聚类算法。最后,开展实验验证,并与传统算法进行性能对比分析。实验结果表明,相比传统算法,该算法聚类时间短、误差小,且敏捷性、智能性、动态演化性和平稳性高。因此,该算法实现了基于云模式的具有混沌关联特征的物联网事件大数据的有效聚类,具有较高的应用价值。  相似文献   

11.
为了提高掌上医疗器械的信息化检索和管理能力,提出基于大数据的掌上医疗器械检索方法,构建掌上医疗器械检索的大数据分布模型,采用有向图模型构建掌上医疗器械信息库的检索节点分布结构模型,在掌上医疗器械信息库库中进行语义关联规则分析,采用字符串的匹配技术,建立掌上医疗器械信息库检索的模糊决策模型,采用大数据融合方法实现掌上医疗器械检索的算法设计,结合自相关特征匹配方法实现掌上医疗器械信息库的语义特征提取,实现掌上医疗器械检索平台的优化设计。仿真结果表明,采用该方法进行掌上医疗器械检索的智能性较好,检索的查准性较高,时延较低。  相似文献   

12.
肖圣龙  陈昕  李卓 《计算机应用》2017,37(10):2794-2798
大数据时代下,社会安全事件呈现出数据多样化、数据量快速递增等特点,社会安全事件的事态与特性分析决策面临巨大的挑战。高效、准确识别社会安全事件中的攻击行为的类型,并为社会安全事件处置决策提供帮助,已经成为国家与网络空间安全领域的关键性问题。针对社会安全事件攻击行为分类,提出一种基于Spark平台的分布式神经网络分类算法(DNNC)。DNNC算法通过提取攻击行为类型的相关属性作为神经网络的输入数据,建立了各属性与攻击类型之间的函数关系并生成分布式神经网络分类模型。实验结果表明,所提出DNNC算法在全球恐怖主义数据库所提供的数据集上,虽然在部分攻击类型上准确率有所下降,但平均准确率比决策树算法提升15.90个百分点,比集成决策树算法提升8.60个百分点。  相似文献   

13.
李孜颖  石振国 《计算机应用》2005,40(10):2923-2928
针对在大数据的处理过程中,对大数据任务的划分和资源分配缺乏合理性的问题,提出一种面向大数据任务的调度方法。该方法首先引入了调度理论用于处理大数据任务,帮助建立合理的大数据任务管理体系并规范大数据任务处理流程;然后,基于大数据任务的本质对数据集进行分析处理,引入决策表进行属性约简,以减小大数据分析任务的数据量和提高大数据分析效率;最后,采用模糊综合评价方法,将模糊综合评价的结果作为对任务调度的依据,以提高任务资源分配合理性。在UCI(University of California Irvine)数据集上进行测试,实验结果表明,该调度算法在平均预测准确度上比朴素贝叶斯(NB)算法高7.42个百分点,比误差反向传播(BP)算法高5.16个百分点,比均方根传递(RMSProp)算法高3.74个百分点。而对于特征数较多的数据集,所提算法在预测精度上较其他算法有显著提高。所提算法在平均调度长度比(SLR)上较HCPFS(Heterogeneous Critcal Path First Synthesis)算法和HIPLTS(Heterogeneous Improved Priority List for Task Scheduling)算法分别下降了12.14%和4.56%,在平均加速比上分别提升了7.14%和42.56%,表明该算法能有效提高大数据系统中任务调度的效率。综合比较分析,所提方法具有较高的预测精度,且高效可靠。  相似文献   

14.
许召召  申德荣  聂铁铮  寇月 《软件学报》2022,33(3):1128-1140
随着信息技术以及电子病历和病案在医疗机构的应用,医院数据库产生了大量的医学数据.决策树因其分类精度高、计算速度快,且分类规则简单、易于理解,而被广泛应用于医学数据分析中.然而,医学数据固有的高维特征空间和高度特征冗余等特点,使得传统的决策树在医学数据上的分类精度并不理想.基于此,提出了一种融合信息增益比排序分组和分组进...  相似文献   

15.
如何解决在创建决策树时出现缺失值是决策树算法在规则提取方面的一个重要难题.讨论了决策树分类算法的基本原理后,对于数据集的数据不完整进行了分析,并给出了缺失值的具体解决方法.在创建决策树的过程中对缺失值进行填充时提出了填充缺失值的解决算法.  相似文献   

16.
李孜颖  石振国 《计算机应用》2020,40(10):2923-2928
针对在大数据的处理过程中,对大数据任务的划分和资源分配缺乏合理性的问题,提出一种面向大数据任务的调度方法。该方法首先引入了调度理论用于处理大数据任务,帮助建立合理的大数据任务管理体系并规范大数据任务处理流程;然后,基于大数据任务的本质对数据集进行分析处理,引入决策表进行属性约简,以减小大数据分析任务的数据量和提高大数据分析效率;最后,采用模糊综合评价方法,将模糊综合评价的结果作为对任务调度的依据,以提高任务资源分配合理性。在UCI(University of California Irvine)数据集上进行测试,实验结果表明,该调度算法在平均预测准确度上比朴素贝叶斯(NB)算法高7.42个百分点,比误差反向传播(BP)算法高5.16个百分点,比均方根传递(RMSProp)算法高3.74个百分点。而对于特征数较多的数据集,所提算法在预测精度上较其他算法有显著提高。所提算法在平均调度长度比(SLR)上较HCPFS(Heterogeneous Critcal Path First Synthesis)算法和HIPLTS(Heterogeneous Improved Priority List for Task Scheduling)算法分别下降了12.14%和4.56%,在平均加速比上分别提升了7.14%和42.56%,表明该算法能有效提高大数据系统中任务调度的效率。综合比较分析,所提方法具有较高的预测精度,且高效可靠。  相似文献   

17.
一种新的不平衡数据学习算法PCBoost   总被引:8,自引:0,他引:8  
现实世界中广泛存在不平衡数据,其分类问题是机器学习研究中的一个热点.多数传统分类算法假定类分布平衡或误分类代价均衡,在处理不平衡数据时,效果不够理想.文中提出一种不平衡数据分类算法-PCBoost.算法以信息增益率为分裂准则构建决策树,作为弱分类器.在每次迭代初始,利用数据合成方法添加合成的少数类样例,平衡训练信息;在子分类器形成后,修正“扰动”,删除未被正确分类的合成样例.文中讨论了数据合成方法,给出了训练误差界的理论分析,并分析了集成学习参数的选择.实验结果表明,PCBoost算法具有处理不平衡数据分类问题的优势.  相似文献   

18.
为了对电力企业中不同部门的运行数据进行有效的挖掘,提出利用C5.0决策树算法对数据进行深层次分析,为管理人员提供有价值的决策支持.首先,对数据挖掘中先进的C5.0决策树算法原理进行分析,并通过引入信息熵对原有的属性选择方式进行改进,提高了信息增益比率计算的速度.然后根据设计的售电量关系模型进行对电厂管理信息系统中的数据...  相似文献   

19.
传统决策树通过对特征空间的递归划分寻找决策边界,给出特征空间的“硬”划分。但对于处理大数据和复杂模式问题时,这种精确决策边界降低了决策树的泛化能力。为了让决策树算法获得对不精确知识的自动获取,把模糊理论引进了决策树,并在建树过程中,引入神经网络作为决策树叶节点,提出了一种基于神经网络的模糊决策树改进算法。在神经网络模糊决策树中,分类器学习包含两个阶段:第一阶段采用不确定性降低的启发式算法对大数据进行划分,直到节点划分能力低于真实度阈值[ε]停止模糊决策树的增长;第二阶段对该模糊决策树叶节点利用神经网络做具有泛化能力的分类。实验结果表明,相较于传统的分类学习算法,该算法准确率高,对识别大数据和复杂模式的分类问题能够通过结构自适应确定决策树规模。  相似文献   

20.
不确定数据的决策树分类算法   总被引:5,自引:0,他引:5  
李芳  李一媛  王冲 《计算机应用》2009,29(11):3092-3095
经典决策树算法不能处理树构建和分类过程中的不确定数据。针对这一局限,将可用于不确定数据表达的证据理论与决策树分类算法相结合,把决策树分类技术扩展到含有不确定数据的环境中。为避免在决策树构建过程中出现组合爆炸问题,引入新的测量算子和聚集算子,提出了D-S证据理论决策树分类算法。实验结果表明,D-S证据理论决策树分类算法能有效地对不确定数据进行分类,有较好的分类准确度,并能有效避免组合爆炸。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号