共查询到10条相似文献,搜索用时 953 毫秒
1.
缺失数据处理方法的比较研究 总被引:9,自引:0,他引:9
数据挖掘已被广泛用于医疗领域,而大多数医疗数据集都存在缺失值。本文介绍了一些缺失值估计算法。建立了5种模型来提高预测的有效性,它们是保留缺失模型、直接丢弃模型、贝叶斯补缺模型、贝叶斯重叠补缺模型和基于信息增益的贝叶斯重叠补缺模型。这些模型在Clinics数据集上进行了处理和分析。用C4.5决策树和10叠交叉确认法来检验这些模型的性能,结果表明根据信息增益递减顺序排序,用朴素贝叶斯分类器来预测缺失值是有效的。 相似文献
2.
将K-means算法引入到朴素贝叶斯分类研究中,提出一种基于K-means的朴素贝叶斯分类算法。首先用K-means算法对原始数据集中的完整数据子集进行聚类,计算缺失数据子集中的每条记录与k个簇重心之间的相似度,把记录赋给距离最近的一个簇,并用该簇相应的属性均值来填充记录的缺失值,然后用朴素贝叶斯分类算法对处理后的数据集进行分类。实验结果表明,与朴素贝叶斯相比,基于K-means思想的朴素贝叶斯算法具有较高的分类准确率。 相似文献
3.
基于K-means的朴素贝叶斯分类算法的研究 总被引:1,自引:0,他引:1
将K-means算法引入到朴素贝叶斯分类研究中,提出一种基于K-means的朴素贝叶斯分类算法。首先用K-means算法对原始数据集中的完整数据子集进行聚类,计算缺失数据子集中的每条记录与k个簇重心之间的相似度,把记录赋给距离最近的一个簇,并用该簇相应的属性均值来填充记录的缺失值,然后用朴素贝叶斯分类算法对处理后的数据集进行分类。实验结果表明,与朴素贝叶斯相比,基于K-means思想的朴素贝叶斯算法具有较高的分类准确率。 相似文献
4.
5.
扩展的树增强朴素贝叶斯分类器 总被引:1,自引:0,他引:1
树增强朴素贝叶斯分类器继承了朴素贝叶斯分类器计算简单和鲁棒性的特点,同时分类性能常常优于朴素贝叶斯分类器,然而在有连续变量的情况下要求必须进行预离散化.为了更好地表达数据的分布,减少信息损失,有必要考虑混合数据的情况.本文推导混合数据的极大似然函数,提出扩展的树增强朴素贝叶斯分类器,突破必须对连续变量进行预离散化的限制,能够在树增强朴素贝叶斯分类器的框架内处理混合变量的情况.实验测试证明其具有良好的分类精度. 相似文献
6.
高速网络环境中数据量日益增大,安全问题日益突出,对入侵检测技术提出了更高的要求.朴素贝叶斯作为数据挖掘的重要方法之一,在入侵检测中有着重要的地位.由于其属性独立假设,使得如何在海量高维数据处理背景下快速、准确、有效地选出代表原数据的属性显得尤为重要.本文提出了一种快速属性选择方法并结合朴素贝叶斯分类模型应用于入侵检测中.实验表明,结合了该属性选择方法的朴素贝叶斯分类器有很好的分类精度及较低的时空消耗. 相似文献
7.
操作风险数据积累比较困难,而且往往不完整,朴素贝叶斯分类器是目前进行小样本分类最优秀的分类器之一,适合于操作风险等级预测。在对具有完整数据朴素贝叶斯分类器学习和分类的基础上,提出了基于星形结构和Gibbs sampling的具有丢失数据朴素贝叶斯分类器学习方法,能够避免目前常用的处理丢失数据方法所带来的局部最优、信息丢失和冗余等方面的问题。 相似文献
8.
9.
10.
通过分析朴素贝叶斯分类器与树扩张型朴素贝叶斯(TAN)分类器,提出了一种新的属性依赖度量方法,并依此对TAN分类器的构造方法进行了改进.将该分类方法(XINTAN)与朴素贝叶斯分类器和TAN分类器进行了实验比较.实验结果表明,此分类方法集中了朴素贝叶斯分类器与树扩张型朴素贝叶斯(TAN)分类器的优点,性能要优于TAN分类器. 相似文献