首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
海量数据且高维环境下,朴素贝叶斯分类可能即面临获取大量带类标签代价过高又面临当前分类规则不能适应数据变化等问题。于是提出一种基于小规模训练集的基于粗糙集(RS)动态约简贝叶斯算法来实现问题分类:利用粗糙集理论对决策表属性进行动态约简,挖掘出对分类最有利的条件属性即极小值属性,作为朴素贝叶斯推理(NBC)方法对知识进行学习和分类的输入。该方法结合了贝叶斯推理与动态约简将大数据库采样划分的优点。实验证明了算法的可行性。  相似文献   

2.
朴素贝叶斯分类器是一种简单而高效的分类器,但是其属性独立性假设限制了对实际数据的应用。提出一种新的算法,该算法为避免数据预处理时,训练集的噪声及数据规模使属性约简的效果不太理想,并进而影响分类效果,在训练集上通过随机属性选取生成若干属性子集,并以这些子集构建相应的贝叶斯分类器,进而采用遗传算法进行优选。实验表明,与传统的朴素贝叶斯方法相比,该方法具有更好的分类精度。  相似文献   

3.
基于遗传算法的朴素贝叶斯分类   总被引:1,自引:0,他引:1  
朴素贝叶斯分类器是一种简单而高效的分类器,但是其属性独立性假设限制了对实际数据的应用。提出一种新的算法,该算法为避免数据预处理时,训练集的噪声及数据规模使属性约简的效果不太理想,并进而影响分类效果,在训练集上通过随机属性选取生成若干属性子集,并以这些子集构建相应的贝叶斯分类器,进而采用遗传算法进行优选。实验表明,与传统的朴素贝叶斯方法相比,该方法具有更好的分类精度。  相似文献   

4.
为了解决当不完备混合决策系统中数据动态增加时,静态属性约简方法的计算复杂度高的问题,提出变精度下不完备混合数据的增量式属性约简方法。首先,在变精度模型下给出了利用条件熵度量属性的重要性程度;然后,详细分析和设计了当数据动态增加时条件熵的增量式更新变化情况和属性约简的更新机制;在此基础上,利用启发式贪心策略构造了增量式的属性约简算法,实现了不完备的数值型和符号型混合数据下属性约简的动态更新。通过UCI数据集中五个真实的混合型数据集的实验比较和分析,在约简效果方面,利用增量式属性约简算法处理Echocardiogram、Hepatitis、Autos、Credit和Dermatology数据集的增量规模为90%+10%时,数据集的原属性个数分别由12、19、25、17和34个约简至6、7、10、11和13个,分别占原属性集的50.0%、36.8%、40.0%、64.7%和38.2%;在执行时间方面,增量式算法在五个数据集的平均耗时分别为2.99 s、3.13 s、9.70 s、274.19 s和50.87 s,静态算法的平均耗时分别为284.92 s、302.76 s、1062.23 s、3510.79 s和667.85 s,且增量式算法的耗时与数据集的实例规模、属性个数和属性值类型的分布相关。实验结果表明,增量式属性约简算法在计算耗时方面要显著优于静态算法,且能有效剔除数据中的冗余属性。  相似文献   

5.
鲍迪  张楠  童向荣  岳晓冬 《计算机应用》2019,39(8):2288-2296
实际应用中存在大量动态增加的区间型数据,若采用传统的非增量正域属性约简方法进行约简,则需要对更新后的区间值数据集的正域约简进行重新计算,导致属性约简的计算效率大大降低。针对上述问题,提出区间值决策表的正域增量属性约简方法。首先,给出区间值决策表正域约简的相关概念;然后,讨论并证明单增量和组增量的正域更新机制,提出区间值决策表的正域单增量和组增量属性约简算法;最后,通过8组UCI数据集进行实验。当8组数据集的数据量由60%增加至100%时,传统非增量属性约简算法在8组数据集中的约简耗时分别为36.59 s、72.35 s、69.83 s、154.29 s、80.66 s、1498.11 s、4124.14 s和809.65 s,单增量属性约简算法的约简耗时分别为19.05 s、46.54 s、26.98 s、26.12 s、34.02 s、1270.87 s、1598.78 s和408.65 s,组增量属性约简算法的约简耗时分别为6.39 s、15.66 s、3.44 s、15.06 s、8.02 s、167.12 s、180.88 s和61.04 s。实验结果表明,提出的区间值决策表的正域增量式属性约简算法具有高效性。  相似文献   

6.
朴素贝叶斯分类器是一种简单而高效的分类器,但是其属性独立性假设限制了对实际数据的应用。文章提出一种新的算法,该算法为避免数据预处理时的属性约简对分类效果的直接影响,在训练集上通过随机属性选取生成若干属性子集,以这些子集构建相应的朴素贝叶斯分类器,采用模拟退火遗传算法进行优选。实验表明,与传统的朴素贝叶斯方法相比,该方法具有更好的性能。  相似文献   

7.
传感器技术发展促进各行各业产生了大量多源数据,且这些数据还在不断发生变化。当多源数据(分布信息系统)增加了一些属性后,传统约简算法需要重复计算数据且不能有效实现多源数据融合,导致计算动态多源数据约简花费时间较多,计算效率不高。为了克服传统约简算法的缺陷,设计了基于多源数据矩阵增量约简算法。介绍了一些分布信息系统的相关理论知识,给出了多源数据等价关系矩阵融合的计算方法。当多源数据增加了一些属性后,讨论了动态多源数据增量机制、融合方法及矩阵增量约简算法。分别利用矩阵增量和矩阵非增量约简方法对4个UCI数据集进行测试,测试结果验证了所提出的矩阵增量方法能够快速解决动态多源数据约简更新问题。  相似文献   

8.
基于粗集的朴素贝叶斯分类算法及其应用   总被引:1,自引:0,他引:1  
朴素贝叶斯方法是数据库分类知识挖掘领域一项基本技术,具有广泛的应用。论文针对朴素贝叶斯方法的限制,提出了基于粗集理论的贝叶斯的分类知识挖掘方法。该方法首先基于粗集理论的属性约简能力,根据数据库中条件属性和决策属性之间的依赖关系,进行属性的约简处理,然后基于朴素贝叶斯方法进行分类知识挖掘。实验结果表明,基于粗集理论的贝叶斯分类方法改善了贝叶斯分类方法中属性之间独立的限制,简化了挖掘模型,使挖掘性能具有明显的优化。  相似文献   

9.
在现实应用中许多数据往往是动态变化的,静态的属性约简算法处理此类数据需消耗大量的计算时间和存储空间。针对集值决策信息系统中数据的动态变化情况,通过引入条件信息量和属性重要性概念,提出了一种启发式的动态属性约简算法,当新的属性集增加到决策信息系统时,算法能够利用原系统的属性约简结果,快速更新属性集增加后的属性约简,并对更新后的属性约简中可能存在的冗余属性进行反向剔除,保持了知识获取的简洁,提高了算法的计算效率。最后,通过实例验证进一步分析了算法的有效性和可行性。  相似文献   

10.
针对传统属性约简算法利用等价关系计算过程繁琐,样本集较大时运行时间长的问题,提出一种利用模糊欧氏距离的快速属性约简算法。定义模糊欧氏距离计算属性间距离;应用层次商空间结构构建约简粒层空间;以粒层空间聚类结果作为约简基础,实现样本集属性约简。仿真结果表明,该算法约简速度不受样本集样本数量限制,运算速度较快,能够在不删除样本的情况下实现数据的快速约简,约简后对数据集分类精度影响小,部分数据集分类精度有所提升,为大规模数据集约简提供了新的研究思路。  相似文献   

11.
动态数据流具有数据量大、变化快、随机存取代价高、详细数据难以存储等特点,挖掘动态数据流对计算能力与存储能力要求非常高。针对动态数据流的以上特点,设计了一种基于自助抽样的动态数据流贝叶斯分类算法,算法运用滑动窗口模型对动态数据流进行处理分析。该模型以每个窗口的数据为基本单位,对窗口内的数据进行处理分析;算法采用自助抽样技术对待分类数据中的属性进行裁剪和优化,解决了数据属性间的多重线性相关问题;算法结合贝叶斯算法的特点,采用动态增量存储树来解决动态样本数据流的存储问题,实现了无限动态数据流无信息失真的静态有限存储,解决了动态数据流挖掘最大的难题——数据存储;对优化的待分类数据使用all-贝叶斯分类器和k-贝叶斯分类器进行分类,结合数据流的特性对两个分类器进行实时更新。该算法有效克服了贝叶斯分类属性独立性的约束和传统贝叶斯只对静态数据分类的缺点,克服了动态数据流最大的难题——数据存储问题。通过实验测试证明,基于自助抽样的贝叶斯分类具有很高的时效性和精确性。  相似文献   

12.
基于贝叶斯粗糙集,引入贝叶斯区分矩阵,采用属性的出现频率与属性的长度作为启发因素,并以此给出了贝叶斯粗糙集属性约简的另外一种算法,最后提出了一种基于颜色特征的图像分类模型及其分类算法。用该方法进行图像资源的分类,克服了经典粗糙集不宜处理带有噪声的数据和决策表不协调的分类问题的缺陷,同时又大大简化分类规则,且形成的规则集便于用户理解。完善了近似空间的概念。实验结果表明在处理决策表不协调的图像分类问题,贝叶斯粗糙集方法性能良好,分类准确和高效。  相似文献   

13.
基于决策表的区分矩阵增量属性约简算法   总被引:1,自引:0,他引:1  
张长胜 《计算机工程与应用》2012,48(35):110-113,117
对于决策表中存在对象动态变化的现象,当利用静态的属性约简算法处理这类决策表时算法效率并不理想,为了有效提高增量属性约简算法的效率,对决策表进行了简化,并证明了基于简化区分矩阵的属性约简与基于区分矩阵的属性约简是一致的,在利用原的属性约简的基础上,提出了一种基于决策表的区分矩阵增量属性约简算法,通过实例分析说明算法的有效性和可行性。  相似文献   

14.
由于内存限制使得单机环境下的P2P流量识别方法只能对小规模数据集进行处理,并且基于朴素贝叶斯分类的识别方法所使用的属性特征均为人工选择,因此,识别率受到了限制并且缺乏客观性。基于以上问题分析提出了云计算环境下的朴素贝叶斯分类算法并改进了在云计算环境下属性约简算法,结合这两个算法实现了对加密P2P流量的细粒度识别。实验结果表明该方法可以高效处理大数据集网络流量,并且有很高的P2P流量识别率,同时结果也具备客观性。  相似文献   

15.
贝叶斯分类方法因具有严密的数学理论基础,于是成为一种简单而有效的数据挖掘方法;然而,贝叶斯分类器要求——条件独立性假设和每个属性权值为1,这极大降低了贝叶斯分类器的性能;针对贝叶斯分类器的局限性,文章提出了一种优化的贝叶斯分类算法;文中,首先利用粗糙集理论对待分类数据集进行属性约简,删除冗余属性;然后给出了属性权值的计算方法和公式,目的在于更准确地描述数据集的重要性和相关性;同时,通过weka3.6.2工具,以UCI机器学习数据库中的数据集为测试数据,进行了对比测试;实验结果表明:OBCA具有较高的分类准确率。  相似文献   

16.
基于正域的属性约简算法是利用"下近似"思想,仅考虑被正确区分样本数的约简算法。借鉴"上近似"的思想,利用"邻域信息粒"的概念定义了区分对象集,探讨了其基本性质,并提出了基于区分对象集的属性重要度度量及启发式属性约简算法。该约简算法既考虑信息决策表的相对正域,也考虑以核属性为启发信息逐个增加条件属性时对边界域样本的影响。通过实例分析,说明了所提算法的可行性,并且以6个UCI标准数据集为实验对象,与基于正域的属性约简算法进行对比实验。实验结果说明,采用提出的约简算法得到的约简属性集,与基于正域的属性约简算法相比,在进行分类任务时的分类精度能够保持不变或有所提高。  相似文献   

17.
基于贝叶斯粗糙集,引入全局增益,以此给出了贝叶斯粗糙集属性约简的另外一种算法,最后提出了一种基于颜色特征的图像分类模型及其分类算法。用该方法进行图像资源的分类,克服了经典粗糙集不宜处理带有噪声的数据和决策表不协调的分类问题的缺陷,同时又大大简化分类规则,且形成的规则集便于用户理解。  相似文献   

18.
针对决策粗糙集属性约简在引入代价后分类精度不高的问题,对其中代价敏感与分类精度的平衡进行了研究。将分类总代价和近似分类质量作为属性约简过程中的约束条件,结合模拟退火方法,提出了一个基于代价敏感和近似分类质量的决策粗糙集属性约简(ARACOQ)算法。利用UCI数据集对算法进行了模拟实验,实验结果验证了ARACOQ算法的有效性,该算法能够在可承受代价范围内找到一个分类精度最高的属性约简集。  相似文献   

19.
由于数据随时间和空间不断更新,很多基于粗糙集的增量方法被提出。然而,动态数据上基于模糊粗糙集的特征选取(也称属性约简)更新的研究较少,特别是连续型动态数据上的增量特征选取。为了解决这个问题,提出适用于连续型数据的基于模糊粗糙集的增量属性约简算法。首先提出模糊粗糙基本概念的增量机制,如模糊正域的增量机制。只有部分示例在已有属性约简上的辨识能力不足,即对于模糊正域来说,存在一个关键示例集。增量约简算法基于已有数据上的约简结果,仅需要更新关键示例集中的示例,而非全部的论域。因而该增量算法在动态数据上能快速获得约简的更新。通过数值对比实验可以看出,增量算法比非增量算法在运行时间上有明显的优势。特别是对于高维数据集,增量算法可以大大地节省计算时间。  相似文献   

20.
针对传统数据分类属性模型中存在的较为复杂且大数据分类效率低等问题,基于云计算环境,提出利用深度属性加权贝叶斯(deep attribute weighting Bayesian,AWB)算法结合改进差别信息树(differential information tree,DIT)的大数据高效分类方法.利用AWB算法构建大数据训练集的模糊知识库,提高大数据分类精度;采用改进DIT进行模糊粗糙集属性约简,以并行方式利用映射函数对信息进行分区,将洗牌算法融入模糊分类器的设计中,提高大数据分类效率;利用CloudSim仿真器在大型网络数据集对所提方法的性能进行实验论证.实验结果表明,所提方法提高了分类准确度,降低了计算时间,提高了计算效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号