首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
属性约简是粗糙集理论重要研究内容之一,基于可分辨矩阵的属性约简方法需占用大量存储空间,不利于大数据集的处理.为此,引入差别集定义和基于差别集属性约简定义,并指出基于差别集属性约简本质上是在当前差别集中不断寻求关键属性的过程,并给出删除单个条件属性和删除条件属性集两种获取关键属性的属性约简方法,同时证明了这两种属性约简方法是正确的、完备的;进一步,为了获得最小属性约简,采用两个启发式信息来筛选关键属性;在上述基础上,设计基于差别集的启发式属性约简算法.最后,通过实例和实验验证了该算法的有效性和高效性.  相似文献   

2.
针对粗糙集理论中传统的基于正域的属性约简算法和基于信息熵的属性约简算法无法得到最小约简集的问题,给出基于信息熵改进的属性约简算法,即先使用条件熵识别出重要度值最大的属性,使用正域进行约简判断。在此基础上,设计了高效的基于MapReduce的信息熵改进属性约简算法。以真实海量气象数据为基础,在Hadoop集群上实现上述算法,验证了该算法的有效性和效率。  相似文献   

3.
约简是粗集理论的重要概念,由定义计算约简是一个典型的NP问题且由于约简的不唯一,在面对大数据集或高维数据集问题时获得的属性集往往并非是最小的属性约简集。文中针对Rough sets理论的属性约简进行了研究。研究了通过可辨识矩阵求得属性约简集,利用Rough sets与灰色理论相结合,提出一种属性约简的启发式算法,拟合结果表明本约简算法合有效。  相似文献   

4.
提出一种基于粗糙集描述理论与灰理论的故障诊断属性约简方法,将用粗糙集描述理论算法进行故障诊断条件属性约简的结果,依据灰色关联度算法计算灰关联系数,进一步确定约简集中条件属性间的重要性,求取最佳属性约简集.在柴油机燃油系故障诊断系统,获取了最佳属性约简集,系统运行测试获得好的故障诊断结果.  相似文献   

5.
约简是粗集理论的重要概念,由定义计算约简是一个典型的NP问题且由于约简的不唯一,在面对大数据集或高维数据集问题时获得的属性集往往并非是最小的属性约简集.文中针对Rough sets理论的属性约简进行了研究.研究了通过可辨识矩阵求得属性约简集,利用Rough sets与灰色理论相结合,提出一种属性约简的启发式算法,拟合结果表明本约简算法合有效.  相似文献   

6.
基于粒度计算的特征选择方法   总被引:1,自引:0,他引:1  
从粒度计算的划分模型出发,重新定义了相容决策表的约简,并给出了一种新的基于粒度计算的属性约简算法.该算法以信息熵作为启发信息,通过逐渐增加属性构成条件属性集相对于决策属性的约简,再通过删除约简中的所有不必要属性,得到最小约简.该算法有效地降低了计算属性约简的时间复杂度,可以用于较大规模数据集的特征选择.在5个公开的基因表达数据集上的实验证明了该算法能找到高区分能力的特征子集.  相似文献   

7.
基于层次聚类的差异化属性约简算法   总被引:1,自引:0,他引:1  
属性约简是粗糙集用于数据分析的一个重要概念,提出了一个计算差异化属性约简的算法。利用自底向上的聚合层次聚类方法对决策表的条件属性集进行聚类,得到条件属性集的k个划分,然后对这k个属性子集进行后处理操作而得到k个有较大差异的约简属性集。实验结果表明了算法的有效性。  相似文献   

8.
求核和属性约简是粗糙集理论研究的一个核心问题。文中主要针对现有的一些决策表属性约简算法存在的不足,尤其是基于信息熵的属性约简算法在较大数据集上效率不高的问题提出改进。主要通过结合粗糙集的相关理论来改进原有的属性约简算法在求核中的约束条件,进而在原有算法的基础上提出了一种改进算法。在求约简属性集时,利用新提出的约简算法,使计算复杂度降低,同时保持了高效的决策准确率。实验结果表明改进后的决策表属性约简方法能够更加快速有效地找到约简集。  相似文献   

9.
为在决策表中获得更好的属性约简组合,从信息论角度分析,在基于区分矩阵的基础上,提出一种改进的以条件熵作启发信息的约简算法。同时考虑条件属性相对于决策属性的条件信息熵以及属性值的分布情况,用它们的比作为启发因子,重新给出一种度量属性重要度的依据,得到属性约简集。实验结果表明,该算法能够有效约简属性集,使约简结果获得最简决策规则组合。  相似文献   

10.
基于系统熵的属性约简的简化差别矩阵方法*   总被引:2,自引:0,他引:2  
基于系统熵的属性约简是一种新型的属性约简。该模型由于同时考虑了条件属性集和决策属性集对决策表的分类能力,它是一种考虑较周全的属性约简模型。为设计高效的属性约简算法,首先引入简化差别矩阵, 同时给出了基于该简化差别矩阵的属性约简定义,并证明该定义与基于系统熵的属性约简定义等价;然后用简化差别矩阵设计了一个基于系统熵的完备属性约简算法;最后用实例说明了新算法。  相似文献   

11.
以分类为基础提出一种基于条件熵的决策表属性约简算法。通过条件熵的计算在属性约简的同时将原决策表逐层分解成相对于决策属性来说尽量均匀的子决策表,从而缩小了数据规模;随后对算法的时间复杂度进行了分析;实验表明,该算法在效率方面优于传统算法。  相似文献   

12.
利用覆盖算法对数据进行处理,得到论域U的一个划分,定义一种基于覆盖的条件信息熵,由新的条件信息熵定义新的属性重要性,并证明了对于一致决策表,它与代数定义下的重要性是等价的。以新的属性重要性为启发信息设计约简算法,并给出计算新的条件信息熵的算法。实验结果表明该约简算法能快速搜索到最优或次优约简。  相似文献   

13.
本文以分类为基础提出了一种基于条件熵的决策表属性并行约简算法。该算法通过条件熵的计算在属性约简的同时将原决策表逐层分解为相对于决策属性来说尽量均匀的子决策表,从而实现了属性约简的并行计算。本文随后对该算法的时间复杂度进行了分析,实验表明,该算法在效率方面优于传统算法。  相似文献   

14.
在粗糙集不确定性度量公式中,模糊熵和模糊度是重要的度量方式。根据粗糙集不确定性度量中模糊熵和新的模糊度公式,提出了在决策信息系统中修正条件信息熵和相对模糊熵的概念,并分别用两种方式证明了熵在属性约简过程中的单调性。然后利用向前添加属性算法进行属性约简,约简结果在RIDAS(roughset based intelligent data analysis system)平台上进行识别率测试,通过实验对比分析了两种新的信息熵与条件信息熵的约简结果,为基于信息熵的属性约简提供了参考。  相似文献   

15.
Rough set theory is a useful mathematic tool for dealing with vague and uncertain information. Shannon's entropy and its variants have been applied to measure uncertainty in rough set theory from the viewpoint of information theory. However, few studies have been carried out on information-theoretical measure of attribute importance in incomplete decision system (IDS) considering the relation between decision attribute and condition attributes. In this paper, we introduce the concept of conditional entropy together with entropy and joint entropy in IDSs. By using the new conditional entropy, we propose a measure for attribute importance. Based on the measure, a heuristic attribute reduction algorithm is presented. Some test experiments on real-lift data-sets show the effectiveness of the algorithm. The attribute importance measure and the attribute reduction algorithm can be used in data mining or machine learning for handling incomplete data.  相似文献   

16.
基于新的条件熵的决策表约简方法   总被引:2,自引:0,他引:2  
分析了在知识约简过程中现有条件熵的不足,在一致和不一致对象分开的基础上,定义了一种新的条件熵概念,以弥补现有信息熵的不足,在此基础上给出了以不等式为条件的约简判定定理;然后以条件属性子集的条件熵来度量其对决策分类的重要性,提出了一种新的知识约简启发式方法.应用实例分析的结果表明,基于新的条件熵的属性重要性是一种更准确、更有效的启发式信息,该方法时间复杂度较低,有助于搜索最小或次优知识约简.  相似文献   

17.
目前粗糙集的研究局限于有限集,且现有的邻域粗糙集属性约简算法中属性重要性度量方式单一。针对邻域粗糙集存在的问题,提出了基于无限集的邻域近似条件熵模型。该模型以邻域近似条件熵下的属性重要度为启发条件,构造了一种基于邻域近似条件熵的前向贪心搜索属性约简算法。利用熵的单调性,证明了算法的正确性,并分析了算法的时间复杂度。通过实例分析和多个UCI数据集上的实验表明,所提出的算法是可行的,能有效减少属性数量,与现有的算法相比,不仅能够获得较小的属性约简结果,而且具有较好的分类性能。  相似文献   

18.
不完备信息系统中的属性约简是粗集理论应用的难点。通过引入信息熵和条件信息熵,对信息系统中属性的必要性进行了定义,提出了一种基于条件信息熵的属性约简启发式算法。通过引入相对正域,有效地解决了不一致系统属性约简过程中产生的冗余属性问题,并分析了该算法的时间复杂度。最后,通过实例说明该算法能得到不完备决策表的最小相对约简。  相似文献   

19.
一种粗糙集属性约简算法   总被引:15,自引:5,他引:15  
该文针对RoughSet理论的属性约简进行了研究。利用RoughSet和信息论的相关知识,研究了通过可辨识矩阵求得属性约简集,并利用条件熵来计算属性约简集中属性间的相关性,其平均值最小的属性集即为求得的最佳属性约简的结果。实验证明,它可以取得比较理想的效果。最后利用该文的方法给出了对UCI机器学习数据库的例子的约简结果。  相似文献   

20.
一种基于新的条件信息熵的高效知识约简算法   总被引:16,自引:1,他引:15  
分析了在知识约简过程中现有条件信息熵的不足,给出一种新的条件信息熵,由此定义新的属性重要性.将其与基于正区域和基于现有条件信息熵的属性重要性进行比较,结果表明新的属性重要性是一种更准确、更全面的启发信息.以新的属性重要性为启发信息设计约简算法,并给出计算新的条件信息熵的高效算法.理论分析和实验结果表明,与基于现有条件信息熵的约简算法相比,该约简算法时间复杂度较低,且在搜索最小或次优约简方面更优.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号