共查询到20条相似文献,搜索用时 168 毫秒
1.
李丹 《计算机工程与应用》2017,53(19):168-172
随着网络和通信技术的快速的发展,社会进入了大数据时代。如何能够快速地从海量大数据中找到属性约简是目前研究的一个热点。由于传统属性约简的方法在计算大数据属性约简时,需要消耗巨大的计算时间,不能有效地处理日益积累的大数据属性约简的问题。为了提高传统属性约简算法的效率,针对较大决策信息系统属性约简更新问题,利用多粒度粗糙集理论,提出了基于多粒度粗糙集模型的矩阵属性约简算法,通过2组UCI数据集对所提出的多粒度矩阵属性约简算法的性能进行测试,结果验证了该多粒度矩阵属性约简算法是合理且有效的。 相似文献
2.
传统的属性约简算法不能适用于动态变化的信息系统。为了对属性集不断动态增加的信息系统进行更高效的属性约简,基于粒计算模型中知识粒化的视角,提出一种知识粒度的增量式属性约简算法。在信息系统中引入知识粒度度量的概念,当信息系统属性集增加时,研究了知识粒度的增量式更新方法,理论分析了这种更新方法的高效性,根据知识粒度的增量式更新提出一种增量式属性约简算法。仿真实验结果表明该算法具有较高的属性约简性能。 相似文献
3.
4.
5.
6.
7.
约简是粗集理论的重要概念,由定义计算约简是一个典型的NP问题且由于约简的不唯一,在面对大数据集或高维数据集问题时获得的属性集往往并非是最小的属性约简集.文中针对Rough sets理论的属性约简进行了研究.研究了通过可辨识矩阵求得属性约简集,利用Rough sets与灰色理论相结合,提出一种属性约简的启发式算法,拟合结果表明本约简算法合有效. 相似文献
8.
属性约简是粗糙集理论中的研究热点,对连续值数据进行属性约简的算法大多基于优势关系或邻域关系。然而连续值数据集的属性不一定具有优势关系;而基于邻域关系的属性约简算法虽然可以通过邻域半径调整粒化程度,不过由于各属性量纲不同且半径参数为连续值使半径难以统一,导致整个参数粒化过程计算量较大。为解决此问题,提出一种基于聚类粒化的多粒度属性约简策略。首先,利用聚类方法将相似样本归类,并提出了基于聚类的近似集、相对正域及正域约简概念;其次,根据JS(Jensen-Shannon)散度理论对簇间各属性数据分布进行差异性度量,并选择出具有代表性的特征用以区分不同类簇;最后,利用可辨识矩阵设计了属性约简算法。所提算法不要求属性具有序关系,且不同于邻域半径,聚类参数为离散值,调节此参数就能够对数据集形成不同粒化程度的划分。在UCI与Kent Ridge数据集上进行的实验结果表明,该属性约简算法可以直接处理连续值数据,且该算法在较小范围内离散地调节聚类参数便能在保持甚至提高分类精度的前提下去除数据集中的冗余特征。 相似文献
9.
一种新的启发式粗集决策表属性约简算法 总被引:1,自引:1,他引:0
粗集理论通过对原始决策表的约简从而获取规则知识,其核心部分是属性约简.经过约简后的数据更有价值,更能准确地获取知识.文中提出了一种新的启发式属性约简算法,并给出了算法的详细步骤和具体的实验示例.该算法通过不一致计数和互信息增量的计算来衡量属性的重要性,避免了对属性之间随机组合情况的搜索,可以提高求解速度.实验结果表明,相比较于动态约简算法和标准遗传算法,所提出的算法获得的约简属性集更加简洁和高效. 相似文献
10.
针对高维数据集的属性约简问题,通过改变经典粒子群算法的运动方程,并用属性依赖性和属性子集特征数构造适应度函数,提出以决策表核属性为基础的最小属性子集搜寻策略。实验结果表明,与其他类型的最小属性约简算法相比,该算法不仅能有效提高获得最小属性约简的机率,同时还大大降低了计算时间。 相似文献
11.
为了获得决策表中更好的属性约简,提出一种信息增益引导的蜂群优化算法;该算法以属性的信息熵为基础构造条件属性与决策属性间的互信息,用待选条件属性引起的信息增益作为引导蜜蜂搜索的启发信息,最终求得属性约简集;对UCI数据库多个数据集的测试结果表明,与其它基于群智能的属性约简算法相比,该算法获得最小属性约简的机率提高到90%以上,同时较对比算法的计算时间少耗费至少10%。 相似文献
12.
一种基于粗糙集理论的规则提取方法 总被引:3,自引:1,他引:2
规则提取是实现智能信息系统的重要环节,也是一个难点。针对信息系统中的规则提取问题,提出了一种基于粗糙集的研究方法,并对规则提取涉及到的属性约简、属性值约简等问题进行了研究。根据粗糙集中的不可分辨关系建立了可辫识向量,以利用可辨识向量的加法法则运算求得核属性以及属性重要性,然后以核属性为基础、属性重要性为启发信息,求得信息表的一个属性约简。在此基础上,利用条件属性与决策属性之间的对应关系,对信息表中的每条规则通过删除冗余属性值来完成信息表的属性值约简,最终实现规则提取。数值实例和试验表明本算法是有效、可行的。 相似文献
13.
14.
一种连续值属性约简方法ReCA 总被引:1,自引:1,他引:0
属性约简是Rough集理论的主要应用和研究内容之一.现有的各种属性约简方法大多适用于离散值属性.对于连续值属性的数据处理,通常做法是先对其进行离散化.这种先期对数据进行的处理会丢失一些信息,易于使约简产生错误.针对连续值信息系统,提出了一种新的属性约简方法ReCA,该方法将连续值属性离散化与属性约简过程融为一体,以基于信息熵的不确定性度量作为适应度函数。通过进化计算同时得到约简属性集合和离散化的断点集合.实验表明,该方法不仅可以有效地进行属性约简,而且与Rough集及C4.5两种方法相比,得到的属性数目少、测试精度较高. 相似文献
15.
16.
经典属性约简及其延伸算法是基于有决策属性的信息系统的属性约简算法,它们对无决策属性的信息系统的属性约简无能为力.为此,本文以粗集理论为基础,对无决策属性的信息系统从集合论的论域划分方面进行研究,提出了一种适用于无决策属性的信息系统的启发式属性约简算法.该算法在一定程度上能够解决无决策属性的信息系统属性约简问题,进一步扩展了粗集理论的应用范围.实例表明该算法是有效可行的. 相似文献
17.
基于集值决策属性的集值信息系统 总被引:3,自引:0,他引:3
定义了决策属性也是集合子集的集值决策信息系统,给出了基于集值决策属性的协调集值决策信息系统的定义,得到了协调集值决策信息系统属性约简的判定定理和辨识矩阵,并讨论了在属性约简中起不同作用的属性分类及其特征。定义了不协调集值决策信息系统的分配协调集,给出了基于集值决策属性的不协调集值决策信息系统属性约简的方法。 相似文献
18.
19.
一种基于Rough集理论的属性约简启发式算法 总被引:9,自引:1,他引:9
属性约简是知识发现中的关键问题之一.为了能够有效地获取决策表中属性的最小相对约简,在Rough集理论的基础上构造了一个新的算子,将信息论角度定义的属性的重要性作为启发式信息,来描述在决策表中条件属性所提供的知识对决策属性的影响;并采用宽度优先搜索策略,提出了一种新的属性约简启发式算法.以原始条件属性集为起点并结合算子,通过向属性核的递减式逼近,得到属性的最小相对约简.实例分析表明,该算法能有效地对决策表属性进行约简. 相似文献
20.
一种基于属性重要性的启发式约简算法 总被引:2,自引:0,他引:2
属性约简是知识发现中的关键问题之一.为了能够有效地获取决策表中条件属性集的最小相对约简,本文首先利用代数方法描述决策表中的属性的重要性,提出了限制正域的概念,得到了关于限制正域的若干结果,并据此提出一种改进的属性约简算法,即以属性核为起点并结合算子,通过向属性核不断添加重要程度最大的属性,并利用已求得的正区域和限制正域使处理数据的范围不断缩小从而减少求约简的时间. 该算法能够节省得到决策表的最小约简的时间并能得到所有相对约简.实例分析也验证了该算法的有效性. 相似文献