共查询到20条相似文献,搜索用时 93 毫秒
1.
2.
基于相对熵的决策表连续属性离散化算法 总被引:3,自引:0,他引:3
该文提出了一种新的决策表连续属性离散化算法.首先使用相对熵来度量条件属性的重要性;;并据此对条件属性按照属性重要性从小到大排序;;然后按排序后的顺序;;考察每个条件属性的所有断点;;将冗余的断点去掉;;从而将条件属性离散化.该算法易于理解;;计算简单;;算法的时间复杂性为O(3kn2)。 相似文献
3.
在机器学习和数据挖掘领域,数值属性离散化是一个重要的研究课题.本文对现有的基于粗糙集理论的数值属性离散化算法进行了较深入的研究,客观地评价它们的优缺点.并在此基础上针对Naive Scaler数值属性离散化算法及其现有的改进算法的不足,提出了一种新的Naive Scaler算法的改进算法,最后通过算法示例验证了该算法的有效性和可行性. 相似文献
4.
使用信息论的方法进行连续属性的离散化,引入Hellinger偏差HD(Hellinger Divergence)作为每个区间对决策的信息量度量,从而定义切分点的信息熵,最终的离散化结果是使各区间的信息量尽可能平均,分析了HD度量在两种离散化方法中的作用,说明它在划分算法中运用比较理想,而在归并算法中则有局限。 相似文献
5.
6.
7.
数值属性的离散化对于事务的构成有重要的意义,本文给出了数值属性的总体描述,并针对网络性能数据的离散化设计了多种方法。 相似文献
8.
9.
为了解决数据挖掘和机器学习领域中连续属性离散化问题,提出一种改进的自适应离散粒子群优化算法。将连续属性的断点集合作为离散粒子群,通过粒子间的相互作用最小化断点子集,同时引入模拟退火算法作为局部搜索策略,提高了粒子群的多样性和寻找全局最优解的能力。利用粗糙集理论中决策属性对条件属性的依赖度来衡量决策表的一致性,从而达到连续属性离散化的目的,最后采用多组数据对此算法的性能进行了检验,并与其他算法做了对比实验,实验结果表明此算法是有效的。 相似文献
10.
为解决混合属性中数值属性与分类属性相似性度量的差异造成的聚类效果不佳问题,分析混合属性聚类相似性度量的问题,提出基于熵的混合属性聚类算法.引入熵离散化技术将数值属性离散化,仅使用二元化距离度量混合属性对象之间的相似性,在聚类过程中随机选取k个初始簇中心,将其它对象按照距离k个簇中心的最小距离划分到相应的簇中,选择每个簇... 相似文献
11.
目前粗糙集的研究局限于有限集,且现有的邻域粗糙集属性约简算法中属性重要性度量方式单一。针对邻域粗糙集存在的问题,提出了基于无限集的邻域近似条件熵模型。该模型以邻域近似条件熵下的属性重要度为启发条件,构造了一种基于邻域近似条件熵的前向贪心搜索属性约简算法。利用熵的单调性,证明了算法的正确性,并分析了算法的时间复杂度。通过实例分析和多个UCI数据集上的实验表明,所提出的算法是可行的,能有效减少属性数量,与现有的算法相比,不仅能够获得较小的属性约简结果,而且具有较好的分类性能。 相似文献
12.
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,节点划分属性选择的度量直接影响决策树分类的效果。基于粗糙集的属性频率函数方法度量属性重要性,并用于分枝划分属性的选择和决策树的预剪枝,提出一种决策树学习算法。同时,为了能处理数值型属性,利用数据集的统计性质为启发式知识,提出了一种改进的数值型属性信息熵离散化算法。实验结果表明,新的离散化方法计算效率有明显提高,新的决策树算法与基于信息熵的决策树算法相比较,结构简单,且能有效提高分类效果。 相似文献
13.
从一种扩展的信息观的角度出发,讨论了Rough集理论的信息论观点。提出了一种基于扩展的信息熵的决策表核属性计算算法.并设计了以属性重要性为启发信息的自下而上的决策表属性约简算法EIEAAR。同时针对不一致表,将属性对不相客对象的包含值作为第二标准选择属性以加快约简速度。EIEAAR算法能处理一致和不一致决策表,并将核属性计算和非核属性约简统一起来。最后,对算法进行复杂度分析并用实例验证算法的有效性。实验表明该算法能有效得到决策表的最小约简。 相似文献
14.
针对现有邻域粗糙集模型中存在属性权重都相同,无法保证关键属性在属性约简时能够被保留的问题,提出了一种基于信息熵加权的属性约简算法。首先,采用了类间熵、类内熵策略,以最大化类间熵最小化类内熵为原则给属性赋予权重;其次,构造了基于加权邻域关系的加权邻域粗糙集模型;最后,基于依赖关系评估属性子集的重要性,从而实现属性约简。在基于UCI数据集上与其他三种属性约简算法进行对比实验,结果表明,该算法能够有效去除冗余,提高分类精度。 相似文献
15.
在系统熵的基础上,定义了一种新的属性重要度并提出了一种基于改进系统熵的粗糙集属性约简算法,实验分析表明,该属性重要度为启发式信息进行的属性约简,取得了理想效果。 相似文献
16.
为了克服传统KNN算法,距离加权-KNN算法在距离定义及投票方式上的不足,提出了一种基于属性值对类别重要性的改进算法Entropy-KNN。首先定义两个样本间的距离为相同属性值的平均信息熵,此距离可通过重要属性值有效度量样本之间的相似程度,其次算法Entropy-KNN根据上述定义的距离选取与待测试样本距离最小的K个近邻,最后根据各类近邻样本点的平均距离及个数判断待测试样本的类别。在蘑菇数据集上的实验表明,Entropy-KNN算法的分类准确率高于传统KNN算法和距离加权KNN算法。 相似文献
17.
在已有的相对属性约简算法中,差别矩阵方法是一种设计属性约简的常用方法。基于系统熵的属性约简是一种新型的属性约简,对于这种属性约简,目前还没有差别矩阵方法去设计其属性约简算法。为此,首先构造了一种新的差别矩阵,同时给出了该差别矩阵的属性约简定义,然后证明了基于新差别矩阵的属性约简与基于系统熵的属性约简是等价的。最后用新差别矩阵设计了一个基于系统熵属性算法,并用实例说明了新算法。 相似文献
18.
19.
针对证据推理方法框架下属性权重难以获取的问题,提出一种基于改进模糊熵和证据推理的多属性决策方法。首先,定义证据推理信度决策矩阵框架下的三角函数模糊熵公式,并证明了其满足熵的四个公理化定义。其次,所提方法能够同时处理属性权重完全未知和属性权重信息部分已知两种情况:当属性权重完全未知时,基于信度框架下的改进模糊熵和熵权法的基本思想计算属性权重;当属性权重信息部分已知时,定义加权模糊熵,建立期望模糊熵最小的线性规划模型求解最优属性权重。最后,利用证据推理算法融合方案属性值,结合期望效用理论得到方案排序结果。通过实例计算,并与传统模糊熵计算方法进行比较分析,验证了所提方法能够更加充分地反映原始决策信息,更具客观性和一般性。 相似文献
20.
针对基于正域的属性约简算法在约简过程中存在重复计算属性相对重要度从而导致算法效率低的问题,从属性度量和搜索策略的角度提出基于知识粗糙熵的快速属性约简算法。首先,在决策信息系统中通过引入知识距离提出知识粗糙熵以度量知识的粗糙程度;其次,利用知识粗糙熵作为属性显著度的评价标准来评估单个属性的重要程度;最后,利用属性重要度对所有条件属性进行排序,且通过属性依赖度删除冗余属性,从而实现快速约简。在六个公开数据集上将所提算法与其他三种算法在运行效率和分类精度上进行对比实验。结果表明,该算法的运行效率比其他三种算法分别提高了83.24%、28.77%和59.92%;在三种分类器中,分类精度分别平均提高了0.83%、0.63%和1.37%。因此,所提算法在保证分类性能的同时,能以更快的速度获得约简。 相似文献