首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 76 毫秒
1.
连续属性离散化是知识系统中的一个重要环节,一个好的离散化方法能够简化知识的描述和便于对知识系统的处理。而求取连续属性值的最优断点集合是一个NP难题。提出一种连续属性模糊离散化的Norm-FD方法:根据正态分布特点采用正态离散化算法(Norm-D算法),使其离散结果达到需要离散区间数,根据属性值和与其相邻的区间关系将具体属性值用F-Inter算法转化为用隶属度、分区号和偏向系数三个参数表示。  相似文献   

2.
焦冬艳  于津  张华 《现代计算机》2011,(Z1):20-22,28
连续属性离散化是知识系统中的一个重要环节,一个好的离散化方法能够简化知识的描述和便于对知识系统的处理。而求取连续属性值的最优断点集合是一个NP难题。提出一种连续属性模糊离散化的Norm-FD方法:根据正态分布特点采用正态离散化算法(Norm-D算法),使其离散结果达到需要离散区间数,根据属性值和与其相邻的区间关系将具体属性值用F-Inter算法转化为用隶属度、分区号和偏向系数三个参数表示。  相似文献   

3.
数据预处理是提高挖掘过程精度和性能的关键。文章在分析决策树算法和滑坡数据属性值特点基础上,利用聚类将连续属性值划分区间,提出了一种针对滑坡数据连续属性值离散化的方法,通过实验,新方法构造的决策树比原算法的分类正确率高,规则冗余少。  相似文献   

4.
徐盈盈  钟才明 《计算机应用》2014,34(8):2184-2187
模式识别与机器学习的一些算法只能处理离散属性值,而在现实生活中的很多数据具有连续的属性值,针对数据离散化的问题提出了一种无监督的方法。首先,使用K-means方法将数据集进行划分得到类别信息;然后,应用有监督的离散化方法对划分后的数据离散化,重复上述过程以得到多个离散化的结果,再将这些结果进行集成;最后,将集成得到的最小子区间进行合并,这里根据数据间的邻居关系选择优先合并的维度及相邻区间。其中,通过数据间的近邻关系自动寻求子区间数目,尽可能保持其内在结构关系不变。将离散后的数据应用于聚类算法,如谱聚类算法,并对聚类后的效果进行评价。实验结果表明,该算法聚类精确度比其他4种方法平均提高约33%,表明了该算法的可行性和有效性。通过该算法得到的离散化数据可应用于一些数据挖掘算法,如ID3决策树算法。  相似文献   

5.
针对机器学习领域的一些分类算法不能处理连续属性的问题,提出一种基于词出现和信息增益相结合的多区间连续属性离散化方法.该算法定义了一个离散化过程,离散化了采用传统信息检索的加权技术生成的非二值特征词空间,然后判断原特征空间中每个特征词属于或不属于某给定子区间,将问题转换成二值表示方式,以使得这些分类算法适用于连续属性值.实验结果表明,该算法离散过程简单高效,预测精度高,可理解性强.  相似文献   

6.
基于改进遗传算法的连续属性离散化方法   总被引:1,自引:0,他引:1  
粗糙集中的离散化要求在保持原有决策系统的不可分辩关系情况下,用尽量少的断点进行离散化,而求取连续属性值的最优断点集合是一个NP难题.把连续属性值离散化问题作为一种约束优化问题,采用一种改进的遗传算法来获得最优解,并针对离散化问题设计了相应的编码方式和交叉方法.实验结果表明,采用改进的遗传算法求解连续属性值最优断点集合是可行的.  相似文献   

7.
针对现有判定树算法在处理空缺值和连续值以及知识表达上不精确性和复杂性问题,提出基于云变换和Rough扩展模型的判定树构造算法。该算法利用云变换来离散化连续属性,然后根据概念集,采用极大判定法对每个数值型属性的原始属性值进行软划分,从而得到离散属性值。最后利用特性关系下的加权平均粗糙度来选取当前结点的分裂属性来递归生成判定树。与C5.0算法相比,新算法可妥善处理空缺值、合理离散连续属性。试验结果表明,该算法具有良好的实用性。  相似文献   

8.
为解决经典粗糙集理论在处理连续、离散混合属性决策表离散化时规则数多、准确率低的问题,采用基于贪心算法和属性值区间概率相结合的离散化方法,该方法针对传统的对混合决策表仅考虑连续属性离散化的问题。首先运用改进的贪心算法对混合决策表中的连续属性进行初步离散化,然后计算连续属性各属性值区间概率,并对取值概率大的区间细化,最后再考虑对原来的离散属性进一步离散化,从而增强系统分辨能力;且离散化后的决策表总是相容的,与目前很多离散方法不考虑决策相容性相比,该方法能够最大限度地保留系统的有用信息。通过仿真分析验证了该方法的有效性。  相似文献   

9.
一种基于粗糙2模糊集集成模型的决策分析方法   总被引:14,自引:0,他引:14       下载免费PDF全文
针对信息系统为连续属性的情况,提出一种将粗糙集与模糊集相结合来获取决策规则的方法,这种基于粗糙—模糊集集成模型求取决策规则的方法通过一个模糊隶属函数将连续属性值表示成模糊值,从而避免了连续属性的离散化问题,同时给出了连续属性值转换成模糊值的表示形式,提出了模糊相似关系和模糊相似类的概念,给出了粗糙—模糊近似空间的下、上近似及其性质以及模糊相似关系下属性约简的方法,最后以自修复飞行控制系统的效能评估为例,给出了自修复效能评估的决策规则。  相似文献   

10.
连续属性离散化作为水产品安全信息系统中进行智能化数据处理的一个重要研究内容,已然成为水产品安全信息化研究领域的一个热点和难点。文中利用基于粗糙集理论相对熵的连续属性离散化方法来解决这个问题。此方法选用候选区间的类信息熵作为离散门限值边界,并且通过考察每个属性值的分类能力,合并离散区间,去掉冗余断点,确定关键离散属性值,最终在水产品安全信息系统中实现连续属性离散化。实例分析表明算法是有效可行的。  相似文献   

11.
基于信息熵的粗糙集连续属性离散化算法   总被引:60,自引:0,他引:60  
谢宏  程浩忠  牛东晓 《计算机学报》2005,28(9):1570-1574
该文提出了一种新的粗糙集连续属性离散化算法.首先对每一个候选断点定义了信息熵,以此作为对断点重要性的量度,在此基础上给出了断点选择的粗糙集连续属性离散化算法.最后采用多组数据对此算法的性能进行了检验,并与其它算法做了对比实验.实验结果表明此算法是有效的,而且当候选断点个数增多时仍有很高的计算效率.  相似文献   

12.
A discretization algorithm based on a heterogeneity criterion   总被引:5,自引:0,他引:5  
Discretization, as a preprocessing step for data mining, is a process of converting the continuous attributes of a data set into discrete ones so that they can be treated as the nominal features by machine learning algorithms. Those various discretization methods, that use entropy-based criteria, form a large class of algorithm. However, as a measure of class homogeneity, entropy cannot always accurately reflect the degree of class homogeneity of an interval. Therefore, in this paper, we propose a new measure of class heterogeneity of intervals from the viewpoint of class probability itself. Based on the definition of heterogeneity, we present a new criterion to evaluate a discretization scheme and analyze its property theoretically. Also, a heuristic method is proposed to find the approximate optimal discretization scheme. Finally, our method is compared, in terms of predictive error rate and tree size, with Ent-MDLC, a representative entropy-based discretization method well-known for its good performance. Our method is shown to produce better results than those of Ent-MDLC, although the improvement is not significant. It can be a good alternative to entropy-based discretization methods.  相似文献   

13.
IDD: A Supervised Interval Distance-Based Method for Discretization   总被引:1,自引:0,他引:1  
This article introduces a new method for supervised discretization based on interval distances by using a novel concept of neighbourhood in the target's space. The method proposed takes into consideration the order of the class attribute, when this exists, so that it can be used with ordinal discrete classes as well as continuous classes, in the case of regression problems. The method has proved to be very efficient in terms of accuracy and faster than the most commonly supervised discretization methods used in the literature. It is illustrated through several examples and a comparison with other standard discretization methods is performed for three public data sets by using two different learning tasks: a decision tree algorithm and SVM for regression.  相似文献   

14.
一种改进的CAIM算法   总被引:1,自引:0,他引:1       下载免费PDF全文
在CAIM算法中,离散判别式仅考虑了区间中最多的类与属性间的依赖度,使离散化过度而导致结果不精确。基于此,提出对CAIM的改进算法,该算法考虑到按属性重要性从小到大顺序进行离散,同时根据粗糙集理论提出条件属性可分辨率概念,与近似精度同时控制信息表最终的离散程度,有效解决了离散化过度问题。实验通过C4.5和支持向量机分别对离散化后的数据进行识别和分类预测,结果证明了该算法的有效性。  相似文献   

15.
提出了一种基于多目标模糊线性规划法解决飞机排班问题的新算法。该算法将模糊理论与最优化概念相结合,根据最大隶属度原则,将以飞机飞行时间均衡优先、飞机起降次数均衡优先、飞机等待时间最少优先为目标函数的多目标模糊线性规划数学模型转化为一般的线性规划问题进行求解。实验数据表明,该算法可行、有效,步骤简捷,计算量小,能得到理想的结果。  相似文献   

16.
目前基于Rough集的离散化算法很难做到高效率和高识别率兼顾,针对粗糙集给出了基于逐级均值聚类的信息熵的离散化算法。首先使用改进的逐级均值聚类算法分别对单个属性的候选断点按其信息熵值进行聚类分析,生成新的规模更小的候选断点集,然后用基于信息熵的离散化算法完成断点的选取并对连续值属性进行离散化。实验结果表明,该方法在识别率相当的情况下比传统的离散化方法的时间代价更低。  相似文献   

17.

讨论了10 个区间数排序的可能度公式, 分析了它们各自的特点. 从可能度的含义和保序性两个角度指出, 基于可能度矩阵的区间数排序方法有时会导出不合理的排序结果. 通过分析可能度矩阵与模糊判断矩阵的关系, 剖 析了导致这种不合理排序结果的原因. 最后, 利用可能度矩阵构造一个布尔矩阵, 基于布尔矩阵给出一个改进的区间 数排序算法, 并从理论上证明了所提出的排序方法的科学性.

  相似文献   

18.
CAIM discretization algorithm   总被引:8,自引:0,他引:8  
The task of extracting knowledge from databases is quite often performed by machine learning algorithms. The majority of these algorithms can be applied only to data described by discrete numerical or nominal attributes (features). In the case of continuous attributes, there is a need for a discretization algorithm that transforms continuous attributes into discrete ones. We describe such an algorithm, called CAIM (class-attribute interdependence maximization), which is designed to work with supervised data. The goal of the CAIM algorithm is to maximize the class-attribute interdependence and to generate a (possibly) minimal number of discrete intervals. The algorithm does not require the user to predefine the number of intervals, as opposed to some other discretization algorithms. The tests performed using CAIM and six other state-of-the-art discretization algorithms show that discrete attributes generated by the CAIM algorithm almost always have the lowest number of intervals and the highest class-attribute interdependency. Two machine learning algorithms, the CLIP4 rule algorithm and the decision tree algorithm, are used to generate classification rules from data discretized by CAIM. For both the CLIP4 and decision tree algorithms, the accuracy of the generated rules is higher and the number of the rules is lower for data discretized using the CAIM algorithm when compared to data discretized using six other discretization algorithms. The highest classification accuracy was achieved for data sets discretized with the CAIM algorithm, as compared with the other six algorithms.  相似文献   

19.
模糊多属性决策的相似接近度解法   总被引:19,自引:0,他引:19  
吕大刚  王力  张鹏  王光远 《控制与决策》2004,19(11):1282-1285
首先对模糊集合的3种接近度测度,即海明距离、模糊贴近度和灰色关联度进行讨论,在此基础上提出了相似接近度的概念,运用模糊满意度的概念建立了模糊多属性决策的数学模型,其次将相似接近度的概念应用于该模型,提出了该模型的一个新的解法;最后通过数值算例表明,该方法不但十分有效,而且物理意义和数学意义明确,模糊贴近度、灰色关联度和相对接近度解法都是该方法的特例.  相似文献   

20.
针对属性权重为实数而属性值为区间数的多属性决策问题,提出了一种基于满意度的多属性决策方法。本文借鉴连续有序加权平均算子中的满意度、区间数的可能度和集对分析联系数的相关知识,将区间数满意度和同异反三元联系数满意度引入了决策信息不确定性消除问题,接着利用OWA算子对满意度信息进行集结并对方案进行排序。最后进行对比实验,实验结果表明了该方法的有效性和可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号