首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
袁钟  冯山 《计算机应用》2018,38(7):1905-1909
针对离群点检测中传统距离法不能有效处理符号型属性和经典粗糙集方法不能有效处理数值型属性的问题,利用邻域粗糙集的粒化特征提出了改进的邻域值差异度量(NVDM)方法进行离群点检测。首先,将属性取值归一化并以混合欧氏重叠度量(HEOM)和具有自适应特征的邻域半径构建邻域信息系统(NIS);其次,以NVDM构造对象的邻域离群因子(NOF);最后,设计并实现了基于邻域值差异度量的离群点检测(NVDMOD)算法,该算法在计算单属性邻域覆盖(SANC)的方式上充分利用有序二分和近邻搜索思想改进了传统的无序逐一计算模式。在UCI标准数据集上与现有离群点检测算法——邻域离群点检测(NED)算法、基于距离的离群点检测(DIS)算法和K最近邻(KNN)算法进行了实验对比、分析。实验结果表明,NVDMOD算法具有更好的适应性和有效性,为混合型属性数据集的离群点检测提供了一条更有效的新途径。  相似文献   

2.
胡云  潘祝山  施珺 《计算机工程》2011,37(21):38-39,42
针对传统离群点检测过程中属性多、维度大等问题,结合粗糙集理论,提出一种基于近邻关系的离群约简搜索算法。利用属性约简技术解决对象不相容的问题,并有效缩减离群搜索的属性空间。计算任意点与其他所有点间的距离和,通过计算基于近邻的加权离群因子来判定离群点,并在通用数据集上进行测试。实验结果表明,该离群检测算法的搜索精度较高。  相似文献   

3.
针对离群点检测算法LOF在高维离散分布数据集中检测精度较低及参数敏感性较高的问题,提出了基于邻域系统密度差异度量的离群点检测NSD(neighborhood system density difference)算法。相较于传统基于密度的离群点检测方法,NSD算法引入了截取距离的概念。首先计算数据集中对象在截取距离内的邻居点个数;其次计算对象的邻域系统密度;然后将对象的密度与它邻居的密度进行比较,判定目标对象与其邻居趋向于同一簇的程度;最后输出最可能是离群点的对象。将NSD算法与LOF、LDOF、CBOF算法在真实数据集与合成数据集中对比实验发现,NSD算法具有较高的检测准确率和执行效率以及较低的参数敏感性,证明了NSD算法是有效可行的。  相似文献   

4.
基于信息论的高维海量数据离群点挖掘   总被引:1,自引:1,他引:0  
针对高维海量数据集离群点挖掘存在“维数灾难”的问题,提出了基于信息论的高维海量数据的离群点挖掘算法。该算法采用属性选择,去除冗余属性降维。利用信息嫡作为离群点判断的度量标准,消除距离和密度量纲的弊端。在真实数据集上的实验结果表明,算法对高维海量数据离群点挖掘是有效可行的,其效率和精度得到了明显提高。  相似文献   

5.
针对混合属性离群点检测问题,提出基于邻域近似精度的混合属性离群点检测方法。首先,定义异构邻域关系度量来表示混合数据之间的近邻性。然后,定义一种特定的邻域近似精度来构建邻域粒离群度。进而,定义基于邻域近似精度的离群因子及提出基于邻域近似精度的离群点检测(Nighborhood approximation accuracy-based outlier detection, NAAOD)。最后,用UCI数据集对NAAOD算法的有效性进行了验证。理论研究和实验结果均表明,NAAOD算法对混合属性离群点检测是有效的。  相似文献   

6.
为解决现有高维海量数据离群点挖掘在时间与空间效率上的不足,提出了一种基于粗约简和网格的离群点检测算法RRGOD。算法在基于密度的离群点检测算法LOF的基础上,结合粗糙集理论特点,引入属性权值概念,淘汰属性权值低于重要度阈值的属性降低维度,从而减少了进行聚类的计算量。在网格聚类阶段,对传统的网格划分方法进行改进,引入属性维半径向量概念,提出了一种可变网格划分方法,根据数据集特点自适应地划分网格空间。在真实数据集和仿真数据集上进行了实验。结果表明,该算法在进行离群点检测时能在保持足够精确度的同时,检测效率有显著的改善。  相似文献   

7.
为适应数据集分布形状多样性以及克服数据集密度问题,针对已有算法对离群簇检测效果欠佳的现状,提出了一种基于K-近邻树的离群检测算法KNMOD(outlier detection based on K-nearest neighborhood MST).算法结合密度与方向因素,提出一种基于K-近邻的不相似性度量,然后带约束切割基于此度量构建的最小生成树从而获得离群点.算法可以有效地检测出局部离群点以及局部离群簇,与LOF、COF、KNN及INFLO算法的对比结果也证实了算法的优越性能.  相似文献   

8.
针对基于距离的离群点检测算法受全局阈值的限制, 只能检测全局离群点, 提出了基于聚类划分的两阶段离群点检测算法挖掘局部离群点。首先基于凝聚层次聚类迭代出K-means所需的k值, 然后再利用K-means的方法将数据集划分成若干个微聚类; 其次为了提高挖掘效率, 提出基于信息熵的聚类过滤机制, 判定微聚类中是否包含离群点; 最后从包含离群点的微聚类中利用基于距离的方法挖掘出相应的局部离群点。实验结果表明, 该算法效率高、检测精度高、时间复杂度低。  相似文献   

9.
离群点或异常检测是数据挖掘和机器学习等领域的研究热点之一,研究人员已提出了多种离群点检测方法,并将其应用于入侵检测和异常交易检测等问题.但多数离群点检测方法主要针对表数据或时间序列数据等,无法直接应用于离群文档检测.现有基于相近性的离群文档检测方法一般用文档与整个文档集的距离来衡量离群性,无法发现基于局部考量的离群文档,而且采用欧几里德距离可能无法刻画出文档间的语义相近性.基于概率模型的离群文档检测方法过于复杂,并且同样只从全局来定义文档的离群值.针对这些问题,文中提出了一种新的基于相近性的离群文档检测方法.该方法引入最优输运距离,基于利用文档词嵌入向量的语义信息,在文档之间使用最优输运算法以度量距离,并利用LDA主题模型对文本进行层级抽象,通过最优输运算法算出主题之间的距离后,再计算文档距离,文中基于这两种最优运输距离计算文档与它的k近邻文档之间的距离来衡量该文档的离群程度.该方法从局部视角来定义文档的离群性,所采用的文档距离能体现文档之间的语义相近性.在两个开源数据集上进行了较细致的对比实验,实验结果显示,所提方法在多个指标上优于基准离群文档检测方法;还检验了基于k近邻离群文档定义的有效性以及k值的选取对结果的影响.  相似文献   

10.
针对现有基于距离的离群点检测算法在处理大规模数据时效率低的问题,提出一种基于聚类和索引的分布式离群点检测(DODCI) 算法。首先利用聚类方法将大数据集划分成簇;然后在分布式环境中的各节点处并行创建各个簇的索引;最后使用两个优化策略和两条剪枝规则以循环的方式在各节点处进行离群点检测。在合成数据集和整理后的KDD CUP数据集上的实验结果显示,在数据量较大时该算法比Orca和iDOoR算法快近一个数量级。理论和实验分析表明,该算法可以有效提高大规模数据中离群点的检测效率。  相似文献   

11.
一类区间粗糙数型多属性决策方法研究   总被引:1,自引:0,他引:1  
曾玲  曾祥艳 《控制与决策》2010,25(11):1757-1760
研究属性值为区间粗糙数,具有属性优先序信息的多属性决策问题.首先给出粗糙属性值的规范化公式;然后基于区间粗糙数的相离度定义,建立以极大化属性值的离差为目标的最优化模型来确定各属性权重;进而基于粗糙算术运算以及期望值算子,计算出各方案的期望效用值,从而获得各方案的排序;最后通过数值例子表明了所提出方法的有效性.  相似文献   

12.
提出一种基于半监督学习的粗糙集知识约简算法(SLRS).SLRS基于对信息论基本概念的引申定义,描述了各条件属性的重要程度以及相互之间的依赖关系.对于数据库中某些记录属性域存在的缺失值,基于半监督学习进行启发式属性值约简,进而求取粗糙集约简决策表,即使在现有知识不足或信息不完备的情况下,也能通过半监督学习构造新的规则补充到知识库中.样例分析及在UCI数据集上的实验结果均表明了所提出算法的合理性和有效性.  相似文献   

13.
谢刚  盛彬  王芳 《控制与决策》2013,28(2):317-320
定义归一化邻域方差,选取它和像素灰度值、邻域均值作为图像相容粒度空间的条件属性,构造出基于条件属性的相容粒度空间.根据相容关系进行图像粒化,定义相容决策粒间距离测度函数,利用思维进化算法(MEA)最优选取阈值,合成决策粒,实现对目标区域的提取,完成图像分割.实验结果表明所提出算法去噪效果明显,具有较好的稳定性和收敛速度.  相似文献   

14.
基于IFTPN的不确定时间知识描述和推理方法   总被引:1,自引:0,他引:1  
针对现有时序逻辑在对复杂不确定时间信息描述和推理方面的局限性,构造了直觉模糊时间Petri网模型(IFTPN)及其推理方法.该Petri网模型利用直觉模糊集合对模糊时延、模糊时间片进行描述,可以表达定义在离散论域或连续论域的各种不确定时间信息,并基于直觉模糊逻辑定义了模糊时间运算法则;同时,基于线性逻辑对该模型进行描述,定义了变迁之间的各种触发规则,并给出了推理方法.将该方法应用于C4ISR系统进行决策时延分析,表明了该模型及其推理方法是比较优越的.  相似文献   

15.
变精度集对势粗糙集模型   总被引:1,自引:0,他引:1  
徐怡  李龙澍 《控制与决策》2010,25(11):1732-1736
为使粗糙集理论能有效处理含噪音的不完备信息系统,将集对势扩充粗糙集模型和Ziarko教授提出的多数包含关系相结合,提出了变精度集对势粗糙集模型.然后,给出了正域相似度的定义,提出了基于正域相似度的启发式属性约简算法,并分析了算法的时间复杂度.仿真实验表明了该方法处理含噪音的不完备信息系统的有效性.  相似文献   

16.
模拟移动床过程中连续变量与离散变量并存,属于典型的混杂系统.对此,从混杂系统的角度出发,在简化模拟移动床过程平衡扩散模型的基础上,探索一种新的模型表示方法.通过应用一些近似处理方法,导出了完整的一类混合整数动态模型,并通过对一种混杂非线性的Benchmark模型的仿真实验验证了所建立的混合逻辑动态模型的有效性.  相似文献   

17.
齐峰  刘希玉 《控制与决策》2010,25(11):1684-1688
针对数据挖掘领域分类问题的特点.提出了基于多神经树集成的分类模型(CMBNTE).该模型利用改进遗传规划算法和粒子群算法,实现单个神经树模型的优化;借鉴集成学习思想,将多个神经树模型组合成最终的分类模型.在6个UCI数据集上的实验结果表明,该模型能较好地解决分类问题,尤其适用于多分类属性的复杂分类问题.  相似文献   

18.
并行分布控制网络的实时信号时序流图分析   总被引:1,自引:1,他引:0  
考虑并行分布控制网络中软件过程及物理过程作用和反作用的时间度量特性,定义带时间标签的信号模型,采用广义测度函数概念建立信号间的时间关序,由控制器接口组成网络节点的信号流图拓扑结构,确定信号作用时序的组合运算,从而分析软件设计和运行的确定性.  相似文献   

19.
王胜  于乃功 《控制与决策》2010,25(7):1055-1058
针对移动机器人全局最优路径规划问题,提出一种基于细胞自动机的路径规划算法.该算法首先将移动机器人的起点、目标点和空间障碍物定义为一组离散的细胞状态,建立环境的细胞自动机模型;然后由机器人移动的曼哈顿距离设计演化规则;最后根据演化后的细胞状态搜索最优路径.对简单和复杂环境下的机器人路径规划问题进行了仿真实验,实验结果验证了该算法的有效性.  相似文献   

20.
对于小规模的非静态数据,最近提出的时间自适应支持向量机(TA-SVM)方法表现出良好的性能,它从兼顾局部优化和全局优化的角度同时求解多个子分类器的特性.但对于大数据集,较高的计算代价限制了它的实用性.针对此不足,结合核心向量机(CVM)理论提出了针对非静态大数据集的新颖分类方法,即基于中心约束最小包含球(CCMEB)的TA-CVM,简称CCTA-CVM.该方法具有渐近线性时间复杂度的优点,同时继承了TA-SVM的良好性能.最后通过实验验证了所提出方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号