首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
针对一种特定类型高属性维数据———区间变量型高属性维稀疏数据聚类问题,提出高属性维稀疏信息系统,稀疏特征编码,基于二进制数计算相似度概念,给出一种新的基于二进制数计算相似度的高属性维稀疏数据聚类算法,由于计算属性稀疏特征相似度所采用的是二进制数布尔AND运算,因此,相比目前人们所使用的聚类算法,它是一种计算简单、精度高、聚类质量较高的聚类算法。该算法在高属性维稀疏数据挖掘及聚类分析中有着重要的应用。通过数值算例分析表明该聚类方法有效。  相似文献   

2.
针对文本聚类问题中因为维度灾难以及特征信息丢失而导致的聚类效果低效问题,本文提出一种基于特征矩阵优化与改进主成分分析(Principal component analysis, PCA)降维的聚类算法。在原基于文档频率和逆词频(Term frequency inverse document frequency, TF-IDF)算法的基础上提出ALFW(Adaptive length frequency weight)权重优化方案,使得特征矩阵的分布性更好,特征项的表征更加明显。在降维处理上,采用信息论中的联合熵标准对PCA算法进行了优化,提出UE-PCA(United entropy-PCA)算法对稀疏高维数据进一步降维,更好地保留了原高维数据的真实性。仿真实验表明,本文提出的算法(K-means+UE-PCA+ALFW)对比其他同类型算法取得了更好的表现效果。  相似文献   

3.
祝琴  高学东  武森  陈敏  陈华 《计算机工程》2010,36(22):13-14
针对CABOSFV聚类算法对数据输入顺序的敏感性问题,提出融合排序思想的高属性维稀疏数据聚类算法,通过计算首次聚类中两两高属性维稀疏数据非零属性取值情况确定所需要计算差异度的集合组合,减小了算法复杂度。应用结果表明,该方法能提高CABOSFV聚类的质量。  相似文献   

4.
王娟 《微型机与应用》2011,30(20):71-73,76
传统K-means算法对初始聚类中心的选取和样本的输入顺序非常敏感,容易陷入局部最优。针对上述问题,提出了一种基于遗传算法的K-means聚类算法GKA,将K-means算法的局部寻优能力与遗传算法的全局寻优能力相结合,通过多次选择、交叉、变异的遗传操作,最终得到最优的聚类数和初始质心集,克服了传统K-means算法的局部性和对初始聚类中心的敏感性。  相似文献   

5.
针对现有的聚类集成算法大都是无监督聚类集成算法且不能很好地处理高维数据的问题,设计一种基于PCA降维技术的成对约束半监督聚类集成算法(SSCEDR)。SSCEDR方法使用PCA主成分分析对原始数据进行降维,结合半监督聚类集成技术,在降维后的空间中将成对约束等先验知识代入到聚类集成过程中。本文通过在多组数据集上实验来验证算法的有效性。  相似文献   

6.
基于判别分析的半监督聚类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
与无监督聚类相比,半监督聚类是利用一部分先验信息来更好地挖掘和理解数据的内在结构,并紧密遵从用户的偏好。现有的典型半监督聚类算法仅仅适合于低维数据,文中提出一种新颖的基于判别分析的半监督聚类算法来解决高维数据聚类问题。新算法首先使用主成分分析来投影高维数据,进一步在投影空间中,使用基于球形K均值聚类算法对数据聚类;然后利用聚类结果,使用线性判别分析降维输入空间数据;最后在投影空间中对数据再次聚类。在一组真实数据集上的实验表明,所提出的算法不仅可以有效地处理高维数据,还提高了聚类性能。  相似文献   

7.
基于稀疏差异度的聚类方法在信息分类中的应用   总被引:2,自引:0,他引:2  
尹松  周永权  李陶深 《微机发展》2006,16(1):117-119
针对文本信息聚类中的高属性维稀疏数据聚类问题,采用计算对象间稀疏特征差异度来度量文本对象之间的相关度,结合最小生成树的方法来进行聚类分析,提出一种基于稀疏特征差异度的聚类方法。通过实例表明,该算法对于多关键字匹配的文本信息分类十分有效,并可根据关键字的重要程度进行加权计算,使聚类更加符合实际情况。该算法将在高维稀疏数据挖掘中有着重要应用。  相似文献   

8.
CABOSFV是基于稀疏特征进行高维数据聚类的高效算法,但算法的聚类质量受数据输入顺序的影响。针对此问题,提出考虑数据排序的改进CABOSFV聚类(CABOSFV_CS),通过定义稀疏性指数来描述数据的稀疏特征,并按照稀疏性指数升序对数据进行排序以改进CABOSFV算法的聚类质量。采用UCI基准数据集进行实验,结果表明与传统的CABOSFV算法相比,CABOSFV_CS有效地提高了聚类准确率。  相似文献   

9.
聚类分析是数据挖掘中的一个重要研究课题。在许多实际应用中,聚类分析的数据往往具有很高的维度,例如文档数据、基因微阵列等数据可以达到上千维,而在高维数据空间中,数据的分布较为稀疏。受这些因素的影响,许多对低维数据有效的经典聚类算法对高维数据聚类常常失效。针对这类问题,本文提出了一种基于遗传算法的高维数据聚类新方法。该方法利用遗传算法的全局搜索能力对特征空间进行搜索,以找出有效的聚类特征子空间。同时,为了考察特征维在子空间聚类中的特征,本文设计出一种基于特征维对子空间聚类贡献率的适应度函数。人工数据、真实数据的实验结果以及与k-means算法的对比实验证明了该方法的可行性和有效性。  相似文献   

10.
针对目前基于k-Means算法的入侵检测技术存在对符号类型数据处理能力欠缺、误报率较高的问题,提出了一种处理混合型属性的聚类算法的入侵检测技术.该方法将对符号类型特征进行编码映射,并使用主成分分析对编码后增加的维数进行降维,从而解决了在入侵检测使用聚类分析无法对符号型数据进行处理的问题.详细地阐述了改进的具体实现方案,并通过实验验证了该方法的可行性.  相似文献   

11.
针对SVM和PCA-SVM进行质量控制图模式识别时泛化能力不足和识别精度不高的问题,提出一种基于遗传优化的PCA-SVM控制图模式识别方法。该方法的基本思想是首先基于特征子空间降维方法,运用PCA算法对原始特征样本进行主元分析,有效降低原始特征样本维数并突出聚类,提取各模式之间的主元特征;然后把此特征看成遗传算法中一组染色体,对支持向量机分类器核参数和惩罚因子进行二进制编码,通过对随机产生的一组染色体进行模式识别,并将此识别率作为遗传算法的适应度函数,通过选择、交叉和变异操作,对其参数进行自适应寻优;最后用优化的支持向量机分类器进行控制图模式识别。通过仿真进行验证,结果显示基于遗传优化的PCA-SVM分类器模型的控制图模式泛化能力强、识别精度高,可适用于生产现场质量控制。  相似文献   

12.
主成分分析(Principle component analysis,PCA)是一种被广泛应用的降维方法.然而经典PCA的构造基于L2-模导致了其对离群点和噪声点敏感,同时经典PCA也不具备稀疏性的特点.针对此问题,本文提出基于Lp-模的稀疏主成分分析降维方法(LpSPCA).LpSPCA通过极大化带有稀疏正则项的Lp-模样本方差,使得其在降维的同时保证了稀疏性和鲁棒性.LpSPCA可用简单的迭代算法求解,并且当p≥1时该算法的收敛性可在理论上保证.此外通过选择不同的p值,LpSPCA可应用于更广泛的数据类型.人工数据及人脸数据上的实验结果表明,本文所提出的LpSPCA不仅具有较好的降维效果,并且具有较强的抗噪能力.  相似文献   

13.
为了减少高维对计算成本的影响,同时提取有利于分类的判别特征,提出运用多线性主元分析(MPCA)与FLD相结合的方法进行掌纹识别。运用MPCA直接对掌纹张量进行降维和特征提取,低维特征向量作为FLD的输入,提取判别特征向量,计算特征向量间的余弦距离进行掌纹匹配。PolyU掌纹图像库的实验结果表明,与主元分析(PCA)、PCA+FLD、二维主元分析(2DPCA)、独立元分析(ICA)和MPCA相比,该算法的识别率(RR)最高为9991%,特征提取和匹配总时间为0398 s,满足实时系统的要求。  相似文献   

14.
为了克服主成分分析(PCA)对共空间模式(CSP)提取脑电信号特征进行降维时,仅考虑主成分对输入变量的表征能力,而忽略了对输出变量进行解释的这一个缺点,提出偏最小二乘回归(PLS)进行降维,通过CSP对数据增强后的信号进行特征提取,采用PLS进行降维,将提取的主成分信息包含对因变量解释程度高的特征作为特征向量,使用PSO-SVM进行分类,用2005 BCI竞赛的数据集IIIa进行分类测试,结果得到3位被试的想象运动平均分类正确率91.71%,通过与CSP-LDS、WL-CSP和CSP等算法的比较,3位被试的平均分类正确率最高,验证了该算法的有效性。  相似文献   

15.
协同过滤算法在个性化推荐系统中应用广泛,为保证其在用户规模扩大的同时可以保持推荐的高效性和准确性,设计了一种基于PCA降维和二分K-means聚类的协同过滤推荐算法PK-CF。该算法为解决用户-项目评分矩阵极度稀疏造成的相似度计算误差的问题,采用主成分分析法对用户-项目评分矩阵进行降维,去除含信息量少的维度,只保留最能代表用户特征的维度;为解决协同过滤算法在系统规模庞大情况下的相似度计算时耗问题,通过在降维后的低维向量空间上进行二分K-means聚类来减小目标用户最近邻的搜索范围。在MovieLens数据集上对传统协同过滤算法、基于K-means聚类的协同过滤算法及PK-CF算法进行性能测试的结果表明:PK-CF算法不仅能有效地提高推荐结果的准确率与召回率,而且具有较高的时间效率。  相似文献   

16.
Feature extraction is an important component of a pattern recognition system. It performs two tasks: transforming input parameter vector into a feature vector and/or reducing its dimensionality. A well-defined feature extraction algorithm makes the classification process more effective and efficient. Two popular methods for feature extraction are linear discriminant analysis (LDA) and principal component analysis (PCA). In this paper, the minimum classification error (MCE) training algorithm (which was originally proposed for optimizing classifiers) is investigated for feature extraction. A generalized MCE (GMCE) training algorithm is proposed to mend the shortcomings of the MCE training algorithm. LDA, PCA, and MCE and GMCE algorithms extract features through linear transformation. Support vector machine (SVM) is a recently developed pattern classification algorithm, which uses non-linear kernel functions to achieve non-linear decision boundaries in the parametric space. In this paper, SVM is also investigated and compared to linear feature extraction algorithms.  相似文献   

17.
刘俊  李威  陈蜀宇  徐光侠 《软件学报》2022,33(12):4574-4589
提出了一种基于各向异性高斯核核惩罚的主成分分析的特征提取算法.该算法不同于传统的核主成分分析算法.在非线性数据降维中,传统的核主成分分析算法忽略了原始数据的无量纲化.此外,传统的核函数在各维度上主要由一个相同的核宽参数控制,该方法无法准确反映各维度不同特征的重要性,从而导致降维过程中准确率低下.为了解决上述问题,首先针对现原始数据的无量纲化问题,提出了一种均值化算法,使得原始数据的总方差贡献率有明显的提高.其次,引入了各向异性高斯核函数,该核函数每个维度拥有不同的核宽参数,各核宽参数能够准确地反映所在维度数据特征的重要性.再次,基于各向异性高斯核函数建立了核主成分分析的特征惩罚目标函数,以便用较少的特征表示原始数据,并反映每个主成分信息的重要性.最后,为了寻求最佳特征,引入梯度下降算法来更新特征惩罚目标函数中的核宽度和控制特征提取算法的迭代过程.为了验证所提出算法的有效性,各算法在UCI公开数据集上和KDDCUP99数据集上进行了比较.实验结果表明,所提基于各向异性高斯核核惩罚的主成分分析的特征提取算法比传统的主成分分析算法在9种公开的UCI公开数据集上准确率平均提高了4.49%.在KDDCUP99数据集上,所提基于各向异性高斯核核惩罚的主成分分析的特征提取算法比传统的主成分分析算法准确率提高了8%.  相似文献   

18.
针对主成分分析(PCA)算法获取的主成分向量不够稀疏,拥有较多的非零元这一问题,使用重加权方法对PCA算法进行优化,提出了一个新的提取高维数据特征的方法,即重加权稀疏主成分分析(RSPCA)算法。首先,将重加权l1最优化框架和LASSO回归模型引入到PCA算法数学模型中,建立新的数据降维模型;然后,使用交替最小化算法、奇异值分解算法、最小角回归算法等方式对模型进行求解;最后,使用人脸识别实验对算法效果进行了验证。在实验中使用K折交叉验证的方法针对ORL人脸数据集分别使用PCA算法和RSPCA算法进行识别实验。实验结果表明,RSPCA算法在获取更稀疏解的情况下仍拥有着不弱于PCA算法的表现,平均识别准确率达到95.1%,所提算法与表现最好的sPCA-rSVD算法相比,识别准确率提高了6.2个百分点;针对手写数字识别这一具体现实应用进行求解,获取到平均识别准确率96.4%的良好实验效果。证明了所提方法在人脸识别及书写数字识别方面的优异性。  相似文献   

19.
基于自动子空间划分的高光谱数据特征提取   总被引:7,自引:0,他引:7  
针对遥感高光谱图像数据量大、维数高的特点,提出了一种自动子空间划分方法用于高光谱图像数据量减小处理。该方法主要包括3个处理步骤:数据空间划分,子空间主成分分析和基于类别可分性准则的特征选择。该方法充分利用了高光谱图像各波段数据之间的局部相关性,将整个数据划分为若干个具有较强相关性的独立子空间,然后在子空间内利用主成分分析进行特征提取,根据各类地物间的类别可分性选择有效特征,最后利用地物分类来验证该方法的有效性。实验结果表明,该方法能够有效地实现高光谱图像数据维数减小和特征提取,同现有的自适应子空间分解方法和分段主成分变换方法相比,该方法所提取的特征用于分类时能获得较好的分类精度。利用该方法进行处理,当高光谱数据维数降低了90%时,9类地物分类实验的总体分类精度可以达到80.2%。  相似文献   

20.

基于极限学习机理论, 将主成分分析技术与ELM特征映射相结合, 提出一种基于主成分分析的压缩隐空间构建新方法. 结合多层神经网络学习方法对隐空间进行多层融合, 进一步提出了堆叠隐空间模糊C 均值聚类算法,从而提高对非线性数据的学习能力. 实验结果表明, 所提出算法在处理复杂非线性数据时更加高效、稳定, 同时克服了模糊聚类算法对模糊指数的敏感性问题.

  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号