期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈骥思余艳梅殷宇滕奇志《计算机工程与应用》2010,46(7):178-180

模糊C均值聚类算法（FCM）广泛用于彩色图像分割,但该算法存在需要预先指定聚类数目、计算量大、耗时长且易陷入局部最优等缺点。提出一种自适应快速模糊C均值彩色图像分割方法,该方法首先运用蚁群算法,自动获取初始聚类中心和聚类数目,然后使用基于梯度的分水岭算法对原始彩色图像进行预分割,得到一系列由色彩特征空间具有一致性的点构成的子集,最后对这些子集的中心进行模糊聚类。实验结果表明：由于子集数量远小于原始图像像素数目,使聚类样本数量显著减少,大大提高了聚类速度,同时在聚类中以特征距离代替欧式距离,增强了算法的鲁棒性。相似文献

2.

基于中心距离比值准则的无监督特征选择算法

下载免费PDF全文

叶菲罗景青俞志富《计算机工程与应用》2009,45(4):162-164

特征选择是模式识别中的一个重要组成部分。针对未知类标号的样本集,提出基于中心距离比值准则的无监督特征选择算法。该算法利用爬山法确定聚类数目范围和估计初始聚类中心,再通过K-均值聚类算法确定特征子集的最佳分类数,然后用中心距离比值准则来评价特征子集的分类性能,并通过特征间的相关性分析,从中选择出分类效果好,相关程度低的特征组成特征子集。相似文献

3.

基于特征选择的统计最优样本大小算法

邓杰钱雪忠钱恒吴秦《计算机应用研究》2014,31(12)

针对统计最优样本大小算法在确定大数据集,尤其是高维数据集抽样样本大小时的执行效率较低,以及高维数据集中每一维属性的重要性不同且可能存在冗余属性,提出一种基于特征选择的统计最优样本大小算法.该算法基于熵理论,通过构造一个基于对象间相似度的熵度量方法来评估特征重要性,然后根据设计的一种挑选特征的标准获得重要的特征子集,最后在该特征子集上执行统计最优样本大小算法.实验结果表明,改进后算法得到的样本大小抽取的样本集能够在聚类算法中得到较高的准确率,同时也较明显地降低了算法的执行时间,从而验证了改进后的算法是有效可行的. 相似文献

4.

基于二进制灰狼优化的特征选择及文本聚类

王琛董永权《计算机工程与设计》2021,42(9):2526-2535

提出基于二进制灰狼优化的特征选择与文本聚类算法.为得到最佳聚类结果,将文本数据表达为矢量空间模型;利用二进制灰狼优化算法对文本特征进行选择,得到初选特征子集;对前一阶段中不同特征相关分值计算方法得到的初选特征子集进行合并与交叉操作,进一步计算最优特征子集;在新特征子集基础上,利用同步考虑余弦相似度和欧氏距离指标的多目标优化K均值算法完成文本聚类,得到最优文本聚类解.实验结果表明,在多数数据集上,该算法可以有效降低特征维度,聚类指标表现更好. 相似文献

5.

基于均值与最大距离乘积的初始聚类中心优化 K-means 算法*

段桂芹《计算机与数字工程》2015,(3):379-382

针对K‐means算法随机选择初始聚类中心所出现的样本聚类结果随机性强、稳定性低、容易陷入局部最优和得不到全局最优解等问题,提出一种基于均值与最大距离乘积的初始聚类中心优化K‐means算法。该算法首先选择距离样本集均值最远的数据对象加入聚类中心集合,再依次将与样本集均值和当前聚类中心乘积最大的数据对象加入聚类中心集合。标准数据集上的实验结果表明,与原始K‐means的算法以及另一种改进算法相比,新提出的聚类算法具有更高的准确率。相似文献

6.

改进欠抽样方法及其在非平衡数据集分类中的应用

牛壮李凤莲张雪英樊宇宙魏鑫《计算机工程》2019,45(6):218-224

欠抽样方法在非平衡数据集分类时,未充分考虑数据分布变化对分类结果造成的影响。为此,提出一种基于聚类融合去冗余的改进欠抽样方法。采用聚类算法得到多数类样本高密度分布区域的聚类中心,将多数类样本划分为不同子集,通过计算各子集的相似度冗余系数对多数类样本进行去冗余删除,以达到欠抽样的目的。对15个不同平衡率的数据集欠抽样后,利用代价敏感混合属性多决策树模型进行分类。实验结果表明,在不降低非平衡数据集分类准确率的前提下,该方法能够提高少数类样本的正类率及预测模型的G-mean值。相似文献

7.

基于粒子群模糊C-均值聚类的图像分割算法 总被引：1，自引：0，他引：1

下载免费PDF全文

李丽丽李明刘希玉《计算机工程与应用》2009,45(31):158-160

模糊C-均值（FCM）聚类算法是一种结合无监督聚类和模糊集合概念的图像分割技术,比较有效,但存在着受初始聚类中心和隶属度矩阵影响,可能收敛到局部极小的缺点。将粒子群优化算法（PSO）与模糊C-均值聚类算法相结合,实现了基于粒子群模糊C-均值聚类的图像分割算法。实验表明,该方法具有搜索全局最优解的能力,因而可得到很好的图像分割结果。相似文献

8.

图像的扩散界面无监督聚类算法

王成章白晓明杜金栗《计算机科学》2020,47(5):149-153

图像的无监督聚类就是基于图像数据,在无任何先验信息的情况下将整个图像集合划分成若干子集的过程。由于图像的本征维度很高,在图像处理中会遇到“维数灾难”问题。针对图像无监督聚类的特点,提出了一种图像的扩散界面无监督聚类算法,将图像编码成高维观测空间中的点,再通过投影变换映射到低维特征空间,在低维特征空间中构建扩散界面无监督聚类模型,并在模型中引入维度约简算子,采用循环迭代算法优化扩散界面模型的能量函数。基于最优的扩散界面,将整个图像集合聚类成不同的子集。实验结果表明,扩散界面无监督聚类算法优于传统聚类算法中的K-means算法、DBSCAN算法和Spectral Clustering算法,能够更好地实现图像的无监督聚类,在相同条件下具有更高的准确度。相似文献

9.

基于和声搜索机制的特征选择与文本聚类分析

王永刚李靖王文慧曹传剑王晓燕《计算机工程与设计》2022,43(2):472-478

针对文本信息特征冗余多、噪声大问题,提出基于和声搜索机制的文本特征选择算法。以词频逆文本频率指数为目标函数评估特征词条;在初始文档集中通过和声搜索的记忆考虑、纵向倾角调整和随机选择3种特征选择新解更新规则,迭代搜索最优特征子集;以最优特征子集为基础,以K均值进行文本聚类。利用4种典型文档数据集进行仿真实验,实验结果表明,该算法可以有效降低文本特征维度,聚类准确率更高。相似文献

10.

基于差分算法的K-均值聚类分析

李聪明《现代计算机》2008,(6)

提出一种基于差分算法的聚类分析方法,采用结构体数组对聚类的中心进行编码,并用样本向量与相应聚类中心的欧氏距离的和来判断聚类划分的质量,通过变异、交叉和选择操作对聚类中心的编码进行优化,以获得最好的聚类中心.通过差分算法的全局搜索能力,来获取全局最优结果.实验结果显示,该方法的聚类划分效果明显优于传统的K-均值方法,也一般优于基于遗传算法的聚类算法和基于微粒群的聚类算法. 相似文献

11.

融合集群度与距离均衡优化的K-均值聚类算法

王日宏崔兴梅《计算机应用》2018,38(1):104-109

针对传统K-均值算法对初始聚类中心选择较为敏感的问题,提出了一种基于融合集群度与距离均衡优化选择的K-均值聚类（K-MCD）算法。首先,基于"集群度"思想选取初始簇中心;然后,遵循所有聚类中心距离总和均衡优化的选择策略,获得最终初始簇中心;最后,对文本集进行向量化处理,并根据优化算法重新选取文本簇中心及聚类效果评价标准进行文本聚类分析。对文本数据集从准确性与稳定性两方面进行仿真实验分析,与K-均值算法相比,K-MCD算法在4个文本集上的聚类精确度分别提高了18.6、17.5、24.3与24.6个百分点;在平均进化代数方差方面,K-MCD算法比K-均值算法降低了36.99个百分点。仿真结果表明K-MCD算法能有效提高文本聚类精确度,并具有较好的稳定性。相似文献

12.

基于词条属性聚类的文本特征选择算法

张群王红军王伦文《计算机应用研究》2017,34(2)

文本挖掘之前首先要对文本集进行有效的特征选择,传统的特征选择算法在维数约减及文本表征方面效果有限,并且因需要用到文本的类别信息而不适用于无监督的文本聚类任务。针对这种情况,设计一种适用于文本聚类任务的特征选择算法,提出词条属性的概念,首先基于词频、文档频、词位置及词间关联性构建词条特征模型,重点研究了词位置属性及词间关联性属性的权值计算方法,改进了Apriori算法用于词间关联性属性权值计算,然后通过改进的k-means聚类算法对词条特征模型进行多次聚类完成文本特征选择。实验结果表明,与传统特征选择算法相比,该算法获得较好维数约减率的同时提高了所选特征词的文本表征能力,能有效适用于文本聚类任务。相似文献

13.

基于特征聚类集成技术的在线特征选择

杜政霖李云《计算机应用》2017,37(3):866-870

针对既有历史数据又有流特征的全新应用场景,提出了一种基于组特征选择和流特征的在线特征选择算法。在对历史数据的组特征选择阶段,为了弥补单一聚类算法的不足,引入聚类集成的思想。先利用k-means方法通过多次聚类得到一个聚类集体,在集成阶段再利用层次聚类算法对聚类集体进行集成得到最终的结果。在对流特征数据的在线特征选择阶段,对组构造产生的特征组通过探讨特征间的相关性来更新特征组,最终通过组变换获得特征子集。实验结果表明,所提算法能有效应对全新场景下的在线特征选择问题,并且有很好的分类性能。相似文献

14.

基于密度的改进K均值算法及实现 总被引：4，自引：1，他引：3

傅德胜周辰《计算机应用》2011,31(2):432-434

传统的K均值算法的初始聚类中心从数据集中随机产生,聚类结果很不稳定。提出一种基于密度算法优化初始聚类中心的改进K-means算法,该算法选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验证明,改进的K-means算法能够消除对初始聚类中心的依赖,聚类结果有了较大的改进。相似文献

15.

Feature clustering based support vector machine recursive feature elimination for gene selection

Xiaojuan Huang Li Zhang Bangjun Wang Fanzhang Li Zhao Zhang 《Applied Intelligence》2018,48(3):594-607

In a DNA microarray dataset, gene expression data often has a huge number of features(which are referred to as genes) versus a small size of samples. With the development of DNA microarray technology, the number of dimensions increases even faster than before, which could lead to the problem of the curse of dimensionality. To get good classification performance, it is necessary to preprocess the gene expression data. Support vector machine recursive feature elimination (SVM-RFE) is a classical method for gene selection. However, SVM-RFE suffers from high computational complexity. To remedy it, this paper enhances SVM-RFE for gene selection by incorporating feature clustering, called feature clustering SVM-RFE (FCSVM-RFE). The proposed method first performs gene selection roughly and then ranks the selected genes. First, a clustering algorithm is used to cluster genes into gene groups, in each which genes have similar expression profile. Then, a representative gene is found to represent a gene group. By doing so, we can obtain a representative gene set. Then, SVM-RFE is applied to rank these representative genes. FCSVM-RFE can reduce the computational complexity and the redundancy among genes. Experiments on seven public gene expression datasets show that FCSVM-RFE can achieve a better classification performance and lower computational complexity when compared with the state-the-art-of methods, such as SVM-RFE. 相似文献

16.

基于密度敏感距离的改进模糊C均值聚类算法

王治和王淑艳杜辉《计算机工程》2021,47(5):88-96,103

模糊C均值（FCM）聚类算法无法识别非凸数据,算法中基于欧式距离的相似性度量只考虑数据点之间的局部一致性特征而忽略了全局一致性特征。提出一种利用密度敏感距离度量创建相似度矩阵的FCM算法。通过近邻传播算法获取粗类数作为最佳聚类数的搜索范围上限,以解决FCM算法聚类数目需要人为预先设定和随机选定初始聚类中心造成聚类结果不稳定的问题。在此基础上,改进最大最小距离算法,得到具有代表性的样本点作为初始聚类中心,并结合轮廓系数自动确定最佳聚类数。基于UCI数据集和人工数据集的实验结果表明,相比经典FCM、K-means和CFSFDP算法,该算法不仅具有识别复杂非凸数据的能力,而且能够在保证聚类性能和稳定性的前提下加快收敛速度。相似文献

17.

结合初始中心优化和特征加权的K-Means聚类算法

王宏杰师彦文《计算机科学》2017,44(Z11):457-459, 502

为了提高传统K-Means聚类算法的聚类准确性,提出一种结合初始中心优化和特征加权的改进K-Means聚类算法。首先,根据样本特征对聚类的贡献程度获得初始特征权重,构建一种加权距离度量。其次,利用提出的初始聚类中心选择方法获得k个初始聚类中心,并结合初始特征权重进行初步聚类。然后,根据聚类精度来调整特征权重并再次执行聚类过程。重复执行上述过程直到聚类精度不再变化,获得最终的聚类结果。在UCI数据库上的实验结果表明,与现有相关K-Means聚类算法相比,该算法具有较高的聚类准确性。相似文献

18.

具有特征语义权重的数据聚类方法

下载免费PDF全文

周川祥孟凡荣张磊王志愿《计算机工程》2011,37(4):64-66

针对聚类中的特征选择问题,提出一种基于特征语义权重的数据聚类方法。该方法由用户指定必需的特征集,通过计算特征之间的语义相关度,选择和指定特征集相关的特征集作为补充。利用语义相关度确定各个特征的语义权重,在特征语义权重计算的基础上对传统的K-Means聚类算法进行改进,提出具有特征语义权重的FSW-KMeans算法。实验结果表明,FSW-KMeans算法较大地提高了聚类算法准确率和效率。相似文献

19.

拓展集合差异度高维数据聚类*

武森叶俞飞俞晓莉《计算机应用研究》2011,28(9):3253-3255

提出度量多个集合之间总体差异程度的拓展集合差异度及相关定理,并给出一种新的解决分类属性高维数据聚类问题的CAESD算法。基于拓展集合差异度及拓展集合特征向量,在CABOSFV_C聚类的基础上通过两阶段聚类完成全部聚类过程。采用UCI数据集与K-modes及其改进算法、CABOSFV_C算法进行比较实验,结果表明CAESD算法具有较高的聚类正确率。相似文献