首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 296 毫秒
1.
子空间聚类是一种将搜索局部化在相关维上进行的聚类算法,它能有效地克服数据因维度过高引起的在全空间上聚类的困难.针对高维分类型数据,本文提出了一种自底向上的子空间层次聚类算法,该算法在全局范围内建立一个最相似线性表用来记录每个簇类与其最相似的簇类的相似度,在聚类过程中,选取最相似的簇类合并,并通过维护此线性表产生最相似的簇类.此算法在基于信息熵的意义上能够较准确地搜索簇类的子空间.通过Zoo和Soybean两个典型的分类型数据实验发现,相对于其它相关聚类算法,该算法在聚类的准确率和稳定性方面表现出较高的优越性.  相似文献   

2.
一种基于聚类树的增量式数据清洗算法   总被引:2,自引:0,他引:2  
研究了在数据模式与匹配规则不变的前提下 ,数据集动态增加时近似重复记录的识别问题 ,提出了一种基于聚类树的增量式数据清洗算法IACT .该算法通过构建聚类树先对记录进行分区 ,然后在划分的区域内进行相似度的计算识别出近似重复记录 ,从而完成了增量式相似重复记录的检测 .实验结果证明了IACT算法在无损精度的情况下 ,在效率上优于多趟邻近排序 (MPN)算法 .  相似文献   

3.
文章提出基于语义相似度的Web文档聚类算法--WDCSS算法,依据文档关键词之间的相似度生成最小树,通过概率统计来确定最小树中相似度阚值,并对最小树中进行切割,同时对较小的子类进行划分合并.实验表明,WECSS不仅能为具有各种不同聚类形状的数据集准确地分析出数据中存在的合理聚类和例外样本,而且避免了用户参数选择所造成聚类质最降低问题.  相似文献   

4.
目前的高属性维稀疏数据算法大多面向二态数据,而且没有聚类结果的评价方法,给应用带来很大局限.针对这些问题,文中提出了一种基于知识粒度的高属性维聚类算法.首先通过设计面向数据稀疏特征的半模糊聚类算法对数据进行离散化,并基于此给出稀疏相似度和初始等价关系的定义;然后设计可变精度的二次聚类模型对初始聚类结果进行修正,使算法具有较强的抗噪声能力;最后结合应用领域定义一种新的聚类质量评价模型.实验证明,该算法可提供多粒度分析结果,准确度更高,得到的聚类结果能真实反映数据的特征.  相似文献   

5.
针对微阵列芯片数据采集量大、获取成本高的问题,提出一种新的基于灰值区间的微阵列模拟数据生成算法.该算法通过灰值度量的方式模拟微阵列数据中基因的差异表达属性,结合聚类分析方法创建聚类隧道,进而产生与原始数据具有相似数理分布及生物学意义的模拟数据.采用模拟数据和真实生物数据对算法进行实验验证与分析,实验结果表明,基于灰值区间理念与聚类隧道产生机制生成的模拟数据是有效且可靠的.  相似文献   

6.
针对一致聚类算法中聚类数目判断不准确、聚类速度慢等问题,通过集成复杂网络中的Newman贪婪算法与谱聚类算法,提出了一种新的基于Minkowski距离的一致聚类算法.该算法利用Minkowski距离刻画样本间的相似度,根据随机游走策略,结合不同数据的特征值分布分析方法进行聚类,实现聚类数目的自动识别.实验仿真说明算法具有较少的运算时间及较高的聚类精度.结合实际铜矿泡沫浮选过程特点,将该算法应用于浮选工况分类,进一步验证了算法的有效性.  相似文献   

7.
采用基于相似度的特征聚类算法以及粗糙集模糊分析法,提出了基于网络日志的用户性格特征分析及行为预测方法.首先,构建标准性格特征向量库;然后,采用基于余弦相似度的特征聚类算法进行性格分析,该算法解决了适量样本情况下的机器学习中聚类的问题,使训练模板数据即使在数据不是足够大的情况下仍能提取特征;最后,采用基于粗糙集理论的模糊分析算法进行行为预测,该分析算法简化了分析过程,减少了建模中需考虑的因素,又能得出精确的结果.对比实验表明,该方法能较准确地分析不同用户性格特征和对其未来行为进行预判,并分析出可能对安全领域造成威胁的人群.  相似文献   

8.
数据质量问题是企业在构建商务智能系统中遇到的最重要的问题之一,在处理面向VLDB数据质量的时候,对模糊重复记录的识别和整合非常困难。文章中提出了一种改进的面向VLDB数据质量处理算法,即先通过基于聚类的N-gram的改进算法来检测相似重复记录,采用pair-wise来计算相似重复度,用一个固定大小的优先队列窗口来聚类相似重复记录,同时引入转换关闭准则生成一种多路聚类方法,提高聚类的准确度。本文的算法在语言识别和关键字检测方面获得高于90%的准确率。  相似文献   

9.
非负矩阵分解(NMF)是一种有效的数据降维方法,广泛应用于图像聚类等领域。然而,NMF不能捕获数据固有的几何结构,所以基于图的非负矩阵分解被提出。基于图的算法大多使用K-近邻来构造相似度图。由于数据中的异常值和错误特征,直接构造图是不准确的。针对上述问题,提出了基于学习一致性相似度矩阵的图非负矩阵分解方法。该方法首先通过自适应学习来获得相似度矩阵,然后通过相似度矩阵构造拉普拉斯图正则项,最后将该正则项加入原始的非负矩阵分解模型中。优化了之前直接使用K-近邻构图的弊端,并且能很好地保持数据的几何结构。新提出的算法在USPS、yale、faces以及ORLdata数据集上进行聚类试验并与一些先进算法进行了比较。数值试验结果证明了本文提出的算法性能很好。  相似文献   

10.
针对海量数据聚类过程中,经典的K-均值聚类算法对其K个初始聚类中心点的选择以及数据集噪声十分敏感的问题,提出了一种针对海量数据考虑初始聚类中心点选择的聚类算法.该算法首先采用冒泡排序法对数据集进行排序,获取数据集的各维中心值组成第一个初始聚类中心点.其次,通过计算与第一个初始聚类中心点的欧式距离,对剩余候选初始聚类中心点进行优化选择,保证所有的聚类中心点均匀地分布在数据集密度较大的空间上,以此减少聚类过程中的迭代次数和提高聚类算法效率.最后,基于UCI(University of California,Irvine)中多个数据集,进行聚类算法对比实验.结果表明,在不降低聚类效果的前提下,该聚类算法的迭代次数平均降低到50%,所需的时间降低平均达10%,由实验结果还能推出,当点集的数目越多时,该算法就能表现出越明显的聚类优势效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号