首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 734 毫秒
1.
DPC算法是一种能够自动确定类簇数和类簇中心的新型密度聚类算法,但在样本分配策略上存在聚类质量不稳定的缺陷.其改进算法KNN-DPC虽然具有较好的聚类效果,但效率不高而影响实用.针对以上问题,文中提出了一种近邻密度分布优化的DPC算法.该算法在DPC算法搜索和发现样本的初始类簇中心的基础上,基于样本的密度分布采用两种样本类簇分配策略,依次将各样本分配到相应的类簇.理论分析和在经典人工数据集以及UCI真实数据集上的实验结果表明:文中提出的聚类算法能快速确定任意形状数据的类簇中心和有效地进行样本类簇分配;与DPC算法和KNN-DPC算法相比,文中算法在聚类效果与时间性能上有更好的平衡,聚类稳定性高,可适用于大规模数据集的自适应聚类分析.  相似文献   

2.
张伟 《科技资讯》2013,(24):18-18
本文提出了一种基于参考点和密度的网格聚类算法GRDCA.GRDCA算法保持了基于密度的聚类算法的上述优点和网格聚类的高效性,而且提出了基于参考点的网格单元重构方法避免了网格聚类质量低的缺陷,因此GRDCA算法适合对大规模数据的挖掘,理论分析和实验结果也证明了GRDCA算法具有处理任意形状的聚类、对噪音数据不敏感的特点.  相似文献   

3.
谱聚类(Spectral Clustering)是建立在谱图理论基础上的一种聚类算法.与传统的聚类算法相比,谱聚类能够在任意形状的样本空间上进行聚类且收敛于全局最优解.然而,实际问题中大规模数据集普遍存在,在使用谱聚类对大规模数据集进行聚类时,收敛速度变得十分缓慢,甚至无法在有效的时间内得到聚类结果.并行算法是针对大规模数据集进行处理的一种有效方法.基于Hadoop云计算平台实现大规模数据集的存储和处理是目前实现并行计算的一种高效解决方案.  相似文献   

4.
针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。  相似文献   

5.
对不平衡数据进行聚类分析时,K-means聚类方法可能会错误地将分布在较小区域类别中的样本划分到大区域类别中;谱聚类算法,虽然可以有效优化数据结构,并很好地识别不同形状的样本,但却难以处理大规模数据.针对这些问题,提出一种改进地标点采样的不平衡数据聚类算法.该算法首先对不平衡数据进行预聚类以获得初始类标签,然后基于数据密度对数据进行采样.在此基础上,通过对采样数据执行K-means聚类,并将聚类中心作为地标点,对数据进行谱聚类分析.实验结果显示,该方法在处理不平衡数据时,不仅能够有效提高样本的聚类准确率,而且能够保证聚类结果的稳定性和精度.  相似文献   

6.
给出一种将网格技术、密度技术与分形理论的自相似性结合起来的一种有效聚类算法,利用分形维度变化最小同时是相似程度最大的特点来划分数据集从而得出聚类结果.实验表明该算法可以快速有效的处理多维大型数据集,识别出任意形状簇的个数,而且可以从数据集中挖掘出一些有用的分布信息.  相似文献   

7.
基于网格密度和距离信息特征的聚类算法   总被引:1,自引:0,他引:1  
摘要: 提出的基于网格密度和距离信息特征的聚类方法(GDD)通过构建基于距离的跃迁函数将局域密度波动特征与距离分布信息联系在一起,根据计算出的跃迁函数值扩展和增长聚类簇,从而避免了多数基于网格和密度的聚类算法存在的单调性搜索聚类缺陷。结合具体的跃迁函数在不同测试集上的实验结果表明:GDD算法不仅能够发现任意形状的簇和对噪音数据不敏感,且具有线性于网格数目的时间复杂性,能够回避密度分布不均对聚类结果的影响,更适合于对大规模真实数据集的聚类。  相似文献   

8.
不确定性的出现使传统算法无法直接用于聚类不确定数据流。该文提出一种不确定数据流环境下基于密度的聚类算法,其中提出不确定度的概念以衡量不确定数据的分布信息,并在改进面向确定数据的聚类算法DENCLUE的基础上,提出一种可处理数据不确定度的UDENCLUE算法,以降低数据的不确定性对聚类结果产生的影响;提出滑动窗口下基于密度的不确定数据流聚类算法USDENCLUE,通过聚类特征指数直方图技术实现快速剪枝,可以高效处理噪音数据、演化数据流并生成任意形状的簇;采用真实数据集及人工合成数据集对USDENCLUE与CluStream聚类算法进行比较,实验结果表明了所提出算法的高效性和有效性。  相似文献   

9.
为解决有限区域内分布的稀疏不均的、具有一定分布结构数据集的聚类分析难题,在近邻思想、网格化空间划分及万有引力叠加原理的启发下,提出了一种基于单元网格近邻势的聚类方法。该方法是基于近邻势的聚类方法在单元网格层次上的一种可以提高聚类速度的扩展。为有效实现并在时空效率上对这种聚类方法进行尽可能的改进,使用了单元网格、网格密度、多维网格划分法、多维索引树等一些比较重要的概念和方法。仿真实验中, 先使用多个不同类型的人工数据集将提出的算法与几个经典聚类算法在聚类精度、聚类速度等方面进行适当的比 较,采用两副图片在RGB(red, green,blue)色彩空间的像素点集来验证该算法的聚类压缩效果。仿真实验说明了这种方法比一些经典的聚类算法在聚类建设、聚类质量方面具有一定的有效性和优越性  相似文献   

10.
适用于大规模文本处理的动态密度聚类算法   总被引:2,自引:0,他引:2  
针对传统的基于密度的聚类算法对海量数据处理时, 存在参数输入复杂及时间复杂度高的问题, 给出新的密度定义方法, 并在此基础上提出一种只需一个简单输入参数就能动态识别密度不均匀聚类簇的聚类算法, 同时将其扩充为可以处理海量数据的两阶段动态密度聚类算法。在人造数据集、大规模数据集以及中英文文本语料数据集上的实验表明, 所提出的算法具有输入参数简单和聚类效率高的特点, 可以应用于海量文本数据的聚类处理。  相似文献   

11.
提出一种面向大规模数据的特征趋势推理算法. 首先, 采用Hash函数抽取大规模数据样本, 使用Pam聚类算法和并行K means聚类算法对大规模数据样本进行聚类, 获取最佳聚类结果后, 提取大规模数据聚类的动态特征; 其次, 采用基于特征趋势规则的推理算法, 构建大规模数据特征的趋势规则推理模型, 并通过累计趋势规则方法设计趋势规则算法, 推理大规模数据特征趋势, 解决了推理结果误差较大的问题. 实验结果表明, 该算法对大规模数据特征趋势推理的准确率均值为98.10%, 推理速度增长率为50%, 推理耗时最大均值仅为114.25 s, 能快速准确地完成数据特征趋势推理.  相似文献   

12.
针对传统聚类算法效率低、效果差和稳定性弱等弊端,提出一种新的云计算环境下关联性大数据实时流式可控聚类算法。介绍了关联性实时流式数据的定义和特点。通过粗聚类对实时抵达的数据元组进行相应的预处理,确定类簇的数量与中心点位置,形成通过存在差异的宏簇构成的集合,粗聚类采用的算法为Canopy算法。将粗聚类得到的宏簇传至K-means算法,给出了K-means算法的详细步骤,通过K-means算法完成细聚类,介绍了整个细聚类详细步骤。实验结果表明,所提算法具有效率高、质量好、稳定性强等优势,可有效实现云计算环境下关联性实时流式大数据聚类。  相似文献   

13.
将三支决策与密度敏感谱聚类结合,提出了一种基于三支决策的密度敏感谱聚类算法。该算法通过在密度敏感谱聚类的聚类过程引入容差参数得到每个类的上界,然后通过扰动分析算法从上界中分离出核心域,上界和核心域的差值被认定为该类的边界域。聚类结果用核心域和边界域来表示每个类簇,可以更全面地展示数据的结构信息。与传统的硬聚类算法在UCI数据集的实验结果相比较,本文使用核心域计算聚类的评价指标DBI、AS和ACC都有所提升,较好地解决了不确定性对象的聚类问题。  相似文献   

14.
时空聚类(spatial-temporal density based spatial clustering of applications with noise,ST-DBSCAN)算法只能处理固定属性的时空数据,且其人为设定阈值的方法具有较大随机性会导致聚类结果不理想.基于ST-DBSCAN算法存在的不足,提出了一种改进的多属性时空聚类算法.改进后的新算法采用绘制时空对象距离频数柱状图来设定自适应阈值,通过引入Gower相似系数、Dice相似系数与欧几里德距离来构建多属性相似度模型,计算多个事务对象之间属性特征的相似度大小,从而将ST-DBSCAN时空聚类算法扩展到更多属性的时空数据聚类分析中.以北京市计算机行业职位招聘信息数据进行实验仿真,实验结果表明,新提出的阈值设定方法可以有效识别部分低密度簇,提高聚类的准确性和有效性;改进后的算法具有较好的普适性与包容性,能对多属性的时空数据进行很好的聚类分析.  相似文献   

15.
传统算法数据划分冗余度和倾斜度高,无用连接数据多,降低负载均衡性,对整体效率产生不好的影响,不适于实际应用。为此,面向混合动态数据库集群提出一种新的并行空间连接优化算法。采用网格划分法对数据进行划分,依据空间数据划分结果获取数据分布状态,计算节点按照数据分布状态得到候选集。通过平面扫描形成若干子空间连接的子任务,利用构建节点花费模型,依据花费模型对并行空间连接所需的平均节点访问个数进行评估,把候选任务集分配至不同计算节点,在不同节点执行并行空间连接操作。通过边界过滤策略,删除不可能有结果的元组,提高效率,增强算法的实用性。实验结果表明,所提算法适于实际应用,效率高。  相似文献   

16.
张选平  祝兴昌  马琮 《西安交通大学学报》2007,41(12):1387-1390,1395
针对基于密度的聚类算法由高密度区到低密度区的处理顺序所带来的不能识别低密度对象类别的缺陷,通过对聚类过程中可能存在的边界识别进行讨论,提出了一种基于边界识别的聚类算法.该算法的思想是:同簇优先权高于密度优先权,即在选择下一个对象进行聚类时,在已聚类的对象中优先选择同一簇的对象,当对象沿某一方向扩展到达簇边界时停止扩展,转而向其他方向扩展,这种处理顺序能使得类别最大化.通过分析簇边界的密度变化特征,建立了边界识别准则,并根据该准则对数据进行聚类.通过在合成数据和美国加州大学提供的知识挖掘数据库数据集上的实验结果表明,所提算法能有效地处理低密度区域的数据,与识别聚类结构的对象排序算法相比,聚类效果可提高4%左右,而时间性能相当.  相似文献   

17.
大数据空间分析是 Cyber-GIS 的重要方面。如何利用现有的网络基础设施(比如大规模计算集群)对大数据进行并行分布式空间分析仍然是一大难题。为此,提出一种基于 MapReduce 的空间权重创建方法。该方法依托Hadoop 框架组织计算资源,基于 MapReduce 模式从大规模空间数据集中高效创建出空间权重:大空间数据被分为多个数据块,将映射器分布给计算集群中的不同节点,以便在数据中寻找出空间对象的相邻对象,由约简器从不同节点处收集相关结果并生成权重文件。利用 Amazon 公司弹性 MapReduce 的 Hadoop 框架,从人工空间数据中创建基于邻近概念的权重矩阵进行仿真。实验结果表明,该方法的性能优于传统方法,解决了大数据的空间权重创建问题。  相似文献   

18.
针对单幅复杂环境图像阴影检测问题, 提出一种基于多尺度超像素融合的自动阴影检测快速算法. 首先利用深度图像计算各点的法向量及空间坐标, 同时利用简单线性迭代聚类算法对彩色图像进行多个尺度的超像素分割; 然后使用阴影置信度算法结合图像的色度、法线和空间位置信息分别估计各尺度下的超像素阴影置信度; 最后采用Adaboost训练的分类器对各尺度下的超像素阴影置信度进行融合, 得到最终的判决结果. 实验结果表明, 该算法的准确度明显高于原阴影置信度算法, 运行时间约为原阴影置信度算法的10%, 对于小块阴影、 大面积阴影及边缘不清晰的软阴影检测表现较突出, 适合对光线复杂环境下的图像进行前期预处理.  相似文献   

19.
为了解决传统算法检测准确性低,复杂性高不适于电力大数据异常值检测的问题,通过密度峰值聚类算法研究了电力大数据异常值检测问题。分析了密度峰值聚类算法的聚类过程。按照聚类中心选择原则,通过相邻距离和密度的归一化乘积对聚类点的差异度进行衡量,按照差异度的统计特性与改变趋势选择最大的一组点当成聚类中心。按照z空间填充曲线与高维数据点z携带位置信息特性提出基于z的分布式密度峰值聚类算法,降低异常检测复杂性,以达到电力大数据异常值检测要求。采用优化后的密度峰值聚类算法对电力大数据异常值进行检测,在局部密度超过阈值,同时距离超过阈值的情况下,认为相应电力数据点为异常值。将基于距离的检测算法和基于密度的检测算法作为对比进行测试,结果表明:所提算法得到的异常电力数据点,和实际情况相符,和其他两种算法相比没有出现错检测和漏检测的情况。可见所提算法适于电力大数据异常值检测,且检测结果准确性高。  相似文献   

20.
针对计算大规模复杂网络时介数的空间和时间复杂度问题,根据网络数据的存储特点,设计了减少内存占用并能提高查找速度的数据结构.根据介数计算的特点,用Python语言设计了粗粒度并行算法,在多核心工作站机群实现了并行算法.实验结果表明:并行算法不仅能够适用于上亿条边规模的网络,而且能够获得线性加速比,使120个计算核心的加速比达到了71左右,为分析大规模复杂网络数据的特性提供了易操作的方案.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号