共查询到20条相似文献,搜索用时 62 毫秒
1.
2.
针对传统K-均值算法对初始聚类中心选择较为敏感的问题,提出了一种基于融合集群度与距离均衡优化选择的K-均值聚类(K-MCD)算法。首先,基于"集群度"思想选取初始簇中心;然后,遵循所有聚类中心距离总和均衡优化的选择策略,获得最终初始簇中心;最后,对文本集进行向量化处理,并根据优化算法重新选取文本簇中心及聚类效果评价标准进行文本聚类分析。对文本数据集从准确性与稳定性两方面进行仿真实验分析,与K-均值算法相比,K-MCD算法在4个文本集上的聚类精确度分别提高了18.6、17.5、24.3与24.6个百分点;在平均进化代数方差方面,K-MCD算法比K-均值算法降低了36.99个百分点。仿真结果表明K-MCD算法能有效提高文本聚类精确度,并具有较好的稳定性。 相似文献
3.
4.
5.
刘德志 《计算机光盘软件与应用》2012,(3):124-125
为了构建一个基于微博的社会网络,需要提供大量的微博数据源,那么如何才能实时高效的获取微博信息是构建微博社会网络面临的重大挑战。本文提出了一种基于聚类的动态负载均衡数据采集方法,将聚类算法与动态负载均衡结合是一次新的尝试,测试表明,能够满足对微博数据采集的需求。 相似文献
6.
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。 相似文献
7.
《计算机工程》2018,(2):40-45
Sensor FS系统中的集中式传感器聚类算法会使主节点成为系统瓶颈,并且在传感器量大时速度较慢。为此,分别设计分布式传感器聚类算法和细粒度负载均衡算法对系统进行改进。令主节点只负责初始写调度,传感器再次发出写请求时则直接与对应的ChunkServer节点进行交互。在各ChunkServer节点内部利用传感依赖图进行传感器聚类,得到多个传感器类后由主节点聚类。在此基础上,根据各传感器产生数据的速度计算服务器负载,以传感器类为最小单位进行细粒度迁移。实验结果表明,分布式聚类算法和负载均衡算法能有效提升Hadoop分布式文件系统对海量传感小数据的读写性能。 相似文献
8.
9.
针对模糊文本聚类算法(FCM)对输入顺序以及初始点敏感的问题,提出了一种使用蚁群优化的模糊聚类算法(FACA)。该算法采用蚁群聚类算法(ACA)找到聚类的初始中心点,以解决模糊聚类的输入顺序以及初始点敏感等问题。模糊文本聚类算法的线性复杂度使其更便于在计算机实现。与经典的基本模糊聚类以及蚁群聚类在真实数据集上仿真相比较,结果表明经蚁群优化过的模糊聚类算法(FACA)效果更有效,更适合应用于大型的数据集。 相似文献
10.
11.
为了减少传感网络节点的能量消耗,提出了一种基于节点投票策略的异构传感网络分簇算法.通过坐标位置分割地理区域,根据剩余能量和距离,对每个区域内节点投票选举产生簇首,从而使能量消耗最慢和高剩余能量的节点优先当选为簇首.为了保证簇首能量消耗均衡,簇首之间基于剩余能量和距离形成多跳路由,簇首收集数据融合后转发到基站.仿真结果表明,在异构网络下,VSCA与早期的几种分簇路由算法相比,提高了网络的稳定周期,延长了网络生存时间,获得了更高的数据吞吐量. 相似文献
12.
传统的请求分配算法作为一种集中式的静态分配负载均衡算法,一直被认为存在分配不准确的缺陷[1],主要有两个原因:一是集中调度容易成为系统的连接瓶颈,二是静态分配时对各处理机的动态性能把握不够准确.本文针对这两个问题采用自适应的集中调度,使之具有可扩展性,并且严格根据各处理机的实时性能参数实施静态分配,使之适用于异构的服务器集群. 相似文献
13.
异构计算是高效能计算发展的必然趋势,针对异构计算运行中并行任务和体系结构难匹配的问题,提出了实
现并行任务和体系结构匹配的并行任务分簇方法。首先给出效能的概念及异构计算中体系结构感知的分簇问题,然
后从理论上分析了异构匹配与效能的关系,提出了实现异构计算匹配和结构匹配的分簇理论,目的是发挥异构计算中
机器的潜能,协同处理并行任务,实现高效能。在此基础上,给出相应的算法。最后通过仿真实验说明,该方法可通过
簇图与体系结构的匹配缩短通信开销在执行时间上所占的比例,从而缩短并行执行时间,以提高系统利用率,最终实
现异构计算的高效能。 相似文献
14.
集群的负载平衡问题是评价集群系统性能的重要指标.目前,各种负载平衡算法层出不穷,但由于这些算法往往基于特定的集群结构,因此非但不具备通用性,尤其是对于异构集群,造成了软件资源的极大浪费.本文提出了一种通用的负载平衡模型,旨在充分合理利用已有负载平衡算法的基础上,更进一步提高算法的可重用性和可扩展性. 相似文献
15.
针对无线传感器网络中如何利用有限能量延长网络生存时间的问题,研究了分簇算法在能量异构传感器网络环境下的性能特点,设计出一种基于节点剩余能量,适用于多级能量异构网络的分簇算法。在该算法的网络簇头选举加权概率中引入了参量γ,使得在簇头选举过程中,具有较高的初始能量和剩余能量的节点在簇头选举过程中当选簇头的机会增多。避免了剩余能量较小的节点担任簇头引起节点过早死亡使网络覆盖度降低的问题,从而均衡消耗网络中的各节点能量,延长网络的生存时间。同时,引入簇头管理机制保证了网络每轮簇头数目的稳定,进而提高了网络的传输质量。实验仿真结果表明,该算法在多级能量异构网络下比LEACH、SEP和DEEC具有较长的网络生存时间和稳定的数据传输能力。 相似文献
16.
17.
随着单细胞RNA测序技术的发展,目前单细胞测序通量由上千细胞发展到主流上万细胞的规模。基于单细胞RNA测序数据的细胞分型是研究细胞的重要问题之一,该问题主要运用无监督聚类方法。现有针对大规模单细胞测序数据的聚类方法通过简化细胞关系网络来降低时间复杂度,从而导致细胞分型准确度降低。而常见较高准确度的细胞分型方法无法处理大规模数据。为此,采用将[k]最近邻与细胞相似度阈值结合构建全新的细胞关系网络,并采用CPU+GPU异构并行计算提高运算速度,通过改进的马尔科夫聚类算法进行细胞聚类。通过在七个较大规模单细胞数据集上实验,发现该算法比现有主要算法具有更好的聚类准确度,从而适合基于主流单细胞测序技术数据的细胞分型。 相似文献
18.
19.
一种基于"基因表达谱"的并行聚类算法 总被引:7,自引:0,他引:7
跨物种的生物序列比较已经被广泛应用于基因功能预测,而越来越多的实验表明序列相似性并不足以保证基因功能相似.为了精确确定基因功能,不仅需要考虑序列性质,还需探索基因表达信息的特性,因为基因表达的改变往往伴随着基因功能的改变.通过聚类分析基因表达谱,可以直观判断协同表达基因及其规律,这是考察基因功能的重要一步.由于生物组织基因表达的复杂性,以及识别表达的microarray技术和理念的不断更新,表达数据的规模也呈指数规律递增,聚类分析遭遇了巨大瓶颈--过高的时空复杂度.根据"基因表达谱"的数据特征,对处理表达谱数据的分层聚类提出了一种并行分层聚类算法--PHCA,主要解决了并行设计的负载平衡问题,并实现了MPI平台的并行程序设计.并行程序性能分析表明,PHCA算法较大幅度降低了分层聚类算法的时空复杂度. 相似文献
20.
MapReduce作为一种分布式编程模型,被广泛应用于大规模和高维度数据集的处理中。其采用原始Hash函数 划分 数据,当数据分布不均匀时,常会出现数据倾斜的问题。基于MapReduce的聚类算法,需要多次迭代且不清楚各阶段Reduce的输入数据分布,因此现有的解决数据倾斜的方法并不适用。为解决数据划分的不均衡问题,提出一种当存在数据倾斜时更改剩余分区索引的策略。该方法在Map运行的过程中统计将要分给各reducer的数据量,由JobTrackcr监控全局的分区信息并根据数据倾斜模型动态修改原分区函数;在接下来的分区过程中,Partitioner把即将导致倾斜的分区索引到其余负载较轻的reducer上,使各节点的负载达到均衡。基于Zipf分布数据集和真实数据集,将所提算法与现有的解决数据倾斜的方法进行对比,结果证明,所提策略解决了MapReduce聚类中的数据倾斜问题,且在稳定性与执行时间上优于Hash和基于采样的动态分区法。 相似文献