首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
面向大规模数据的快速并行聚类划分算法研究   总被引:1,自引:0,他引:1  
牛新征  佘堑 《计算机科学》2012,39(1):134-137,151
随着聚类分析中处理数据量的急剧增加,面对大规模数据,传统K-Means聚类算法面临着巨大挑战。为了提高传统K-Means聚类算法的效率,针对已有基于MPI的并行K-Means聚类算法和基于Hadoop的分布式K-Means云聚类算法,从聚心初始化和通信模式等入手,提出了改进思路和具体实现。实验结果表明,所提算法能大大减少通信量和计算量,具有较高的执行效率。研究结果可以为以后设计更好的大规模数据快速并行聚类划分算法提供研究依据。  相似文献   

2.
随着数据库技术的发展和Internet的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临许多新的问题和挑战,如海量数据和新的计算环境等.深入研究了基于云计算平台Hadoop的并行k-means聚类算法,给出了算法设计的方法和策略.在多个不同大小数据集上的实验表明,设计的并行聚类算法具有优良的加速比、扩展率和数据伸缩率等性能,适合用于海量数据的分析和挖掘.  相似文献   

3.
基于云计算平台Hadoop的并行k-means聚类算法设计研究   总被引:2,自引:0,他引:2  
随着数据库技术的发展和Intcrnct的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临 许多新的问题和挑战,如海量数据和新的计算环境等。深入研究了基于云计算平台Hadoop的并行k-means聚类算 法,给出了算法设计的方法和策略。在多个不同大小数据集上的实验表明,设计的并行聚类算法具有优良的加速比、 扩展率和数据伸缩率等性能,适合用于海量数据的分析和挖掘。  相似文献   

4.
针对聚类算法研究中普遍存在不能充分利用历史信息、参数优化过程慢的问题,结合边缘智能计算提出了一种基于数据场的分布式自适应分类算法,算法部署于边缘计算(EC)节点,提供本地的智能分类服务。该算法通过引入监督信息改造传统数据场聚类模型的结构,使其能够应用于分类问题,扩展了数据场理论可应用的领域。基于数据场思想,该算法将数据的域值空间转化为数据势场空间,依据空间势值将数据分为无标签的多个类簇结果,再将类簇结果与历史监督信息进行云相似度比较,并将其归属于与其最相似的类中;同时,提出了一种基于滑动步长的参数搜索策略以提高算法参数的优化速度。在此算法基础上还提出了一种基于分布式的数据处理方案,通过云中心与边缘设备的协作,将分类任务切割分配到不同层次的节点,实现模块化、低耦合。仿真结果表明,所提算法的查准率和查全率均保持在96%以上,且汉明损失均低于0.022。实验结果表明,所提算法可以准确分类并提高参数优化速度,整体性能优于逻辑回归(LR)算法与随机森林(RF)算法。  相似文献   

5.
基于数据场的改进DBSCAN聚类算法   总被引:1,自引:0,他引:1  
DBSCAN(density based spatial clustering of applications with noise)算法是一种典型的基于密度的聚类算法。该算法可以识别任意形状的类簇,但聚类结果依赖于参数Eps和MinPts的选择,而且对于一些密度差别较大的数据集,可能得不到具有正确类簇个数的聚类结果,也可能将部分数据错分为噪声。为此,利用数据场能较好描述数据分布,反映数据关系的优势,提出了一种基于数据场的改进DBSCAN聚类算法。该算法引入平均势差的概念,在聚类过程中动态地确定每个类的Eps和平均势差,从而能够在一些密度相差较大的数据集上得到较好的聚类结果。实验表明,所提算法的性能优于DBSCAN算法。  相似文献   

6.
在大数据时代,针对CLUBS算法较高的计算复杂度导致训练效率低下的问题,提出一种面向大规模数据的并行聚类算法CLUBS‖,通过将CLUBS算法的思想融入MapReduce并行计算框架,实现数据的并行处理,提高算法的计算效率,从理论上对几个关键计算的并行化进行较为深入的分析,基于Ad-hoc消息传递对该算法进行实现.实验结果验证了所提方法的有效性.  相似文献   

7.
面对大数据规模庞大且计算复杂等问题,基于MapReduce框架采用两阶段渐进式的聚类思想,提出了改进的K-means并行化计算的大数据聚类方法。第一阶段,该算法通过Canopy算法初始化划分聚类中心,从而迅速获取粗精度的聚类中心点;第二阶段,基于MapReduce框架提出了并行化计算方案,使每个数据点围绕其邻近的Canopy中心进行细化的聚类或合并,从而对大数据实现快速、准确地聚类分析。在MapReduce并行框架上进行算法验证,实验结果表明,所提算法能够有效地提升并行计算效率,减少计算时间,并提升大数据的聚类精度。  相似文献   

8.
刘玉华  张翼  徐翠  晋建志 《计算机科学》2013,40(11):70-73,93
针对当前复杂网络研究中聚类的热点问题,提出了一种基于数据场的复杂网络聚类算法,该算法通过一种基于互信息的方法计算出复杂网络中节点的重要性,然后通过数据场中节点的势来划分网络的簇结构。实验证明,该算法在计算时间和精度上具有一定的优势。  相似文献   

9.
基于数据场的粗糙聚类算法   总被引:2,自引:1,他引:1  
聚类分析是数据挖掘的研究热点.传统的聚类算法都是把一个对象精确地划分到一个聚类簇中,类别之间的界限是非常精确的.随着Web挖掘技术的发展,精确地划分每个对象的聚类算法面临着巨大的挑战.根据数据场理论和经典粗糙集理论所具有处理不精确与不确定性数据的特性,提出一种新的基于数据场的粗糙聚类算法,该粗糙聚类算法采用势值作为对象的划分依据,避免传统粗糙聚类算法一贯采用基于欧氏距离的划分方法.算法首先通过对数据对象进行粗分然后再不断迭代细分,直至形成稳定的聚类簇.实验分析过程中,把提出的算法与粗糙K-means算法和粗糙K-medoids算法进行了比较,结果表明该算法在交叉数据集上具有较好的聚类效果,而且收敛速度较快.  相似文献   

10.
为提高数据一致性以及检索效率,提出一种基于聚类算法的多维数据库一致性检测与恢复方法。计算数据指标均值与标准差,标准化处理数据;利用K-means算法衡量不同数据属性的相似特征,建立特征簇,选择聚类特征;通过稀疏图描述数据间关系,利用多级图分割算法获取多个子图,通过凝聚层次聚类方法,判断子图间相似度,设定合并阈值聚类子图,根据聚类结果判断数据库的一致性;针对一致性较差的数据库,采用等价类算法构建恢复模型,实现多维数据库一致性检测与恢复。实验结果证明:所提方法检测速度快,恢复后数据库一致性较好。  相似文献   

11.
目的 随着城市交通拥堵问题的日益严重,建立有效的道路拥堵可视化系统,对智慧城市建设起着重要作用。针对目前基于车辆密度分析法、车速判定法、行驶时间判定法等模式单一,可信度低的问题,提出了一种基于DBSCAN+(density-based spatial clustering of applications with noise plus)的道路拥堵识别可视化方法。方法 引入分块并行计算,相较于传统密度算法,可以适应大规模轨迹数据,并行降维聚类速度快。对结果中缓行区类簇判别路段起始点和终止点,通过曲线拟合和拓扑网络纠偏算法,将类簇中轨迹样本点所表征的路段通过地图匹配算法匹配在电子地图中,并结合各类簇中浮动车平均行驶速度判别道路拥堵程度,以颜色深浅程度进行区分可视化。结果 实验结果表明,DBSCAN+算法相较现有改进的DBSCAN算法时间复杂度具有优势,由指数降为线性,可适应海量轨迹点。相较主流地图产品,利用城市出租车车载OBD(on board diagnostics)数据进行城区道路拥堵识别,提取非畅通路段总检出长度相较最优产品提高28.9%,拥堵识别命中率高达91%,较主流产品城区拥堵识别平均命中率提高15%。结论 在城市路网中,基于DBSCAN+密度聚类和缓行区平均移动速度的多表征道路拥堵识别算法与主流地图产品相比,对拥堵识别率、通勤程度划分更具代表性,可信度更高,可以为道路拥堵识别的实时性提供保障。  相似文献   

12.
基于FFCM聚类的城市交通拥堵判别研究*   总被引:2,自引:0,他引:2  
对城市道路交通拥堵状态判别的问题,提出了一种硬C均值(HCM)聚类与模糊C均值(FCM)聚类相结合的快速模糊C均值聚类(FFCM)算法。用硬聚类的结果对模糊聚类初始值的选取进行指导,以加速算法的收敛过程。将该算法用于城市交通流数据的聚类分析结果表明,该算法能够快速而有效地对城市交通流状况进行判别,为动态交通拥堵预警和交通疏导策略的制定提供依据。  相似文献   

13.
从应用角度出发,分析、归纳各种应用中的核心计算过程,利用符合多核处理器芯片架构的并行计算模型对这些核心计算过程进行优化,得出可以被重复利用的高性能可扩展的软件库,它既可以支持新应用的高效开发,也可以保证程序性能的可扩展性。以分层并行计算模型思想为指导,从应用驱动的并行程序性能优化的角度出发,首先提出了面向多核处理器芯片体系结构的并行算法设计模型,在此基础上对并行扫描算法进行分析优化,得出新的具有良好扩展性、高性能的g-scan算法。之后深入研究13种核心计算实体之一的稀疏线性代数计算实体,应用g-scan算法设计实现了新的稀疏矩阵-向量运算算法,并将其应用于结构工程领域中广泛使用的有限元分析,大大提升了其执行效率。  相似文献   

14.
基于云网格集成调度的防拥堵车辆路径规划算法   总被引:2,自引:0,他引:2  
薛明  许德刚 《计算机科学》2015,42(7):295-299
在道路交通路网中,车辆拥堵问题是流量与路网结构之间相互作用的一个复杂动态过程,通过车辆路径规划,实现对路网网格集成调度,从而提高路网通行吞吐量。传统方法采用并行微观交通动态负载平衡预测算法实现车辆拥堵调度和车辆路径规划,不能准确判断路面上的车辆密度,路径规划效益不好。提出一种基于云网格集成调度的防拥堵车辆路径规划算法,即构建基于Small-World模型的云网格路网模型,采用RFID标签信息进行路况信息采集,实现交通网络拥堵评估信息特征的提取,采用固有模态函数加权平均求得各车道的车辆拥塞状态函数,对所有车道内车辆密度取统计平均可获得簇内的车辆密度。设计交通路网拥堵检测算法来对当前个体道路信息进行一维邻域搜索,从而实现车辆路径规划控制目标函数最佳寻优。通过动态博弈的方式求得车辆防拥堵路径的近似最优轨迹,实现路径规划算法的改进。仿真结果表明,该算法能准确规划车辆路径,实现最优路径控制,从而提高严重拥堵路段的车流速度和路网吞吐性能,性能优越。  相似文献   

15.
嵌入式系统在图像处理、空间计算等领域越来越广泛,如何在功耗、成本和计算能力三个主要方面取得平衡,利用多核和多处理器系统以并行计算方式提高嵌入式系统计算能力是一种有效的解决方案.讨论了基于Cortex嵌入式多处理器系统的基本结构,并在该系统上进行图像中值滤波算法的并行化研究.实验结果分析表明,在该嵌入式多处理器平台上配合并行算法能够成倍提高图像中值滤波的运行性能.  相似文献   

16.
随着经济的发展,城市交通拥堵问题亟待解决,交通量过载发现是解决交通拥堵问题的有效方法之一。提出一种基于HMM模型的轨迹聚类算法HMM-Cluster,可有效地发现交通量过载情况。该算法首先提取时空轨迹特征点,并采用维数约简技术减少轨迹数据量,根据参照轨迹拟合HMM模型,基于密度函数得到轨迹相似度矩阵,最后给出聚合的相似性轨迹。真实轨迹数据集上的对比实验结果表明,提出的HMM-Cluster可有效地挖掘移动对象运动模式,准确发现交通量过载情况,具有一定实用价值。  相似文献   

17.
边缘检测是图像处理与计算机视觉领域中一种重要的图像分析方法,Sobel算子常用于粗精度的边缘提取,在图像边缘检测中被广泛应用。随着国产飞腾(FT)系列高性能数字信号处理器的发展,图像处理领域对FT平台的需求日益提高,同时急需实现面向FT平台的高性能图像处理算法。针对上述问题,在FT-M7002平台上对Sobel边缘检测算法进行向量并行优化,使用FT-M7002处理器内嵌SIMD指令,挖掘Sobel边缘检测算法中的数据级并行性,同时设计并实现一种字符型与整型数据间的并行化转换接口,使用循环展开优化方法提升指令节拍数,通过DMA矩阵转置解决数据访存不连续的问题。采用双缓冲技术实现数据传输与内核计算的并行,从而隐藏数据传输与计算之间的时间间隙。对比分析多种卷积核大小及图片规模下原Sobel算法与优化算法的性能,结果表明,与原始算法相比,该优化算法能取得1.66~3.14倍的加速比,此外,相较TMS320C6678处理器上的运行结果,在FT-M7002平台上优化算法可达到1.87~2.08倍的加速效果。  相似文献   

18.
根据交通网络仿真的并行特征采用域分解方法设计交通并行仿真系统的框架,把交通网络分为几个子网,集群系统的每个节点机分别负责其中的一个子网,提出基于车辆数负载的网络分割算法来平衡各子网的负载量,并分析子网之间的通信机理.同时,在基于MPI 的并行计算平台上实现设计的并行仿真系统.通过实例表明,提出的并行算法能大大提高交通网络仿真的速度和效率.  相似文献   

19.
针对城市交通难以处理大量数据且实时性差等问题,提出了根据增量式城市交通流数据预测拥堵情况的一种基于国产处理器的L-BFGS(limited-memory BFGS)算法。该算法通过存储向量序列计算Hessian矩阵,改进Two-Loop算法求下降方向,在Spark集群中并行处理时收敛速度快,适用于实时性要求强的城市交通场景。实验结果证明,L-BFGS预测算法完全可以在国产平台上对大规模的实时交通数据流进行快速建模、预测,在改善城市交通管理水平提供有效支撑的同时也丰富了国产芯片的应用领域。  相似文献   

20.
白宇  郭显娥 《计算机应用》2014,34(7):1839-1842
针对当前云计算负载压力测试过程中,对所采集数据计算并行任务密度的算法效率较低的问题,基于空间换时间的思路,使用数学分析的方法,提出了一种时间复杂度为O(n lb n),空间复杂度为O(n)的求解并行任务密度的高速算法。实验结果表明,该算法与时间复杂度同为O(n lb n)的OpenSTA算法相比,效率约有6~8倍的提升。该算法对多个相同的并行任务密度能够解得并行时长最长者,可以准确反映负载最重的情况。该算法适合云计算进行负载均衡算法设计时,获取真实参照数据使用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号