首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 80 毫秒
1.
随着电力通信技术的发展,产生了大量分布式电力通信子系统以及海量电力通信数据,在海量数据中挖掘重要信息变得十分重要。聚类分析作为数据并行化处理和信息挖掘的一个有效手段,在电力通信中得到了广泛的应用。然而,传统聚类算法在处理海量电力数据时已不能满足时间性能的要求。针对这一问题,提出了一种基于  相似文献   

2.
集群环境下的并行聚类算法   总被引:8,自引:0,他引:8  
探讨在集群环境下,如何设计并行聚类算法。作为一种低成本、通用并行系统,集群系统的通信能力,相对于节点的计算能力,是一个瓶颈。所以在集群环境下,设计并行聚类算法时,应采用数据并行的思想。从理论上,对采用数据并行思想后,影响聚类算法的加速比和聚类质量的因素进行了分析,然后通过一个验证算法PCIT(Parallel clustering algorithm based on Index Tree)证实了理论分析的正确性。研究结果可以为以后设计更好的数据并行聚类算法提供理论依据。  相似文献   

3.
在大数据时代,针对CLUBS算法较高的计算复杂度导致训练效率低下的问题,提出一种面向大规模数据的并行聚类算法CLUBS‖,通过将CLUBS算法的思想融入MapReduce并行计算框架,实现数据的并行处理,提高算法的计算效率,从理论上对几个关键计算的并行化进行较为深入的分析,基于Ad-hoc消息传递对该算法进行实现.实验...  相似文献   

4.
在处理海量数据集时,由于单台计算机的处理能力有限,利用传统的聚类算法难以在有效的时间内获得聚类结果。在基于密度和自适应密度可达聚类算法的基础上,提出一种并行聚类算法。理论和实验结果证明该算法具有接近线性的加速比,能够有效地处理大规模的数据集。  相似文献   

5.
根据集群的特点和聚类的特性,从理论上探讨了聚类并行化的可行性,并在此基础上用实验进行了验证,结果表明通过这些改进能够获得比较理想的性能。  相似文献   

6.
7.
传统聚类算法由于单机内存和运算能力的限制已经不能满足当前大数据处理的要求,因而迫切需要寻找新的解决方法。针对单机内存运算问题,结合聚类算法的迭代计算特点,提出并实现了一种基于Spark平台的聚类系统。针对稀疏集和密集集两种不同类型的数据集,系统首先采用不同策略实现数据预处理;其次分析比较了不同聚类算法在Spark平台下的聚类性能,并给出最佳方案;最后利用数据持久化技术提高了计算速度。实验结果表明,所提系统能够有效满足海量数据聚类分析的任务要求。  相似文献   

8.
为了减小智能探测机器人运动轨迹误差,实现精准控制,提高智能探测机器人运动控制效率,设计基于大数据聚类的智能探测机器人运动控制系统;采用TMS320LF2407A主控芯片,集成650 V功率管,在电感电流断续模式下工作,提供系统驱动能量,设置光电耦合器,处理控制信号发射,调整控制电路内部电流关系;选用6ES7214-1AG40-0XB0控制器以及信号和通信模块扩展,控制机器人运动轨迹,结合内部驱动装置,整合运动数据信息进行存储,实现运动控制系统硬件结构设计;通过调节程序开始数据,结合内部脉冲数据,构建软件平台管理模块,获取机器人运动轨迹数据;采用大数据聚类技术,建立控制系统大数据分布结构模型,模拟非线性时变LFM控制信号,提取特征并聚类运动轨迹数据,获取精准运动轨迹数据,减少运动轨迹偏差程度,完成运动控制系统软件设计;实验结果表明,基于大数据聚类的运动控制系统的运动轨迹误差较小,能够有效实现精准控制,提高运动控制效率.  相似文献   

9.
CLOPE算法在大规模、稀疏、高维的分类数据集的聚类上取得了很好的聚类效果.然而该算法受输入数据的顺序影响,难以获得稳定且全局最优的聚类结果.因此提出一种基于等分划分再排列思想的p-CLOPE算法对这一缺陷进行改进.在p-CLOPE算法的每一轮迭代过程中,对输入数据集等分为p部分再排列生成不同顺序的p!份数据集,对这些数据集分别聚类并选取最优的聚类结果作为下一轮迭代的输入.为了降低上述过程的时间复杂度,提出了一种中间结果复用策略,较大程度地提高了聚类速度.最后,在Hadoop平台上实现了一个包含p-CLOPE相关算法的开源聚类工具.实验表明:p-CLOPE算法比CLOPE算法取得了更优的聚类结果.对蘑菇数据集,当CLOPE算法取得最优聚类结果时,p-CLOPE比CLOPE取得了高35.7%的收益值;在处理大量数据时,并行p-CLOPE比串行p-CLOPE极大地缩短了聚类时间,并在计算资源充足时,取得了接近p!倍的加速比.  相似文献   

10.
周兵  冯中慧  王和兴 《计算机科学》2007,34(10):195-199
本文的目的就是通过理论分析和试验,探讨集群环境下并行聚类算法的设计思想。作为一种低成本、通用并行系统,集群系统的通讯能力相对于节点的计算能力是一个瓶颈。所以本文提出,在集群环境下设计并行聚类算法时,应采用数据并行的思想。本文首先从理论上,对采用数据并行思想后影响加速比的因素和通讯策略的选择进行了分析,然后实现了一个新的并行聚类算法——PARC算法。通过PARC算法的实验,证明了理论分析的正确性,并且表明并行聚类算法可以得到良好的聚类质量。本文的研究结果可以为以后设计更好的数据并行聚类算法提供一定的理论依据。  相似文献   

11.
针对当前虚拟地理环境中语义信息表达不足问题,提出了一种面向虚拟地理环境的语义数据模型,能够有效表达几何信息、拓扑信息、语义信息和属性信息,并对这些信息进行关联来表达实体。设计了面向虚拟地理环境的集成空间数据结构,综合表达地上、地表和地下空间实体,通过实体的分类和分解来表达实体的语义信息;依据此语义数据模型,实现了地上建筑物和地形的无缝集成。该语义数据模型能够对虚拟地理环境中的实体进行无歧义表达。  相似文献   

12.
ABSTRACT

Clustering techniques are very attractive for identifying and extracting patterns of interests from datasets. However, their application to very large spatial datasets presents numerous challenges such as high-dimensionality, heterogeneity, and high complexity of some algorithms. Distributed clustering techniques constitute a very good alternative to the Big Data challenges (e.g., Volume, Variety, Veracity, and Velocity). In this paper, we developed and implemented a Dynamic Parallel and Distributed clustering (DPDC) approach that can analyse Big Data within a reasonable response time and produce accurate results, by using existing and current computing and storage infrastructure, such as cloud computing. The DPDC approach consists of two phases. The first phase is fully parallel and it generates local clusters and the second phase aggregates the local results to obtain global clusters. The aggregation phase is designed in such a way that the final clusters are compact and accurate while the overall process is efficient in time and memory allocation. DPDC was thoroughly tested and compared to well-known clustering algorithms BIRCH and CURE. The results show that the approach not only produces high-quality results but also scales up very well by taking advantage of the Hadoop MapReduce paradigm or any distributed system.  相似文献   

13.
The academic and industry have entered big data era in many computer software and embedded system related fields. Intelligent transportation system problem is one of the important areas in the real big data application scenarios. However, it is posing significant challenge to manage the traffic lights efficiently due to the accumulated dynamic car flow data scale. In this paper, we present NeverStop, which utilizes genetic algorithms and fuzzy control methods in big data intelligent transportation systems. NeverStop is constructed with sensors to control the traffic lights at intersection automatically. It utilizes fuzzy control method and genetic algorithm to adjust the waiting time for the traffic lights, consequently the average waiting time can be significantly reduced. A prototype system has been implemented at an EBox-II terminal device, running the fuzzy control and genetic algorithms. Experimental results on the prototype system demonstrate NeverStop can efficiently facilitate researchers to reduce the average waiting time for vehicles.  相似文献   

14.
面对大数据规模庞大且计算复杂等问题,基于MapReduce框架采用两阶段渐进式的聚类思想,提出了改进的K-means并行化计算的大数据聚类方法。第一阶段,该算法通过Canopy算法初始化划分聚类中心,从而迅速获取粗精度的聚类中心点;第二阶段,基于MapReduce框架提出了并行化计算方案,使每个数据点围绕其邻近的Canopy中心进行细化的聚类或合并,从而对大数据实现快速、准确地聚类分析。在MapReduce并行框架上进行算法验证,实验结果表明,所提算法能够有效地提升并行计算效率,减少计算时间,并提升大数据的聚类精度。  相似文献   

15.
分析了分布式虚拟环境仿真的特点,提出了基于网格的分布式虚拟环境仿真的海量数据管理框架.该框架结构采用分层结构,自底向上依次为网格节点、高性能通信系统、数据存储与处理系统和计算系统.给出了一个基于上述体系结构的原型系统.对该原型系统的仿真结果表明,该海量数据管理体系结构设计符合虚拟环境仿真实时性、稳定性和高可靠性的要求.  相似文献   

16.
韩峰  杨士元  汪锐  李牋 《计算机工程与设计》2005,26(4):1062-1063,1072
针对在采用无线技术替代打印电缆传送打印数据时遇到的如何获得打印数据的问题,提出了虚拟并口的解决方案。这种方案适用于各种型号的打印机,它不需要修改打印机驱动程序,也不破坏系统原有的结构。介绍了虚拟并口的实现方法。对虚拟并口的特点进行了总结。  相似文献   

17.
With the continuous increase of data, scaling up to unprecedented amounts, generated by Internet-based systems, Big Data has emerged as a new research field, coined as “Big Data Science”. The core of Big Data Science is the extraction of knowledge from data as a basis for intelligent services and decision making systems, however, it encompasses many research topics and investigates a variety of techniques and theories from different fields, including data mining and machine learning, information retrieval, analytics, and indexing services, massive processing and high performance computing. Altogether the aim is the development of advanced data-aware knowledge based systems.This special issue presents advances in Semantics, Intelligent Processing and Services for Big Data and their applications to a variety of domains including mobile computing, smart cities, forensics and medicine.  相似文献   

18.
随着电网监控运行一体化运行趋势愈发明显,大数据技术应用的不断成熟、普及,为具有多源、高维、异构等特征的电网监控大数据的分析与应用提供了解决方案。本文提出了面向智能电网监控运行大数据分析系统的统一建模方法,分析了监控大数据的数据源、数据范围及现状与存在问题,指出了数据建模所需解决的问题与思路,采用元数据思想构建了公共模型,基于业务需要构建了应用模型,对于数据接入与存储管理方面,定义了元数据模型,其目的是在接入、汇总监控业务相关数据源的基础上,构建以设备为中心的监控数据关联模型,实现数据对象统一建模,为实现多源数据高效、规范接入提供了模型支撑,同时定义了符合该建模思路的元模型,元模型约束了建模行为,保证建立的模型遵行领域约束,为上层智能监控大数据分析应用奠定了基础。  相似文献   

19.
ABSTRACT

The ability to exploit students’ sentiments using different machine learning techniques is considered an important strategy for planning and manoeuvring in a collaborative educational environment. The advancement of machine learning technology is energised by the healthy growth of big data technologies. This helps the applications based on Sentiment Mining (SM) using big data to become a common platform for data mining activities. However, very little has been studied on the sentiment application using a huge amount of available educational data. Therefore, this paper has made an attempt to mine the academic data using different efficient machine learning algorithms. The contribution of this paper is two-fold: (i) studying the sentiment polarity (positive, negative and neutral) from students’ data using machine learning techniques, and (ii) modelling and predicting students’ emotions (Amused, Anxiety, Bored, Confused, Enthused, Excited, Frustrated, etc.) using the big data frameworks. The developed SM techniques using big data frameworks can be scaled and made adaptable for source variation, velocity and veracity to maximise value mining for the benefit of students, faculties and other stakeholders.  相似文献   

20.
云环境下,类似MapReduce的数据分布并行应用被广泛运用。针对此类应用执行效率低、成本高的问题,以Hadoop为例,首先,分析该类应用的执行方式,发现数据量、节点数和任务数是影响其效率的主要因素;其次,探讨以上因素对应用效率的影响;最后,通过实验得出在数据量一定的情况下,增加节点数不会明显提高应用的执行效率,反而极大地增加执行成本;当任务数接近节点数时,应用的执行效率较高、成本较低。该结论为云环境中类似MapReduce的数据分布并行应用的效率优化提供借鉴,并为用户租用云资源提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号