首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
基于分类的半监督聚类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种基于分类的半监督聚类算法。充分利用了数据集中的少量标记对象对原始数据集进行粗分类,在传统k均值算法的基础上扩展了聚类中心点的选择方法;用k-meansGuider方法对数据集进行粗聚类,在此基础上对粗聚类结果进行集成。在多个UCI标准数据集上进行实验,结果表明提出的算法能有效改善聚类质量。  相似文献   

2.
李金泽  徐喜荣  潘子琦  李晓杰 《计算机科学》2017,44(Z6):424-427, 450
聚类算法是近年来国际上机器学习领域的一个新的研究热点。为了能在任意形状的样本空间上聚类,学者们提出了谱聚类和图论聚类等优秀的算法。首先介绍了图论聚类算法中的谱聚类经典NJW算法和NeiMu图论聚类算法的基本思路,提出了改进的自适应谱聚类NJW算法。提出的自适应NJW算法的优点在于无需调试参数,即可自动求出聚类个数,克服了经典NJW算法需要事先设置聚类个数且需反复调试参数δ才能得出数据分类结果的缺点。在UCI标准数据集及实测数据集上对自适应NJW算法与经典NJW算法、自适应NJW算法与NeiMu图论聚类算法进行了比较。实验结果表明,自适应NJW算法方便快捷,且具有较好的实用性。  相似文献   

3.
针对文本多分类算法中,由于不平衡数据集产生的小样本分类数据准确率低问题,提出基于轮廓系数动态K-means聚类的文本多分类混合式均分聚类采样算法.在不平衡数据集中针对小样本数据集利用聚类簇进行等比例过采样,针对大样本数据集利用聚类簇进行欠采样.基于微博灾害数据集,设计文本卷积神经网络,对该算法进行实验验证与分析,实验结果表明,该算法能够有效提升文本不平衡数据集的准确率和F1值,较好解决了不平衡文本数据集分类问题.  相似文献   

4.
一种新型的基于密度和栅格的聚类算法*   总被引:2,自引:1,他引:1  
针对网格和密度方法的聚类算法存在效率和质量问题,给出了密度和栅格相结合的聚类挖掘算法,即基于密度和栅格的聚类算法DGCA(density and grid based clustering algorithm)。该算法首先将数据空间划分为栅格单元,然后把数据存储到栅格单元中,利用DBSCAN密度聚类算法进行聚类挖掘;最后进行聚类合并和噪声点消除,并将局部聚类结果映射到全局聚类结果。实验通过人工数据样本集对该聚类算法进行理论上验证,表明了该算法在时间效率和聚类质量两方面都得到了提高。  相似文献   

5.
基于分形维度的完全分布式聚类算法   总被引:2,自引:0,他引:2  
传统的聚类算法通常针对单处理机,当数据资源分别存储在不同节点的计算机时,无法运用传统的聚类算法进行计算。本文提出一种完全分布式聚类算法,通过计算分形维度,利用分布式环境信息广播方式交流多台计算机的运行结果,最终汇集成全局聚类的信息进行聚类。理论分析表明,该算法不仅对分布数据可以很好的聚类而且可以最大限度降低通信成本和延时情况。  相似文献   

6.
一种基于局部密度的分布式聚类挖掘算法   总被引:4,自引:1,他引:3  
倪巍伟  陈耿  吴英杰  孙志挥 《软件学报》2008,19(9):2339-2348
分布式聚类挖掘技术是解决数据集分布环境下聚类挖掘问题的有效方法.针对数据水平分布情况,在已有分布式密度聚类算法DBDC(density based distributed clustering)的基础上,引入局部密度聚类和密度吸引子等概念,提出一种基于局部密度的分布式聚类算法——LDBDC(local density based distributed clustering).算法适用于含噪声数据和数据分布异常情况,对高雏数据有着良好的适应性.理论分析和实验结果表明,LDBDC算法在聚类质量和算法效率方面优于已有的DBDC算法和SDBDC(scalable dellsity-based distributed clustering)算法.算法是有效、可行的.  相似文献   

7.
近年来,谱聚类在分类领域得到了广泛的研究,其中基于路径和基于密度的算法是两个重要的研究方向。虽然这两种算法在一些数据集上能取得较好的分类效果,但不能对一些特殊的数据集进行准确分类。融合了这两种方法的优点,通过多级密度约束来寻找路径,根据得到的路径建立新的相似性矩阵。为了加强对噪声的鲁棒性,根据数据集的局部信息加入鲁棒性系数,提出了基于路径与密度的稳健谱聚类算法。实验结果表明该方法在人工数据集和手写体数据集上能取得较理想的分类结果。  相似文献   

8.
分类数据的聚类边界检测技术   总被引:1,自引:0,他引:1  
邱保志  王波 《计算机应用》2012,32(6):1654-1656
随着分类属性数据集的应用越来越广泛,获取含有分类属性数据集的聚类边界的需求也越来越迫切。为了获取聚类的边界,在定义分类数据的边界度和聚类边界的基础上,提出了一种带分类属性数据的聚类边界检测算法——CBORDER。该算法首先利用随机分配初始聚类中心和边界度对类进行划分并获取记录边界点的证据,然后运用证据积累的思想多次执行该过程来获取聚类的边界。实验结果表明,CBORDER算法能有效地检测出高维分类属性数据集中聚类的边界。  相似文献   

9.
在现实世界中经常遇到混合数值属性和分类属性的数据, k-prototypes是聚类该类型数据的主要算法之一。针对现有混合属性聚类算法的不足,提出一种基于分布式质心和新差异测度的改进的 k-prototypes 算法。在新算法中,首先引入分布式质心来表示簇中的分类属性的簇中心,然后结合均值和分布式质心来表示混合属性的簇中心,并提出一种新的差异测度来计算数据对象与簇中心的距离,新差异测度考虑了不同属性在聚类过程中的重要性。在三个真实数据集上的仿真实验表明,与传统的聚类算法相比,本文算法的聚类精度要优于传统的聚类算法,从而验证了本文算法的有效性。  相似文献   

10.
多层自动确定类别的谱聚类算法   总被引:1,自引:0,他引:1  
金慧珍  赵辽英 《计算机应用》2008,28(5):1229-1231
自动确定聚类数和海量数据的处理是谱聚类的关键问题。在自动确定聚类数谱聚类算法的基础上,提出了一种能处理大规模数据集的多层算法。该算法的核心思想是把大规模数据集根据一定的相关性逐级进行合并,使之成为小数据集,再对分组后的小数据集用自动确定类别的谱聚类算法聚类,最后逐层进行拆分并微调, 完成全部数据的聚类。实验证明该算法的聚类效果很好。  相似文献   

11.
ABSTRACT

Clustering techniques are very attractive for identifying and extracting patterns of interests from datasets. However, their application to very large spatial datasets presents numerous challenges such as high-dimensionality, heterogeneity, and high complexity of some algorithms. Distributed clustering techniques constitute a very good alternative to the Big Data challenges (e.g., Volume, Variety, Veracity, and Velocity). In this paper, we developed and implemented a Dynamic Parallel and Distributed clustering (DPDC) approach that can analyse Big Data within a reasonable response time and produce accurate results, by using existing and current computing and storage infrastructure, such as cloud computing. The DPDC approach consists of two phases. The first phase is fully parallel and it generates local clusters and the second phase aggregates the local results to obtain global clusters. The aggregation phase is designed in such a way that the final clusters are compact and accurate while the overall process is efficient in time and memory allocation. DPDC was thoroughly tested and compared to well-known clustering algorithms BIRCH and CURE. The results show that the approach not only produces high-quality results but also scales up very well by taking advantage of the Hadoop MapReduce paradigm or any distributed system.  相似文献   

12.
无线传感器网络中一种有效的分布式簇划分算法   总被引:3,自引:0,他引:3  
提出了一种快速有效的分布式簇划分算法,为每个节点设定一个初始时间,最先到期的节点成为簇头。考虑到簇头选举的合理性,时间衰减与节点连通度相关,并辅以随机化的方法消除时间同步对算法的影响。通过仿真验证该簇划分算法的有效性,并定量分析了通信半径与平均簇头个数的关系。  相似文献   

13.
王世卿  王二红  李洵 《微计算机信息》2007,23(27):281-282,7
在研究分析现有的基于内容的图像检索(CBIR)引擎基础上,针对其中大多数只能在特定环境或行业领域以较小数据规模运行等问题,本文提出了一种分布式、基于微内核加扩展的CBIR系统体系结构,在不影响性能的情况下提供了很强的可扩展性,同时对系统主要部件的实现难点和设计方法进行了较详细的分析与探讨,并给出了一个参考实现。  相似文献   

14.
传感器网络中一种基于质心的分布式成簇算法   总被引:5,自引:0,他引:5  
在LEACH的基础上,提出了一种适合无线传感器网络的基于质心的分布式成簇算法——CDCS。在CDCS中,每一个节点首先基于最优簇首概率popt自主确定自己是否为临时簇首。然后临时簇首根据收集到的簇内节点信息,确定簇内近似质心,并由此动态调整簇内结构,使得调整后的簇内通信总能耗尽可能小。理论分析和模拟实验表明,CDCS在保持LEACH算法简单性的同时,可以获得比LEACH更好的性能,优化后的簇首选择策略可以在不同场景下有效延长网络生存时间达32%~38%。  相似文献   

15.
柏青  苏旸 《计算机应用》2013,33(4):1077-1080
针对现有的网络安全防御系统主动性不足,对未知类型网络数据的判断速度慢、准确性不高的缺陷,设计了一种应用聚类算法对未知类型数据进行聚类分流的分布式蜜罐系统。在聚类过程中,采用一种改进的聚类中心选择算法,对未知类型网络数据进行模糊聚类,将聚类失败的数据分流到蜜罐中进行特征学习,从而尽早地发现新的攻击类型,减轻蜜罐的监控和记录压力,降低蜜罐被攻破的概率,有利于防御时采用更为有效的防御策略。此系统应用在政府某部门的专网中,实验结果验证了在不明显增加系统计算量的情况下,该聚类算法比平均值聚类算法有更高的聚类成功率。  相似文献   

16.
隐私保护是数据挖掘中一个重要的研究方向。针对如何在不共享精确数据的条件下,应用k-平均聚类算法从数据中发现有意义知识的问题,提出了一种基于安全多方计算的算法。算法利用半可信第三方参与下的安全求平均值协议,实现了在分布式数据中进行k-平均聚类挖掘时隐私保护的要求。实验表明算法能很好的隐藏数据,保护隐私信息,且对聚类的结果没有影响。  相似文献   

17.
在低能量自适应簇结构层次(lowenergy adaptive clustering hierarchy,LEACH)路由协议的基础上,提出了一种均匀的分布式簇结构层次路由协议。该协议将路由过程分为三个步骤,按照能量均衡的原则选取簇头节点,各节点能够分布式地自主决定该节点的状态。仿真结果显示,该协议拥有比LEACH更低的能量消耗和更长的网络生命周期。  相似文献   

18.
Weka4WS采用WSRF技术用于执行远程的数据挖掘和管理分布式计算,支持分布式数据挖掘任务。基于Weka4WS和网格环境,尝试了一种新的分布式聚类方法,并成功地将其嵌入到Weka4WS框架中,借助Weka Library实现分布式数据挖掘算法,同时引入了距离代价和混合概率的概念,将网格与Web服务技术融合,以分布式问题求解环境和开源数据挖掘类库Weka为底层支持环境,构建了网格环境下面向服务的分布式数据挖掘体系,并以基于Weka4WS的分布式聚类算法验证了算法的有效性和体系结构的可行性。  相似文献   

19.
并行处理的研究在数据挖掘中是十分必要的。在理论分析的基础上,提出在对经典串行PAM算法进行并行时应如何从局部聚类信息生成完备的全局聚类信息,据此提出了算法DPAM,在提高计算性能的同时,使聚类质量等价于相应串行PAM算法。为提高并行算法的执行效率,还介绍了如何减小计算结点间通信的代价。最后对提出的算法进行性能分析和实验,说明该算法是高效可行的。  相似文献   

20.
Multi-agent Mediator architecture for distributed manufacturing   总被引:9,自引:1,他引:8  
A generic Mediator architecture for distributed task planning and coordination has been developed using multi-agent paradigms. In this approach, agents function autonomously as independent computing processes, and dynamic virtual clusters coordinate the agent's activities and decision making. This coordination involves dynamically created coordination agents and resource agents concurrently. The Mediator architecture contains three levels of these coordination agents: the template mediator, the data-agent manager, and the active mediator. The template mediator is the top-level global coordinator. This agent contains both the templates and the cloning mechanism to create the successively lower-level agents. Task plans are decomposed successively into subtasks, which are allocated to dynamically created agent clusters coordinated through data-agent managers and active mediators. Coordination of agent activity takes place both among the clusters and within each cluster. The system dynamically adapts to evolving manufacturing tasks, with virtual agent clusters being created as needed, and destroyed when their tasks are completed. The mediator architecture and related mechanisms are demonstrated using an intelligent manufacturing scheduling application. Both the machines and the parts involved in this production system are considered as intelligent agents. These agents use a common language protocol based on the Knowledge Query Manipulation Language (KQML). The generic Mediator approach can be used for other distributed organizational systems beyond the intelligent manufacturing application it was originally developed for.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号