首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
2.
针对时间序列传统静态聚类问题,提出了对时间序列进行动态聚类的方法。该方法首先提取时间序列的关键点集合,根据改进的FCM算法找到动态特征明显的时间序列,再利用提出的动态聚类算法确定此类时间序列在不同时间段的所属类别,在改进的FCM算法中采用兰氏距离可以使其对奇异值不敏感。实验结果反映出动态特征明显的时间序列类别随时间演化的特性,表明了方法的可行性和有效性。与已有算法相比,该方法揭示了时间序列的部分动态特征。该方法还可以运用于研究数据挖掘的其他问题。  相似文献   

3.
为了实现Web服务请求数据的快速聚类,并提高聚类的准确率,提出一种基于增量式时间序列和任务调度的Web数据聚类算法,该算法进行了Web数据在时间序列上的聚类定义,并采用增量式时间序列聚类方法,通过数据压缩的形式降低Web数据的复杂性,进行基于服务时间相似性的时间序列数据聚类。针对Web集群服务的最佳服务任务调度问题,通过以服务器执行能力为标准来分配服务任务。实验仿真结果表明,相比基于网格的高维数据层次聚类算法和基于增量学习的多目标模糊聚类算法,提出的算法在聚类时间、聚类精度、服务执行成功率上均获得了更好的效果。  相似文献   

4.
基于动态时间弯曲的时序数据聚类算法的研究   总被引:14,自引:0,他引:14  
时间序列是一类重要的复杂类型数据,时间序列知识发现正成为知识发现的研究热点之一。欧几里的距离及其扩展作为相似测度被广泛应用于时间序列的比较中,但是这种距离测度对数据没有好的鲁棒性。动态时间弯曲技术是基于非线性动态编程的一种模式匹配算法。该文提出了基于动态时间弯曲技术的相似搜索算法,通过计算时序数据之间的最短弯曲路径来获得序列的匹配。对综合控制时序数据进行基于不同距离测度的聚类分析对比结果表明该文提出的算法有很高的精度和对振幅差异、噪声和线性漂移有强的鲁棒性,具有良好的应用价值。  相似文献   

5.
基于分段线性动态时间弯曲的时间序列聚类算法研究   总被引:4,自引:0,他引:4  
时间序列是一类重要的复杂类型数据,时间序列知识发现正成为知识发现的研究热点之一。欧几里德距离及其扩展作为相似测度被广泛应用于时间序列的比较中,但是这种距离测度时数据没有好的鲁棒性。动态时间弯曲技术是基于非线性动态编程的一种模式匹配算法,但是其计算复杂性相当高。本文提出了基于时间序列分段线性表示的动态时间弯曲算法,通过计算线性分段序列数据之间的最短弯曲路径来获得序列的匹配。对综合控制时间序列数据进行基于不同距离测度的聚类分析对比结果表明本文提出的算法有很高的精度和时振幅差异、嘈声和线性漂移有强的鲁棒性,大大降低计算复杂性,具有良好的应用价值。  相似文献   

6.
由于现实世界中时间序列多数是非线性的,而现有的时间序列聚类问题大多是基于线性时间序列模型进行聚类的,提出了可以用于非线性时间序列的聚类方法。它基于KS二维检验统计量提出KS2D距离度量,是一种非参数的鲁棒性强的距离度量方式,它将时间序列的非线性相关结构放到距离度量之中,能够粗糙地识别时间序列形状和动态相关结构的相似性。与理论研究结果相一致,模拟实验结果也验证了这种距离度量的有效性。  相似文献   

7.
针对采样不规则轨迹的停留点检测准确性不高的问题,提出了一种基于时间序列聚类的停留点检测算法。首先基于数据场理论设计了一种综合考虑时空特性的混合特征密度测量方法,然后根据停留点中心密度比入口大的特性,采用过滤—精炼策略提取停留点。在过滤阶段,将时间连续且满足最小密度阈值的点作为候选停留点。在精炼阶段,通过最大阈值筛选出实际停留点。实验结果表明,该方法能够有效检测采样不规则轨迹中的停留点,相较于已有方法具有较高的准确性和较低的时间消耗。  相似文献   

8.
一种基于局部密度的分布式聚类挖掘算法   总被引:4,自引:1,他引:3  
倪巍伟  陈耿  吴英杰  孙志挥 《软件学报》2008,19(9):2339-2348
分布式聚类挖掘技术是解决数据集分布环境下聚类挖掘问题的有效方法.针对数据水平分布情况,在已有分布式密度聚类算法DBDC(density based distributed clustering)的基础上,引入局部密度聚类和密度吸引子等概念,提出一种基于局部密度的分布式聚类算法——LDBDC(local density based distributed clustering).算法适用于含噪声数据和数据分布异常情况,对高雏数据有着良好的适应性.理论分析和实验结果表明,LDBDC算法在聚类质量和算法效率方面优于已有的DBDC算法和SDBDC(scalable dellsity-based distributed clustering)算法.算法是有效、可行的.  相似文献   

9.
一种新的基于隐Markov模型的分层时间序列聚类算法   总被引:4,自引:0,他引:4  
针对传统的基于隐Markov模型(HMM)的聚类算法在时间序列聚类的不足,提出了一种新的基于HMM的分层时间序列聚类算法HBHCTS,旨在提高聚类质量,同时对聚类结果给出类的表示. HBHCTS算法应用HMM对时间序列进行建模,并按照“最相似”的原则得到序列所对应的初始模型集,进而对这些初始模型合并更新及迭代得到聚类结果.实验中主要研究了聚类正确率与序列长度及模型距离的关系,结果表明HBHCTS算法比传统的基于HMM的聚类算法准确性高.  相似文献   

10.
改进的基于密度的航迹聚类算法   总被引:2,自引:0,他引:2       下载免费PDF全文
为解决雷达站观测数据的分类问题,提出一种改进的基于密度的航迹聚类算法。采用加权Manhattan距离与惩罚系数相结合的距离度量,根据目标运动的特征自定义点的邻域,利用时间裁剪提高算法运行效率。实验结果表明,该算法能高效准确地对数据进行聚类,形成运动目标的航迹。  相似文献   

11.
Distinguishing among linear and nonlinear time series or between nonlinear time series generated by different underlying processes is challenging, as second-order properties are generally insufficient for the task. Different nonlinear processes have different nonconstant bispectral signatures, whereas the bispectral density function of a Gaussian or linear time series is constant. Based on this, we propose a procedure to distinguish among various nonlinear time series and between nonlinear and linear time series through application of a hierarchical clustering algorithm based on distance measures computed from the square modulus of the estimated normalized bispectra. We find that clustering using a distance measure computed by averaging the ratio of normalized bispectral periodogram ordinates over the intersection of the principle domain of each pair of time series provides good performance, subject to trimming of extreme bispectral values prior to taking the ratios. Additionally, we show through simulation studies that the distance procedure performs better than a significance test that we derive. Moreover, it is robust with respect to the choice of smoothing parameter in estimating the bispectrum. As an example, we apply the method to a set of time series of intensities of gamma-ray bursts, some of which exhibit nonlinear behavior; this enables us to identify gamma-ray bursts that may be emanating from the same type of astral event.  相似文献   

12.
一个高效的多变量时间序列聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
时间序列聚类分析是数据挖掘研究的一个重要内容。已有的聚类算法大多采用k均值对低维数据进行聚类,不能对高维多变量时间序列(MTS)数据进行有效聚类。提出一种高效的多变量时间序列聚类算法PCA-CLUSTER,首先利用主成分分析对MTS数据降维;选取MTS数据的主成分序列进行K近邻聚类分析。理论分析和实验结果表明算法可以有效解决MTS数据聚类问题。  相似文献   

13.
Clustering is an important unsupervised learning technique widely used to discover the inherent structure of a given data set. Some existing clustering algorithms uses single prototype to represent each cluster, which may not adequately model the clusters of arbitrary shape and size and hence limit the clustering performance on complex data structure. This paper proposes a clustering algorithm to represent one cluster by multiple prototypes. The squared-error clustering is used to produce a number of prototypes to locate the regions of high density because of its low computational cost and yet good performance. A separation measure is proposed to evaluate how well two prototypes are separated. Multiple prototypes with small separations are grouped into a given number of clusters in the agglomerative method. New prototypes are iteratively added to improve the poor cluster separations. As a result, the proposed algorithm can discover the clusters of complex structure with robustness to initial settings. Experimental results on both synthetic and real data sets demonstrate the effectiveness of the proposed clustering algorithm.  相似文献   

14.
陈崚  邹凌君  屠莉 《计算机应用》2007,27(8):1976-1979
针对当前对多条数据流的聚类算法不能兼顾质量和效率的矛盾,提出了基于相关系数的多条数据流的聚类算法,实现固定长度的在线动态聚类。算法引入衰减系数提高聚类质量,以相关系数作为流数据间相似度的度量标准,将数据流划分若干个数据段,以各数据流的相关统计信息进行聚类,得到实时的聚类结构。实验结果表明,算法有较高的效率、聚类质量和稳定性。  相似文献   

15.
针对k-prototypes算法无法自动识别簇数以及无法发现任意形状的簇的问题,提出一种针对混合型数据的新方法:寻找密度峰值的聚类算法。首先,把CFSFDP(Clustering by Fast Search and Find of Density Peaks)聚类算法扩展到混合型数据集,定义混合型数据对象之间的距离后利用CFSFDP算法确定出簇中心,这样也就自动确定了簇的个数,然后其余的点按照密度从大到小的顺序进行分配。其次,研究了该算法中阈值(截断距离)及权值的选取问题:对于密度公式中的阈值,通过计算数据场中的势熵来自动提取;对于距离公式中的权值,利用度量数值型数据集和分类型数据集聚类趋势的统计量来定义。最后通过在三个实际混合型数据集上的测试发现:与传统k-prototypes算法相比,寻找密度峰值的聚类算法能有效提高聚类的精度。  相似文献   

16.
DNA微阵列技术的应用产生了大量的基因表达时序数据,对这些数据进行聚类是获取其中隐含的生物分子信息的一种重要方法。提出了一种基于隐马尔可夫模型(HMM)的层次聚类方法,根据基因表达时序数据的统计特性对其进行标准化和离散化等预处理,用HMM对经过预处理的数据建模以利用基因表达时序数据不同时间点之间的相关性,用层次聚类方法对建立的模型进行聚类。实验结果表明该方法不仅能够产生好的聚类,而且能够确定最优的聚类数。  相似文献   

17.
探讨了如何为CBR(基于范例的推理)增加对一种特殊的范例类型——时间序列数据的支持.分析了基于谱分析的时间序列相似度比较算法不适用于CBR检索的缺点,并在此基础上设计了一种综合性能很好的CBR检索算法.思路是把时间序列相似度比较转化成一个卷积问题,并用DFT来简化这个卷积的计算.通过对这种CBR检索算法进行了深入的理论分析和认真的实验,结果证明,提出的算法是一个高效的算法.在这个检索算法的基础上,CBR就能够席用到时序数据的分析推理中,具有广阔的应用前景.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号