首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
李海林  梁叶 《控制与决策》2018,33(11):1950-1958
为了实现时间序列自动聚类,以及更为细致地描述时间序列之间的结构关系,引入社区发现方法来研究时间序列聚类.针对标签传播方法在标签传播过程中具有较强不确定性,以及算法对网络结构较为敏感等问题,提出一种基于中心度的标签传播时间序列聚类方法;通过构建时间序列网络空间结构,将每条时间序列看作一个节点,根据每个节点的中心度来得到标签更新顺序;计算节点对于每个簇的归属度,再利用节点的归属度和标签的传播实现节点的划分,从而实现时间序列聚类.所提方法通过分析时间序列之间的连接关系来发现其在欧氏空间的结构特征,进而实现空间结构的有效划分.实验结果表明,所提方法无需确定初始簇中心,能够有效划分人工数据网络和真实社会网络,在时间序列数据聚类中取得了良好的聚类效果.  相似文献   

2.
基于分段线性动态时间弯曲的时间序列聚类算法研究   总被引:4,自引:0,他引:4  
时间序列是一类重要的复杂类型数据,时间序列知识发现正成为知识发现的研究热点之一。欧几里德距离及其扩展作为相似测度被广泛应用于时间序列的比较中,但是这种距离测度时数据没有好的鲁棒性。动态时间弯曲技术是基于非线性动态编程的一种模式匹配算法,但是其计算复杂性相当高。本文提出了基于时间序列分段线性表示的动态时间弯曲算法,通过计算线性分段序列数据之间的最短弯曲路径来获得序列的匹配。对综合控制时间序列数据进行基于不同距离测度的聚类分析对比结果表明本文提出的算法有很高的精度和时振幅差异、嘈声和线性漂移有强的鲁棒性,大大降低计算复杂性,具有良好的应用价值。  相似文献   

3.
基于动态时间弯曲的时序数据聚类算法的研究   总被引:14,自引:0,他引:14  
时间序列是一类重要的复杂类型数据,时间序列知识发现正成为知识发现的研究热点之一。欧几里的距离及其扩展作为相似测度被广泛应用于时间序列的比较中,但是这种距离测度对数据没有好的鲁棒性。动态时间弯曲技术是基于非线性动态编程的一种模式匹配算法。该文提出了基于动态时间弯曲技术的相似搜索算法,通过计算时序数据之间的最短弯曲路径来获得序列的匹配。对综合控制时序数据进行基于不同距离测度的聚类分析对比结果表明该文提出的算法有很高的精度和对振幅差异、噪声和线性漂移有强的鲁棒性,具有良好的应用价值。  相似文献   

4.
鉴于传统方法不能直接有效地对多元时间序列数据进行聚类分析,提出一种基于分量属性近邻传播的多元时间序列数据聚类方法.通过动态时间弯曲方法度量多元时间序列数据之间的总体距离,利用近邻传播聚类算法分别对数据之间的总体距离矩阵和分量近似距离矩阵进行聚类分析,综合考虑这两种视角下序列数据之间的关联关系,使用近邻传播方法对反映原始多元时间序列数据的综合关系矩阵实现较高质量的聚类.数值实验结果表明,与传统聚类方法相比,所提出方法不仅能够有效地反映总体数据特征之间的关系,而且通过重要分量属性序列之间的关联关系分析能够提高原始时间序列数据的聚类效果.  相似文献   

5.
一、引言自然界以及我们社会生活中的各种事物都在运动、变化和发展着,将它们按时间顺序记录下来,我们就可以得到各种各样的“时间序列”数据。对时间序列进行分析,可以揭示事物运动、变化和发展的内在规律,对于人们正确认识事物并据此作出科学的决策具有重要的现实意义。  相似文献   

6.
仿射传播算法是一种快速有效的聚类方法,但其聚类结果的不稳定性影响了聚类性能。对此,提出基于近邻的仿射传播算法(AP-NN),通过仿射传播算法产生初始簇,并从中选择代表簇对非代表簇的样本进行近邻聚类。在时间序列数据集上的实验结果表明,AP-NN模型算法能够产生较好的聚类结果,适用于聚类分析。  相似文献   

7.
针对时间序列传统静态聚类问题,提出了对时间序列进行动态聚类的方法。该方法首先提取时间序列的关键点集合,根据改进的FCM算法找到动态特征明显的时间序列,再利用提出的动态聚类算法确定此类时间序列在不同时间段的所属类别,在改进的FCM算法中采用兰氏距离可以使其对奇异值不敏感。实验结果反映出动态特征明显的时间序列类别随时间演化的特性,表明了方法的可行性和有效性。与已有算法相比,该方法揭示了时间序列的部分动态特征。该方法还可以运用于研究数据挖掘的其他问题。  相似文献   

8.
基于异时间窗划分的时间序列聚类   总被引:2,自引:1,他引:2       下载免费PDF全文
针对相同时间窗对时间序列进行子序列划分的缺点,提出一种异时间窗的子序列划分方法。为解决划分得到的子序列长度不同,而使用动态时间弯曲算法进行子序列相似性度量的计算速度慢的问题,给出一种不规则时间序列距离度量算法。对异时间窗的子序列划分方法和不规则时间序列距离度量算法进行了实验,结果证明了二者的优越性。  相似文献   

9.
面向热点话题时间序列的有效聚类算法研究   总被引:3,自引:0,他引:3  
聚类热度时间序列是揭示和建模网络热点话题形成与发展的重要过程.Leskovec等人在2010年提出面向话题时间序列的K_SC聚类算法,其精确度较高且能较好地刻画话题内在发展趋势特征.但K_SC算法具有对初始类矩阵中心高度敏感、高时间复杂度等特性,使其难以在实际高维大数据集上应用.文中结合小波变换技术,提出一个新的迭代式聚类算法WKSC,主要提出两个创新:(1)用Haar小波变换将原始时间序列进行压缩,降低原始时间序列的维度,从而降低了算法的时间复杂度;(2)在Haar反小波变换中,将低维聚类返回得到的矩阵中心作为高维聚类的初始矩阵中心,在迭代聚类过程中优化了对初始矩阵中心高敏感性的问题,提高了聚类的效果.文中分别采用国内外3个数据集作为测试样本,进行了大量的实验.实验结果表明WKSC算法能显著降低聚类的时间复杂度,同时改进聚类效果.WKSC算法可很好的应用于大量高维热点话题的模式分析.  相似文献   

10.
高维数据的聚类特性通常难以直接观测.将其构建为复杂网络,节点间的拓扑结构可以反映样本之间的关系.对网络中的节点进行社区发现,可实现对数据更直观的聚类.提出一种基于网络社区发现的低随机性标签传播聚类算法.首先,用半径和最近邻方法将数据集构建为稀疏的全连通网络.之后,根据节点相似度进行节点标签预处理,使得相似的节点具有相同的标签.用节点的影响力值改进标签传播过程,降低标签选择的随机性.最后,基于内聚度进行社区的优化合并,提高社区的质量.在真实数据集和人工数据集上的实验结果表明,该算法对各种类型的数据都具有较好的适应性.  相似文献   

11.
时间序列分类比一般分类问题困难,主要在于要分类的时间序列数据不等长,因此不能直接应用一般的分类算法。首先提出基于聚类模型的数据转换,然后进行基于模型的聚类分析,用领域相关法对时间序列建模,用模型参数组成等长向量来表示每条序列,最后进行时间序列匹配算法分析,用分类算法进行训练和分类。结合管道流量泄漏点提出一种时间序列匹配的新方法,利用同类样本间的连续性规律,将时间序列排序,并在相邻的时间序列之间添加样本点,新方法优于基于动态时间弯折的传统方法;针对管道流量泄漏时间序列分类的算法研究观测到不同算法在不同因素影响下的性能表现,为今后发展新的算法提供有力依据。  相似文献   

12.
Dynamic time warping (DTW), which finds the minimum path by providing non-linear alignments between two time series, has been widely used as a distance measure for time series classification and clustering. However, DTW does not account for the relative importance regarding the phase difference between a reference point and a testing point. This may lead to misclassification especially in applications where the shape similarity between two sequences is a major consideration for an accurate recognition. Therefore, we propose a novel distance measure, called a weighted DTW (WDTW), which is a penalty-based DTW. Our approach penalizes points with higher phase difference between a reference point and a testing point in order to prevent minimum distance distortion caused by outliers. The rationale underlying the proposed distance measure is demonstrated with some illustrative examples. A new weight function, called the modified logistic weight function (MLWF), is also proposed to systematically assign weights as a function of the phase difference between a reference point and a testing point. By applying different weights to adjacent points, the proposed algorithm can enhance the detection of similarity between two time series. We show that some popular distance measures such as DTW and Euclidean distance are special cases of our proposed WDTW measure. We extend the proposed idea to other variants of DTW such as derivative dynamic time warping (DDTW) and propose the weighted version of DDTW. We have compared the performances of our proposed procedures with other popular approaches using public data sets available through the UCR Time Series Data Mining Archive for both time series classification and clustering problems. The experimental results indicate that the proposed approaches can achieve improved accuracy for time series classification and clustering problems.  相似文献   

13.
为了更好地体现时间序列的形态特征,并探索更适合于较长时间序列之间相似性度量的方法,在动态时间弯曲算法的基础上进行改进,提出了基于分层动态时间弯曲的序列相似性度量方法。对时间序列进行多层次分段,并从分段中均匀抽取相对应的层次分段子序列,然后将层次分段子序列抽象为三维空间的点(反映了分段子序列的均值、长度和趋势)进行相似性度量,最后综合各个层次的相似性度量作为结果。实验表明,在参数设置合理的情况下,此方法能获得较高的序列相似性度量准确度和效率。  相似文献   

14.
基于互相关的二阶段时间序列聚类方法   总被引:1,自引:0,他引:1  
提出了一种高效的时间序列聚类方法,以互相关函数为基础,通过二阶段的方法实现更低时间复杂度下的时间序列聚类。第一步以时间序列符号化为基础,通过设计符号化序列特征抽取算法,抽取特征时间段;第二步以互相关函数为基础,通过改进的互相关函数步骤,实现更快速的时间序列聚类。实验结果表明,该方法可以适应稀疏及密集的时间序列数据抽取,同时与传统的聚类距离公式相比,处理速度更快,对时间序列形状的缩放有更好的表示效果,并能保持较高准确性。  相似文献   

15.
Distinguishing among linear and nonlinear time series or between nonlinear time series generated by different underlying processes is challenging, as second-order properties are generally insufficient for the task. Different nonlinear processes have different nonconstant bispectral signatures, whereas the bispectral density function of a Gaussian or linear time series is constant. Based on this, we propose a procedure to distinguish among various nonlinear time series and between nonlinear and linear time series through application of a hierarchical clustering algorithm based on distance measures computed from the square modulus of the estimated normalized bispectra. We find that clustering using a distance measure computed by averaging the ratio of normalized bispectral periodogram ordinates over the intersection of the principle domain of each pair of time series provides good performance, subject to trimming of extreme bispectral values prior to taking the ratios. Additionally, we show through simulation studies that the distance procedure performs better than a significance test that we derive. Moreover, it is robust with respect to the choice of smoothing parameter in estimating the bispectrum. As an example, we apply the method to a set of time series of intensities of gamma-ray bursts, some of which exhibit nonlinear behavior; this enables us to identify gamma-ray bursts that may be emanating from the same type of astral event.  相似文献   

16.
一个高效的多变量时间序列聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
时间序列聚类分析是数据挖掘研究的一个重要内容。已有的聚类算法大多采用k均值对低维数据进行聚类,不能对高维多变量时间序列(MTS)数据进行有效聚类。提出一种高效的多变量时间序列聚类算法PCA-CLUSTER,首先利用主成分分析对MTS数据降维;选取MTS数据的主成分序列进行K近邻聚类分析。理论分析和实验结果表明算法可以有效解决MTS数据聚类问题。  相似文献   

17.
针对采样不规则轨迹的停留点检测准确性不高的问题,提出了一种基于时间序列聚类的停留点检测算法。首先基于数据场理论设计了一种综合考虑时空特性的混合特征密度测量方法,然后根据停留点中心密度比入口大的特性,采用过滤—精炼策略提取停留点。在过滤阶段,将时间连续且满足最小密度阈值的点作为候选停留点。在精炼阶段,通过最大阈值筛选出实际停留点。实验结果表明,该方法能够有效检测采样不规则轨迹中的停留点,相较于已有方法具有较高的准确性和较低的时间消耗。  相似文献   

18.
标签传播算法(LPA)是一种高效地处理大规模网络的社区发现算法,由于其近乎线性的时间复杂度而受到广泛关注。然而,该算法每个节点的标签依赖于其邻居节点,其迭代速度和聚类有效性对标签信息的更新顺序非常敏感,影响了社区发现结果的准确性和稳定性。基于该问题,提出了一种基于加权聚类集成的标签传播算法。该算法利用多次标签传播算法的结果作为基聚类集,并用模块度评估每个基聚类的重要性,使其作为节点相似性度量的权值形成加权相似性矩阵,最后通过层次聚类得出最终的社区划分结果。在实验分析中,该算法和其他5个具有代表性的标签传播算法的改进算法在真实数据集上进行了比较,展示了新算法能有效地提高标签传播算法的社区发现精度。  相似文献   

19.
Performing data mining tasks in streaming data is considered a challenging research direction, due to the continuous data evolution. In this work, we focus on the problem of clustering streaming time series, based on the sliding window paradigm. More specifically, we use the concept of subspace αα-clusters. A subspace αα-cluster consists of a set of streams, whose value difference is less than αα in a consecutive number of time instances (dimensions). The clusters can be continuously and incrementally updated as the streaming time series evolve with time. The proposed technique is based on a careful examination of pair-wise stream similarities for a subset of dimensions and then it is generalized for more streams per cluster. Additionally, we extend our technique in order to find maximal pClusters in consecutive dimensions that have been used in previously proposed clustering methods. Performance evaluation results, based on real-life and synthetic data sets, show that the proposed method is more efficient than existing techniques. Moreover, it is shown that the proposed pruning criteria are very important for search space reduction, and that the cost of incremental cluster monitoring is more computationally efficient that the re-clustering process.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号