首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 468 毫秒
1.
在时间序列挖掘工作中,比如聚类和分类,需要计算距离来衡量时间序列样本之间的相似性,有许多研究都致力于时间序列相似性度量的研究.充分利用非线性趋势特征来进行时间序列挖掘.首先计算时间序列的ACF,进而构造ACF的非线性趋势特征,利用该特征作为时间序列相似性度量来进行聚类,它给时间序列平稳性的判定提供了一种新的途径.列举了一个模拟数据和一个实际数据来进行实例验证,实验结果表明,ACF非线性趋势特征作为一种新的相似性度量,相对已有的一些相似性度量而言,ACF非线性趋势特征通常只需计算少量的若干特征值就能更合理地刻画时间序列的平稳性特征.借助K-means进行聚类实验.  相似文献   

2.
在时间序列相似性的研究中,通常采用的欧氏距离及其变形无法对在时间轴上发生伸缩或弯曲的序列进行相似性度量,本文提出了一种基于分段极值DTW距离的时间序列相似性度量方法可以解决这一问题。在动态时间弯曲(DTW)距离的基础上,本文定义了序列的分段极值DTW距离,并阐述了其完整的算法实现。与传统的DTW距离相比,分段极值DTW距离在保证度量准确性的同时大大提高了相似性计算的效率。文中最后运用MATLAB作对比实验,并给出实验结果数据,验证了该度量方法的有效性与准确性。  相似文献   

3.
姜逸凡  叶青 《计算机应用》2019,39(4):1041-1045
在时间序列分类等数据挖掘工作中,不同数据集基于类别的相似性表现有明显不同,因此一个合理有效的相似性度量对数据挖掘非常关键。传统的欧氏距离、余弦距离和动态时间弯曲等方法仅针对数据自身进行相似度公式计算,忽略了不同数据集所包含的知识标注对于相似性度量的影响。为了解决这一问题,提出基于孪生神经网络(SNN)的时间序列相似性度量学习方法。该方法从样例标签的监督信息中学习数据之间的邻域关系,建立时间序列之间的高效距离度量。在UCR提供的时间序列数据集上进行的相似性度量和验证性分类实验的结果表明,与ED/DTW-1NN相比SNN在分类质量总体上有明显的提升。虽然基于动态时间弯曲(DTW)的1近邻(1NN)分类方法在部分数据上表现优于基于SNN的1NN分类方法,但在分类过程的相似度计算复杂度和速度上SNN优于DTW。可见所提方法能明显提高分类数据集相似性的度量效率,在高维、复杂的时间序列的数据分类上有不错的表现。  相似文献   

4.
时间序列分类问题的算法比较   总被引:8,自引:0,他引:8  
杨一鸣  潘嵘  潘嘉林  杨强  李磊 《计算机学报》2007,30(8):1259-1266
时间序列分类是时间序列数据分析中的重要任务之一.不同于时间序列分析中常用的算法与问题,时间序列分类是要把整个时间序列当作输入,其目的是要赋予这个序列某个离散标记.它比一般分类问题困难,主要在于要分类的时间序列数据不等长,这使得一般的分类算法不能直接应用.即使是等长的时间序列,由于不同序列在相同位置的数值一般不可直接比较,一般的分类算法依然还是不适合直接应用.为了解决这些难点,通常有两种方法:第一,定义合适的距离度量(这里,最常用的距离度量是DTW距离),使得在此度量意义下相近的序列有相同的分类标签,这类方法属于领域无关的方法;第二,首先对时间序列建模(利用序列中前后数据的依赖关系建立模型),再用模型参数组成等长向量来表示每条序列,最后用一般的分类算法进行训练和分类,这类方法属于领域相关的方法.长期以来,研究者往往只倾向于使用其中一种算法,而这两类算法的比较却比较缺乏.文中深入分析了这两类方法,并且分别在不同的合成数据集和实际数据集上比较了两类方法.作者观测到了两类算法在不同因素影响下的性能表现,从而为今后发展新的算法提供了有力依据.  相似文献   

5.
时间序列相似性度量在挖掘时间序列模式,提取时间序列关联关系上发挥着重要作用。分析了当前主流的时间序列相似性度量算法,分别指出了各度量算法在度量时序数据相似性时存在的缺陷,并提出了基于数学形态学的时间序列相似性度量算法。通过将归一化的时间序列二值图像化表示,再引入了图像处理领域中的膨胀、腐蚀操作对时序数据进行形态变换分析,提高相似时序数据部分的抗噪性,同时又不降低时序数据非相似部分间的差异度,实现时序数据相似性度量分类精度的提高。在八种时间序列测试数据集合上进行分类实验,实验结果表明提出的基于数学形态学的时间序列相似性度量算法在时间序列分类精度上得到有效改善,相比于DTW相似性度量算法,分类精度平均水平提升了8.74%,最高提升20%。  相似文献   

6.
时间序列的特征表示与相似性度量是时间序列数据挖掘的重要基础。针对现有的序列表示方法难以具体反映序列的形态变化趋势,导致相似度量结果不精确的问题,提出一种新的基于形态模式的相似性度量算法。该算法在分段线性表示的基础上,根据序列在不同时段的斜率变化情况,划分序列的分段形态模式并用特殊的字符进行表示,把时间序列转换成字符串序列,利用最长公共子序列方法计算字符串序列的距离作为时间序列之间的距离。最后通过实验验证该方法的有效性。理论分析和实验证明该方法对数据点的值不敏感,能够减少噪声的干扰,而且具有较高的准确性。  相似文献   

7.
为解决符号聚合近似方法(SAX)表示时间序列时忽略序列局部趋势的问题,提出一种融合形态趋势信息的时间序列符号聚合近似方法。该方法以子序列段中的最大值和最小值以及它们两者之间的相对位置为依据,定义一种新的趋势指标来描述子序列段的趋势,并使用融合趋势指标的符号矢量来近似表示时间序列。针对所提表示方法,给出一种新的距离度量方法,并在UCR数据集和电机转矩数据集上进行分类实验,实验结果表明,所提方法在绝大多数数据集上获得了较SAX方法更高的分类准确率,能够有效弥补SAX方法表示时间序列时忽略局部趋势的不足。  相似文献   

8.
时间序列数据的特征表示方法是时间序列数据挖掘任务的关键技术,符号聚合近似表示(SAX)是特征表示方法中比较常用的一种。针对SAX算法在各序列段表示符号一致时无法区分时间序列间的相似性这一缺陷,提出了一种基于始末距离的时间序列符号聚合近似表示方法(SAX_SM)。由于时间序列有很强的形态趋势,因此文中提出的方法选用起点和终点来表示各个序列段的形态特征,并使用各序列段的形态特征和表示符号来近似表示时间序列数据,以将其从高维空间映射到低维空间;然后,针对起点和终点构建始末距离来计算两序列段间的形态距离;最后, 结合 始末距离和符号距离定义一种新的距离度量方式,以更客观地度量时间序列间的相似性。理论分析表明,该距离度量满足下界定理。在20组UCR时间序列数据集上的实验表明,所提SAX_SM方法在13个数据集中获得了最高的分类准确率(包含并列最大的),而SAX只在6个数据集中获得了最高的分类准确率(包含并列最大的),因此SAX_SM具有比SAX更优的分类效果。  相似文献   

9.
近年来,时间序列分类问题的研究受到了广泛关注。先进的时间序列分类方法通常建立在良好的特征表示的基础之上。Shapelet是时间序列中具备鉴别性的子序列,可有效表达时间序列的局部形状特征。然而,高昂的计算成本大大限制了基于Shapelet的时间序列分类方法的实用性。除此之外,传统的Shapelet仅能描述欧氏距离度量下子序列的形状特征,因此极易受到噪声干扰并难以挖掘子序列中蕴含的其他类型的鉴别性信息。为应对上述问题,提出了一种新的时间序列分类算法——嵌入典型时间序列特征的随机Shapelet森林。该算法基于以下3个关键策略:1)随机选取Shapelet并限制Shapelet的作用范围以提高效率;2)在Shapelet中嵌入多个典型时间序列特征以提高算法对不同分类问题的适应性,并弥补随机选取Shapelet带来的精度损失;3)在新的特征表示的基础上构建随机森林分类器以确保算法的泛化能力。112个UCR时间序列数据集上的实验结果表明,本文算法的准确性超越了基于Shapelet精确搜索和Shapelet转换技术的STC算法,以及多个其他类型的先进时间序列分类算法。此外,广泛的实验对比验证了本文...  相似文献   

10.
基于SAX方法的股票时间序列数据相似性度量方法研究   总被引:2,自引:0,他引:2  
特定数据集上高效的相似性度量方法是目前时间序列数据挖掘领域研究的重点内容之一。针对经过SAX方法降维后的股票数据在相似性度量中缺乏趋势变化的动态信息这一问题,本文提出了一种融合了点距离与模式距离优点的新型相似性度量函数——复合距离函数,并通过实证分析验证了该距离函数在相似性度量中的有效性,为揭示股票数据间相互依赖的规律以及时间序列相似性问题的进一步研究提供了新思路。  相似文献   

11.
魏国强  周从华  张婷 《计算机与数字工程》2021,49(11):2299-2304,2406
针对常用方法无法准确度量多元时间序列相似程度的问题,提出一种基于多维分段和动态权重动态时间弯曲距离的多元时间序列相似性度量方法.首先对多元时间序列进行多维分段拟合,选取拟合段的斜率、均值和时间跨度作为每一段的特征,在对多元时间序列降维的同时也保留了变量之间的相关性;然后提出一种动态权重动态时间弯曲距离度量方法计算多元时间序列特征矩阵之间的距离,避免了直接使用动态时间弯曲距离造成的畸形匹配问题.最终实验结果也验证了该方法在多种类型的数据集上都能取得较高的度量精度,表明了该方法的有效性.  相似文献   

12.
时间序列的相似性度量是时间序列数据挖掘的研究基础,为数据挖掘任务的效率和准确度提供可靠的保障。提出一种时间序列的层次分段及相似性度量方法,方法首先识别时间序列中的极值点,依据极值点的特征对时间序列进行分层次分段,并以此为基础,通过定义新的距离公式来度量时间序列间的相似性。使用新提出的相似性度量方法对时间序列进行聚类计算,实验结果表明,该方法能够有效地度量时间序列间的相似性,聚类效果明显,具有较好的实用性和良好的应用前景。  相似文献   

13.
从应用角度对时间序列数据挖掘中的关键技术一相似性度量一进行了研究。实现了对时间序列的分段线性表示,并将其用于当前主要的几种时间序列距离度量算法。通过将各距离度量算法用于股票收盘数据分析实验,得出实验数据。通过对实验结果的分析并结合各算法的原理,对各方法的适用情况和执行效率进行了分析及比较。通过分析可知,每种算法有自己的特点及适用情况。对于实际应用,应根据实际需求选择合适的距离度量算法。  相似文献   

14.
针对时间序列相似性度量中欧氏距离对异常数据敏感以及DTW距离算法效率低的问题,提出基于滑动平均与分段线性回归的时间序列相似性方法。首先,使用初始可变滑动平均算法以及分段线性回归对原始时间序列进行数据变换,并将分段线性回归的参数(截距与距离)集作为时间序列的特征,以实现时间序列的特征提取和数据降维;然后,利用动态时间弯曲距离进行距离计算。该方法在时间序列相似性上与DTW算法的性能相近,但是在算法效率上几乎提高了96%。实验结果验证了该方法的有效性与准确性。  相似文献   

15.
赵慧赟  潘志松 《计算机科学》2018,45(5):180-184, 219
多元时间序列广泛存在于日常生活中的各个领域,多元时间序列分类是从时间序列数据中获取信息的基本方法。目前,时间序列分类研究面临着相似性度量方法特殊、原始数据维度高等问题,现有的多元时间序列分类方法的分类性能仍有待提高。文中提出一种基于shapelets学习的多元时间序列分类方法。首先,提出了新的正则化最小二乘损失学习框架下的shapelets学习方法,在此基础上采用基于shapelets的一元时间序列分类方法对多元时间序列的每维一元数据进行分类,随后由各维上的分类结果投票决定多元时间序列的最终分类结果。实验证明,所提方法在多元时间序列分类问题中能够取得较高的分类精度。  相似文献   

16.
代价敏感分类区别于一般分类方法,更关注高代价类别的分类准确性而容忍全局分类的准确性。三支决策作为一种代价敏感分类问题的解决思路,缺乏对序列数据的支持。结合LSTM模型处理序列数据的能力,提出一种使用三支决策(3WD)改进的序列数据分类方法。方法经过LSTM网络对原数据进行粗分类;对分类结果进行整体代价评估;最终,对高风险分类进行延迟或拒绝处理。方法在4个数据集上进行了测试,并进行了2组对比实验。实验结果表明:本文方法在不改变LSTM模型的情况下,对LSTM模型的分类结果进行了代价区分。  相似文献   

17.
针对高校用电负荷中传统聚类算法直接应用于时间序列聚类效果准确性较低的问题,提出一种融合DTW距离、LB_Keogh距离以及时间窗口的DLT-Kmedoids算法,以提高聚类算法应用于时间序列的准确性以及算法效率。DLT-Kmedoids算法使用DTW计算时序数据之间的距离取代传统的欧氏距离度量方式,提高了相似性度量算法精度,同时也提高了聚类算法的准确性和复杂度,引入LB_Keogh距离在计算DTW距离之前过滤掉大部分不可能是最优匹配序列的序列,对于剩下的序列再使用DTW逐个比较,进一步降低算法的复杂度。最后结合高校建筑用电负荷时间序列数据进行分析,通过与主流聚类算法进行比较,表明该算法对于高校用电负荷数据的聚类任务,能够更准确地识别相似的负荷模式,并以更高的效率进行聚类分析。  相似文献   

18.
时间序列形态相似性挖掘是目前时间序列数据挖掘研究的热点,然而由于时间序列数据背后真实系统的复杂性,加上观测条件的影响,时间序列会呈现多种相似性变形,如振幅伸缩、振幅漂移、线性漂移等。相似性变形并不会改变序列的形态特征,但现有的ED、DTW和Lp距离等相似性度量算法均不能有效支持识别各类相似性变形。本文首次提出涨落模式(FP)的概念,以涨落模式保存原序列的趋势变化信息,利用最长公共子序列算法计算涨落模式的相似度,消除振幅伸缩、振幅漂移和线性漂移等对相似性挖掘带来的影响,实现基于涨落模式的时间序列相似性度量。设置仿真数据集检验FP相似性度量的相似性变形支持性,同时在真实数据集上进行分类,依据分类准确性对算法鲁棒性进行评估,验证了本文提出的基于涨落模式的相似性度量算法在各类相似性形变上的有效支持性。  相似文献   

19.
现有的时间序列的相似性度量大多基于欧氏距离,并不适用于不同粒度时间序列的相似性匹配,无法直接对其相似性进行有效的度量,为此,提出一种基于对应差值比样本的相似性度量,用于不同粒度时间序列的相似性匹配.首先对不同时间粒度的时序数据进行阐述,并定义了对应差值比样本与相似度计算方法;接着提出基于它们的相似性匹配算法;最后实验证...  相似文献   

20.
台风相似性度量方法的研究对防灾减灾、辅助决策等具有重要意义。目前,台风相似性的研究大多集中在台风路径的相似性度量上。首先,梳理影响台风相似性度量的多个要素,提出了基于多元时间序列的台风数据描述方法;其次,提出了台风时间序列完整性、一致性评估与修复方法;最后,针对台风时间序列的不等长问题,设计了一种基于主成分分析和动态时间弯曲距离的相似性度量方法。通过实验验证,该方法能够实现台风相似性的有效度量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号