首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
时间序列相似性搜索是数据挖掘的一个重要基础性研究内容,它的相似性定义主要是基于欧氏距离,这类算法的缺点:如果时间序列产生偏移,会产生错误的结果.基于形态特征的时间序列相似性快速搜索算法,以界标为分界点,利用界标提取了时间序列的特征,将时序分为若干子序列,并对每个子序列进行线性化,将线性化后的子序列进行预处理;同样将查询序列进行基于界标的分段算法,然后利用一种改进的快速相似性搜索算法,可以快速地搜索到与查询序列相似的序列.?# 箅例表明了算法的有效性.  相似文献   

2.
指出直接采用原始瓦斯浓度时间序列进行短期浓度预测、相似性查询、时间序列分类和聚类等数据挖掘工作不但效率低下,而且会影响时间序列数据挖掘的准确性和可靠性;提出了一种采用分段线性方法的时间序列模式表示方法。采用分段线性表示方法对瓦斯浓度时间序列进行模式表示后可换来较小的存储和计算代价,只保留了时间序列的主要形态,去除了细节干扰,更能反映出时间序列的自身特征,有利于提高数据挖掘的效率和准确性。  相似文献   

3.
序列数据相似性查询技术研究综述   总被引:2,自引:0,他引:2  
序列数据在文本、Web访问日志文件、生物数据库等应用中普遍存在,对其进行相似性查询是一种提取有用信息的重要手段.近年来,随着各种科学计算的发展和序列数据的大量产生,序列相似性查询已经成为数据分析领域一个研究热点.其涉及到的几个重要问题有面向各种应用领域的相似性度量及其相互之间的关系;随机序列数据中距离分布的统计信息及其对分析查询算法性能的作用;在大规模数据中,各种高效回答相似性查询的关键技术及各自的优缺点比较.总结了序列数据的分类和特点,给出了几种序列数据相似性度量和随机序列之间距离分布的统计信息,并进一步分析了这些度量之间的关系.接着给出了几种序列相似性查询的类型,以及序列相似性查询要解决的核心问题.在此基础上,针对各种序列相似性查询关键技术进行分类和评价.最后,讨论了关于序列数据相似性查询研究所面临的挑战,并归结了未来的研究方向.  相似文献   

4.
汤春蕾  董家麒 《计算机学报》2012,35(11):2228-2236
子序列的相似性查询是时间序列数据集中的一种重要操作,包括范围查询和k近邻查询.现有的大多算法是基于欧几里德距离或者DTW距离的,缺点在于查询效率低下.文中提出了一种新的基于LSH的距离度量方法,可以在保证查询结果质量的前提下,极大提高相似性查询的效率;在此基础上,给出一种DS-Index索引结构,利用距离下界进行剪枝,进而还提出了两种优化的OLSH-Range和OLSH-kNN算法.实验是在真实的股票序列集上进行的,数据结果表明算法能快速精确地找出相似性查询结果.  相似文献   

5.
朱天  白似雪 《微计算机信息》2007,23(30):216-217
时间序列的相似性搜索是时间序列知识发现的重要方面。该文提出了一种新的基于距离度量的时间序列相似性搜索算法。该算法采用分段线性表示,同时使用改进的模式距离来度量序列间的距离。  相似文献   

6.
基于参数重要度的多元时间序列相似性查询   总被引:3,自引:1,他引:2       下载免费PDF全文
针对多元时间序列的相似性查询问题,给出参数重要度的定义,提出一种基于参数重要度的候选集查询方法。通过对多元时间序列的SVD分解,将奇异值向量和特征矩阵作为多元序列的特征,基于线性空间中的坐标变换原理构造2个多元时间序列的相似性度量模型,实现在候选集上的精确匹配并获得最终的结果集。对飞行数据的相似性查询实验验证了该方法的有效性。  相似文献   

7.
简要介绍了数据挖掘及其在给水管网安全中的应用。提出了一种基于数据挖掘的时间序列相似性查询方法。通过对事故症候相似性查询,建立安全预警系统,为调度员提供事故预警信息。  相似文献   

8.
在时间序列相似性的研究中,通常采用的欧氏距离及其变形无法对在时间轴上发生伸缩或弯曲的序列进行相似性度量,本文提出了一种基于分段极值DTW距离的时间序列相似性度量方法可以解决这一问题。在动态时间弯曲(DTW)距离的基础上,本文定义了序列的分段极值DTW距离,并阐述了其完整的算法实现。与传统的DTW距离相比,分段极值DTW距离在保证度量准确性的同时大大提高了相似性计算的效率。文中最后运用MATLAB作对比实验,并给出实验结果数据,验证了该度量方法的有效性与准确性。  相似文献   

9.
时间序列数据主要依据采集时间进行排序,时间序列上相邻的数据具有一定的关联性,当用户读取时间序列数据时不只是读取一条数据,而是连续读取一段时间序列数据。针对时间序列的局部性特点,提出一种基于动态分段的时间序列索引DSI,通过设置差值及差值等级对时间序列数据进行动态分段,使用区间树快速查找不同长度的数据分段块,并利用层次聚类算法优化查询结果集合。实验结果表明,DSI索引的查询效率优于现有时间序列查询索引。  相似文献   

10.
王燕  马倩倩  韩萌 《计算机工程与应用》2012,48(33):162-166,202
现有的各种多元时间序列相似性搜索方法难以准确高效地完成搜索任务。提出了一种基于特征点分段的多元时间序列相似性搜索算法,提取所定义的用于分段的特征点,分段后将原时间序列转化为模式序列,该模式序列能够很好地保留原序列的全局形状特征,再用分层匹配的方法进行相似性搜索。实验结果表明,该方法能够有效刻画序列的全局形状特征,通过分层匹配保留局部的相似性,同时提高搜索准确率。  相似文献   

11.
Continuous similarity-based queries on streaming time series   总被引:2,自引:0,他引:2  
In many applications, local or remote sensors send in streams of data, and the system needs to monitor the streams to discover relevant events/patterns and deliver instant reaction correspondingly. An important scenario is that the incoming stream is a continually appended time series, and the patterns are time series in a database. At each time when a new value arrives (called a time position), the system needs to find, from the database, the nearest or near neighbors of the incoming time series up to the time position. This paper attacks the problem by using fast Fourier transform (FFT) to efficiently find the cross correlations of time series, which yields, in a batch mode, the nearest and near neighbors of the incoming time series at many time positions. To take advantage of this batch processing in achieving fast response time, this paper uses prediction methods to predict future values. When the prediction length is long, FFT is used to compute the cross correlations of the predicted series (with the values that have already arrived) and the database patterns, and to obtain predicted distances between the incoming time series at many future time positions and the database patterns. If the prediction length is short, the direct computation method is used to obtain these predicted distances to avoid the overhead of using FFT. When the actual data value arrives, the prediction error together with the predicted distances is used to filter out patterns that are not possible to be the nearest or near neighbors, which provides fast responses. Experiments show that with reasonable prediction errors, the performance gain is significant. Especially, when the long term predictions are available, the proposed method can handle incoming data at a very fast streaming rate.  相似文献   

12.
基于分段时间弯曲距离的时间序列挖掘   总被引:23,自引:1,他引:22  
在时间序列库中的数据挖掘是个重要的课题,为了在挖掘的过程中比较序列的相似性,大量的研究都采用了欧氏距离度量或者其变形,但是欧氏距离及其变形对序列在时间轴上的偏移非常敏感.因此,采用了更鲁棒的动态时间弯曲距离,允许序列在时间轴上的弯曲,并且提出了一种新的序列分段方法,在此基础上定义了特征点分段时间弯曲距离.与经典时间弯曲距离相比,大大提高了效率,而且保证了近似的准确性.  相似文献   

13.
文章介绍了一种基于进化式模糊神经网络时间预测系统,它是一种快速自适应的局部学习模型;进化式模糊神经网络是一个特殊类型的神经网络,它能通过进化其结构和参数来容纳新的数据。文章重点介绍了网络结构、学习方法及创建、修剪、聚合规则节点的算法;实验结果表明:模糊隶属函数的个数,规则的修剪和聚合等训练参数,与网络的行为和预测结果有很重要的关系。  相似文献   

14.
The automated detection of points in a time series with a special meaning to a user, commonly referred to as the detection of events, is an important aspect of temporal data mining. These events often are points in a time series that can be peaks, level changes, sudden changes of spectral characteristics, etc. Fast algorithms are needed for event detection for online applications or applications with huge time series data sets. In this article, we present a very fast algorithm for event detection that learns detection criteria from labeled sample time series (i.e., time series where events are marked). This algorithm is based on fast transformations of time series into low-dimensional feature spaces and probabilistic modeling techniques to identify criteria in a supervised manner. Events are then found in one, single fast pass over the signal (therefore, the algorithm is called SwiftEvent) by evaluating learned thresholds on Mahalanobis distances in the feature space. We analyze the run-time complexity of SwiftEvent and demonstrate its application in some use cases with artificial and real-world data sets in comparison with other state-of-the-art techniques.  相似文献   

15.
陈然  戴齐 《微机发展》2011,(9):103-106
基于重要点探测技术的时间序列线性分段算法能较好地保留序列的全局特征和拟合高精确度。传统的基于重要点时间序列分段算法,只能通过误差阈值来控制分段,该方法不能预计分段数量,不能适应后期要求分段数量一定的应用。提出一种基于序列重要点的时间序列固定分段数的分段算法—PLR_FPIP,该方法借用二叉树层次遍历的思路,重新调整原方法的分段次序,使用重要点组成的直线段近似描述时间序列,该方法能够在分段数量一定的情况下对时间序列分段。实验证明,该分段算法能在固定分段数的情况下反映时间序列的主体特征,算法简单快速,整体拟合误差小。  相似文献   

16.
阵列流型是传声器阵列信号处理的重要参数,直接影响阵处理性能。阵列流型与传声器的一致性、阵列结构和使用环境等密切相关,已有方法按照频率和角度逐一完成测量,但耗时是密集频率宽带测量的突出问题。论文提出了一种传声器阵列流型宽带测量方法:通过分析宽带信号在离散傅里叶变换之后各频率数据的相关性,提出根据非相关性原则构造宽带测量源信号,并在数据处理中运用FFT算法,综合实现了阵列流型的快速测量。通过在半消声室内的实测证明了论文方法的高效性。方法具有重要的工程应用价值。  相似文献   

17.
Time series representation and similarity based on local autopatterns   总被引:1,自引:0,他引:1  
Time series data mining has received much greater interest along with the increase in temporal data sets from different domains such as medicine, finance, multimedia, etc. Representations are important to reduce dimensionality and generate useful similarity measures. High-level representations such as Fourier transforms, wavelets, piecewise polynomial models, etc., were considered previously. Recently, autoregressive kernels were introduced to reflect the similarity of the time series. We introduce a novel approach to model the dependency structure in time series that generalizes the concept of autoregression to local autopatterns. Our approach generates a pattern-based representation along with a similarity measure called learned pattern similarity (LPS). A tree-based ensemble-learning strategy that is fast and insensitive to parameter settings is the basis for the approach. Then, a robust similarity measure based on the learned patterns is presented. This unsupervised approach to represent and measure the similarity between time series generally applies to a number of data mining tasks (e.g., clustering, anomaly detection, classification). Furthermore, an embedded learning of the representation avoids pre-defined features and an extraction step which is common in some feature-based approaches. The method generalizes in a straightforward manner to multivariate time series. The effectiveness of LPS is evaluated on time series classification problems from various domains. We compare LPS to eleven well-known similarity measures. Our experimental results show that LPS provides fast and competitive results on benchmark datasets from several domains. Furthermore, LPS provides a research direction and template approach that breaks from the linear dependency models to potentially foster other promising nonlinear approaches.  相似文献   

18.
基于互相关的二阶段时间序列聚类方法   总被引:1,自引:0,他引:1  
提出了一种高效的时间序列聚类方法,以互相关函数为基础,通过二阶段的方法实现更低时间复杂度下的时间序列聚类。第一步以时间序列符号化为基础,通过设计符号化序列特征抽取算法,抽取特征时间段;第二步以互相关函数为基础,通过改进的互相关函数步骤,实现更快速的时间序列聚类。实验结果表明,该方法可以适应稀疏及密集的时间序列数据抽取,同时与传统的聚类距离公式相比,处理速度更快,对时间序列形状的缩放有更好的表示效果,并能保持较高准确性。  相似文献   

19.
描述了从股票价格时间序列中检测出一些对技术分析有用的特定的几何图形(如双顶,双底,头肩顶)的算法及其实现.首先得到用户指定的股票和时间段内的价格时间序列(这里是每天的收盘价格),然后从中得到一部分直观上对技术分析重要的点,最后根据这些点来判断整个时间序列中是否有符合用户指定的几何图形.该方法用Java实现,并使用JFreeChart工具绘制结果.实践证明该方法能有效地识别几何图形.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号