首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
姜逸凡  叶青 《计算机应用》2019,39(4):1041-1045
在时间序列分类等数据挖掘工作中,不同数据集基于类别的相似性表现有明显不同,因此一个合理有效的相似性度量对数据挖掘非常关键。传统的欧氏距离、余弦距离和动态时间弯曲等方法仅针对数据自身进行相似度公式计算,忽略了不同数据集所包含的知识标注对于相似性度量的影响。为了解决这一问题,提出基于孪生神经网络(SNN)的时间序列相似性度量学习方法。该方法从样例标签的监督信息中学习数据之间的邻域关系,建立时间序列之间的高效距离度量。在UCR提供的时间序列数据集上进行的相似性度量和验证性分类实验的结果表明,与ED/DTW-1NN相比SNN在分类质量总体上有明显的提升。虽然基于动态时间弯曲(DTW)的1近邻(1NN)分类方法在部分数据上表现优于基于SNN的1NN分类方法,但在分类过程的相似度计算复杂度和速度上SNN优于DTW。可见所提方法能明显提高分类数据集相似性的度量效率,在高维、复杂的时间序列的数据分类上有不错的表现。  相似文献   

2.
常炳国  臧虹颖 《计算机应用》2018,38(7):1910-1915
针对传统的动态时间弯曲(DTW)度量方法易出现过度弯曲现象且计算复杂度高、算法效率低等问题,提出一种基于路径修正的动态时间弯曲(UDTW)度量方法。首先通过分段降维方法——分段局部最大值平滑法(PLM)有效提取序列特征信息,减少UDTW的计算代价;其次,考虑了时间序列形态特征的相似性要求,给过度弯曲路径设置动态惩罚系数,以此修正路径的弯曲程度;最后,在改进度量距离基础上,采用1-近邻分类算法对时序数据进行分类,以提高时间序列相似性度量的准确率和效率。实验结果表明,在15个UCR数据集上,UDTW度量方法与传统DTW度量方法相比具有更高的分类准确率,UDTW在其中3个数据集上能实现100%分类正确;与导数DTW(DDTW)度量方法相比,UDTW分类准确率最多提高了71.8%,而PLM-UDTW在不影响分类准确率的前提下执行时间减小了99%。  相似文献   

3.
现有的时间序列的相似性度量大多基于欧氏距离,并不适用于不同粒度时间序列的相似性匹配,无法直接对其相似性进行有效的度量,为此,提出一种基于对应差值比样本的相似性度量,用于不同粒度时间序列的相似性匹配.首先对不同时间粒度的时序数据进行阐述,并定义了对应差值比样本与相似度计算方法;接着提出基于它们的相似性匹配算法;最后实验证...  相似文献   

4.
时间序列序列模式的相似性研究   总被引:1,自引:1,他引:0  
林殉  李志蜀  周勇 《计算机科学》2011,38(9):245-247
时间序列序列模式相似性的度量是从时间序列中获取时序关联规则的重要环节。一般情况下,距离度量法只能度量相同长度序列模式的相似性。借用动态时间弯曲距离的思想,这种基于非线性弯曲技术的算法可以获得很高的识别、匹配精度。在定义元模式相似性的基础上,定义了序列模式的动态时间弯曲距离,最后用两个不同时间序列进行仿真实验,可以得到不同长度的序列的相似度。  相似文献   

5.
时间序列形态相似性挖掘是目前时间序列数据挖掘研究的热点,然而由于时间序列数据背后真实系统的复杂性,加上观测条件的影响,时间序列会呈现多种相似性变形,如振幅伸缩、振幅漂移、线性漂移等。相似性变形并不会改变序列的形态特征,但现有的ED、DTW和Lp距离等相似性度量算法均不能有效支持识别各类相似性变形。本文首次提出涨落模式(FP)的概念,以涨落模式保存原序列的趋势变化信息,利用最长公共子序列算法计算涨落模式的相似度,消除振幅伸缩、振幅漂移和线性漂移等对相似性挖掘带来的影响,实现基于涨落模式的时间序列相似性度量。设置仿真数据集检验FP相似性度量的相似性变形支持性,同时在真实数据集上进行分类,依据分类准确性对算法鲁棒性进行评估,验证了本文提出的基于涨落模式的相似性度量算法在各类相似性形变上的有效支持性。  相似文献   

6.
时间序列数据挖掘是数据挖掘领域的热点之一。相似性度量是时序挖掘领域的基础问题,直接决定了时序数据分类和聚类的效果。针对现有经典的时序数据相似性度量方法共同主成分分析(CPCA)和二维奇异值分解(2DSVD)中存在无法保存时序数据集合中蕴含的某些重要局部特征的问题,提出了基于数据分块方式的CPCA方法和2DSVD方法。该算法首先对原始多变量时间序列数据进行分块处理,然后对分块得到的子矩阵采用CPCA、2DSVD进行特征提取,从而得到代替原始模式的低维新模式,最后在低维空间中利用最小距离法构建分类器对多变量时间序列进行分类。EEG数据分类实验证明了所提方法的有效性。  相似文献   

7.
时序降维是解决时间序列高维问题的关键技术。符号聚集近似表示(SAX表示法)作为一种时序降维技术,具有良好的维度约简能力与性能稳定的下界距离算法,但算法中分段数的选取需根据当前时序数据的特征而人为设定。针对这一问题,引入了滑动窗口算法与统计学方法,提出了基于二分迭代SAX的时序相似性度量算法。实验结果表明,该算法不仅解决了分段数设定困难的问题,而且降低了时序降维表示的复杂度,提高了SAX算法在多种时序数据上的分类准确性。  相似文献   

8.
针对传统推荐算法的相似性度量准确性不高及数据极端稀疏性等问题,提出一种基于云填充和混合相似性的协同过滤推荐算法。首先通过云模型填充用户-项目评分矩阵,然后对相似性度量方法进行改进,将基于时间序列的用户间影响力融合到基于Jaccard系数的相似性度量方法中。在MovieLens数据集上的验证结果表明,改进后的算法提高了推荐精度同时在一定程度上克服了数据稀疏性的影响。  相似文献   

9.
针对时间序列距离度量的算法很多,但没有适用于不规则时序距离度量算法的现状,基于寻求全局序列点构成的边集之间的距离路径最小的思想,提出一种不规则时序距离度量的算法,并给出了事件序列生成算法和不规则时序距离度量算法的实现,最后利用UCI KDD的时间序列测试数据对算法进行了测试。测试结果证明了该不规则时序距离算法能够有效度量不规则时序的相似性。  相似文献   

10.
SAX(symbolic aggregate approximation)是一种符号化的时间序列相似性度量方法,该方法在对时间序列划分时,采用了PAA算法的均值划分,但均分点无法有效描述序列的形态变化,导致序列间对应分段均值相似的情况下,SAX无法有效区分序列之间的相似度.在SAX算法的基础上,提出了基于关键点的SAX改进算法(KP_SAX),该算法的相似性度量公式既可描述时间序列自身数值变化的统计规律,又可描述时间序列形态变化.实验结果表明:KP_SAX虽然部分提高了算法的复杂度,但可在SAX算法无法计算序列相似度的情况下,有效计算各序列间的相似度距离,达到了改进的目的.  相似文献   

11.
时间序列数据挖掘的相似性度量综述   总被引:1,自引:0,他引:1  
在时间序列数据挖掘中, 时间序列相似性是一个重要的概念. 对于诸多算法而言, 能否与一种合适的相似性度量方法结合应用, 对其挖掘性能有着关键影响. 然而, 至今仍没有统一的度量相似性的方法. 对此, 首先综述了常用的相似性度量方法, 分析了各自的优点与不足; 其次, 讨论了近年来出现的时序相似性的新解释及其度量方法; 再次, 探讨了相似性度量在时序挖掘任务中的应用以及与挖掘精度的关系; 最后给出了关于时序相似性度量进一步的研究方向.  相似文献   

12.
张永  杨浩 《计算机应用》2017,37(8):2244-2247
针对视觉词袋(BOV)模型中过大的视觉词典会导致图像分类时间代价过大的问题,提出一种加权最大相关最小相似(W-MR-MS)视觉词典优化准则。首先,提取图像的尺度不变特征转换(SIFT)特征,并用K-Means算法对特征聚类生成原始视觉词典;然后,分别计算视觉单词与图像类别间的相关性,以及各视觉单词间的语义相似性,引入一个加权系数权衡两者对图像分类的重要程度;最后,基于权衡结果,删除视觉词典中与图像类别相关性弱、与视觉单词间语义相似性大的视觉单词,从而达到优化视觉词典的目的。实验结果表明,在视觉词典规模相同的情况下,所提方法的图像分类精度比传统基于K-Means算法的图像分类精度提高了5.30%;当图像分类精度相同的情况下,所提方法的时间代价比传统K-Means算法下的时间代价降低了32.18%,因此,所提方法具有较高的分类效率,适用于图像分类。  相似文献   

13.
问答系统中问题模式分类与相似度计算方法   总被引:1,自引:0,他引:1  
基于FAQ库的限定域自动问答系统由于更具实用性而成为自然语言处理领域的研究热点,而问题之间的相似度计算是其中最关键的技术。现有的问句相似度计算技术在处理带有上下文情景描述的问题时效果较差。针对现有技术存在的问题,提出将用户问题分为简洁模式问题(SMQs)和情景模式问题(CMQs),并提出了基于规则的问题模式分类算法。在此基础上,进一步提出了综合考察情景相似度和问句相似度的情景模式问题(CMQs)相似度计算方法。实验结果表明,问题模式分类算法取得了90%以上的准确率和召回率,情景模式问题相似度计算方法在时间复杂度较低的情况下也取得了74.3%的正确率。  相似文献   

14.
一种新的DTW最佳弯曲窗口学习方法   总被引:1,自引:0,他引:1  
陈乾  胡谷雨 《计算机科学》2012,39(8):191-195
时间序列相似性查询中,DTW(Dynamic Time Warping)距离是支持时间弯曲的经典度量,约束弯曲窗口的DTW是DTW最常见的实用形式。分析了传统DTW最佳弯曲窗口学习方法存在的问题,并在此基础上引入时间距离的概念,提出了新的DTW最佳弯曲窗口学习方法。由于时间距离是DTW计算的附属产物,因此该方法可以在几乎不增加运算量的情况下提高DTW的分类精度。实验证明,采用了新的学习方法后,具有最佳弯曲窗口的DTW分类精度得到明显改善,分类精度优于ERP(Edit Distance with Real Penalty)和LCSS(Longest Common SubSequence),接近TWED(Time Warp Edit Distance)的水平。  相似文献   

15.
李海林  梁叶 《控制与决策》2017,32(3):451-458
针对传统符号聚合近似方法在特征表示时容易忽略时间序列局部形态特征的局限性,以及动态时间弯曲在度量上的优势,提出一种基于数值符号和形态特征的时间序列相似性度量方法.将时间序列进行符号和形态的特征表示后,提出动态时间弯曲与符号距离结合的时间序列距离度量方法,使所提方法能够较好地反映时间序列数据数值分布和形态特征.实验结果表明,所提出的方法在时间序列数据挖掘中能够得到较好的分类效果,具有一定的优越性.  相似文献   

16.
云模型相似性是用来度量同类概念不同语言值的多个云之间关联程度的方法,相似云及其度量分析方法的提出是对云模型理论的扩展。针对目前相似性度量方法中时间复杂度过高和结果不稳定等不足,提出了一种基于云模型重叠度的相似性度量算法。首先,根据云模型期望、熵、超熵三个数字特征,定义两个云模型的位置关系和逻辑关系;其次,利用两个云的位置和形状特性,计算得到它们间的重叠度;最后,结合云模型重叠度与相似度的关系,将云模型的相似性度量转化为相应重叠部分的定量化描述。通过对时间序列分类实例的应用,验证了该算法在保证结果稳定度和正确率的前提下,与目前时间消耗较低的云模型相似度计算方法(LICM)相比,计算复杂度降低了50%,表明该算法具有可行性和有效性。  相似文献   

17.
动态时间弯曲(DTW)距离支持时间序列的多种形变,具有较高的匹配精度,是一种重要的相似性度量方法.然而,该方法计算复杂度较高,制约了其在相似性搜索中的应用.为了平衡匹配精度与计算效率之间的矛盾,提出一种过滤搜索方法.首先,构造一种计算代价较低的DTW下界距离,用其进行粗略过滤,得到候选集;然后,利用提前终止策略,优化计算候选集中序列的DTW距离,得到搜索结果;最后,对所提出方法进行实验验证,结果表明,该方法能够提高DTW距离的相似性搜索效率,且具有非漏报性.  相似文献   

18.
赵慧赟  潘志松 《计算机科学》2018,45(5):180-184, 219
多元时间序列广泛存在于日常生活中的各个领域,多元时间序列分类是从时间序列数据中获取信息的基本方法。目前,时间序列分类研究面临着相似性度量方法特殊、原始数据维度高等问题,现有的多元时间序列分类方法的分类性能仍有待提高。文中提出一种基于shapelets学习的多元时间序列分类方法。首先,提出了新的正则化最小二乘损失学习框架下的shapelets学习方法,在此基础上采用基于shapelets的一元时间序列分类方法对多元时间序列的每维一元数据进行分类,随后由各维上的分类结果投票决定多元时间序列的最终分类结果。实验证明,所提方法在多元时间序列分类问题中能够取得较高的分类精度。  相似文献   

19.
Dynamic time warping (DTW), which finds the minimum path by providing non-linear alignments between two time series, has been widely used as a distance measure for time series classification and clustering. However, DTW does not account for the relative importance regarding the phase difference between a reference point and a testing point. This may lead to misclassification especially in applications where the shape similarity between two sequences is a major consideration for an accurate recognition. Therefore, we propose a novel distance measure, called a weighted DTW (WDTW), which is a penalty-based DTW. Our approach penalizes points with higher phase difference between a reference point and a testing point in order to prevent minimum distance distortion caused by outliers. The rationale underlying the proposed distance measure is demonstrated with some illustrative examples. A new weight function, called the modified logistic weight function (MLWF), is also proposed to systematically assign weights as a function of the phase difference between a reference point and a testing point. By applying different weights to adjacent points, the proposed algorithm can enhance the detection of similarity between two time series. We show that some popular distance measures such as DTW and Euclidean distance are special cases of our proposed WDTW measure. We extend the proposed idea to other variants of DTW such as derivative dynamic time warping (DDTW) and propose the weighted version of DDTW. We have compared the performances of our proposed procedures with other popular approaches using public data sets available through the UCR Time Series Data Mining Archive for both time series classification and clustering problems. The experimental results indicate that the proposed approaches can achieve improved accuracy for time series classification and clustering problems.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号