首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
时间序列分类是数据挖掘中的重要主题,现有的大部分时间序列分类方法较少考虑到序列形状对分类结果的影响。该文提出了一种基于k-shape的时间序列模糊分类方法。该方法通过使用k-shape聚类算法对时间序列训练数据集各类别的成员进行聚类,获得各类别的聚类中心并形成聚类中心群,将每个类别的聚类中心群作为时间序列数据模糊分类的初始聚类中心,根据隶属度最大原则确定测试时间序列数据的类别标签。在30个时间序列公开数据集上的分类实验结果表明,该方法相较于SVM、Bayes、EAIW和TLCS这4种分类算法具有更好的分类性能,对具有扭曲和位移特征的时间序列数据分类有更好的可用性。  相似文献   

2.
针对传统近邻传播聚类算法不能进行限定类簇数目的聚类缺陷,提出一种三阶段的改进聚类方法。该方法通过近邻传播聚类从数据集中获得中心代表点集合,利用K-means算法对中心代表点集合进行指定类簇数目的聚类进而获得初始训练集,结合改进的K最近邻算法实现数据的聚类分析。采用人工仿真数据及UCI数据集进行对比实验,实验结果分析表明,与近邻传播聚类算法和传统限定类簇数目的聚类算法相比,新聚类算法具有更好的聚类效果。  相似文献   

3.
当前面向时间序列有序分类的Shapelet抽取算法,首先计算Shapelet与时间序列之间的欧式距离及其类别标签之间的距离,然后根据两种距离的皮尔逊相关系数或斯皮尔曼相关系数来对Shapelet进行评价,效率较低。针对该问题,提出一种基于SAX表示时间序列的Shapelet评价指标CD-Cover,该指标同时考虑Shapelet对时间序列数据集的覆盖集中度和覆盖优势度。其次,提出一种基于随机采样的Shapelet抽取算法,该算法采用布隆过滤器对候选Shapelet进行预剪枝,采用移除自相似策略对抽取结果进行后剪枝。在11个时间序列公开数据集上的实验结果表明,相比现有方法,该算法抽取的Shapelet具有更好的有序分类能力,且算法的计算效率也更高。  相似文献   

4.
时间序列的研究已经被应用到越来越多的领域中.越来越多的领域应用需要索引和分析海量的时间序列,代表性的比如金融,电力,生物信息等等.这类应用往往面临数以亿计的时间序列的处理,然后从中识别出一些隐藏的模式来.然而目前对时间序列的索引技术都是单机版本,需要用漫长的时间来对大量的时间序列进行索引,限制了时间序列分析的产出率.提出了一种基于Isax表达的分布式时间序列索引算法,并在Spark分布式计算框架下实现算法.首先,给出了基于Isax的分布式索引算法的朴素实现想法,指明了其存在的问题.然后提出一种先建立索引结构,再将时间序列哈希到相应叶子节点的分布式索引算法.最终,构建了一个完整的电力时间序列的近邻近似查询系统,再保证查询精确率的前提下大大提高了计算效率.并在实验数据集上证明了算法的正确性、高效性和可扩展性.  相似文献   

5.
为解决传统K-means算法初始质心的随机选取以及聚类过程中每个数据样本到聚类中心距离的重复计算问题,提出了一种高效的基于初始聚类中心优化的K-means算法,采用最小方差优化初始质心,通过存储每次迭代中所有数据点的簇标志和到最近聚类中心的距离并用于下一次迭代,避免了重复计算数据点到每个中心的距离。在UCI数据库中五个不同的数据集上进行了测试,对各个算法在聚类准则函数,运行时间以及迭代次数上进行实验结果比较,表明在不降低聚类性能的前提下,减少了迭代次数,缩短了聚类时间,证明了改进算法的有效性和高效性。  相似文献   

6.
基于K近邻算法,采用python语言实现手写数字识别.首先对图片进行数据预处理,然后采用K近邻算法对sklearn手写数据集进行分类验证.结果 显示,识别手写数字的准确率高达98.94%,同时实验表明,基于K近邻算法的手写数字识别具有较好应用效果及研究价值.  相似文献   

7.
现有数据流聚类算法多数面向的是确定性数据,可是不确定数据的数据流聚类逐步被受到关注,因为经典的不确定数据聚类算法具有概率密度函数获取困难、实用性不强以及计算复杂等缺点,提出一种基于区间数的不确定数据流聚类算法UIDStream.算法用区间数来表示属性不确定性数据和基于区间数的距离计算方法,定义了不确定性数据之间的相似度,并利用传统k近邻聚类的思想,提出基于区间数的2k近邻微簇和最优2k近邻微簇的概念,通过最优2k近邻微簇的融合,实现不确定数据流的聚类.实验结果表明:改进后的算法具有良好的聚类效果,提高了不确定数据流聚类的聚类质量和速率.  相似文献   

8.
提出一种基于马氏距离的分段矢量量化时间序列分类(Mahalanobis distance-based time series classification using PVQA, MPVQA)算法。该算法在继承传统算法时间复杂度的基础上,引入马氏距离,克服了欧氏距离容易受模式特征量纲影响的缺点,提高了算法精度。首先,在训练时采用分段矢量量化近似方法获得码本,然后以马氏距离为相似性度量对时间序列进行分段重构。对重构后的时间序列,同样基于马氏距离为相似性度量进行判别。在4个时间序列数据集上进行的试验结果验证了所提方法在时间序列表示和分类上的优越性。  相似文献   

9.
协同过滤已在推荐系统中广泛使用,但传统算法存在一定的局限性,如不能较好地适应用户-项目评分矩阵数据集的稀疏性、计算项目相似性时未考虑项目的分类及用户对项目评分和兴趣的时变性等因素。针对这些局限性在传统协同过滤算法基础上提出一种基于大数据集的混合动态协同过滤算法。该算法在计算项目的相似性时引入了时间衰减函数,并综合考虑项目评分的相似性和项目分类的相似性,两者在项目综合相似性中所占权重可以自适应动态调节。算法还在相似性计算和近邻项目选取上做了一些改进。实验表明该算法比传统推荐算法质量有所提高。  相似文献   

10.
孤立点检测是数据挖掘的重要分支之一,旨在发现一个数据集中与多数对象行为明显不同的一些对象.针对分类型矩阵数据,通过给出一种矩阵对象自身的内聚度和该矩阵对象与其他矩阵对象之间的耦合度,定义了矩阵对象的孤立因子,提出一种面向分类型矩阵数据的孤立点检测算法.在Market basket、Microsoft web和MovieLens真实数据集上的实验结果表明,与基于共同近邻(common-neighbor-based,CNB)算法、局部异常因子(local outlier factor,LOF)算法和基于信息熵(information entropy-based,IE-based)的算法相比,本算法能有效检测分类型矩阵数据中的孤立点.  相似文献   

11.
Shapelet发现的目标是寻找质量最佳的Shapelet,Shapelet的质量取决于子序列的可辨别性。针对精准发现有效Shapelet的问题,提出基于子类聚类和SAX表示的Shapelet快速发现算法,将子类聚类与经典的符号表示SAX法相结合进而快速准确的获取最优的Shapelet。该算法利用子类聚类将时间序列进行降维,得到多个子序列原型作为Shapelet候选集;再利用SAX表示将候选集符号化表示,直观的将候选集用字符串表示,便于找到最优Shapelet;最后选取候选集中信息增益最大的作为最优Shapelet进行时间序列分类。实验结果表明,该算法具有较好分类效果,同时提高了分类速度。  相似文献   

12.
1INTRODUCTION Themostimportantthinginthehistoryofbi ologyisclassification[1].Beforethedevelopmentof modernmolecularbiology,theclassificationswere mostlymadeatmacroscopiclevels.Now,therearemassiveexperimentaldatainbiologicalsequence andstructure.Howtoanalyzethisinformationand getsomeexcitingrulesofthebiologicalworldisthemaintaskofthesocalledbioinformatics[2].Oneofthemajorgoalsofbioinformaticsistoun derstandtherelationshipbetweenaminoacidse quenceandthree dimensionalstructureinprotein.Prot…  相似文献   

13.
为准确识别坦克自动装弹机中的机电系统故障,提出了一种结合函数型数据分析(Functional data analysis,FDA)和多层核极限学习机(Multi-layer kernel extreme learning machine,ML-KELM)的故障识别方法。首先,以函数的视角对机电系统运行过程中具有平滑特性的时序数据进行特征信息挖掘,利用函数型主成分分析和主微分分析从不同空间将时序数据的变化特性表征为特征参数;其次,对提取的多传感器时序数据的特征进行Relief-F特征筛选,得到与分类强相关的特征;最后,采用ML-KELM对强相关特征进行深度特征学习,获取更抽象的特征表达,进而实现准确的故障识别。结果表明: 采用与某坦克自动装弹机中的链式输送机原理一致的实验装置进行故障识别实验,函数型主成分分析和主微分分析能够从不同的特征空间中提取时序数据中的有效故障特征,并且两种方法提取的特征具有互补性; 基于多传感器时序数据特征中的强相关特征,使用3层隐含层的ML-KELM能够实现较为准确的故障识别,所提方法具有可行性和有效性,为坦克自动装弹机中的机电系统故障识别的研究提供了一种参考。  相似文献   

14.
提出基于宽度学习系统的功能性磁共振成像(fMRI)数据分类方法,通过简单结构提取fMRI数据的深层特征,加快分类速度. 使用fMRI中感兴趣区域体素均值的时间序列构造输入数据,分别提取fMRI数据的浅层和深层特征,映射为宽度学习的特征节点和增强节点并构建模型框架,利用岭回归逆计算分类模型的连接权值,实现对fMRI数据的分类. 使用ABIDE Ⅰ、ABIDE Ⅱ和ADHD-200数据集,将所提方法与6种分类方法进行对比实验,结果表明,所提方法可以在保持良好的分类准确率的同时,大幅度降低训练时间.  相似文献   

15.
为了准确检测网络中的流量异常情况,确保网络正常运行,提出基于特征符号表示的网络异常流量检测算法(NAAD-FD). NAAD-FD算法利用趋势转折点将网络流量数据按照基于趋势特征的符号表示方法进行转化,按照表示结果将原始数据转化为包含7项特征值的子序列,将7项特征值运用到提出的距离计算方法中;结合基于密度的算法,按照时间序列的网络异常流量定义执行异常检测. 通过对算法参数、仿真数据和真实网络流量数据的实验与分析可知,该算法具有较强的鲁棒性,验证了该算法的有效性和稳定性. 该算法通过降维简化表示,显著降低了算法的时间复杂度,有效加速异常检测过程约40%.  相似文献   

16.
提出了基于串行分类算法的不平衡时间序列多分类方法,并以“上证50指数”15 min交易数据为例,进行了实验检验与结果分析. 结果表明,在多数情况下,串行分类算法比单一算法有更高的准确率、召回率和F1值,可以更有效解决不平衡时间序列多分类问题.  相似文献   

17.
基于聚类算法的混合分类器构建的信息评分系统中,不合理的聚类值或者初始类簇中心点会严重影响分类精度的问题,对此,提出了2种基于模糊粗糙集实例选择的新型混合算法.这2种算法仅与数据集的数据结构有关,不受其他外部参数影响.实验结果表明,基于模糊粗糙集实例选择的2种混合算法针对不同结构的数据集表现出了各自的特性,深化了对数据集的理解,提高了准确率.  相似文献   

18.
为了弥补传统聚类思想下的信号控制时段划分算法忽略了交通流量序列的时间特性的缺点,引入有序聚类建立智能化的交通控制时段划分方法.针对特定分割数目下的任意一种可能划分方案,用类表示特定时段内部的数据序列集合,以直径为参数测算类内样本差异性,以所有类内直径总和作为指标衡量划分结果损失值及方案优劣性.为了降低传统有序聚类时间复杂度,引入动态递归策略,建立特定分割数目下最佳方案的快速求解方法,通过识别不同分割个数下最小损失值突变点,获取最佳分割数和最优方案.基于该方法得到的最优划分在实际交通规划中对比常用方法,交通运行效率得到了显著提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号