首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
逄琳  刘方爱 《计算机应用》2016,36(6):1634-1638
针对传统的聚类算法对数据集反复聚类,且在大型数据集上计算效率欠佳的问题,提出一种基于层次划分的最佳聚类数和初始聚类中心确定算法——基于层次划分密度的聚类优化(CODHD)。该算法基于层次划分,对计算过程进行研究,不需要对数据集进行反复聚类。首先,扫描数据集获得所有聚类特征的统计值;其次,自底向上地生成不同层次的数据划分,计算每个划分数据点的密度,将最大密度点定为中心点,计算中心点距离更高密度点的最小距离,以中心点密度与最小距离乘积之和的平均值为有效性指标,增量地构建一条关于不同层次划分的聚类质量曲线;最后,根据曲线的极值点对应的划分估计最佳聚类数和初始聚类中心。实验结果表明,所提CODHD算法与预处理阶段的聚类优化(COPS)算法相比,聚类准确度提高了30%,聚类算法效率至少提高14.24%。所提算法具有较强的可行性和实用性。  相似文献   

2.
与在所有特征空间寻找聚类不同,子空间聚类的目标是找到嵌在不同子空间的簇,是实现高维数据聚类的有效途径.传统聚类算法主要采用基于距离测量的方法进行聚类,难以处理高维数据.提出一种能够处理高维数据的子空间聚类算法(Attribute relevancy-based subspace clustering algorithm,ARSUB),将属性转化为频繁模式中的项集,将聚类问题转化为频繁模式挖掘问题,然后基于项目对间强相关的关系建立关系矩阵,以衡量任意两个项集之间的相关度,进而得到强相关的候选子空间.最后利用候选子空间进行聚类得到存在于不同子空间中的簇.在合成数据集与真实数据集的实验结果表明,这种方法具有较高的准确度和效率.  相似文献   

3.
现有基于密度的聚类方法主要用于点数据的聚类,不适用于大规模轨迹数据。针对该问题,提出一种利用群组和密度的轨迹聚类算法。根据最小描述长度原则对轨迹进行分段预处理找出具有相似特征的子轨迹段,通过两次遍历轨迹数据集获取基于子轨迹段的群组集合,并采用群组搜索代替距离计算减少聚类过程中邻域对象集合搜索的计算量,最终结合群组和密度完成对轨迹数据集的聚类。在大西洋飓风轨迹数据集上的实验结果表明,与基于密度的TRACLUS轨迹聚类算法相比,该算法运行时间更短,聚类结果更准确,在小数据集和大数据集上的运行时间分别减少73.79%和84.19%,且运行时间的减幅随轨迹数据集规模的扩大而增加。  相似文献   

4.
一种新的基于隐Markov模型的分层时间序列聚类算法   总被引:4,自引:0,他引:4  
针对传统的基于隐Markov模型(HMM)的聚类算法在时间序列聚类的不足,提出了一种新的基于HMM的分层时间序列聚类算法HBHCTS,旨在提高聚类质量,同时对聚类结果给出类的表示、HBHCTS算法应用HMM对时间序列进行建模,并按照“最相似”的原则得到序列所对应的初始模型集,进而对这些初始模型合并更新及迭代得到聚类结果.实验中主要研究了聚类正确率与序列长度及模型距离的关系,结果表明HBHCTS算法比传统的基于HMM的聚类算法准确性高.  相似文献   

5.
高维分类属性的子空间聚类算法   总被引:3,自引:0,他引:3  
高维分类数据的处理一直是数据挖掘研究所面临的巨大挑战.传统聚类算法主要针对低雏连续性数据的聚类,难以处理高维分类属性数据集.本文提出一种处理高维分类数据集的子空间聚类算法(FP-Tree-based SUBspace clustering algorithm,FPSUB),利用频繁模式树将聚类问题转化为寻找属性值的频繁模式发现问题,得到的频繁模式即候选子空间,然后基于这些子空间进行聚类.针对真实数据集的实验结果表明,FPSUB算法比其他算法具有更高的准确度.  相似文献   

6.
一种基于网格的增量聚类算法*   总被引:1,自引:0,他引:1  
分析了现有基于网格的聚类算法,该算法具有高效且可以处理高维数据的特点,但传统网格聚类算法的聚类质量受网格划分的粒度影响较大。为此,提出了一种基于网格的增量聚类算法IGrid。IGrid算法具有传统网格聚类算法的高效性,且通过维度半径对网格空间进行了动态增量划分以提高聚类的质量。在真实数据集与仿真数据集上的实验结果表明,IGrid算法在聚类准确度以及效率上要高于传统的网格聚类算法。  相似文献   

7.
基于整体和局部相似性的序列聚类算法   总被引:1,自引:0,他引:1  
戴东波  汤春蕾  熊赟 《软件学报》2010,21(4):702-717
现有的很多序列聚类算法是基于“局部特征可以表征整个序列”的假设来进行的,即不区分实际应用中序列的整体相似性和局部相似性.这对存在保守子模式的序列,如DNA和蛋白质序列是适用的,但对一些注重整体序列相似性的应用领域,如:在交易数据库中用户购买行为的比较,时间序列数据中全局模式的匹配等,由于难以产生频繁子模式,用基于全局相似性的度量方法进行聚类显得更为合理.此外,在基于局部相似性的序列聚类算法中,选取的局部子模式表征序列的能力也有待进一步提高.由此,针对不同应用领域,分别提出基于整体相似性的序列聚类算法GSClu和基于局部相似性的序列聚类算法LSClu.GSClu和LSClu分别利用带剪枝策略的二分k均值算法和基于有gap约束的强区分度子模式方法对各自领域的序列数据进行聚类.实验采用交易序列数据和蛋白质序列数据,实验结果表明,GSClu和LSClu对各自领域的序列数据具有较快的处理速度和良好的聚类质量.  相似文献   

8.
为了实现Web服务请求数据的快速聚类,并提高聚类的准确率,提出一种基于增量式时间序列和任务调度的Web数据聚类算法,该算法进行了Web数据在时间序列上的聚类定义,并采用增量式时间序列聚类方法,通过数据压缩的形式降低Web数据的复杂性,进行基于服务时间相似性的时间序列数据聚类。针对Web集群服务的最佳服务任务调度问题,通过以服务器执行能力为标准来分配服务任务。实验仿真结果表明,相比基于网格的高维数据层次聚类算法和基于增量学习的多目标模糊聚类算法,提出的算法在聚类时间、聚类精度、服务执行成功率上均获得了更好的效果。  相似文献   

9.
针对移动互联网流量识别问题,基于多项性能评估指标,分析K-均值和谱聚类算法在不同特征集合或不同识别目标流量数据集上的聚类性能,并提出基于多特征集合的集成聚类方法。比较分析实验表明,相同聚类方法在不同特征集合或不同识别目标数据集上性能有所不同,集成聚类方法能够有效提高利用单个特征集合聚类方法的性能。进一步将集成聚类方法应用于App关联分析,分析结果可为移动App的划分和用户行为分析提供客观依据。  相似文献   

10.

为确定??-means 等聚类算法的初始聚类中心, 首先由样本总量及其取值区间长度确定对应维上的样本密度统计区间数, 并将满足筛选条件的密度峰值所在区间内的样本均值作为候选初始聚类中心; 然后, 根据密度峰值区间在各维上的映射关系建立候选初始聚类中心关系树, 进一步采用最大最小距离算法获得初始聚类中心; 最后为确定最佳聚类数, 基于类内样本密度及类密度建立聚类有效性评估函数. 针对人工数据集及UCI 数据集的实验结果表明了所提出算法的有效性.

  相似文献   

11.
基于多样化top-k shapelets转换的时间序列分类方法   总被引:1,自引:0,他引:1  
针对基于shapelets转换的时间序列分类方法中候选shapelets存在较大相似性的问题,提出一种基于多样化top-k shapelets转换的分类方法DivTopKShapelet。该方法采用多样化top-k查询技术,去除相似shapelets,并筛选出最具代表性的k个shapelets集合,最后以最优shapelets集合为特征对数据集进行转换,达到提高分类准确率及时间效率的目的。实验结果表明,DivTopKShapelet分类方法不仅比传统分类方法具有更高的准确率,而且与使用聚类筛选的方法(ClusterShapelet)和shapelets覆盖的方法(ShapeletSelection)相比,分类准确率最多提高了48.43%和32.61%;同时在所有15个数据集上均有计算效率的提升,最少加速了1.09倍,最高可达到287.8倍。  相似文献   

12.
为改善传统的基因表达数据聚类方法正确率偏低的问题,研究了支持向量数据描述(SVDD)算法在基因表达数据聚类中的应用,该方法通过寻找最优分类超球实现对数据集的有效聚类.将类间信息融入聚类有效性评估准则中,通过模拟退火优化算法寻找SVDD算法中的最优核函数参数和惩罚因子,在训练时引入非样本数据提高运算效率.对酵母细胞生长周期的基因表达数据集的仿真实验结果表明,在新的聚类有效性评估准则下进行参数寻优,能够更快更好地得到最佳参数,同时,算法具有聚类精度高和运算速度快的优点.  相似文献   

13.
基于事件的时间序列相似性度量方法   总被引:2,自引:0,他引:2  
吴学雁  黄道平 《计算机应用》2010,30(7):1944-1946
为了在时间序列相似性度量过程中更好地体现用户的需求,提高相似性度量的准确度,提出了基于事件的时间序列相似性度量方法(SMBE)。首先将用户的需求定义为事件,将原始时间序列转化为事件序列;然后,构建了基于事件序列的相似性度量模型(SMBE),SMBE定义了不同事件序列中各元素之间的相似性,并构成相应的相似性矩阵,对相似性矩阵进行搜索得到最优路径的值作为序列之间的相似性度量;最后,提出了基于SMBE的聚类方法。实验表明,在参数设置合理的情况下,能获得接近0.90的聚类精度。  相似文献   

14.
时间序列事件聚类是研究事件分类及挖掘分析的基础。现有聚类方法多直接针对具有时间属性且结构复杂的持续事件聚类,未考虑聚类对象的转化,聚类准确性低且效率差。针对这些问题,提出一种面向时间序列事件的动态矩阵聚类方法RDMC。首先,构建事件近邻评价体系,根据评价值优劣衡量事件的代表性,通过近邻评分的后向差分计算策略构建RDS候选集;其次,提出基于组合优化的RDS选取方法,从候选集上快速得到RDS最优解;最后,动态构建RDS与数据集的距离矩阵,提出基于K-means的矩阵聚类方法,实现时间序列事件所属类别的有效划分。实验表明,相比现有方法,所提方法在聚类准确率、聚类可靠性、聚类效率等方面具有明显优势。  相似文献   

15.
As the basis of data management and analysis, data quality issues have increasingly become a research hotspot in related fields, which contributes to optimization of big data and artificial intelligence technology. Generally, physical failures or technical defects in data collectors and recorders cause anomalies in collected data. These anomalies will strongly impact on subsequent data analysis and artificial intelligence processes; thus, data should be processed and cleaned accordingly before application. Existing repairing methods based on smoothing will cause a large number of originally correct data points being over-repaired into wrong values. The constraint-based methods such as sequential dependency and SCREEN cannot accurately repair data under complex conditions since the constraints are relatively simple. A time series data repairing method under multi-speed constraints is further proposed based on the principle of minimum repairing. Then, dynamic programming is used to solve the problem of data anomalies with optimal repairing. Specifically, multiple speed intervals are set to constrain time series data, and a series of candidate repairing points are formed for each data point according to the speed constraints. Next, the optimal repair solution is selected from these candidates based on the dynamic programming method. With regard to the feasibility study of this method, an artificial dataset, two real datasets, and another real dataset with real anomalies are employed for experiments in case of different rates of anomalies and data sizes. Experimental results demonstrate that, compared with the existing methods based on smoothing or constraints, the proposed method has better performance in terms of RMS errors and time cost. In addition, the investigation of clustering and classification accuracy with several datasets reveals the impact of data quality on subsequent data analysis and artificial intelligence. The proposed method can improve the quality of data analysis and artificial intelligence results.  相似文献   

16.
李海林    梁叶 《智能系统学报》2019,14(2):288-295
利用时间序列聚类方法进行股指期货的套期保值,关键要选择合适的聚类方法。本文从新的视角来研究并提高时间序列聚类方法在金融数据分析领域的应用性能,提出一种基于标签传播时间序列聚类的股指期货套期保值模型。该模型以动态时间弯曲为相似性度量方法来构建现货股票网络空间结构,将每只股票看作一个节点,利用标签传播方法将节点划分到不同的簇中,最终实现股票数据聚类。另外,构建最小追踪误差优化模型来确定每支股票在现货组合中的最优权重,从而得到最优组合。实验分别比较新方法和传统聚类方法确定现货组合的追踪误差,结果表明新方法能够提高现货组合的追踪精度,为丰富金融市场投资和管理方式提供新的研究思路。  相似文献   

17.
针对传统的文本分类算法存在着各特征词对分类的结果影响相同、分类准确率较低、造成算法时间复杂度增加的问题,提出了一种改进的最大熵C-均值聚类文本分类方法。该方法充分结合了C-均值聚类和最大熵值算法的优点,以香农熵作为最大熵模型中的目标函数,简化分类器的表达形式,然后采用C-均值聚类算法对最优特征进行分类。仿真实验结果表明,与传统的文本分类方法相比,提出的方法能够快速得到最优分类特征子集,大大提高了文本分类准确率。  相似文献   

18.
基于闭合有间隔频繁子序列的点击流聚类   总被引:2,自引:0,他引:2       下载免费PDF全文
马超  沈微 《计算机工程》2010,36(23):72-75
对网站日志文件中记录的点击流序列聚类可以发现用户使用模式,从而对用户归类。而传统聚类方法面临着难以提取点击流中有代表性的特征向量以及点击流及其特征向量存在数据稀疏性的问题。针对上述情况,提出一种基于闭合有间隔频繁子序列模式挖掘的点击流聚类方法。该方法从点击流中提取子序列模式的频繁支持度,构建特征向量,利用基于双向映射欧氏距离的模糊距离度量判断向量间相似度,增强BIRCH聚类算法对点击流数据的聚类效果。  相似文献   

19.
邹朋成  王建东  杨国庆  张霞  王丽娜 《软件学报》2013,24(11):2642-2655
对于时间序列聚类任务而言,一个有效的距离度量至关重要.为了提高时间序列聚类的性能,考虑借助度量学习方法,从数据中学习一种适用于时序聚类的距离度量.然而,现有的度量学习未注意到时序的特性,且时间序列数据存在成对约束等辅助信息不易获取的问题.提出一种辅助信息自动生成的时间序列距离度量学习(distancemetric learning based on side information autogeneration for time series,简称SIADML)方法.该方法利用动态时间弯曲(dynamic time warping,简称DTW)距离在捕捉时序特性上的优势,自动生成成对约束信息,使习得的度量尽可能地保持时序之间固有的近邻关系.在一系列时间序列标准数据集上的实验结果表明,采用该方法得到的度量能够有效改善时间序列聚类的性能.  相似文献   

20.
彭红 《计算机仿真》2012,29(2):257-259,395
研究图像配准精确度问题。由于两张图片几何关系及量度均有不同,要达到配准效果应有空间一致性。传统的聚类图像配准算法进行图像配准时,配准精度较低,算法复杂度高等不足。为了有效提高图像配准的精确度,提出了一种改进的数学形态学和聚类算法相结合的图像配准方法。算法首先改进的基于空间模式均值聚类对图像进行区域分块,并对分块的位置进行空间聚类,并准确计算出基准图像的最后的配准位置,并采用数学形态学方法对配准后的图像进行边缘处理,最后评估配准图像的质量。仿真结果表明,提出的改进的算法有效的提高了配准精确度,是一种可行性有效的图像配准算法,为图像配准提供了依据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号