共查询到18条相似文献,搜索用时 62 毫秒
1.
时空轨迹大数据模式挖掘研究进展 总被引:3,自引:4,他引:3
时空轨迹挖掘是数据挖掘领域的前沿研究课题,通过研究和开发时空轨迹挖掘技术,来发现隐藏在轨迹大数据中有价值的规律和知识以供决策支持。本文介绍了时空轨迹大数据模式挖掘与知识发现领域的研究进展;然后对时空轨迹模式挖掘技术产生的背景、应用领域和研究现状作了简介,并探讨了面向时空轨迹大数据模式挖掘的研究内容、系统架构以及关键技术,最后对时空轨迹频繁模式、伴随模式、聚集模式和异常模式的挖掘算法思想进行了阐述。 相似文献
2.
时空轨迹数据的获取变得越来越容易,轨迹数据刻画了移动对象的行为模式与活动规律,是对移动对象在时空环境下的移动模式和行为特征的真实写照,在城市规划、交通管理、服务推荐、位置预测等领域具有重要的应用价值.这些过程通常需要通过对时空轨迹数据进行模式挖掘才能得以实现.简述了轨迹数据挖掘的预处理和基本步骤,归纳了异常轨迹检测方法... 相似文献
3.
4.
时空轨迹伴随模式是数据挖掘领域的一项重要研究内容。CMC(Coherent Moving Cluster)算法是一种经典的时空轨迹伴随模式挖掘算法,该算法引入了DBSCAN算法以挖掘出任意形状的簇。但是,DBSCAN聚类算法极耗时,导致CMC算法的时间效率较低。因此提出了一种基于网格索引的时空轨迹伴随模式挖掘算法MAP-G(Mining Adjoint Pattern of spatial-temporal trajectory based on the Grid index)。实验表明,MAP-G算法不仅比CMC算法具有更高的时间效率,而且能够过滤掉部分不正确的结果,因此结果也更加准确。 相似文献
6.
《计算机应用与软件》2015,(10)
传统的频繁项集挖掘方法具有一定的局限性。Apriori算法需要重复扫描输入数据,导致很高的I/O负载,算法性能不高;Fp-growth算法需要在内存中建立Fp-tree并根据Fp-tree挖掘频繁项集,导致算法受到计算机的内存限制。在大数据时代,由于挖掘数据规模十分巨大,更加凸显这些传统算法的局限性。对此,一方面改进传统的频繁项集挖掘算法,另一方面基于Spark框架实现分布式频繁项集挖掘算法(FIMBS)。实验结果表明,该算法相比基于MapReduce框架的关联规则算法具有显著的优势。 相似文献
7.
唐锐 《计算机工程与应用》2007,43(9):174-175,230
提出了分布式系统中各站点离群数据之间模式相似性挖掘算法,该算法首先利用基于距离的离群数据挖掘算法挖掘各自站点的离群数据,然后计算离群数据的知识集,最后依据各站点知识集的分布情况来判断离群数据之间的类别相似性和行为相似性。 相似文献
8.
9.
10.
移动对象的聚集模式是时空轨迹模式挖掘中的重要课题,它研究移动对象群体在多个连续时刻中的空间聚集问题。现有的聚集模式基于共现模式进行定义,挖掘结果中夹杂大量非运动的聚集群体,严重影响模式挖掘的效果。为了解决此问题,本文提出了基于群体运动过程建模的汇聚模式。该模式定义从群体运动形态出发进行设计,准确识别向心运动的移动群体,有效排除非聚集类型运动群体的干扰。本文设计并实现了汇聚模式挖掘(Converging pattern mining,CPM)算法,该算法首先定位密度峰值点,确定候选的汇聚中心区域,然后依次识别每个时刻的汇聚群体,按照群体汇聚的持续性要求识别汇聚模式。基于真实轨迹数据进行实验,结果验证了本文提出的CPM算法在挖掘效果和算法效率的有效性。 相似文献
11.
在当今大数据时代,MapReduce等大数据处理框架处理数据能力有限,其在处理有关图的数据时常常显得缓慢低效,典型如3-clique计数问题,故需要探究一种高效的算法处理这类clique计数问题。由于在前人文献中对3-clique计数问题已有深入探讨,故针对该问题的扩展版本—4-clique计数问题进行探究。在一个启发式的想法下提出了基于邻边采样的概率采样算法,利用切诺夫不等式证明该算法在近似条件下只需要一定数量的采样器作为相对误差的性能保证。通过实验评估对比发现,相对于传统精确算法,概率采样算法虽然在结果上损失了少量的精度,但在算法运行时间和空间占用上具有巨大的优势。最后得出其在实际应用中具有巨大实践价值的结论。 相似文献
12.
随着大数据计算需求的增长,集群的处理速度需要得到快速的提升,然而目前大数据处理框架的处理性能已逐渐满足不了这种快速增长的需求。由于集群的存储架构是分布式存储,因此数据的存放在大数据处理过程中成为影响集群的处理性能的因素之一。首先,对当今的分布式文件存储系统的结构进行了介绍;接着,根据不同的优化目标,例如减少网络负载、负载均衡、降低能耗和高容错性等,对近年国内外大数据存储算法的研究进行了总结,分析和对比了已有算法的优点以及存在的问题;最后,对大数据存储架构和优化算法设计的挑战和未来研究方向作了展望。 相似文献
13.
针对现有地图匹配算法(如基于经典隐马尔可夫及其变体、先进算法等)对于低频轨迹数据匹配效果不甚理想的问题,提出一种基于海量公交历史轨迹数据的轨迹数据挖掘方法。首先,以公交站点为序列骨架,从大量低频轨迹中挖掘、提取轨迹点数据,进行重组、排序形成高质量高频轨迹数据序列;然后,将高质量高频轨迹数据序列应用基于经典隐马尔可夫模型地图匹配算法,得到公交路线地图匹配结果。与未经过挖掘算法处理的低频轨迹数据的匹配方法相比,所提方法在匹配误差上平均下降6.3%,匹配所需的数据规模、时间大幅缩减;且该方法对于低频、不稳定的噪声数据具有鲁棒性,适用于所有公交路线的地图匹配问题。 相似文献
14.
针对序列模式的高效用模式挖掘过程中搜索空间大、计算复杂度高的问题,提出一种基于多效用阈值的分布式高效用序列模式挖掘算法。采用数组结构保存模式的效用信息,解决效用矩阵导致的内存消耗大的缺点。设计1-项集与2-项集的深度剪枝策略,深入地缩小候选模式的搜索空间,减少搜索时间成本与缓存成本。提出挖掘算法的分布式实现方案,通过并行处理进一步降低模式挖掘的时间。基于中等规模与大规模的序列数据集分别进行实验,实验结果表明,该算法有效减少了候选模式的数量,降低了挖掘的时间成本与存储成本,对于大数据集表现出较好的可扩展能力与稳定性。 相似文献
15.
摘 要: 高效用模式挖掘被广泛应用于数据挖掘领域。为了挖掘指定数量的高效用模式,一些基于树结构和效用表结构的top-k高效用挖掘算法被提出,但前者在挖掘过程中产生了大量候选模式,后者在效用模式增长时需要进行多次比较。同时,由于在信息社会,数据量呈爆炸性增长。因此,在数据集过大的情况下,挖掘高效用模式需以大量存储空间以及计算开销为代价。为了解决这两个问题,基于MapReduce的top-k高效用模式挖掘算法(TKHUP_MaR)被提出。该算法通过两次扫描数据库,利用三次MapReduce来实现并行top-k高效用模式的挖掘。通过实验表明TKHUP_MaR 算法在并行挖掘top-k高效用模式的过程中是有效的。 相似文献
16.
近年来,大数据引起了各界相关部门的高度关注,中科院和各高校开始重视该方向的教学和研究。针对目前大数据带来的社会影响力,根据大数据具体特性以及数据挖掘学科交叉性强的特点,结合实际教学经验,分别从培养数据意识、加强理论体系、创新教学方法和深入科学研究等四个方面来探索如何设计高校数据挖掘课程,以解决大数据时代下数据挖掘课程因抽象而带来的问题,为培养优秀的大数据研究人才奠定理论基础。 相似文献
17.
在大数据环境下Apriori频繁模式挖掘算法在数据处理过程具有预先设定最小阈值、时间复杂度高等缺陷, 为此采用多阶段挖掘策略实现并行化频繁模式挖掘算法PTFP-Apriori。首先将预处理数据以模式树的形式存储,通过最为频繁的[k]个模式得到最优阈值。然后根据该值删除预期不能成长为频繁的模式以降低计算规模,并利用弹性分布式数据集RDD完成统计项集支持度计数、候选项集生成的工作。实验分析表明相比于传统的频繁模式挖掘算法,该算法具有更高的效率以及可扩展性。 相似文献
18.
面对大数据规模庞大且计算复杂等问题,基于MapReduce框架采用两阶段渐进式的聚类思想,提出了改进的K-means并行化计算的大数据聚类方法。第一阶段,该算法通过Canopy算法初始化划分聚类中心,从而迅速获取粗精度的聚类中心点;第二阶段,基于MapReduce框架提出了并行化计算方案,使每个数据点围绕其邻近的Canopy中心进行细化的聚类或合并,从而对大数据实现快速、准确地聚类分析。在MapReduce并行框架上进行算法验证,实验结果表明,所提算法能够有效地提升并行计算效率,减少计算时间,并提升大数据的聚类精度。 相似文献