首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
空间并置(co-location)模式是指其特征的实例在地理空间中频繁并置出现的一组空间特征的集合。传统co-location模式挖掘通常由用户给定一个邻近阈值来确定实例的邻近关系,使用单一的邻近阈值来判定两个空间实例的邻近性可能会造成邻近关系的缺失,也没有考虑距离大小的不同对邻近关系的影响。同时,传统方法主要利用频繁性阈值来衡量模式的频繁性,存在着算法效率对频繁性阈值较为敏感的问题。由于频繁并置的特征间具有较高的邻近度,因此利用聚类算法可以将其聚集在一起,加之邻近以及特征间的并置都是模糊的概念,因此将模糊集理论与聚类算法相结合,研究了空间co-location模式挖掘中的模糊挖掘技术,在定义模糊邻近关系的基础上,定义了度量特征之间邻近度的函数,基于特征邻近度利用模糊聚类算法挖掘co-location模式,最后通过广泛的实验验证了提出方法的实用性、高效性及鲁棒性。  相似文献   

2.
曾新  李晓伟  杨健 《计算机应用》2018,38(2):491-496
大多数空间co-location模式挖掘将距离阈值作为衡量不同对象实例间邻近关系的标准,进而挖掘出频繁co-location模式,并没有考虑具有邻近关系的实例间的相互影响和模式的增益率问题。在空间co-location模式挖掘过程中,引入实例间的相互作用率和对象的季均收益,定义了对象作用率、套间总收益和增益率等概念,并提出挖掘高增益率co-location模式的基础算法(NAGA)和有效的剪枝算法(NAGA_JZ)。最后通过大量的实验来验证基础算法的正确性和实用性,并对基础算法和剪枝算法的挖掘效率进行了对比,验证了剪枝算法的高效性。  相似文献   

3.
空间数据挖掘旨在从空间数据库中发现和提取有价值的潜在知识.空间co-location(共存)模式挖掘一直以来都是空间数据挖掘领域的重要研究方向之一,其目的 是发现一组频繁邻近出现的空间特征子集,而空间高效用co-location模式挖掘则考虑了特征的效用属性.二者在度量空间实例的邻近关系时一般都需要预先给定一个距离阈值...  相似文献   

4.
空间co-location(并置)模式是一组空间特征的子集,其实例在空间中频繁地邻近出现.由于空间数据同时存在关联性和异质性,co-location模式实例的分布或在整个研究区域中全局出现(全局co-location模式),或在研究区域的局部区域出现(区域co-location模式),从而提出了多级co-location模式挖掘.当前的多级co-location模式挖掘方法存在两个问题:1)已有的多级co-location模式挖掘方法忽略了模式在空间中的分布特性,未能准确区分全局和区域co-location模式;2)已有的多级模式挖掘方法将全局非频繁co-location模式作为候选区域co-location模式,导致候选区域co-location模式数量过多.针对以上问题,首先,定义了模式的实例分布均匀系数,在考虑模式频繁性的同时考虑了模式在空间中的分布情况,从而正确、高效地识别出全局和区域co-location模式.其次,基于模式的实例分布均匀系数,设计了一个有效的多级co-location模式挖掘算法,提出了有效的剪枝策略以提高算法效率.最后,在真实和合成数据集上进行了广泛的实验,验证了所提方法的正确性和高效性.  相似文献   

5.
空间极大co-location模式挖掘研究   总被引:1,自引:0,他引:1  
空间co-location模式代表了一组空间特征的子集,它们的实例在空间中频繁地关联。挖掘空间co-location模式的研究已经有很多,但是针对极大co-location模式挖掘的研究非常少。提出了一种新颖的空间极大co-location模式挖掘算法。首先扫描数据集得到二阶频繁模式,然后将二阶频繁模式转换为图,再通过极大团算法求解得到空间特征极大团,最后使用二阶频繁模式的表实例验证极大团得到空间极大co-location频繁模式。实验表明,该算法能够很好地挖掘空间极大co-location频繁模式。  相似文献   

6.
实例位置模糊的空间co-location模式挖掘研究   总被引:2,自引:0,他引:2  
实例位置模糊在许多领域里都有着非常重要的应用,比如生物医学图像数据库和地理信息系统(geographic information system,GIS)。研究了实例位置模糊的空间co-location模式挖掘问题。定义了实例位置模糊的空间co-location模式挖掘的相关概念,包括实例位置模糊、位置参与率等;给出了基本算法来挖掘实例位置模糊的co-location模式;提出了两种改进算法,即基于网格的距离计算和减枝候选模式,以提高挖掘性能,加快co-location规则的产生。通过大量的实验,说明了基本算法及其改进算法的效果和效率。  相似文献   

7.
空间co-location(并置)模式是指实例在空间中频繁关联的一组空间特征的子集。在空间数据挖掘中,现有算法主要针对的是正模式的挖掘,而空间中还存在着具有强负相关性的模式,如负co-location模式,这类模式的挖掘在一些应用中同样具有重要的意义。现有的负co-location模式挖掘算法的时间复杂度较高,挖掘到的模式数量巨大。针对该问题,探索了负co-location模式的向上包含性质,提出了极小负co-location模式,证明了极小负co-location模式可推导出所有频繁负co-location模式。在负co-location模式挖掘中,计算模式的表实例是制约挖掘效率的根本因素,为此提出了3个剪枝策略有效地提高了算法的效率。在真实和合成数据集上的大量实验,验证了提出方法的正确性和高效性。特别地,大量实验结果表明极小负co-location模式可将频繁负co-location模式数量压缩80%以上。  相似文献   

8.
空间co-location模式是一组空间特征的子集,它们的实例在邻域内频繁并置出现。通常,空间co-location模式挖掘方法假设空间实例相互独立,并采用空间实例参与到模式实例的频繁性(参与率)来度量空间特征在模式中的重要性,采用空间特征的最小参与率(参与度)来度量模式的有趣程度,忽略了空间特征间的某些重要关系。因此为了揭示空间特征间的主导关系而提出主导特征co-location模式。现有主导特征模式挖掘方法是基于传统频繁模式及其团实例模型进行挖掘,然而,团实例模型可能会忽略非团的空间特征间的主导关系。因此,基于星型实例模型,研究空间亚频繁co-location模式的主导特征挖掘,以更好地揭示空间特征间的主导关系,挖掘更有价值的主导特征模式。首先,定义了两个度量特征主导性的指标;其次,设计了有效的主导特征co-location模式挖掘算法;最后,在合成数据集和真实数据集上通过大量实验验证了所提算法的有效性以及主导特征模式的实用性。  相似文献   

9.
空间co-location模式挖掘是空间数据挖掘的一个重要任务,目前无论是挖掘确定数据,还是不确定数据,算法的时间和空间效率都不高,更谈不上对海量数据进行挖掘。为此,在深入分析传统挖掘方式过度消耗时间和空间资源的根本原因的基础上,提出了网格微分挖掘co-location模式的算法。新算法在传统网格基础上实施微分,求出各微分格中属于同一特征的实例质心,并基于这些质心进行多分辨剪枝co-location模式挖掘。算法在保证具有较高准确率的前提下,较好地解决了传统挖掘方式中存在的效率问题,从而解决了面向海量数据进行空间co-location模式挖掘的难题。大量实验证明,网格微分算法具有高效性、稳健性和高准确率等优点。  相似文献   

10.
芦俊丽  王丽珍  肖清  王新 《软件学报》2014,25(S2):189-200
空间co-location模式挖掘是空间数据挖掘的一个重要研究方向.空间co-location模式是空间对象的一个子集,它们的实例在空间中频繁关联.到目前为止,空间co-location模式挖掘都只关注某一个时刻的空间co-location模式.然而,在实际应用中,数据库中的数据是随着时间改变的,所以高效地增量挖掘空间co-location模式是非常必要的;空间co-location模式演化分析可以发现空间co-location模式的变化规律,预测特定事件的发生,但是对这些问题的研究并未见诸报道.研究了高效的空间co-location模式增量挖掘及空间co-location模式的演化分析,首先,提出了高效的空间co-location模式增量挖掘基本算法及剪枝算法.其次,在多个随时间变化的真实数据集上挖掘co-location演化模式.再次,证明了空间co-location模式增量挖掘基本算法及剪枝算法是正确的和完备的.最后,在"模拟+真实"的数据集上用充分的实验验证了增量挖掘基本算法的性能以及剪枝算法的剪枝效果.此外,把空间co-location增量挖掘基本算法、剪枝算法及演化模式挖掘算法应用到三江并流区域珍稀植物数据集上,增量挖掘出空间co-location模式及演化模式,预测了co-location模式的演化规律,更好地实现了对珍稀植物的动态跟踪和保护.  相似文献   

11.
基于距离和基于密度的离群点检测算法受到维度和数据量伸缩性的挑战, 而空间数据的自相关性和异质性决定了以属性相互独立和分类属性的基于信息理论的离群点检测算法也难以适应空间离群点检测, 因此提出了基于全息熵的混合属性空间离群点检测算法。算法利用区域标志属性进行区域划分, 在区域内利用空间关系确定空间邻域, 并用R*-树进行检索。在此基础上提出了基于全息熵的空间离群度的度量方法和空间离群点挖掘算法, 有效解决了混合属性的离群度的度量和离群点的挖掘问题。由于实现区域划分有利于并行计算, 从而可适应大数据量的计算。理论和实验证明, 所提算法在计算效率和实验结果的可解释性方面均具有优势。  相似文献   

12.
Mining spatial colocation patterns: a different framework   总被引:2,自引:0,他引:2  
Recently, there has been considerable interest in mining spatial colocation patterns from large spatial datasets. Spatial colocation patterns represent the subsets of spatial events whose instances are often located in close geographic proximity. Most studies of spatial colocation mining require the specification of two parameter constraints to find interesting colocation patterns. One is a minimum prevalent threshold of colocations, and the other is a distance threshold to define spatial neighborhood. However, it is difficult for users to decide appropriate threshold values without prior knowledge of their task-specific spatial data. In this paper, we propose a different framework for spatial colocation pattern mining. To remove the first constraint, we propose the problem of finding N-most prevalent colocated event sets, where N is the desired number of colocated event sets with the highest interest measure values per each pattern size. We developed two alternative algorithms for mining the N-most patterns. They reduce candidate events effectively and use a filter-and-refine strategy for efficiently finding colocation instances from a spatial dataset. We prove the algorithms are correct and complete in finding the N-most prevalent colocation patterns. For the second constraint, a distance threshold for spatial neighborhood determination, we present various methods to estimate appropriate distance bounds from user input data. The result can help an user to set a distance for a conceptualization of spatial neighborhood. Our experimental results with real and synthetic datasets show that our algorithmic design is computationally effective in finding the N-most prevalent colocation patterns. The discovered patterns were different depending on the distance threshold, which shows that it is important to select appropriate neighbor distances.  相似文献   

13.
空间并置(co-location)模式挖掘是指在大量的空间数据中发现一组空间特征的子集,这些特征的实例在地理空间中频繁并置出现.传统的空间并置模式挖掘算法通常采用逐阶递增的挖掘框架,从低阶模式开始生成候选模式并计算其参与度(空间并置模式的频繁性度量指标).虽然这种挖掘框架可以得到正确和完整的结果,但是带来的时间和空间开...  相似文献   

14.
An information-theoretic approach to quantitative association rule mining   总被引:1,自引:1,他引:0  
Quantitative association rule (QAR) mining has been recognized an influential research problem over the last decade due to the popularity of quantitative databases and the usefulness of association rules in real life. Unlike boolean association rules (BARs), which only consider boolean attributes, QARs consist of quantitative attributes which contain much richer information than the boolean attributes. However, the combination of these quantitative attributes and their value intervals always gives rise to the generation of an explosively large number of itemsets, thereby severely degrading the mining efficiency. In this paper, we propose an information-theoretic approach to avoid unrewarding combinations of both the attributes and their value intervals being generated in the mining process. We study the mutual information between the attributes in a quantitative database and devise a normalization on the mutual information to make it applicable in the context of QAR mining. To indicate the strong informative relationships among the attributes, we construct a mutual information graph (MI graph), whose edges are attribute pairs that have normalized mutual information no less than a predefined information threshold. We find that the cliques in the MI graph represent a majority of the frequent itemsets. We also show that frequent itemsets that do not form a clique in the MI graph are those whose attributes are not informatively correlated to each other. By utilizing the cliques in the MI graph, we devise an efficient algorithm that significantly reduces the number of value intervals of the attribute sets to be joined during the mining process. Extensive experiments show that our algorithm speeds up the mining process by up to two orders of magnitude. Most importantly, we are able to obtain most of the high-confidence QARs, whereas the QARs that are not returned by MIC are shown to be less interesting.  相似文献   

15.
传统[K]-modes算法在分类属性聚类中有着广泛的应用,但是传统算法并不区分有序分类属性与无序分类属性。在区分这两种属性的基础上,提出了一种新的距离公式,并优化了算法流程。基于无序分类属性的距离数值,确定了有序分类属性相邻属性值之间距离数值的合理范围。借助有序分类属性蕴含的顺序关系,构建了有序分类属性的距离公式。计算样本点与质心距离之时,引入了簇内各属性值的比例作为总体距离公式的重要参数。综上,新的距离公式良好地刻画了有序分类属性的距离,并且平衡了两种不同分类属性距离公式之间的差异性。实验结果表明,提出的改进算法和距离公式在UCI真实数据集上比原始[K]-modes算法及其改进算法均有显著的效果。  相似文献   

16.
乔连鹏  侯会文  王国仁 《软件学报》2023,34(3):1277-1291
近年来,异质信息网络上的社区搜索问题已经吸引了越来越多的关注,而且被广泛应用在图数据分析工作中.但是现有异质信息网络上的社区搜索问题都没有考虑子图上属性的公平性.将属性的公平性与异质信息网络上的kPcore挖掘问题相结合,提出了基于属性公平的异质信息网络上的极大core挖掘问题.针对该问题,首先提出了一个子图模型FkPcore.当对FkPcore进行枚举时,基础算法Basic-FkPcore遍历了所有路径实例,并枚举了大量k Pcore及其子图.为了提高算法效率,提出了Adv-FkPcore算法,以避免在枚举FkPcore时对所有的kPcore及其子图进行判断.另外,为了提高点的P_neighbor的获取效率,提出了结合点标记的遍历方法(traversalmethod with vertex sign, TMS),并基于TMS算法提出了FkPcore枚举算法Opt-FkPcore.在异质信息网络数据集上进行的大量实验证明了所提方法的有效性和效率.  相似文献   

17.
一种基于权重属性熵的分类匿名算法   总被引:2,自引:0,他引:2  
为了在高效地保护数据隐私不被泄露的同时保证数据效用,提出了一种基于权重属性熵的分类匿名方法(Weight-properties Entropy for Classification Anonymous,WECA)。该方法在数据分类挖掘的特定应用背景下,通过信息熵的概念来计算数据集中不同准标识符属性对敏感属性的分类重要程度,选取分类权重属性熵比率最高的准标识符属性对分类树进行有利的划分,同时构建了分类匿名信息损失度量,在更好地保护隐私数据的前提下确保了数据分类效用。最后,在标准数据集上的实验结果表明,该算法在保证较少的匿名损失的同时具有较高的分类精度,提高了数据可用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号