共查询到19条相似文献,搜索用时 53 毫秒
1.
考虑偏好top-k计算问题,提出一种整合网格索引和DG索引的Gridded Dominant Graph(GDG)混合索引结构.首先,提出基于数据点逆支配点集性质的剪枝自由点方法,该方法大大减少了构建索引中的数据点及查询时可能访问的数据点.通过网格索引高效地计算逆支配点集,并得出网格中“k-最大运算区域”和“k-最大查找区域”,分别在建立索引和top-k查询阶段近似地剪枝自由点.然后,分析了查询索引阶段层次式索引(如dominant graph(DG))在同一层次中无序访问数据点的不足,通过增加网格索引而使访问有序.计算网格概要信息并将网格单元按函数分值排序,使层次内数据点依据网格单元顺序而访问有序.由于附加的网格索引增加计算和存储开销较少,同时性能有较大提升,所以GDG适用性强.理论分析和实验结果均验证了上述方法的有效性. 相似文献
2.
更新数据流上的连续Skyline计算 总被引:2,自引:0,他引:2
本文考虑"更新数据流"场景下的连续Skyline计算问题。在该环境下,数据不再满足"先进先出"特性,使得传统基于滑动窗口数据流上的连续Skyline计算方法不再适用。在对问题进行了形式化描述后,本文提出了基本算法BUSM,在分析其不足的基础上提出了一种网格索引数据结构,基于该结构提出了GUSM算法。该算法利用了更新数据流中删除和添加操作成对同时出现的特性,以网格为单位表示影响区域并进行快速排除预处理。理论分析和实验结果证明了上述方法在更新数据流上连续计算Skyline的有效性。 相似文献
3.
近几年,随着数据流和不确定数据的产生,不确定数据流上的异常点检测成为新的研究热点。然而,现有的不确定数据的异常点定义中涉及3个参数,这对于用户是非常难设定的,以致不能查询到适合的异常点。在大多时候,用户更想知道最可能是异常点的对象,因此提出了不确定数据流上的top-k异常点查询算法。该算法通过估计数据对象异常点的概率范围而进行剪枝,从而减少了一些不必要的计算,同时增量地计算数据对象异常点的概率范围。在真实数据集和合成数据集上进行了一系列的模拟实验,证明了算法的性能。 相似文献
4.
程序控制流的设计是为实现正确的数据流服务的,数据流测试是非常重要的。文中将面向all-uses数据流准则的测试用例生成问题建模为多目标优化问题,提出了一种基于遗传算法的测试用例生成方法。通过构建待测程序的控制流图进行数据流分析,计算出程序中所有的定义-使用对,得到测试目标,利用面向多测试目标的遗传算法生成满足all-uses准则的最优解。遗传算法中定义了一种改进的基于支配关系的适应度函数,在分析测试用例对定义-使用对的覆盖程度时考虑了存在重定义的可能性,且考虑了定义结点和使用结点在执行路径中的先后顺序。实验结果表明,所提方法可以有效地生成满足all-uses准则的测试用例,相比其他方法可以有效地提升测试目标的覆盖率,降低生成测试用例所需的迭代次数。 相似文献
5.
简单无向图的最小连通支配集问题是NP完全问题,目前还没有成熟解法。提出了一种用有序袁构建独立集求解连通支配集的算法,算法从图中度最大的顶点开始将顶点加入到有序表中,并在加入过程中构建独立集,同时加入其他节点连接独立集使其成为连通集当图中所有节点处理完成,有序表中标记为独立集的节点和连接节点就形成了一个连通支配集。实验表明算法生成的支配集较小,运行时间复杂度比较低。 相似文献
6.
提出了一种基于滑动窗口的数据流动态索引方法——DS-索引,采用滑动窗口保存数据流的最新数据,利用AVL树对数据流的变化区间进行索引,有效地解决了数据流的反向查询问题。 相似文献
7.
频繁模式挖掘的模式数量通常过于巨大,在实际应用中只有少量的频繁模式被使用。Top-k频繁模式挖掘通过排列模式频数限制频繁模式的数量,有效提高了算法效率。提出了TPN(Top-k-Patterns based on Nodesets)算法,该算法使用了节点集的概念,将数据压缩于Poc-tree,通过Top-k-rank表重新计算最小支持度限制生成候选模式的数量。实验通过与ATFP,Top-k-FP-growth算法比较,证明该算法有较好的效率。 相似文献
8.
简单无向图的最小连通支配集问题是NP完全问题,目前还没有成熟解法。提出了一种用有序表构建独立集求解连通支配集的算法,算法从图中度最大的顶点开始将顶点加入到有序表中,并在加入过程中构建独立集,同时加入其他节点连接独立集使其成为连通集。当图中所有节点处理完成,有序表中标记为独立集的节点和连接节点就形成了一个连通支配集。实验表明算法生成的支配集较小,运行时间复杂度比较低。 相似文献
9.
通过构造边支配集,提出了求解无线网络中弱连通支配集的集中式构造算法,该算法的时间复杂度为O(|N|+|E|)。同时在保证支配集的支配性和弱连通性不变的情况下,给出了两种修剪策略,以减小所求弱连通支配集的规模。从理论上证明了本算法的正确性,并通过仿真验证了算法的有效性。与已有结果相比,该算法可以产生规模更小的弱连通支配集。 相似文献
10.
本文主要对三维数据点重构曲面网格模型方法进行了综述。从三维数据点集重构曲面一般遵循以下三个步骤:1)重构曲面网格模型;2)网格简化;3)拟合曲面(通常为Bezier,NURBS),其中重构曲面网格为关键的一点,三维数据点集由三维数字化仪采集得到,不同的数字化设备,得到的三维数据点集可能会有差别,重构曲面网格的算法也不尽相同,本文介绍了几种对于不同数据形式,有代表性的重构曲面网格算法。 相似文献
11.
基于不确定数据的查询处理综述 总被引:5,自引:0,他引:5
不确定数据在一些重要应用领域中是固有存在的,如传感器网络和移动物体追踪。在不确定数据上使用传统的查询方法会使查询结果出现偏差,不能满足用户的需求。因此,基于不确定数据的查询处理受到了越来越多的关注。与在确定数据上查询不同,不确定数据上的研究工作将概率引入到数据模型中来衡量不确定对象成为结果集中元素的可能性。由于问题定义和数据模型的不同,不确定数据上的查询类型也多种多样。从问题定义、数据模型、剪枝策略和算法等角度,对基于不确定数据的范围查询、top-k查询以及skyline查询进行了介绍。 相似文献
12.
作为数据流上的一种重要查询,skyline对于很多在线应用都非常重要,包括移动运算环境、网络监控、传感器网络、股票交易等。与大多数数据流skyline处理技术不同,本文着重于约束skyline的处理。约束skyline支持用户定义在某些属性上的偏好,系统中存在多个约束skyline查询,为skyline查询处理技术带来了新的挑战。为了在高速数据流上对约束skyline进行高效处理,本文使用了一种网格索引存储元组,并提出两个算法用于计算和维护skyline集合,我们还为每个查询定义了影响区域,以减少在新元组到达和旧元组失效时需要处理的网格数目。理论分析和实验证明了该方法的有效性。 相似文献
13.
为提高大数据背景下面向数据流的分布式to p‐k监测的实时性和可用性,对监测多个数据流的分布式系统处理数据的过程进行研究,提出一种低内存占用的分布式to p‐k监测算法。通过使用有限的内存空间对原本杂乱分布于各节点的关键数据进行重新调整,对数据处理过程中可能遇到的各种情形进行分类,依照调整结果和分类结果指定相应的处理流程,使很大一部分数据更新操作可以不依靠网络通信,或仅依靠少量网络通信来完成,有效减少监测过程中的网络通信量,在保证监测实时性的前提下提高系统的可用性。实验结果表明,该算法是有效可行的。 相似文献
14.
15.
16.
Stream processing systems are designed to analyze data arriving in real time and using continuous queries and respond when a specific event or sequence of events are detected. An important aspect of these systems is Streaming Analytics, which facilitates statistical calculations on continuous data within the stream. These systems must be designed to handle high volumes of data, be scalable, and accommodate a multitude of long‐lived concurrently running analytics. The challenges involved in the development of stream processing include on‐the‐fly transformation of data streams to match the query needs of users and the ability to model stream transformations to detect overlaps and possibilities for optimizations and to specify a methodology to deliver optimizations. In particular, this work focuses on exposing data stream application internals in order to detect reusable parts and then consolidate applications to optimize computational resource usage. The Streaming Data Analytics Model presented in this paper adopts a declarative approach that enables processing and manipulation of data streams in a simple manner while facilitating powerful optimizations necessary for managing high volumes of streaming data in real time. An evaluation is provided to demonstrate in both theoretical and quantitative aspects the high performance offered by our approach. 相似文献
17.
18.
实时数据流未来趋势的预测具有重要的实际应用意义.例如,在环境监测传感器网络中,通过对感知数据流进行预测聚集查询,观察者可以预测网络覆盖的区域在未来一段时间内的平均温度和湿度,以确定是否会发生异常事件.目前的研究工作多数集中在数据流上当前数据的查询,数据流上预测查询的研究工作还很少.采用多元线性回归方法,给出了数据流上的聚集值预测模型,提出了一种数据流预测聚集查询处理方法.当预测失败的次数大于预先给定的阈值时,给出了一种预测模型自动调整策略,以降低预测误差.还提出了滑动窗口的更新周期、数据流的流速对预测精度影响的数学模型.理论分析与实验结果表明,提出的预测聚集查询处理算法具有较高的性能,并且能够返回满足用户精度要求的预测查询结果.在实验中,采用TPC-H国际标准测试数据和TAO(tropical atmosphere ocean)测量的海洋表面空气温度数据来构造数据流. 相似文献
19.
数据流查询与处理技术广泛应用在金融系统等诸多领域中,银行卡交易系统中存在的由终端复用所导致的不规范交易即是一个典型案例.此类不规范交易存在两个特点:(1)对象频繁出现;(2)对象的值序列频繁波动.然而,现有的频繁项挖掘算法仅考虑第一个特点,无法有效解决问题,亟需开发新技术进行检测.文中首先形式化地定义了这类不规范交易查询,再设计了多个创新算法进行处理.此外,文中还将工作扩展到滑动窗口模型以处理数据流演化问题.理论分析与实验结果均表明所提方法具有较佳性能,空间复杂度与时间复杂度都较低. 相似文献