首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于数据流的近似查询计算及其应用研究   总被引:2,自引:1,他引:2  
陈昕  宋瀚涛 《计算机应用研究》2003,20(11):113-114,122
通过分析基于实化聚集视图的查询重写方法,将相关的查询计算理论与数据流的查询相结合,针对数据流的特征,给出了一种具有广泛应用前景的基于数据流的近似查询计算方案。  相似文献   

2.
通过分析在线聚集与在线动态重排序技术,结合近似查询处理和国会抽样方法,提出了在线分组聚集方案,该方案具有广泛的应用前景。  相似文献   

3.
索引是数据库的对象之一,在关系数据库中,索引建立在一张基本表的一列或多列上,索引的逻辑结构是一张二维表,索引表由两类信息组成,一是索引关键字,即在基本表上经常查询的一列或多列属性,二是地址信息,即索引关键字在基本表中所在行的物理地址;索引的物理结构以B树形式组织。按照对基本表的组织方式,索引分为聚集索引和非聚集索引;按照索引关键字取值的唯一性,分为唯一索引和不唯一索引。文章着重探讨聚集索引及其B树结构,用实例分析二维表的B树索引的创建,在B树结构上的查询和更新操作,形象说明索引是如何提高查询效率的,以及进行更新操作时对索引的影响。  相似文献   

4.
基于Multi-Bloom Filters的数据流聚集查询   总被引:1,自引:0,他引:1       下载免费PDF全文
张育  沈鸿 《计算机工程》2009,35(5):28-30,3
针对数据流上任意时闯段的历史数据的聚集查询问题,提出基于BF技术的概要存储模型MBF。采用全局比特位向量提供数据元素的快速插入和查找,结合动态分配的局部计数器向量存储不同时间段下的历史数据,使MBF支持不同时间粒度上历史数据的有效存储和高效查询,给出历史时间跨度较大情况下MBF的压缩方法以及MBF模型的参数最优化设置。理论分析证明,MBF具有较大的灵活性,能有效支持时间范围内历史数据元素的近似聚集查询。  相似文献   

5.
陈昕  宋瀚涛  高明 《计算机工程》2003,29(5):28-29,81
对基于实化聚集视图的查询计算及相关研究进行了分析,并将相关的数据仓库的查询计算理论与面向应用的近视查询处理方法相结合,提出了一种基于实化聚集视图的近似查询计算方案,该方案具有广泛的应用前景。  相似文献   

6.
讨论了基于草图的复杂聚集查询的近似处理算法.利用随机技术,在数据流过时实时计算数据的草图概要;同时采用了新颖的草图分割技术,有效地提高近似应答的精度.合成数据的查询实验表明草图技术能有效地降低估算误差.  相似文献   

7.
在数据仓库以及联机分析处理等许多领域中,聚集数据的处理是一个非常重要的核心问题。本文分析了聚集数据查询的特点,引入了基于聚集数据的近似查询计算模型,并针对该计算模型的提纲构建问题,给出了一类近似查询提纲的Haar小波方法,来实现对聚集数据和聚集视图的快速查询计算。  相似文献   

8.
空间数据仓库有效地支持对空间数据的管理和分析,提供更加全面的决策支持.讨论了一种有效的空间决策支持手段——空间区域聚集查询的实现.基于aggregate cubetree和aR-tree提出了一个可以有效地在空间维和非空间维上进行区域聚集查询的索引结构aCR-tree及其相关算法,并计算分析了查询算法的时间复杂度.与现有技术相比aCR-tree降低了存储代价和每次查询访问的节点数,通过实验证明,该索引结构可以提供较好的存储性能和查询性能.  相似文献   

9.
从数据管理中的近似查询方向,对图数据的近似查询算法进行了研究.依据近似查询的类别,分别介绍了近似查询中的经典算法,并对这些算法进行了详细的分析和讨论,从索引单元以及索引机制比较了各种算法适用的范围以及应用领域.重点阐述和比较了各算法的特点及查询性能,分析了各个算法存在的优势和不足.对近似查询中现有算法的不足及未来的研究方向进行了讨论.  相似文献   

10.
江彤  金宗安  谢东 《计算机工程》2010,36(11):42-44
在概率关系中,聚集查询的目标是每一个可能世界,而可能世界的数目随着概率关系元组数目的增长呈指数增长,当元组数目较多时,聚集查询在线性时间内无法计算。针对该问题,分别为每一个聚集函数定义3个聚集分量,通过对原概率关系进行编码,分别采用转换、存储过程和近似计算的方法,在线性时间内实现聚集查询,理论证明和实验结果表明该方法的正确性和有效性。  相似文献   

11.
面向聚集查询的语义缓存技术   总被引:4,自引:0,他引:4  
蔡建宇  吴泉源  贾焰  邹鹏 《软件学报》2007,18(2):361-371
将目前主要用于小规模数据库查询的语义缓存技术拓展到海量数据库的聚集查询中,以面向聚集查询的语义缓存形式模型为基础,构造了语义缓存StarCache.详细讨论了StarCache中的聚集查询处理、语义缓存替换管理和一致性维护等技术.StarCache已经集成在自主研发的并行数据库中间件StarTP中,并在一项大型国家工程中得到实际应用.  相似文献   

12.
Conditional tables have been identified long ago as a way to capture unknown or incomplete information. However, queries over conditional tables have never been allowed to involve column functions such as aggregates. In this paper, the theory of conditional tables is extended in this direction, and it is shown that a strong representation system exists which has the closure property that the result of an aggregate query over a conditional table can be again represented by a conditional table. It turns out, however, that the number of tuples in a conditional table representing the result of an aggregate query may grow exponentially in the number of variables in the table. This phenomenon is analyzed in detail, and tight upper and lower bounds concerning the number of tuples contained in the result of an aggregate query are given. Finally, representation techniques are sketched that approximate aggregation results in tables of reasonable size.  相似文献   

13.
For streaming data that arrive continuously such as multimedia data and financial transactions, clustering algorithms are typically allowed to scan the data set only once. Existing research in this domain mainly focuses on improving the accuracy of clustering. In this paper, a novel density-based hierarchical clustering scheme for streaming data is proposed in order to improve both accuracy and effectiveness; it is based on the agglomerative clustering framework. Traditionally, clustering algorithms for streaming data often use the cluster center to represent the whole cluster when conducting cluster merging, which may lead to unsatisfactory results. We argue that even if the data set is accessed only once, some parameters, such as the variance within cluster, the intra-cluster density and the inter-cluster distance, can be calculated accurately. This may bring measurable benefits to the process of cluster merging. Furthermore, we employ a general framework that can incorporate different criteria and, given the same criteria, will produce similar clustering results for both streaming and non-streaming data. In experimental studies, the proposed method demonstrates promising results with reduced time and space complexity.  相似文献   

14.
一种基于网格和密度的数据流聚类算法   总被引:1,自引:0,他引:1  
在"数据流分析"这一数据挖掘的应用领域中,常规的算法显得很不适用.主要是因为这些算法的挖掘过程不能适应数据流的动态环境,其挖掘模型、挖掘结果不能满足实际应用中用户的需求.针对这一问题,本文提出了一种基于网格和密度的聚类方法,来有效地完成对数据流的分析任务.该方法打破传统聚类方法的束缚,把整个挖掘过程分为离线和在线两步,最终通过基于网格和密度的聚类方法实现数据流聚类.  相似文献   

15.
在连续的数据流上提供查询的应答对很多应用环境来说是一个极为重要的需求。本文主要探索了如何使用有限的内存在数据流上进行聚集SQL查询,以获得近似的结果。使用随机草图技术,计算非常小的数据流草图,以获得泉集查询的近似结果,并保证误差能在一定的范围之内。并讨论了.在草图方法中如何利用已有的直方图统计信息来提高应答的质量。其关键的思想就是对属性域进行智能化的划分,分解草图化问题,确保所获得查询的结果具有合适的近似精度。不论从理论还是实验上都可以证明草图提供的聚集查询结果比传统的直方图更有效、更精确。  相似文献   

16.
Zhang  An-Zhen  Li  Jian-Zhong  Gao  Hong 《计算机科学技术学报》2019,34(6):1203-1216
Journal of Computer Science and Technology - Incomplete data has been a longstanding issue in the database community, and the subject is yet poorly handled by both theories and practices. One...  相似文献   

17.
提出了将树结构和数据写入文件及将原树结构和数据进行恢复的一种改进算法,并给出了详细的算法流程和相关图表。  相似文献   

18.
Given an undirected connected graph GG we consider the problem of finding a spanning tree of GG which has a maximum number of internal (non-leaf) vertices among all spanning trees of GG. This problem, called Maximum Internal Spanning Tree problem, is clearly NP-hard since it is a generalization of the Hamiltonian Path problem. From the optimization point of view the Maximum Internal Spanning Tree problem is equivalent to the Minimum Leaf Spanning Tree problem. However, the two problems have different approximability properties. Lu and Ravi proved that the latter has no constant factor approximation–unless P = NP–, while Salamon and Wiener gave a linear-time 2-approximation algorithm for the Maximum Internal Spanning Tree problem.  相似文献   

19.
树形结构作为一种非线性数据结构,在程序执行过程中的演变过程较为抽象,尤其是在对其进行加工型操作时,容易发生内存泄漏。针对编程初学者难以掌握树形结构的逻辑演变过程,以及在程序中发生内存泄漏错误时调试较为困难的问题,文中提出了一种对程序调试过程中树形结构的演变过程进行可视化呈现的处理模型TEVM(Tree Evaluation Visualization Model)。针对单个可视化程序在调试步骤前和调试步骤后的两个树形结构,设计了一种将树形结构转换为线性表示的结构对比算法,得出了它们的包括泄漏树在内的结构差异;同时设计了一种树形结构布局方法,并计算它们的布局差异。根据结构差异和布局差异生成可视化演变序列,调用绘图引擎对该序列进行解析和执行,从而完成对树形结构及其演变过程的动态、平滑和直观的可视化呈现,帮助编程初学者快速理解树形结构相关程序的执行过程,提升调试效率。将TEVM模型集成于一个面向编程实训教学的集成开发环境原型Web AnyviewC中,取得了较好的应用效果。  相似文献   

20.
时间序列数据在能源、制造、金融、气候等领域有着广泛应用,聚合查询是相关分析场景中常见的查询需求,快速获取海量数据的概要信息,对于提高数据分析工作的效率具有重要意义.通过存储元数据加速聚合查询是一种有效的提升聚合查询执行效率的手段,但现有的时间序列数据库都使用时间窗口切分数据,需要对数据进行实时排序和分区,难以适应物联网场景下高并发、大吞吐量的数据写入特点.因此,提出了一种面向聚合查询的ApacheIoTDB物理元数据管理方案.该方案按照数据文件的物理存储特性切分数据,并结合同步计算和异步计算策略,优先保证数据的写入性能.针对时间序列数据中普遍存在的乱序数据,将时间范围重叠的一组文件抽象为乱序文件组并提供元数据,聚合查询会被重写为3个结合物理元数据和原始数据的子查询高效执行.多个数据集上的实验验证了该方案对聚合查询执行效率的提升效果以及不同计算策略对性能的影响.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号