首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 281 毫秒
1.
劣质数据普遍存在于现代数据管理系统中,严重影响了数据的质量,从而降低了数据的实用性以及数据的价值,这为数据管理带来了新的挑战.当前,已经有不少管理劣质数据的数据模型被提出,实体关系数据模型是其中一种,其中每条元组表示一个现实世界中的实体.该模型允许劣质数据的存在,给出了衡量数据质量的方法,并且可根据用户对结果质量的需求给出达到一定质量的查询结果.鉴于该模型的特点,传统的查询代价估计方法不再适用,需要新的代价估计技术.文中研究如何估计连接操作结果的大小,提出了在应用局部敏感Hash算法对属性值聚类的基础上,再进行采样估计的方法,并且在聚类过程中考虑数据质量对查询结果的影响.与传统随机采样方法对比,实验结果表明文中估计方法有更好的准确性.  相似文献   

2.
李阳  高鹏  马骏 《计算机工程与设计》2007,28(18):4325-4328,4332
谓词选择率估计是关系数据库管理系统查询优化器决策的重要依据.提出了一种基于压缩直方图的谓词选择率估计方法.采用基于MCV和等高直方图的压缩直方图存储数据库的数据分布特征信息,给出了该压缩直方图的构建方法,研究了谓词选择率估计算法.该方法的有效性已经在实践中得到证明,能够取得准确的选择率估计结果,同时具有较低的构建代价.  相似文献   

3.
直方图是一种重要的数据查询工具.在数据库操作中查询操作需要进行代价估计,而操作代价的估计有多种方法.直方图估计法在所有估计法中是最容易使用和最容易维护的,它将关系中的全部元组进行归类设桶,对每个桶分别进行大小统计,继而求和,使代价统计值更接近于真实.结合实际课题应用,给出了将关系的连接转换为多种直方图的方法,以及如何利用直方图进行代价估计.  相似文献   

4.
XML数据查询中值匹配查询代价估计算法   总被引:6,自引:0,他引:6       下载免费PDF全文
曲卫民  孙乐  孙玉芳 《软件学报》2005,16(4):561-569
XML数据查询中值匹配查询条件的查询代价估计问题是一种典型的多元素查询条件代价估计问题.它与传统关系型数据库中的多元素查询条件不同,因为XML数据中的值信息分布不仅与其他值信息分布相关,还与XML数据中的结构信息相关,而且当XML数据结构比较复杂时,可能会形成高维元素相关.针对以上问题,提出了一种面向XML数据的基于小波的多维直方图查询代价估计算法,并提出了确定XML数据中以某值元素为主键的相互依赖元组的方法,将值匹配条件改写为多元素查询条件的方法以及结构信息的值化方法.实验结果证明,提出的方法取得了较准确的查询代价估计结果.  相似文献   

5.
面向对象XML数据查询的代价估计研究   总被引:2,自引:0,他引:2       下载免费PDF全文
由于XML具有丰富的表达能力、自描述性和灵活性等优点,而面向对象的概念又具有很强的建模能力,将面向对象的概念引入到XML可以提高XML模式语言的建模能力。而面向对象XML数据查询的值匹配条件的查询代价估计问题是一种典型的多元素查询条件的代价估计问题。XML数据的值分布与其他值信息的分布有关,还与XML数据的结构信息有关,很难使用某种单一的代价估计方法。针对以上问题,提出了一种基于直方图,在估计过程中结合查询树结构的代价估计方法。  相似文献   

6.
基数估计是基于代价查询优化的关键步骤,已经被研究了近40年.传统方法如基于直方图的方法在一些假设如属性相互独立、相交的表满足包含原则等成立时能基本满足准确性要求.然而,在真实运行环境中这些假设往往不再成立,可能导致基数估计严重错误进而造成查询延迟.近年来,随着数据的增多和新硬件的发展,使用机器学习方法来提高基数估计的质量成为了可能.由于基于代价的查询优化主要根据查询中子执行计划的估计代价来选择最优的查询执行计划,因此,有一些最近的工作针对一些关键的子执行计划模板建立相应的局部学习模型,取得了不错的进展.但是,这些局部模型主要用于查询(查询空间)分布和数据(数据库数据)分布不变的场景,而在真实运行环境中,它们往往不断地发生变化,限制了这些估计技术的有效性.在本文中,我们针对子执行计划模板在查询分布和数据分布不断变化的环境下提出了一种使用增量的局部加权学习进行自适应基数估计的方法.具体地说,首先抽取子执行计划的语义和统计特征使之能代表当前查询和数据的特性,然后使用增量的局部加权学习模型根据查询分布和数据分布的变化进行自适应的学习,实现基数估计.最后,通过对比实验验证了本文方法的有效性.  相似文献   

7.
压缩数据库中一种自适应直方图的构建   总被引:1,自引:0,他引:1  
骆吉洲  李建中  王宏志 《软件学报》2009,20(7):1785-1799
直方图在查询优化过程中起着重要作用.在压缩数据库中利用查询处理的特点构建自适应直方图以便于查询优化或近似回答查询是尚待解决的问题.通过对查询缓冲池内的查询进行调度来追踪热点数据,并用查询结果中的反馈信息构建自适应直方图以加快自适应直方图的收敛速度.另外,还提出一种参数化方法来估计未被任何桶覆盖的区域中元组的个数.该直方图可以增量式地被维护.实验结果表明,这种直方图具有良好的平均精度、更快的收敛速度和更强的自适应能力.  相似文献   

8.
空间查询优化   总被引:4,自引:1,他引:4  
由于空间数据的复杂性,空间查询需要建立自己的代价模型。该文首先介绍了建立四叉树直方图来对空间查询的选择性进行估计,然后在此基础上对DM-SDB的查询代价进行估计,并使用该代价模型对DM-SDB的多连接查询进行优化。  相似文献   

9.
直方图是数据库系统中最常用的估算查询代价的一种工具,它将关系中的全部元组进行归类设桶,对每个桶分别进行大小统计,继而求和,使代价统计值更接近于真实。直方图方法在所有代价估计法中是最容易使用和最容易维护的,每一种直方图在代价估计精度上各不相同,使用中也各有其特点。结合实际课题应用,给出了将关系的连接转换为多种直方图的方法,以及如何利用直方图进行代价估计。  相似文献   

10.
张安珍  李建中  高宏 《软件学报》2020,31(2):406-420
本文研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,本文给出不完整数据聚集查询结果的区间估计.本文在符号语义中扩展传统关系数据库模型,提出一种通用不完整数据库模型,该模型可以处理可填充的和不可填充的两种类型缺失值.在该模型下,提出一种新的不完整数据聚集查询结果语义:可靠结果.可靠结果是真实查询结果的区间估计,可以保证真实查询结果很大概率在该估计区间范围内.本文给出线性时间求解SUM、COUNT和AVG查询可靠结果的方法.真实数据集和合成数据集上的扩展实验验证了本文所提方法的有效性.  相似文献   

11.
In recent years, data quality issues have attracted wide attentions. Data quality problems are mainly caused by dirty data. Currently, many methods for dirty data management have been proposed, and one of them is entity-based relational database in which one tuple represents an entity. The traditional query optimizations are not suitable for the new entity-based model. Then new query optimizations need to be developed. In this paper, we propose a new query selectivity estimation strategy based on histogram, and focus on solving the overestimation which traditional methods lead to. We prove our approaches are unbiased. The experimental results on both real and synthetic data sets show that our approaches can give good estimates with low error.  相似文献   

12.
Estimating the global data distribution in Peer-to-Peer (P2P) networks is an important issue and has not yet been well addressed. It can benefit many P2P applications, such as load balancing analysis, query processing, data mining, and so on. In this paper, we propose a novel algorithm which is based on compact multi-dimensional histogram information to achieve high estimation accuracy with low estimation cost. Maintaining data distribution in a multi-dimensional histogram which is spread among peers without overlapping and each part of which is further condensed by a set of discrete cosine transform coefficients, each peer is capable to hierarchically accumulate the compact information to the entire histogram by information exchange and consequently estimates the global data density with accuracy and efficiency. Algorithms on discrete cosine transform coefficients hierarchically accumulating as well as density estimation error are introduced with detailed theoretical analysis and proof. Our extensive performance study confirms the effectiveness and efficiency of our methods on density estimation in dynamic P2P networks.  相似文献   

13.
Histograms can be useful in estimating the selectivity of queries in areas such as database query optimization and data exploration. In this paper, we propose a new histogram method for multidimensional data, called the Q-Histogram, based on the use of the quad-tree, which is a popular index structure for multidimensional data sets. The use of the compact representation of the target data obtainable from the quad-tree allows a fast construction of a histogram with the minimum number of scanning, i.e., only one scanning, of the underlying data. In addition to the advantage of computation time, the proposed method also provides a better performance than other existing methods with respect to the quality of selectivity estimation. We present a new measure of data skew for a histogram bucket, called the weighted bucket skew. Then, we provide an effective technique for skew-tolerant organization of histograms. Finally, we compare the accuracy and efficiency of the proposed method with other existing methods using both real-life data sets and synthetic data sets. The results of experiments show that the proposed method generally provides a better performance than other existing methods in terms of accuracy as well as computational efficiency.  相似文献   

14.
随着当前互联网技术的快速发展,网络规模和复杂度不断提高,由于流量矩阵对于网络管理、流量工程、异常检测等都具有重要意义,因此准确测量流量矩阵对于计算机网络而言极其重要。当前针对流量矩阵的测量机制主要可以分为直接测量法和估计推断法,其中估计方法又包括简单统计反演法、附加链路测量信息法以及测量反演结合法。现有测量机制在准确性和测量耗费方面存在较多问题,直接测量的方法虽然可以保证准确性,但网络规模的扩张及网络结构的日趋复杂化使其在实现上存在困难,而流量矩阵推断问题在线性求解上固有的高度病态特性又使得估计推断法时常难以发挥作用,因此需要一种新的方法以更通用的方式解决现有问题。该文借鉴生成对抗网络(GAN)在图像恢复方面的作用,提出了一种基于生成对抗网络的流量矩阵推断机制GAN-TM。GAN-TM能够基于部分测量信息,建立起基于掩码矩阵评估的卷积生成对抗网络模型,利用部分测量信息对缺失的流量矩阵进行推断。实验结果表明,在数据缺失率低于30%的情况下,GAN-TM的推断误差能够控制在0.10以内。  相似文献   

15.
估算查询结果大小的直方图方法之研究   总被引:11,自引:0,他引:11  
吴胜利 《软件学报》1998,9(4):285-289
直方图是许多商用数据库系统中最常用的一种估算查询结果大小的方法.从实用的观点来看,过去已提出的一些直方图方法有局限性,主要是它们不能保证估算值的准确程度.本文将提出两种新的直方图方法,它们不仅使用方便,而且可以保证所有的估算值均在给定的误差范围内.此外,本文还探讨了不同的数据分布对直方图的影响,通过运用一些重要的参数刻画数据分布,用以帮助生成效果较佳的直方图.  相似文献   

16.
软件成本估算一直是软件项目管理的重要部分。经过半个多世纪的研究和工业实践,成本估算方法、模型得到了极大的丰富。这些方法、模型也衍生出了各种成本估算工具。但是,成本估算方法和模型的基础是历史项目数据。没有历史项目数据的公司和组织只能利用其他公司或组织的数据来进行自己项目的成本估算。如何利用跨组织数据进行有效的成本估算成为更具现实意义的问题。针对这一问题,提出了一种有效利用跨组织数据进行成本估算的方法,并通过实验说明了方法的有效性。  相似文献   

17.
王宏志  李建中  高宏 《软件学报》2012,23(3):539-549
非清洁数据为数据管理带来了新的挑战,当前,处理非清洁的数据清洗方法在实际应用中存在一定的局限性,因此需要在一定程度上容忍非清洁数据的存在.这样,研究管理包含非清洁数据的数据库管理技术就成为了重要的问题,其核心在于如何从包含非清洁数据的数据库中得到满足应用所要求的清洁度的查询结果.从非清洁数据处理角度出发,提出了一种非清洁数据库的数据模型.该模型提出了非清洁数据的表示方法,支持非清洁数据的数据操作,并且支持数据操作清洁度的计算,同时还讨论了查询表达式的等价转换规则和模型的初步实现.  相似文献   

18.
提出一种基于图像相邻像素差值直方图的可逆信息隐藏方法,运用该方法同时提高了信息嵌入容量和嵌入信息后的图像质量。首先对原始图像进行分块、扫描并求取差值直方图,然后在分块图像的差值直方图中选取最高的两个峰值点并向两个方向移位来产生空缺用于信息嵌入。算法充分利用了自然图像的相邻相似特性,同时提高了基于直方图的信息隐藏方案的峰值点数目和峰值点高度,从而大大提高信息嵌入容量。此外,算法在信息嵌入前对待嵌入信息的预处理使得在嵌入同样容量的信息时,对载体图像的影响更小,具有更好的嵌入后图像质量。  相似文献   

19.
改进的多尺度Retinex图像增强算法   总被引:3,自引:0,他引:3  
针对多尺度Retinex算法在图像增强的过程中,存在着算法运算量大的问题,提出了一种基于快速二维卷积和多尺度连续估计的算法。该算法充分利用二维图像高斯卷积的可分离性和多尺度照射光连续估计的可行性,降低了Retinex算法的复杂度。同时对于增强后图像色彩容易失真的现象,提出了一种去极值的直方图裁剪法,用于保持图像色彩信息和提高对比度。实验结果表明,这些改进可以有效提高算法运行速度和改善图像增强效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号