期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

林桂亚《计算机应用研究》2012,29(3):947-949

研究粒子群算法在数据库查询优化中的应用问题。为了解决大型数据库信息检索困难、查询效率低的问题,提出了一种基于粒子群算法优化数据库查询技术方案。算法提出了一种数据库查询执行计划代价模型,主要包括了查询多链接次序以及副本的选择问题,准确定义了数据库查询执行代价,采用提出的粒子群算法来优化并求解该执行代价问题,从而使得分组数目更少、数据定位更精确。实例验证结果表明,通过属性表现和违规行为任何教师都可以被准确定位,减少了分组,为数据库查询提供了优化。相似文献

2.

基于GM-QPSO算法的数据库查询优化

罗鹏《计算机工程与应用》2014,50(8):103-107

针对量子粒子群算法解决数据库查询优化问题存在缺陷,提出一种高斯变异量子粒子群算法的数据库查询优化方法（GM-QPSO）。首先将遗传算法的变异算子引进量子粒子群优化算法,使得粒子在近似最优解附近变动提高全局搜索能力,然后将其应用于数据库查询优化问题求解,最后通过仿真实验对GM-QPSO的性能进行测试。结果表明,GM-QPSO加快了数据库查询优化求解的收敛速度,获得了质量更高的查询优化方案。相似文献

3.

基于树型门控循环单元的基数和代价估计器

乔少杰杨国平韩楠屈露露陈浩毛睿元昌安 Louis Alberto GUTIERREZ 《软件学报》2022,33(3):797-813

基数估计和代价估计可以引导执行计划的选择,估计准确性对查询优化器至关重要.然而,传统数据库的代价和基数估计技术无法提供准确的估计,因为现有技术没有考虑多个表之间的相关性.将人工智能技术应用于数据库(artificial intelligence for databases, AI4DB)近期得到广泛关注,研究结果表明,基于学习的估计方法优于传统方法.然而,现有基于学习的方法仍然存在不足:首先,大部分的方法只能估计基数,但忽略了代价估计;其次,这些方法只能处理一些简单的查询语句,对于多表查询、嵌套查询等复杂查询则无能为力;同时,对字符串类型的值也很难处理.为了解决上述问题,提出了一种基于树型门控循环单元, Tree-GRU (tree-gated recurrent unit)的基数和代价估计方法,可以同时对基数和代价进行估计.此外,采用了有效的特征提取和编码技术,在特征提取中兼顾查询和执行计划,将特征嵌入到Tree-GRU中.对于字符串类型的值,使用神经网络自动提取子串与整串的关系,并进行字符串嵌入,从而使具有稀疏性的字符串变得容易被估计器处理.在JOB、Synthetic等数据集上进... 相似文献

4.

基于谱聚类的在线数据库垂直分区多阶段生成方法

刘鹏举李好洋王天一刘欢孙路明任逸飞李翠平陈红《软件学报》2023,34(6):2804-2832

垂直数据分区技术从逻辑上将满足一定语义条件的数据库表属性存放在同一个物理块中,进而降低数据访问成本,提高查询效率.数据库查询负载中的每条查询通常只与数据库表中的部分属性有关,因此只需使用数据库表的某个属性子集便可以得到准确的查询结果.合理的垂直数据分区方式可以使大多数查询负载不需要扫描完整数据库就可以完成查询任务,从而达到减少数据访问量,提高查询处理效率的目的.传统的数据库垂直分区方法主要基于专家设置的启发式规则,分区策略粒度较粗,且不能根据负载的特征进行有针对性的分区优化.同时,当负载规模较大或者属性个数较多时,现有垂直分区方法执行时间过长,尤其无法满足数据库在线实时调优的性能需求.为此,提出在线环境下基于谱聚类的垂直数据分区方法（spectral clustering based vertical partitioning,SCVP）,采用分阶段求解的思想,减少算法时间复杂度,加快分区执行速度.首先通过增加约束条件缩小解空间（即根据谱聚类生成初始分区）,然后对解空间设计算法进行精细的搜索（即采用频繁项集和贪心搜索相结合的策略对初始分区进行优化）.为了进一步提升SCVP在高维属性下的性能,提出了SCVP的改进版本SCVP-R （spectral clustering based vertical partitioning redesign）.SCVP-R通过引入同域竞争机制、双败淘汰机制和循环机制,对SCVP在分区优化过程中的合并方案进行了进一步优化.在不同数据集上的实验结果表明,相比于目前最好的垂直分区方法,SCVP和SCVP-R有着更快的执行时间和更好的性能表现. 相似文献

5.

基于贪婪策略的分布式数据库查询优化研究 总被引：2，自引：0，他引：2

李志伟《计算机工程与设计》2010,31(17)

针对分布式数据库系统复杂的多连接查询问题,分析了查询系统的目标要求,研究了查询优化的代价模型.结合具体实例,通过问题简化,构造出代价模型的查询图,提出了利用贪婪算法实现数据库查询的迭代方案.采用多步决策,按照一定的算法依次优化查询图,使得每一步优化都能得到最小的查询中间代价,从而确保了全局查询的最优.分析比较结果表明,该算法能以最小的代价实现对数据库的查询优化,缩短查询时间,提高查询效率. 相似文献

6.

分布式结构化数据分页查询中的动态归并算法

段翰聪彭旭宇李林《小型微型计算机系统》2013,34(7):1503-1506

本设计实现一种动态归并算法,主要应用在对于分布式结构化数据的跨节点跨表实时分页查询的业务场景中.分布式数据库中数据表都会被拆分为若干子表并存储于若干数据节点中,在对数据进行单表查询和多表查询时都需要进行数据的归并,本算法被设计用来处理中间数据的归并问题,在归并策略上采用了二路归并,从而保证了较高的节点并发度,使得归并的计算负载能够均衡地分配在各计算节点上;采用动态的归并过程而不是在任务一开始就确定节点之间的归并配对关系,确保算法的自适应性,避免了预先制定归并策略而可能导致的数据等待.实验结果表明随着参与归并的节点数量的提高,该算法执行效率明显优于单节点归并以及预先设定归并策略的多节点归并. 相似文献

7.

面向城轨线网的海量数据查询优化方法

赵驰刘建委饶里强刘琼《计算机系统应用》2015,24(12):157-162

城轨线网数据中心汇集多条线路数据,单表记录量达数十亿条,当前系统数据查询响应时间过长、效率低下.提出利用数据库集群及中间件优化系统架构突破单库存储与处理瓶颈,多节点并行处理提升查询速度.按线路水平切分数据等方法,保证JOIN操作的局部性,满足新线路扩展需求;利用表分区、索引、物化视图、SQL语句优化等技术优化单机查询.其中,针对集群数据透明访问系统架构,设计专用数据库访问中间件,解决查询解析、路由及结果合成等关键问题.以广州城轨线路数据为例进行实验,结果表明通过本文方法各类查询响应时间至少降低90%. 相似文献

8.

基于蚁群遗传混合算法改进的连接查询研究

张逸风佟国香刘军屈亚宁《计算机工程与科学》2021,43(12):2272-2280

连接查询优化技术对提升数据库性能至关重要,提出一种改进的连接查询算法,结合Wander Join连接查询算法,使用蚁群遗传混合算法对连接顺序进行优化。执行新的连接计划后,用剪枝策略降低样本的连接复杂度,达到了减少存储代价的目的。理论分析和基于TPC-H数据集、TPC-DS数据集的算法对比实验表明,在多表连接的样本置信区间大于或等于95%的条件下,根据选择率的不同,加入蚁群遗传混合算法和剪枝策略的连接查询算法的相对错误率与Wander Join连接查询算法相比下降了20%～70%。相似文献

9.

GHMC_一种混合的数据库多连接查询优化算法

黄海骆绍烨《福建电脑》2009,25(1):63-64

如何排列多连接表达式的连接顺序,是优化并行查询和提高数据库性能的关键技术之一．但多连接最优顺序是NPC问题。本文章研究了数据库多连接的特征,提出一种结合启发式和穷举搜索的Ghme算法,结合启发式和穷举搜索处理多连接查询,并从实验和理论证明其有效性。相似文献

10.

基于容斥原理的Skyband基数估计方法

赵加奎杨冬青陈立军《计算机系统应用》2010,19(7):1550-1560

Skyband查询是决策支持领域一类非常重要的查询.为了使数据库系统有效支持Skyband查询,必须解决Skyband基数估计的问题,即估计Skyband查询结果中包含的Skyband元素数,因为Skyband基数估计对于扩展数据库系统查询优化器的代价模型以便能够对Skyband查询进行优化非常重要.基于容斥原理的推广形式对Skyband基数进行理论分析并给出了时间和空间代价很小的对Skyband基数进行估计的算法.实验结果表明,该方法能够准确地对Skyband基数进行估计. 相似文献

11.

Cardinality Estimator: Processing SQL with a Vertical Scanning Convolutional Neural Network

下载免费PDF全文

Shao-Jie Qiao Guo-Ping Yang Nan Han Hao Chen Fa-Liang Huang Kun Yue Yu-Gen Yi Chang-An Yuan 《计算机科学技术学报》2021,36(4):762-777

Although the popular database systems perform well on query optimization, they still face poor query execution plans when the join operations across multiple tables are complex. Bad execution planning usually results in bad cardinality estimations. The cardinality estimation models in traditional databases cannot provide high-quality estimation, because they are not capable of capturing the correlation between multiple tables in an effective fashion. Recently, the state-of-the-art learning-based cardinality estimation is estimated to work better than the traditional empirical methods. Basically, they used deep neural networks to compute the relationships and correlations of tables. In this paper, we propose a vertical scanning convolutional neural network (abbreviated as VSCNN) to capture the relationships between words in the word vector in order to generate a feature map. The proposed learning-based cardinality estimator converts Structured Query Language (SQL) queries from a sentence to a word vector and we encode table names in the one-hot encoding method and the samples into bitmaps, separately, and then merge them to obtain enough semantic information from data samples. In particular, the feature map obtained by VSCNN contains semantic information including tables, joins, and predicates about SQL queries. Importantly, in order to improve the accuracy of cardinality estimation, we propose the negative sampling method for training the word vector by gradient descent from the base table and compress it into a bitmap. Extensive experiments are conducted and the results show that the estimation quality of q-error of the proposed vertical scanning convolutional neural network based model is reduced by at least 14.6％ when compared with the estimators in traditional databases. 相似文献

12.

基于增量局部加权学习的查询模板自适应基数估计

冯杰明李战怀《计算机学报》2022,45(1):17-34

基数估计是基于代价查询优化的关键步骤,已经被研究了近40年.传统方法如基于直方图的方法在一些假设如属性相互独立、相交的表满足包含原则等成立时能基本满足准确性要求.然而,在真实运行环境中这些假设往往不再成立,可能导致基数估计严重错误进而造成查询延迟.近年来,随着数据的增多和新硬件的发展,使用机器学习方法来提高基数估计的质量成为了可能.由于基于代价的查询优化主要根据查询中子执行计划的估计代价来选择最优的查询执行计划,因此,有一些最近的工作针对一些关键的子执行计划模板建立相应的局部学习模型,取得了不错的进展.但是,这些局部模型主要用于查询(查询空间)分布和数据(数据库数据)分布不变的场景,而在真实运行环境中,它们往往不断地发生变化,限制了这些估计技术的有效性.在本文中,我们针对子执行计划模板在查询分布和数据分布不断变化的环境下提出了一种使用增量的局部加权学习进行自适应基数估计的方法.具体地说,首先抽取子执行计划的语义和统计特征使之能代表当前查询和数据的特性,然后使用增量的局部加权学习模型根据查询分布和数据分布的变化进行自适应的学习,实现基数估计.最后,通过对比实验验证了本文方法的有效性. 相似文献

13.

内存存储模型上的多表连接优化技术研究

下载免费PDF全文

张延松于利胜王珊陈红《计算机科学与探索》2010,4(6):531-541

分析了面向先进硬件平台上的数据库优化技术,提出了基于内存存储模型的多表连接查询处理优化技术,采用内存存储模型存储维表并对维表主键进行顺序化,从而使维表的主键与内存维表记录的内存偏移地址相一致,实现对维表记录的内存直接访问。通过列存储技术减少维表记录的访问宽度,进一步优化维表访问的cache性能。与基于SQL Server 2005的查询执行计划的连接算法、join index连接算法以及基于列存储模型的优化连接算法进行了实验比较和性能分析,结果表明:基于内存存储模型的多表连接算法在处理星型结构数据仓库多谓词、多连接的复杂查询时具有很好的性能,与join index相比不需要额外的空间开销,与列存储数据模型相比具有更好的兼容性和性能。相似文献

14.

网络表格间的快照关系发现

王宁任红伟《计算机科学》2015,42(7):5-11

近年来,互联网上涌现出大量结构化的表格数据,网络表格的价值不仅在于数据本身,还在于数据之间的关系。只有探测出表格之间潜在的关系,方能更好地利用这些结构化数据。因此提出发现网络表格间的快照关系,并给出发现快照关系的框架以及检测与给定表之间满足某种匹配关系的快照表的算法,快照表可用于优化查询以及在大数据环境下实时地返回部分查询结果。提出了基于实体和属性重合度的评分方法,并引入实体新鲜度的概念,使得算法在快照关系的发现过程中更多地关注能提供新鲜实体的表;与此同时,基于Bayes模型的表格内容增强算法能更加准确地判断属性列上值的一致性,从而提高快照关系发现的准确率。大量实验表明,该评分模型能发现高质量的快照表,且在快照的查询精度和召回率上表现出色。相似文献

15.

基于BACS算法的数据库查询优化 总被引：1，自引：0，他引：1

王磊《计算机工程与应用》2015,51(13):118-121

针对布谷鸟算法局部搜索能力弱、寻优精度低等缺陷,提出一种蝙蝠算法和布谷鸟算法相融合的数据库查询优化算法（BACS）。按照布谷鸟优化算法对鸟巢位置进行更新,利用蝙蝠算法的动态转换策略对鸟巢位置进一步更新,避免算法陷入局部最优;最后将BACS应用于数据库查询优化问题求解,并通过仿真实验对BACS的性能进行测试。实验结果表明,BACS加快了数据库查询优化求解的收敛速度,获得了质量更高的查询优化方案。相似文献

16.

Solving Local Cost Estimation Problem for Global Query Optimization in Multidatabase Systems

Qiang Zhu Per-åke Larson 《Distributed and Parallel Databases》1998,6(4):373-421

To meet users' growing needs for accessing pre-existing heterogeneous databases, a multidatabase system (MDBS) integrating multiple databases has attracted many researchers recently. A key feature of an MDBS is local autonomy. For a query retrieving data from multiple databases, global query optimization should be performed to achieve good system performance. There are a number of new challenges for global query optimization in an MDBS. Among them, a major one is that some local optimization information, such as local cost parameters, may not be available at the global level because of local autonomy. It creates difficulties for finding a good decomposition of a global query during query optimization. To tackle this challenge, a new query sampling method is proposed in this paper. The idea is to group component queries into homogeneous classes, draw a sample of queries from each class, and use observed costs of sample queries to derive a cost formula for each class by multiple regression. The derived formulas can be used to estimate the cost of a query during query optimization. The relevant issues, such as query classification rules, sampling procedures, and cost model development and validation, are explored in this paper. To verify the feasibility of the method, experiments were conducted on three commercial database management systems supported in an MDBS. Experimental results demonstrate that the proposed method is quite promising in estimating local cost parameters in an MDBS. 相似文献

17.

星型模型的轮廓连接查询算法

下载免费PDF全文

徐忠华张剡陈玲柏文阳《计算机科学与探索》2010,4(5):410-419

轮廓查询在多标准决策中具有重要应用价值,对于单表轮廓查询已有大量研究,但在实际中,轮廓查询的属性很可能分布在多张表中。如果在多表连接之后进行轮廓查询,随着维度和元组数目的增加,计算代价会越来越大。为此,针对数据仓库中星型模型的数据特点,提出了三种此模型下的多表连接轮廓查询算法并对算法进行了实验比较分析。结果表明,此算法比先连接再做单表轮廓查询的算法更为有效,并且这三种算法在不同特点的数据集合下会表现出各自的优势。相似文献

18.

基于蚁群算法的分布式数据库查询优化方法

崔峰峰南振岐《计算机时代》2014,(5):47-49

在分布式数据库查询优化中,数据传输和多连接次序往往决定了查询执行速度,以通信代价最小为目标的代价模型一直是研究的重点。随着大数据时代的到来,如何提高数据库的查询效率成为我们所要面对的首要问题。为此,利用蚁群算法优化查询计划,以多元连接查询操作为例,进行了模型建立和算法实现。在Oracle数据库中进行了仿真实验,实验结果表明该算法有较好的寻优效果,并对分布式数据库的查询优化具有实际意义。相似文献