期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

冯钧李顶圣陆佳民张立霞《计算机应用》2018,38(6):1575-1583

在处理路网移动对象时,由于HBase只能采用key查询,不适用于移动对象的多维查询,导致HBase存在存储索引与查询效率不高的问题。针对此问题,在HBase存储结构的基础上设计并实现了一种高效的路网移动对象HBase索引框架（RM-HBase）。首先,对原生HBase索引框架的上层HMaster和下层HRegionServer进行改进,解决分布式集群数据的热点分布问题,提高空间数据的查询效率;其次,提出路网移动索引——RN-tree,解决空间划分中的"死空间"问题,同时提高空间中路段的查询效率;然后,基于上述对HBase的索引改进,分别设计了时空范围查询、时空K最近邻（KNN）查询和移动对象轨迹查询的查询算法;最后,实验选用了同样是基于HBase分布式数据库而提出的时空HBase索引（STEHIX）框架作为对比对象,分别从索引框架的性能和算法的查询效率两个方面对RM-HBase的性能进行分析。实验结果表明,所提的RM-HBase在数据的均衡分布性能和时空查询算法的查询性能方面都优于STEHIX框架,有助于提升海量路网移动对象数据的时空索引效率。相似文献

2.

基于HBASE的时空大数据关联查询优化

《计算机应用与软件》2017,(6)

随着数字采集和存储技术的快速发展,视频监测系统得到快速普及,以此带来了海量的监测视频数据。与文本数据不同的是,监测数据具有时空特征,如何在规模庞大且动态增长的数据量下进行高效的查询成为许多时空数据应用所关心的问题。针对云存储体系结构中监测视频大数据高效的时空联合查询需求,充分利用时空特征值和属性特征值在应用中的关联关系,以及HBase数据库在海量查询方面的优良性能,提出了基于HBase Bloomfilter的时空大数据多重过滤机制,创新性地利用视频文件特征值之间的依赖与关联关系来安排rowkey索引键。在此基础上设计出两种时空关联查询算法。最后通过实验证明了算法在时空大数据查询方面的可行性、灵活性和高效性,对其他大数据关联查询应用有较好的指导意义。相似文献

3.

HBase中基于时空特征的监测视频大数据关联查询研究

徐爱萍王波徐武平《计算机应用研究》2017,34(5)

针对传统的时空索引构建、维护困难且实时查询效率低等问题,首先提出基于HBase的时空索引构造方法。该方法采用HBase作为监测视频大数据时空特征索引结构,通过Z填充曲线对空间特征进行降维存储,并利用时间、空间和属性特征之间的关联及依赖规则来安排rowkey索引键,可有效解决传统的时空索引构建、维护困难的缺陷。此外,针对传统的时空索引实时查询效率低的问题,进一步提出了基于Z曲线的时空关联查询算法,该算法对查询空间计算Z值范围和建立空间划分子集,利用划分后的时空特征进行列索引查询得到候选数据集并反查HBase索引表完成关联查询。实验结果表明,与传统的R树索引算法相比,提出的基于HBase的时空索引构造方法索引插入效率更高,提出的基于Z曲线的时空关联查询算法能够快速高效地处理时空关联查询。相似文献

4.

基于内存的HBase二级索引设计

崔晨郑林江韩凤萍何牧君《计算机应用》2018,38(6):1584-1590

在大数据时代,具有海量数据存储能力的HBase已被广泛应用。HBase只对行键进行了索引优化,对非行键的列未建立索引,这严重影响了复杂条件查询的效率。针对此问题,提出了基于内存的HBase二级索引方案。该方案对需要查询的列建立了映射到行键的索引,并将索引存储在Spark搭建的内存环境中,在查询时先通过索引获取行键,然后利用行键在HBase中快速查找对应的记录。由于列的基数大小和是否涉及范围查询决定了建立索引的类型,故针对三种不同情况构建了不同类型的索引,并利用Spark内存计算、并行化的特点来提高索引的查询效率。实验结果表明,该二级索引具有较好的查询性能,查询时间小于基于Solr的二级索引,可以解决HBase中因非行键的列缺乏索引导致查询效率较低的问题,提高基于HBase存储的大数据分析的查询效率。相似文献

5.

基于MongoDB的轨迹大数据时空索引构建方法

王凯陈能成陈泽强《计算机系统应用》2017,26(6):227-231

近年来,随着计算机技术与无线传感器网络的发展,轨迹大数据越来越得到人们的关注.针对海量轨迹数据在存储与查询中出现的效率问题,文章基于文档型非关系型数据库MongoDB提出了一套基于四叉树的道路网时空索引,实现海量轨迹数据的高效查询.通过对太原市1915辆出租车的50万条轨迹数据进行时空查询,在不同数据量与不同并发数下测试道路网时空索引与MongoDB复合时空索引的效率表现.实验结果显示道路网时空索引在数据量大于10万时有较好表现,并能够适应不同并发数下的时空查询,验证了道路网时空索引构建方法的可行性和高效性. 相似文献

6.

基于HBase的气象结构化数据查询优化

下载免费PDF全文

徐熙超杨铮马廷淮《计算机工程与应用》2017,53(9):80-84

海量气象观、探测数据是提高公共气象服务精细化、精准化和个性化水平的关键。日增TB级的海量气象数据在存储、检索、传输、共享方面的时效性要求对构建在传统的IOE技术架构上气象数据管理系统提出了严峻挑战。在HBase基础上,提出了一个基于索引的气象结构化数据查询优化架构HBase4M（HBase for Meteorology）。首先,根据HBase存储特性设计表结构;然后,利用协处理器建立和维护辅助索引,将字段查询转化为对索引表的行键查询,使得HBase4M在具备HBase可扩展性、低延迟的特性上可以支持结构化气象数据的灵活查询。实验结果表明,HBase4M的性能可以基本满足气象服务的业务需要。相似文献

7.

基于HBase的海量地形数据存储

李振举李学军谢剑薇李雁南《计算机应用》2015,35(7):1849-1853

随着遥感技术的发展,遥感数据的类型和量级发生了巨大变化,对于传统的存储方法产生了挑战。针对HBase中海量地形数据管理效率不高的问题,提出一种四叉树-Hilbert相结合的索引设计方法。首先,对传统地形数据管理方式和基于HBase的数据存储国内外研究现状进行了综述;然后,在基于四叉树对全球数据进行组织的基础上,提出了四叉树和Hilbert编码相结合的设计思想;其次,设计了根据经纬度求地形数据的行列号和根据行列号计算Hilbert编码的算法;最后,对设计的索引的物理存储结构进行了设计。实验结果表明,利用设计的索引进行海量地形数据入库,数据入库速度与单机情况相比,提高了63.79%~78.45%;在地形数据的范围查询中,设计的索引与传统的行序索引相比,查询时间降低了16.13%~39.68%。查询速度最低为14.71 MB/s,可以满足地形数据显示的要求。相似文献

8.

基于协处理器的HBase二级索引方法

下载免费PDF全文

郭红周健倩张瑛瑛郭昆《计算机工程与应用》2019,55(21):87-92

在大数据时代，海量的非结构化数据增速远大于结构化数据，HBase被广泛用于海量非结构化数据存储中。由于HBase内置的索引是基于行键（rowkey）设计的，具有很高的查询效率。但是，在根据字段进行条件查询时需要进行全表扫描，性能较低，无法应用于实时场景。针对此问题，提出一种基于协处理器（coprocessor）的HBase二级索引方法。该方法将经常需要查询的字段通过协处理器在HBase中建立映射到行键的索引，在查询时并行扫描索引数据获取行键，并利用行键快速查询记录。同时，在创建表时，通过对Region进行预分区。在插入数据时，在行键中添加Hash值。这不仅能提高数据插入速度，也避免了热点数据现象，同时保证索引数据和主数据位于同一个Region上，查询时就能减少一次RPC请求。在模拟数据集上的实验表明：提出的二级索引方法具有较好的查询性能。不仅高于HBase自带的过滤查询，也高于基于ElasticSearch的二级索引。同时，其空间开销小于基于ElasticSearch的二级索引。相似文献

9.

面向轨迹流数据的索引构建与存储方法研究

蔡瑞初林峰极郝志峰王立温雯《计算机工程》2021,47(3):62-70

移动社交网络等基于定位服务应用的快速发展导致时空数据流规模呈爆炸式增长,要求底层数据存储系统支持高吞吐量轨迹数据的插入以及空间和时间约束下的低延迟查询,而现有HBase等数据存储方案因索引更新开销过高无法满足该需求。针对时空数据流的应用特性,提出一种数据流内存索引及存储方法。根据键值和时间范围对历史与增量数据元组进行物理分区,将其以模板B+树的形式写入内存并构建索引以增强快速写入和查询能力,同时对数据进行压缩存储提升索引效率。在此基础上,采用多级索引根据数据分区将复杂查询分解为可独立处理的子查询。实验结果表明,与传统HBase、WaterWheel等方法相比,该方法在不同数据插入和查询条件下的数据存储性能与查询效率更优。相似文献

10.

一种基于HBase的空间关键字查询算法

邵奇峰李枫《计算机工程与科学》2015,37(11):2084-2090

针对传统关系数据库处理海量空间文本数据的不足,基于HBase数据库提出了一种结合Geohash编码与分词技术的空间文本索引方案,并基于该空间文本索引提出了一种多边形区域内的空间关键字查询算法。通过与传统经纬度索引方案的实验比较,验证了算法的高效性和可扩展性。相似文献

11.

基于日志结构合并树的轻量级分布式索引实现方法

崔双双王宏志《计算机应用》2021,41(3):630-635

针对现有基于日志结构合并树（LSM-Tree）实现的分布式数据库仅支持高效的主键查询,无法让用户快速地应用在自己的集群中的问题,提出了基于LSM-Tree的轻量级分布式索引实现方法SIBL。首先,通过对主键属性列建立索引来提高非主键属性的查询效率;然后,提出了分布式索引构建算法以及基于等距取样的索引区间划分算法,从而保证了索引在系统中的均匀分布,并且优化了传统索引的查询算法,将索引文件看作特殊的数据文件分布式地存储在系统中,从而保证了系统的负载均衡和可扩展性;最后,将该方法与华为二级索引方案HIndex在HBase数据库上进行实验来比较二者的索引构建的时间和空间开销、索引的查询性能和系统的负载均衡等性能,验证得出所提出的方法使查询性能提升了50~200倍。相似文献

12.

一种支持高效并行处理的矢量数据索引方法

褚龙现李晓英陈旭楚纯洁《计算机工程与应用》2017,53(11):79-84

分析了HBase的存储模型和Spark的并行处理机制,提出一种矢量空间数据的分布式存储、索引和并行区域查询方法。设计了基于空间对象中心点的行键存储方案,将中心点的Hilbert编码与经纬度小数位结合实现行键的唯一性,保证地理位置接近的要素在表中存储在相邻的行。实现了基于Spark的空间索引并行构建和区域查询方法,借助空间对象中心点的Hilbert编码快速构建索引,通过多边形区域的最小外接矩形过滤查询结果。实验结果表明,索引并行构建可靠性好速度快,区域查询并行处理算法可行且效率高。相似文献

13.

基于HBase和Hive的航班延误平台的存储方法

吴仁彪刘超屈景怡《计算机应用》2018,38(5):1339-1345

针对我国目前航班延误平台的移植难、可扩展性差,无法适应民航高速发展所带来的大数据量存储的现状,设计了面向大数据的跨平台、高适用性与高扩展性的航班延误平台。该平台以大数据工具LeafLet为可视化载体,在地图界面实时显示航班轨迹并将轨迹数据加载至HBase数据库中,并且利用信息摘要算法（MD5）重新设计与优化航班数据表的行键,以解决其递增的飞行时间特性产生的"热点"问题;针对HBase过滤器多级查询的缺陷,提出了基于SolrCloud的关联查询算法,利用SolrCloud实现对行键与索引字段的分层存储,从而实现HBase二级快速索引;最后在HBase的历史航班数据与飞行计划数据基础上,构建基于Hive的海量航班信息数据仓库。实验结果显示,航班延误大数据平台的可扩展性与搭建的航班信息数据仓库可以满足民航对数据集中统一存储的需求,而多条件查询的响应速度与无二级索引的集群相比提高了上百倍,并且这种优势随着航班数据量的增长愈发明显。相似文献

14.

基于Buddy*-Hash的移动对象时空查询方法 总被引：1，自引：0，他引：1

下载免费PDF全文

刘玥郝忠孝《计算机工程》2010,36(4):47-49

索引技术可以提高数据检索和查询效率,为了实现对时空数据库中移动对象的查询操作,需要引入时空索引技术。在传统Buddy-树的基础上提出Buddy*-Hash索引结构,根据扩展查询窗口策略给出范围查询算法。实验结果表明,基于BH索引结构的范围查询算法具有良好性能。相似文献

15.

基于协处理器的HBase内存索引机制的研究

下载免费PDF全文

朱松杰娄渊胜叶枫李凌陈勇《计算机工程与应用》2020,56(1):98-105

为了实现对海量数据的高效存储和查询,众多NoSQL数据库被开发出来,HBase是其中之一。但原生的HBase数据库在进行数据查询时只支持主键索引,对非主键数据只能通过全表扫描的方式进行查询,极大降低了HBase的多条件查询速度。为此,提出了基于协处理器的HBase内存索引构建方案,通过协处理器实现对二级索引的快速构建并可根据HBase表的变化自动更新索引。同时,将建立的索引进行持久化操作,在使用时通过内存计算,极大地提高了索引数据检索速度,保证了索引的可用性和容错性。实验结果表明,该方案相比原生数据库的条件检索速度有了极大提升,相比于基于Solr和HiBase的二级索引方案检索速度也有所提升。相似文献

16.

基于HBase的多维索引查询机制的优化

徐江峰谭玉龙《计算机应用》2020,40(2):571-577

键值存储旨在从非常大的数据量中提取值,同时具有高可用性、容错性和可伸缩性,因此提供了非常需要的基础设施来支持基于位置的服务（LBS）。然而,多维数据上的复杂查询不能有效地处理,因为键值存储不提供访问多个属性的方法。针对键值存储HBase不能有效处理多维数据的问题,提出了一个统一的索引框架——New-grid,使键值存储HBase支持多维查询。在改进的P-grid覆盖网络中,组织了一组节点,提供了高效的数据分布、容错和多维数据的查询处理。为了进行索引,使用基于Hilbert空间填充曲线来保存数据的局部性,从而有效地管理键值存储中的多维数据。同时使用HBase底层存储管理数据,并提出了一种范围查询和K最近邻查询的算法,以消除维护单独索引表的开销。在Amazon EC2上使用4、8和16个普通节点的集群进行了广泛的实验。实验结果表明,New-grid的性能相比MD-Hbase以及MapReduce更优。相似文献