首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 671 毫秒
1.
针对海量文本数据处理,为实现快速文本处理响应,缩短海量数据为辅助决策提供服务的时间,基于Hadoop云计算平台,建立HDFS分布式文件系统存储海量文本数据集,通过文本词频利用MapReduce原理建立分布式索引,以分布式数据库HBase存储关键词索引,并提供实时检索,实现对海量文本数据的分布式并行处理。实验结果表明,Hadoop框架为大规模数据的分布式并行处理提供了很好的解决方案。  相似文献   

2.
以往依据关键词的检索方法,在对海量图书检索信息进行查询过程中,无法满足海量信息的大批量检索需求,存在查询效率低和误差高的缺陷。因此,设计基于分布式架构的海量图书检索信息的快速查询系统,系统中的各组件通过并行数据库和分布式存储实现交互。该系统的功能模块包括用户管理模块、数据抽取模块、索引创建模块、文本查询模块及索引检索模块。分析了系统各功能模块的设计和实现过程,这些功能模块共同对外提供图书信息的快速查询服务。实验结果表明,所设计系统可实现海量图书检索信息的快速、精确查询,并且具有较高的索引创建和索引检索性能。  相似文献   

3.
《现代电子技术》2016,(20):49-52
在挖掘海量数据集过程中,传统海量数据检索方法无法适应海量题库中数据的快速增加趋势,不能在有限时间内获取高质量的挖掘结果。因此,采用Elastic Search分布式架构技术,设计并实现了海量题库中的特定数据快速搜索系统。该系统由用户界面、数据库连接模块、数据抽取模块、索引塑造检索以及索引检索和数据搜索模块等构成。详细介绍了数据抽取模块、索引塑造模块以及索引检索模块的设计和实现过程,3个模块共同实现海量题库中的特定数据快速搜索任务。实验结果表明,该系统的搜索平均响应时间、系统资源消耗以及索引检索性能三方面的性能较高,能够满足用户快速检索特定数据的需求。  相似文献   

4.
《信息技术》2017,(11):40-42
针对高速机车转向架滚动轴承监测数据的格式多样化、数据量激增带来的管理和存储问题,在分析监测数据特征和数据量大小的基础上,构建了树形索引结构对滚动轴承状态监测海量数据进行管理。利用研究所当前的软硬件环境,搭建了分布式集群系统存储海量监测数据,并对集群系统在存储和管理海量数据时的可用性和稳定性进行了探讨。通过对实际数据的测试和分析,结果表明基于树形索引结构的分布式集群系统能在一定程度上满足滚动轴承状态监测非结构化海量数据存储和管理的要求。  相似文献   

5.
研究基于关联度挖掘的海量网络文本挖掘方法;随着计算机和网络技术的快速发展,网络上的文本呈现海量增长的趋势,传统的网络文本挖掘方法采用基于特征提取的方法实现,能够实现小数据量下的文本挖掘,但是在信息量的快速增长下,传统方法已经不能适应;提出一种基于关联度挖掘的海量网络文本挖掘方法,首先采用特征提取的方法对海量文本进行初步的分类和特征识别,然后采用关联度挖掘的方法对各个文本特征之间的关联度进行计算处理,根据关联度的大小最终实现文本挖掘,由于关联度可以很好的体现特征文本之间的相互关系;最后采用一组随机的网络热门词汇进行测试实验,结果显示,算法能够很好适应海量文本下的挖掘实现,具有很好的应用价值。  相似文献   

6.
《现代电子技术》2018,(9):62-67
传统基于内容的图像检索方法通过相似度测量算法获取检索结果,对海量图像存在检索效率低和精度差的弊端,因此设计基于Hadoop分布式的海量图像检索方法,其基于Hadoop云平台对海量数码图像实施分布式运算,采集图像SURF特征,采用K-Means聚类方法将相似图像SURF特征聚集起来,通过TF-IDF数据挖掘技术对图像特征实施量化,进而基于Hadoop平台中的Lucene框架塑造海量图像数据的索引模块和搜索模块,依据用户输入的图像SURF特征塑造海量图像数据索引,完成相似图像的准确检索。实验结果说明,所提图像检索方法检索出的图像质量佳,对海量图像进行检索的效率和精度高。  相似文献   

7.
随着互联网上信息量飞速增长,海量数据的索引出现了难题,现行的索引方案已经难以提供高效、可靠的服务,为此,设计并实现了一种针对海量数据进行索引的平台模型。该平台模型首先利用Solr分布式索引器生成索引文件,然后利用Hadoop分布式集群,以HDFS分布式文件系统、Map Reduce分布式并行计算模型、Zookeeper同步协同系统以及Hbase分布式数据库技术来处理、协调管理索引和存储海量数据,最后通过实验测试,该平台模型可以克服现行的海量数据索引时存在的效率低的问题,同时具有良好的扩展性和可靠性。  相似文献   

8.
在分析各种空间数据索引的基础上,研究利用分布式并行技术建立网络环境下海量空间数据的大规模索引机制的关键技术。对经典的R-树进行了改进,基于R-和散列hash表,提出了一种分布式环境下面向海量空间数据的分布式索引树结构DR-H,此索引树结构充分利用了R-树的范围查询和散列hash表的高效单key查询。经模拟实验结果表明,该分布式索引机制结构能够有效提高分布式网络环境下海量空间数据的检索性能。  相似文献   

9.
各种信息数据在迅猛增长,云计算技术的出现为海量数据的处理提供了良好的解决方案。Hadoop 是云计算技术中分布式并行编程框架的开源实现,它利用集群的并行计算和存储能力,高效的完成对海量数据的处理,云计算能够为社会创造出更大的价值。最后通过Hadoop组织廉价的计算机资源搭建了一个分布式云计算平台,具有高容错、高效性、高扩展性等优势,并完成对数据处理能力和平台可扩展性进行性能测试与分析。  相似文献   

10.
针对电商平台海量图片的检索出现的性能瓶颈问题,本文提出一种基于Hadoop的海量图片检索策略,通过Sequence实现对小图片合并,并在合并过程中设定单个Sequence File的偏移量,解析索引快速定位存储图片Block的DataNode和Fileld,解决海量图片数据扩容和快速检索的问题。  相似文献   

11.
在数据库系统应用中,要进行频繁的数据查询操作。索引是与表或视图关联的磁盘上结构,有效的使用索引,可以快速找到表或视图中特定信息,减少系统的响应时间。本文介绍了索引的概念、分类、使用和维护,并就MSSQLSERVER索引进行了一些分析和实践。  相似文献   

12.

In order to improve the search performance of rich text content, a cloud search engine system based on rich text content is designed. On the basis of traditional search engine hardware system, several hardware devices such as Solr index server, collector, Chinese word segmentation device and searcher are installed, and the data interface is adjusted. On the basis of hardware equipment and database support, this paper uses the open source Apache Tika framework to obtain the metadata of rich text documents, implements word segmentation according to the rich text content and semantics, and calculates the weight of each keyword. Input search keywords, establish a text index, use BM25 algorithm to calculate the similarity between keywords and text, and output the search results of rich text according to the similarity calculation results. The experimental results show that the design system has high recall rate, high throughput, and the construction time of each data item index in different files is short, which improves the search efficiency and search accuracy.

  相似文献   

13.
提出了一种优化大型数据库性能的方法.通过调整内存参数优化,设计索引的优化这两方面来对大型数据库系统进行优化,以求使数据库的性能得到优化.实验结果表明,通过本文方法优化后的数据库在运行时间,搜索速度等性能上都有了很大的提高,因此得出,本文的方法在改进数据库性能方面,有很好的效果.  相似文献   

14.
设计了一种能将各个学术期刊网站上的电子论文信息采集到一个统一的数据库中并提供检索的系统。系统分为数据采集、数据分析和存储、数据检索3个模块。前两个模块负责将互联网上电子论文的内容结构化存储到本地数据库,最后一个模块负责对数据库内容生成索引并提供查询。目前,该系统已存有150万篇中文期刊论文。  相似文献   

15.
基于XML的倒排索引算法的设计与实现   总被引:1,自引:0,他引:1  
文章详细介绍了一个自主开发的全文检索系统,它以XML文档的标签内容作为索引对象.定义了文档和文档属性等概念,采用B^ 树对文献信息构建索引,实现了基于Web的中英文混合检索。为全文数据库的底层实现提供了技术参考,也为系统进一步完成自适应主动推送服务提供必要的接口。  相似文献   

16.
结合数据分发服务中对海量数据查询匹配的应用需求,基于Windows系统平台,阐述了SQLite数据库的架构和特点.给出了基于SQLite的查询匹配实例的设计,成功地实现了海量数据中的动态匹配,并通过实验验证了采用SQLite数据库后的时效性.  相似文献   

17.
全国大气折射率剖面预测方法   总被引:1,自引:0,他引:1  
张瑜  张洁寒 《电光与控制》2011,18(7):46-48,59
地球上空的不均匀大气对雷达探测性能具有较大的影响,为提高雷达探测精度,首要问题是能够精确预测到雷达作用区内的大气折射率剖面.针对我国国土面积大、地形复杂、大气环境参数变化多样的特征,根据无线电气象学理论,采用全国大气环境栅格技术,提出了一种全国大气折射率剖面预测方法.根据我国大气环境分布特征,把全国分成1 840个栅格...  相似文献   

18.
For a transaction processing system to operate effectively and efficiently in cloud environments, it is important to distribute huge amount of data while guaranteeing the ACID (atomic, consistent, isolated, and durable) properties. Moreover, database partition and migration tools can help transplanting conventional relational database systems to the cloud environment rather than rebuilding a new system. This paper proposes a database distribution management (DBDM) system, which partitions or replicates the data according to the transaction behaviors of the application system. The principle strategy of DBDM is to keep together the data used in a single transaction, and thus, avoiding massive transmission of records in join operations. The proposed system has been implemented successfully. The preliminary experiments show that the DBDM performs the database partition and migration effectively. Also, the DBDM system is modularly designed to adapt to different database management system (DBMS) or different partition algorithms.  相似文献   

19.
空间索引是提高空间数据库查询性能的关键技术。空间数据具有海量、空间目标不规则、结构和关系复杂等特征,要动态地维护空间索引结构,传统R树的构建方法插入代价非常高。在深入分析空间索引批量加载算法基础上,面向多核处理器的新型硬件架构,基于OpenMP并行编程模型,实现Hilbert R树索引的并行批量加载算法。实验结果表明,相对于串行经典算法,该算法的并行效率接近50%,通过查询实验验证,并行加载算法保持了串行算法生成索引的优良查询性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号