首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 109 毫秒
1.
基于Hadoop MapReduce的大规模数据索引构建与集群性能分析   总被引:1,自引:0,他引:1  
为了满足搜索引擎构建索引的时空开销需求,构建高效的分布式索引,利用Hadoop搭建分布式集群环境,基于MapReduce编程实现大数据倒排索引.采用不同的网络带宽、数据量和集群节点数来评估Hadoop集群的性能.实验结果表明:网络带宽越大,集群处理效率越高;集群节点数越多,处理大数据的能力越强.可见,网络通信带宽对Ha...  相似文献   

2.
针对搜索引擎搜索索引大小不同时的效率不一致问题,文中在Hadoop分布式计算平台上利用Map-Reduce框架搭建分布式的搜索引擎及查询子系统,生成一种改进的自适应性切换搜索算法,以索引文件实现了高效的检索,索引文件较小时将其直接存入内存,索引文件较大时建立二级索引并读取内存中的索引列表,进行分布式的查询,通过设置足够多的集群的节点数进行测试。测试结果表明:当索引大小达到1 000 MB,搜索时间由原始搜索算法的16.631 s缩短至7.259 s,文中方法对索引文件的搜索效率有显著提高。在索引文件更大的情况下,文中算法的优势也更明显,从而可以为网络论坛、网站以及其他用户提供高效的分布式搜索服务。  相似文献   

3.
为了解决传统分布式搜索引擎存在的搜索性能问题,从索引结构、查询算法方面改进了传统模型.提出了一种非集中的高并行化搜索模型,该模型按照文档主题对索引分类,对较长的倒排记录表采用位图结构,利用多线程技术对索引节点实现并行搜索算法(multi max score heap,MMSH).实验结果表明:改进模型中的索引分类方法与倒排表结构的位图策略,能够增强Merge层查询的针对性,降低Merge层节点的CPU和内存开销;在倒排表不能完全存入内存情况下,MMSH算法能够实现高度并行化查询,其查询效率高于经典的term-at-a-time算法,缩短了平均查找时间,提高了系统吞吐量.索引分类、位图结构以及并行查询算法能够避免查询的盲目性,改善了分布式搜索引擎的性能.  相似文献   

4.
针对搜索引擎中索引组织策略在查询性能和可扩展性等方面存在的问题,提出了一种混合型分布式索引组织策略(Loc-Glob)。该策略整合了局部和全局索引组织的基本思路,首先将搜索引擎系统的索引服务器从逻辑上分为若干个索引服务器池,索引数据先以局部(或全局)索引组织策略分配到索引服务器池上。然后,在索引服务器池的内部,索引继续以全局(或局部)索引组织的方式存储到各索引服务器上。混合型的索引组织策略较局部和全局索引组织策略具有更好的可扩展性。实验结果表明,该策略较全局索引组织策略在查询性能、负载均衡方面都有所提升,与局部索引组织策略的查询性能基本相当,并具备较高的负载均衡水平。  相似文献   

5.
时间序列的研究已经被应用到越来越多的领域中.越来越多的领域应用需要索引和分析海量的时间序列,代表性的比如金融,电力,生物信息等等.这类应用往往面临数以亿计的时间序列的处理,然后从中识别出一些隐藏的模式来.然而目前对时间序列的索引技术都是单机版本,需要用漫长的时间来对大量的时间序列进行索引,限制了时间序列分析的产出率.提出了一种基于Isax表达的分布式时间序列索引算法,并在Spark分布式计算框架下实现算法.首先,给出了基于Isax的分布式索引算法的朴素实现想法,指明了其存在的问题.然后提出一种先建立索引结构,再将时间序列哈希到相应叶子节点的分布式索引算法.最终,构建了一个完整的电力时间序列的近邻近似查询系统,再保证查询精确率的前提下大大提高了计算效率.并在实验数据集上证明了算法的正确性、高效性和可扩展性.  相似文献   

6.
专业搜索引擎是一种为用户提供比通用搜索引擎更多、更精准的专业信息的搜索引擎。根据搜索引 擎的工作原理,提出了一种基于元搜索的专业搜索引擎的设计框架;详细介绍了信息采集、中文分词、结果处理的实 现技术;将神经网络与遗传算法相结合,对元搜索结果进行过滤及排序,进一步提高了专业搜索引擎的查询效率。  相似文献   

7.
校园网搜索引擎的研究与实现   总被引:2,自引:0,他引:2  
针对通用搜索引擎不能检索校园网内网的不足,提出建立校园网搜索引擎,实现为用户提供基于关键字进行校园内部信息检索的服务平台。通过研究,设计了具有搜索器、中文分词器、索引器和检索器的校园网搜索引擎系统。系统采用Java语言和Oracle9i数据库实现。目前,系统已实现了基于关键词的查询,但也存在着检索关键词不能进行智能转化、检索结果不能根据用户反馈进行排序的不足。  相似文献   

8.
基于多重倒排文件的中文题库全文模糊检索系统   总被引:1,自引:0,他引:1  
介绍了一个中文题库系统全文搜索引擎的设计与实现。讨论了基本多重倒排文件索引算法的全文索引组织以及基于代理的模糊检索技术,给出了系统实现模糊检索的具体方法。  相似文献   

9.
为了满足搜索引擎系统日益增长的高质量检索需求,针对Nutch搜索引擎框架没有实现Google的PageR-ank网页排序算法,分析了PageRank算法,并通过实验验证了PageRank算法的有效性,成功搭建Hadoop分布式集群,在Nutch框架中基于MapReduce分布式编程模式编码实现PageRank算法。实验结果表明,在Nutch搜索引擎系统中实现了PageRank算法后,系统的检索具有更高的准确率,能够更好地为用户提供检索服务。  相似文献   

10.
设计并实现了一个基于相似聚类算法的垂直搜索引擎。利用网络爬虫NWebCrawler,通过定制正则表达式,高效爬取所需的URL;通过解析爬取的URL信息,提取结构化数据;利用正向最大匹配算法,对搜索关键字分词;利用向量空间模型,根据相似度值对搜索结果聚类;基于Lucene建立索引,检索所需信息。实验结果表明,基于相似聚类算法的垂直搜索引擎,比通用搜索引擎的准确率和召回率高,与普通的垂直搜索引擎相比,具备了相似产品查询功能。  相似文献   

11.
一种分布协作式WWW搜索引擎模型   总被引:1,自引:0,他引:1  
针对集中式搜索引擎的瓶颈问题,提出了一种既具有集中式搜索引擎优点又解决了其瓶颈问题的分布协作式搜索引擎系统模型。讨论了各子系统信息收集程序信息收集代价的计算和作用范围划分问题。系统的设计思想是使分布在不同地理位置上的搜索引擎在信息收集与更新上进行协作。模型实现了信息收集、索引的地方化,从而减轻了局部网络传输的压力,缩短了索引库更新的周期。模型中各个子系统都提供用户接口用以分散系统检索工作量,通过共享各自的索引库,都在本地存储一个全局索引库来提高检索效率,缩短用户查询响应时间。整个系统具有可扩展性和动态调度性。  相似文献   

12.
针对集中式搜索引擎的瓶颈问题,提出一种既具有集中式搜索引擎优点又解决了其瓶颈门题的分布协作式搜索引擎系统。系统的设计思想是使地理上分散在不同地方的搜索引擎在信息收集与更新上进行协作。讨论了信息收集程序(Crawler)的3种工作方式:封闭式、交叉式和交换式。提出了成组传送和复制热门URL两种方法来降低在交换式工作方式下传送的URL信息频率和信息量。讨论了Web的3种划分方法:URL散列法、站点散列法和分类法。通过模拟实验验证了在封闭式工作方式下当Crawler数量较少时可以得到较好的收集率。验证了站点散列法比URL散列法能显著减少外部链接的数量。验证了成组传送对降低在交换式工作方式下传送URL信息量所起的作用。  相似文献   

13.
基于因果图的分布式诊断模型研究及应用   总被引:1,自引:0,他引:1  
为了降低系统多故障诊断的计算复杂性,研究了一种基于因果图的分布式诊断模型.首先用因果网络图建立集中式模型,然后通过有向树分解技术把集中式模型转化为分布式模型,并离线计算集群表,得到局部诊断解后再采用诊断融合算法实现全局诊断.对电源系统的应用结果表明,分布式模型简化了集中式模型的计算复杂性,提高了效率,并且通过计算后的集群表及融合算法可以实现耦合故障的诊断.此种方法适用于卫星这类复杂系统的故障诊断.  相似文献   

14.
面向Hadoop的云计算核心技术分析   总被引:2,自引:2,他引:0  
在企业以海量数据处理能力为核心竞争力之一的时代,云计算技术的出现为此提供了良好的解决方案。首先,研究分析了云计算技术的开源实现Hadoop的核心内容:分布式系统文件HDFS和MapReduce算法模型;然后,通过实例阐述了面向Hadoop的分布式云计算平台的构建,证实了Hadoop是一个更容易开发和并行处理大规模数据的分布式云计算平台;最后,对如何实现Hadoop的高可用性和高效性进行了展望。  相似文献   

15.
搜索引擎性能的评价一般采用定性或定量的方法,在给出搜索引擎性能评价指标体系的基础上,建立了一种基于联系数学的搜索引擎性能综合评价模型。实例应用表明,该模型较模糊数学综合评价模型更具有客观合理性,且应用方便。  相似文献   

16.
搜索引擎性能的评价一般采用定性或定量的方法,在给出搜索引擎性能评价指标体系的基础上,建立了一种基于联系数学的搜索引擎性能综合评价模型。实例应用表明,该模型较模糊数学综合评价模型更具有客观合理性,且应用方便。  相似文献   

17.
为了高效快速的开发和使用Hadoop远程通信功能,对Hadoop远程过程调用(Remote Procedure Call,RPC)机制进行分析,提出独立调用Hadoop RPC实现多客户端并发通信和大数据传输的机制,既继承Hadoop PRC框架,又在通信中增加数据文件传输,并采用线程池模拟多客户线程的测试方案。通过测试发现Hadoop远程过程调用在通信数据负载量和数据传输量的大致范围,测试方案和结论可用于Hadoop RPC应用的配置和开发。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号