首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 609 毫秒
1.
一种基于PageRank的页面排序改进算法   总被引:3,自引:0,他引:3  
首先对PageRank算法进行了分析,探讨了国外现有的基于链接结构的改进算法.在此基础上,指出PageRank算法平均分配PageRank值影响了网页的排序质量,提出了一种不平均分配PageRank值的改进算法NPR,并对改进算法进行测试及分析.实验证明,NPR的排序结果比PageRank提高了约11.2%的相关度.  相似文献   

2.
越来越多的MapReduce计算由运行在云中虚拟机组成的虚拟集群完成,为增强虚拟MapReduce集群计算中任务的数据本地性,充分利用云计算的资源可动态配置的优势,提出了一种基于队列的动态资源调度算法,并模拟了云计算平台进行测试,实验结果表明动态资源调度算法提高了虚拟MapReduce集群的计算性能.  相似文献   

3.
文中通过对PageRank算法的详细分析,以及对随机冲浪模型的讨论,介绍了基于Google PageRank算法的围棋棋手排名方法,根据棋手的PageRank值对棋手进行排名。从实验的客观性和稳定性上对排名结果进行分析,实验结果表明该算法在围棋棋手排名上具有良好的客观性和稳定性。  相似文献   

4.
对基于权威性的PageRank算法与基于相关性的PageRank算法进行了讨论,从分析网页内容相似性的角度解决相关性需求,从网页链接分析的角度解决权威性需求.并结合两种算法的优点,提出了一种新的PageRank算法.  相似文献   

5.
互联网的发展使得计算密集型的任务正在逐渐走向分布式和云计算。文中对Hadoop项目中的MapReduce和HDFS进行了研究,采用HDFS作为底层分布式文件系统,MapReduce作为编程框架来实现哈希算法。通过对多个节点中的测试结果的分析表明,在Hadoop上运行哈希函数的任务,能够起到在多台计算机的群集中分摊负载的效果,并且有效地减少了任务的总时间开销。以Hadoop为基础的云计算平台具有良好的可靠性和可扩展性,对于哈希算法在Hadoop平台上的实现和测试,为将来密钥恢复等系统的研究和搭建提供了良好的基础。  相似文献   

6.
赵虎 《中国新通信》2016,(16):26-26
基于MapReduce的故障诊断方法将MapReduce运用到故障诊断中,有效解决了故障诊断过程中大数据的处理问题,大大提高了故障诊断的效率。本文对故障诊断技术的发展进行了阐述,针对故障诊断方法的不足阐述了将MapReduce运用其中的优势。将诊断算法分为迭代和非迭代,使用不同的MapReduce模型分别实现。  相似文献   

7.
伴随着垂直搜索引擎领域的全面发展,为了满足人们对搜索引擎系统的高质量需求,通过深入剖析了Google经典的PageRank算法,针对其单纯的考虑网页链接结构方面的不足,提出了改进的PageRank算法。分析了网页文本结构、网页被抓取时间、网页内容相关度等问题,在此基础上对PageRank算法进行改进,理论分析和仿真实验表明,改进后的算法具有更高的查准率和用户满意度。  相似文献   

8.
以实际算法为例评估MapReduce在石油勘探中的应用   总被引:1,自引:0,他引:1  
石油勘探领域需要处理海量的地震数据,以获取地下构造用以发现和定位油藏。为评估云计算编程模型MapReduce对于石油勘探领域应用算法的适用性,设计并实现了基于MapReduce的三维Fresnel层析成像算法,实验发现MapReduce版本的性能比MPI版本慢3倍,而且对MapReduce作业调优的难度相当大。为了拓展MapReduce在石油勘探领域高性能计算领域的应用,需要在支持线程级并行、灵活性和提升I/O可扩展性3个方面进行改进,并提出了研究方法和技术路线。  相似文献   

9.
由于PageRank算法在计算过程中没有考虑垃圾页面对网页排序结果的影响,论文对PageRank算法进行了改进,使其在计算过程中为垃圾页面及其链接页面传递较低的Pr值。实验表明,改进后的算法明显降低了垃圾页面对网页排序结果的影响,提高了页面问的相关度和区分度。  相似文献   

10.
一种基于主题相关度的网页排序算法   总被引:1,自引:0,他引:1  
针对现有基于链接结构的PageRank算法的不足,提出了基于网页主题相关度的改进PageRank算法.通过分析网页内容,提取出网页中的链接及其对应的锚文本,建立网页链接库,利用向量空间模型(VSM)计算链接锚文本和网页内容的相关度,在此基础上实现离线计算改进后的PageRank算法.理论分析和仿真实验表明,改进的PageRank算法使用户能方便地找到所需网页,提高了网页查询效率.  相似文献   

11.
We present an approach to optimize the MapReduce architecture, which could make heterogeneous cloud environment more stable and efficient. Fundamentally different from previous methods, our approach introduces the machine learning technique into MapReduce framework, and dynamically improve MapReduce algorithm according to the statistics result of machine learning. There are three main aspects: learning machine performance, reduce task assignment algorithm based on learning result, and speculative execution optimization mechanism. Furthermore, there are two important features in our approach. First, the MapReduce framework can obtain nodes' performance values in the cluster through machine learning module. And machine learning module will daily calibrate nodes' performance values to make an accurate assessment of cluster performance. Second, with the optimization of tasks assignment algorithm, we can maximize the performance of heterogeneous clusters. According to our evaluation result, the cluster performance could have 19% improvement in current heterogeneous cloud environment, and the stability of cluster has greatly enhanced.  相似文献   

12.
白浩泉  姚立红  陆松年 《信息技术》2011,35(4):85-88,92
随着网络攻击以及网络流量的飞速增长,分析入侵检测系统产生的海量报警信息越来越困难。MapReduce是由Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算,提出了一种基于MapReduce并行计算模型的报警聚合算法,用于执行高效的报警归并。最后使用DARPA 2000数据集,验证了本算法可以高效地聚合报警信息,大量减少冗余报警数量。  相似文献   

13.
To address the problems of big data efficient analysis and insider theft detection in the data theft detection of distributed cloud computing storage,taking HDFS (hadoop distributed file system) as a case study,a stochastic algorithm for HDFS data theft detection based on MapReduce was proposed.By analyzing the MAC timestamp features of HDFS generated by folder replication,the replication behavior’s detection and measurement method was established to detect all data theft modes including insider theft.The data set which is suitable for MapReduce task partition and maintains the HDFS hierarchy was designed to achieve efficient analysis of large-volume timestamps.The experimental results show that the missed rate and the number of mislabeled folders could be kept at a low level by adopting segment detection strategy.The algorithm was proved to be efficient and had good scalability under the MapReduce framework.  相似文献   

14.
针对传统的Apriori算法在执行过程中存在着需要扫描多次数据库,执行效率低和需要大量的内存来存储候选项集的缺点,有人已经提出了引入索引结构的Apriori改进算法,但是该算法还是传统的Apriori算法都不适合应用到云计算平台。因此,在本文中我们提出了将引入索引结构的Apriori算法的设计思想应用到Apriori算法MapReduce并行化改进的过程中。该算法的核心思想:将数据进行MapReduce并行化分块,并在每个分块中采用索引的执行模式。该算法结合了索引结构的优点和算法并行化的优点,不仅大大提高了算法的执行速度,而且实现了在云环境下的应用。  相似文献   

15.
基于云计算的海量数据存储模型   总被引:5,自引:4,他引:1  
侯建  帅仁俊  侯文 《通信技术》2011,44(5):163-165
针对目前网络产生的数据越来越多以及随之而来的海量数据的存储问题,在云计算技术上,依据Hadoop及虚拟化技术,提出了基于云计算的海量数据存储模型。将医院信息化的海量数据部署在Hadoop平台上,根据云计算的核心算法MapReduce来处理数据,最后将数据存储在虚拟资源池中。通过实际的应用,该模型可以很好地克服现行的存储方式存在的不足,解决海量数据在存储当中存在的问题,并且能够很好地提高存储的效率。  相似文献   

16.
综合分析了数据流分类算法以及云计算的基本理论,提出了基于Hadoop框架的数据流系综分类算法,算法采用MapReduce并行编程模型对传统基于动态权重系综模型进行改进,以提升算法的分类效率.分析结果表明,该算法在处理快速海量到达的数据流时,其执行效率远高于传统系综算法.  相似文献   

17.
由于计算机内存资源限制,分类器组合的有效性及最优性选择是机器学习领域的主要研究内容。经典的集成分类算法在处理小数据集时,拥有较高的分类准确性,但面对大量数据时,由于多基分类器学习、分类共用1台计算机资源,导致运算效率较低,这显然不适合处理当今的海量数据。针对已有集成分类算法只适合作用于小规模数据集的缺点,剖析了集成分类器的特性,采用基于聚合方式的集成分类器和云计算的MapReduce技术设计了并行集成分类算法(EMapReduce),达到并行处理大规模数据的目的。并在Amazon计算集群上模拟实验,实验结果表明该算法具有一定的高效性和可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号