排序方式: 共有952条查询结果,搜索用时 0 毫秒
31.
《计算机应用与软件》2015,(8)
微博作为最大的社会化媒体产品,拥有海量的用户和信息资源。微博推荐是微博个性化服务的重要方面,是解决信息过载问题的有效工具。考虑到微博数据海量性的特点,针对传统串行推荐算法对大数据处理效率低的问题,采用MapReduce模型,提出和设计一种基于关联规则挖掘算法Apriori的微博推荐并行算法,并在Hadoop平台实现。实验表明,提出的微博推荐并行算法具有较好的加速比和较高的运行效率,证明了该微博推荐并行算法在大数据处理中的高效性。 相似文献
32.
《计算机应用与软件》2015,(9)
随着大规模数据的快速增长及高可靠性需求,将本地数据迁移到分布式数据库势在必行。针对这种情况,提出一种基于MapReduce的"快速并行导入"技术,充分利用集群的并行计算能力,直接向HBase底层存储文件HFile写入数据,既可避免上层数据导入时间的浪费,又节省资源开销。有效解决了从单机数据库向HBase分布式数据库导入数据功能低下、效率不高等问题。实验结果表明,在"快速并行导入"技术的基础上设计并实现的快速并行导入工具,支持多列族文本数据的快速导入。与传统使用API导入数据相比,速度提升一倍以上。 相似文献
33.
针对异构Hadoop环境下仍采用均等的数据分配方法将严重降低MapReduce的性能,提出比例数据分配策略。通过计算异构集群中各节点的计算比率,将已经分割好的数据块重新进行组合,形成数个按比例划分的数据块。每个节点根据自身性能来选择所分配和存储的数据块,从而使异构Hadoop集群中各节点处理数据的时间大致相同,降低节点之间数据的移动量。实验验证了提出的比例数据分配方法可以有效地提高MapReduce的性能,并使数据负载均衡。 相似文献
34.
为了提高支持向量机处理大数据集的性能,在研究MapReduce编程模型的基础上结合增量学习及迭代技术提出了改进算法MRII-SVM。该算法采用增量学习方式,在Map阶段并行求解各数据切片的支持向量集,并利用KKT条件削减增量数据集,在Reduce阶段执行联合重训练使算法收敛于当前最优解。基于UCI标准数据集的实验结果显示,MRII-SVC在保持SVM算法分类精度的基础上,提高了数据处理能力和运行效率。 相似文献
35.
基于MapReduce与相关子空间的局部离群数据挖掘算法 总被引:1,自引:0,他引:1
针对高维海量数据,在MapReduce编程模型下,提出了一种基于相关子空间的局部离群数据挖掘算法.该算法首先利用属性维上的局部稀疏程度,重新定义了相关子空间,从而能够有效地刻画各种局部数据集上的分布特征;其次,利用局部数据集的概率密度,给出了相关子空间中的局部离群因子计算公式,有效地体现了相关子空间中数据对象不服从局部数据集分布特征的程度,并选取离群程度最大的N个数据对象定义为局部离群数据;在此基础上,采用LSH分布式策略,提出了一种MapReduce编程模型下的局部离群数据挖掘算法;最后,采用人工数据集和恒星光谱数据集,实验验证了该算法的有效性、可扩展性和可伸缩性. 相似文献
36.
37.
从大数据的概念进行认知,阐述分析大数据的生态圈,着重分析MapReduce对于大数据的应用及其优缺点,展望大数据的未来发展,期待更好地利用大数据,是大数据最终的价值体现。 相似文献
38.
39.
Hadoop是一种开源可靠的分布式计算框架,而MapReduce是处理超大规模数据集的编程模型.鉴于Ha-doop内置的调度器不能很好地处理类别不同且有截止时间的作业的调度,提出了一种基于作业类别和截止时间的作业调度算法.作业分为CPU密集型和I/O密集型,并根据截止时间设置优先级来实现作业的调度.实验结果表明,该算法在充分利用集群的CPU和磁盘I/O的同时,能满足作业的截止期需求,当同一时间段内截止时间相近时算法达到最优,当某一队列中作业截止时间均比另一种队列短时,算法效率最低. 相似文献
40.
k-modes是一种代表性的分类数据的聚类算法.首先对k-modes聚类算法的实现过程进行了改进:通过在分配数据对象到簇时更新这个簇中各个属性项的次数,使得在遍历一次全部数据对象就能计算出新的簇中心.为了使k-modes能够处理大规模分类数据,在Hadoop平台上用MapReduce并行计算模型实现了k-modes算法.实验表明:在处理大量数据时,并行k-modes比串行k-modes极大地缩短了聚类时间,取得了较好的加速比. 相似文献