共查询到18条相似文献,搜索用时 93 毫秒
1.
基于Spark的分层协同过滤推荐算法 总被引:1,自引:0,他引:1
《电子技术应用》2015,(9):135-138
协同过滤是推荐系统中最广泛使用的推荐算法。针对单机模型已经不能满足推荐系统的实时性与扩展性,提出一种基于Spark的分层协同过滤推荐算法。算法首先基于用户时间行为序列构建用户兴趣模型;其次基于RDD实现了并行化EM聚类算法,将用户划分为不同的用户簇;最后基于不同的用户簇实现了并行化Item-based协同过滤推荐算法。通过阿里巴巴天池数据集实验表明,该算法可明显减少推荐时间并提高了推荐准确度,具有良好的可扩展性。 相似文献
2.
基于Spark的矩阵分解推荐算法 总被引:1,自引:0,他引:1
针对传统矩阵分解算法在处理海量数据信息时所面临的处理速度和计算资源的瓶颈问题,利用Spark在内存计算和迭代计算上的优势,提出了Spark框架下的矩阵分解并行化算法。首先,依据历史数据矩阵初始化用户因子矩阵和项目因子矩阵;其次,迭代更新因子矩阵,将迭代结果置于内存中作为下次迭代的输入;最后,迭代结束时得到矩阵推荐模型。通过在GroupLens网站上提供的MovieLens数据集上的实验结果表明,加速比(Speedup)值达到了线性的结果,该算法可以提高协同过滤推荐算法在大数据规模下的执行效率。 相似文献
3.
为解决人们“每天不知道吃什么”的烦恼,采用Spark分布式处理框架,结合分布式存储数据库(MongoDB)、日志收集系统(Flume)、分布式系统文件(HDFS)等工具,实现对菜品实时评分及特色化推荐。系统包含菜品评分及储存模块、评分数据处理模块、菜品推荐模块、推荐结果展示模块等,其中推荐模块采用协同过滤推荐算法。使用测评方法和指标验证3种推荐模型的有效性,根据测评结果设计并实现以基于物品的推荐模型为主、以基于Spark ALS的推荐模型为辅的智能菜品推荐系统。该系统能够快速准确地推荐顾客喜欢的菜品,提高了商家的服务效率和顾客的满意度,可用性较高。 相似文献
4.
5.
随着当前移动互联网的快速发展,人们所面临的信息过载问题变得尤为严重,大数据场景下对特定用户的个性化推荐面临着巨大挑战. 为了进一步提高推荐的时效性、准确度以及缓解面临的大数据量. 提出了一种矩阵分解推荐算法在大数据环境下的优化算法模型. 该模型通过在传统矩阵分解推荐算法的基础上融合了用户以及物品的相似性计算,在训练目标函数的过程中,即融入用户以及物品的前k个最近邻居的相似性计算,增强了算法的推荐准确度. 利用Spark在内存计算以及迭代计算上的优势,设计了一种Spark框架下的矩阵分解与最近邻融合的推荐算法. 通过在经典数据集—MovieLens数据集上的实验结果表明,该算法与传统的矩阵分解推荐算法相比,可以很好的缓解数据稀疏性,提高推荐算法的准确度,并且在计算效率方面也优于现有的矩阵分解推荐算法. 相似文献
6.
7.
随着电子商务的发展,基于协同过滤的推荐算法越来越受欢迎,与此同时,该算法的缺陷也越来越明显,如数据稀疏性、系统可扩展性等。另外传统的单机计算模型也难以满足海量数据的实时推荐需求。为此,提出一种利用Spark计算模型实现分布式推荐的方法。该推荐方法采用基于谱聚类和朴素贝叶斯的混合推荐算法,同时使用增量式更新,在不全部重新训练模型的基础上,对模型进行局部修改。实验结果表明,较传统的单机模式推荐算法,基于Spark计算模型的分布式推荐算法,在一定程度上克服了数据稀疏性,提高了系统的可扩展性,降低了系统的响应时间。 相似文献
8.
随着互联网的用户及内容呈指数级增长,大规模数据场景下的相似度计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适于迭代型及交互型任务的特点,基于二维划分算法将算法从MapReduce平台移植到Spark平台;同时,通过参数调整、内存优化等方法进一步提高算法的执行效率。通过2组数据集分别在3组不同规模的集群上的实验表明,与MapReduce相比,在Spark平台下算法的执行效率平均提高了4.715倍,平均能耗效率只有Hadoop能耗的24.86%,能耗效率提升了4倍左右。 相似文献
9.
基于Hadoop平台协同过滤推荐算法 总被引:1,自引:1,他引:0
针对协同过滤推荐算法在数据稀疏性及在大数据规模下系统可扩展性的两个问题, 在分析研究Hadoop分布式平台与协同过滤推荐算法后, 提出了一种基于Hadoop平台实现协同过滤推荐算法的优化方案. 实验证明, 在Hadoop平台上通过MapReduce结合Hbase数据库实现算法, 能够有效地提高协同过滤推荐算法在大数据规模下的执行效率, 从而能够进一步地搭建低成本高性能、动态扩展的分布式推荐引擎. 相似文献
10.
11.
网格数据库中主要采用基于有向无环图(DAG)的查询计划建模方式,该方法由于不考虑子查询与节点的数据关系,因而对子查询在节点的优化调度方面支持不足。对查询计划提出了基于Petri网的形式化描述模型NSN,通过扩展子查询与节点以及子查询之间的数据关联关系的描述,对子查询的优化调度提供更大的支持;进一步给出了从DAG模型到NSN模型的转换规则和转换算法,实现了查询计划从DAG到NSN模型的转换,最后通过实验验证了NSN模型对子查询在节点中的分派调度的优越性。 相似文献
12.
13.
14.
15.
针对金融外汇市场监测指标计算复杂度高、完备性强、效率低等问题,基于Spark大数据架构提出了一种新的面向外汇市场监测的分布式计算框架。首先,对外汇市场监测的业务特性和现有技术框架进行了分析总结;然后,综合考虑了外汇单市场多指标和多市场多指标并行计算的业务特性;最后,基于Spark的有向无环图(DAG)作业调度机制和YARN的资源调度池隔离机制,分别提出了外汇市场级的有向无环图(M-DAG)模型和市场级资源分配策略——M-YARN。实验结果表明,所提面向外汇市场监测的分布式计算框架相对于传统技术框架在性能上提高了80%以上,可以有效保证大数据背景下外汇市场监测指标计算的完备性、精准性和时效性。 相似文献
16.
传统基于邻居的协同过滤推荐方法必须完全依赖用户共同评分项,且存在极为稀疏的数据集中预测准确性不高的问题。巴氏系数协同过滤算法通过利用一对用户的所有评分项进行相似性度量,可以有效改善上述问题。但该种方法也存在两个很明显的缺陷,即未考虑两个用户评分项个数不同时的情况以及没有针对性地考虑用户偏好。在巴氏系数协同过滤算法的基础上进行了改进,既能充分利用用户的所有评分信息,又考虑到用户对项目的积极评分偏好。实验结果表明,改进的巴氏系数协同过滤算法在数据集上获得了更好的推荐结果,提高了推荐的准确度。 相似文献
17.
在分布式计算和内存为王的时代,Spark作为基于内存计算的分布式框架技术得到了前所未有的关注与应用。着重研究BIRCH算法在Spark上并行化的设计和实现,经过理论性能分析得到并行化过程中时间消耗较多的Spark转化操作,同时根据并行化BIRCH算法的有向无环图DAG,减少shuffle和磁盘读写频率,以期达到性能优化。最后,将并行化后的BIRCH算法分别与单机的BIRCH算法和MLlib中的K-Means聚类算法做了性能对比实验。实验结果表明,通过Spark对BIRCH算法并行化,其聚类质量没有明显的损失,并且获得了比较理想的运行时间和加速比。 相似文献
18.
分析了分布式信任管理的证书结构反证书授权模型,包括线性链式授权、门限授权、条件授权和复合证书授权等,探讨了不同模型下的证书表达与证书链处理机制.提出了基于有向无环图DAG的证书图结构,并对利用DAG表达证书图作出证明。在证书链的搜索算法中。通过对多重边的有向无环图用深度优先和广度优先算法结合实现对证书链的搜索,避免证书图中产生的环形链而导致低搜索效率问题。 相似文献