首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 186 毫秒
1.
《现代电子技术》2019,(21):36-40
为了应对大数据环境下图书馆个性化信息服务的发展趋势,提供更加精准的用户服务,构建基于Hadoop云计算平台的图书馆数据挖掘系统,并设计一种新型混合决策树算法。首先,设计包含4个层次的数据挖掘系统架构。然后,在算法层提出一种采用混合策略的决策树算法,该算法结合分布式改进的SPRINT算法和并行化的朴素贝叶斯算法,以便满足HDFS和MapReduce的运作方式,从而能够在Hadoop平台上进行实现。Hadoop集群环境的用户信息测试结果表明,相比单一的SPRINT算法和朴素贝叶斯算法,提出的新型混合决策树算法具有最佳的数据挖掘分类性能。  相似文献   

2.
面对降水粒子分类过程中可能存在的样本数不足,样本质量不高的问题,提出一种基于增量贝叶斯的双偏振气象雷达降水粒子分类方法。该方法首先处理有标签的训练数据集,获取属性节点和类节点之间的条件概率表构建朴素贝叶斯分类器;接着使用朴素贝叶斯分类器分类无标签数据,判断类置信度值后将符合条件的数据追加到训练数据集中,最后修正朴素贝叶斯分类器完成增量学习,得到增量贝叶斯分类器实现降水粒子分类。增量贝叶斯分类器不仅能够增加有效的数据样本,还能够及时更新分类器从而提高其泛化性和适应性,分类结果的准确性也得到了一定的改善。  相似文献   

3.
朴素贝叶斯分类器是一种基于独立假设的贝叶斯定理的简单概率分类器,依靠精确的自然概率模型,在有监督学习的样本集中能获取得非常好的分类效果。本文以朴素贝叶斯分类器为基础,提出一种最优保存简单遗传算法为搜索方法,随机抽样分类测试作为适应性函数来设计实现实例选择算法。实验表明,该抽样方法在不降低朴素贝叶斯分类器精度的前提下明显降低计算代价,对部分数据集还可有效地提高分类器的分类精度。  相似文献   

4.
梁鹏  曹龙汉  张治中 《电视技术》2017,(11):135-140
大数据时代,面对海量且复杂的结构化、半结构化和非结构化数据,传统的信令监测分析系统无法快速准确地分类、处理以及存储海量数据中包含的信息.针对这些问题,提出了一种基于Hadoop系统技术平台和支持向量机(Support Vector Machine,SVM)分类算法的LTE-Advanced网络Uu接口用户行为分析系统.对用户行为分析系统的系统架构、在Hadoop平台下数据挖掘分类算法SVM的实现进行了详细阐述,并通过Uu接口进行了现网测试,测试结果表明,提出的用户行为分析系统达到了预期的效果,对用户偏好分析以及精准营销具有推广意义.  相似文献   

5.
朴素贝叶斯分类器的条件独立性这一假设称为“朴素贝叶斯假设”,其限制了朴素贝叶斯分类的适用范围和分类准确率,为了解决问题,本文提出用改进的鲸鱼优化算法来优化朴素贝叶斯分类器,并对算法进行应用研究。改进的鲸鱼优化算法使用禁忌搜索机制来跳出算法寻优时候易陷入局部最优的误区。为了削弱朴素贝叶斯分类器独立性假设,通过改进的鲸鱼优化算法自动搜索分类器的属性全局性权值,从而提升了加权贝叶斯分类器的运算的准确率。试验证明,相比较传统的朴素贝叶斯分类算法,本文优化后的加权贝叶斯分类算法具有更精准的分类结果。最后提出将改进后的属性加权贝叶斯分类器应用到“移动云”建设的方案。  相似文献   

6.
随着信息科学技术和移动互联网技术的快速发展,各种信息数据持续呈指数级爆发式快速增长。当今数据分析主要的目标是充分发掘出隐藏在海量数据背后信息,以此来推动各行业稳定持续发展。显然,云计算技术的出现为海量数据挖掘工作提供了便利,在传统单机模式的数据挖掘基础上,Hadoop云计算平台能够将信息数据分片处理,并将数据片分配到各个节点并行处理,大大提高了数据处理的效率。文章详细研究了基于Hadoop云计算平台的模糊聚类算法,充分利用Hadoop云计算平台并行化来解决对大规模海量数据挖掘的问题,并能够为社会经济发展作出贡献。  相似文献   

7.
文章针对生物信息实验中的分类预测问题,以属性缺失数据为对象,结合朴素贝叶斯算法的特点,设计了一种基于改进EM算法的缺失数据朴素贝叶斯填充模型,并应用于蛋白质作用位点的定位研究中.实验结果表明,通过算法进行生物缺失数据的处理,在准确率、精度、召回率、ROC方面均获得了比其他方法更好的效果.  相似文献   

8.
数据挖据是一种处理海量数据的技术。分类挖掘是数据挖掘的重要方法。决策树算法能有效在训练数据集上建立数据属性和类别的映射。利用决策树算法建立目标数据库分类器,对数据对象的缺失属性预测。针对分类预测模型对单个目标多个预测类别的现象,提出一种单个目标预测结果的综合分析算法,处理结果得到单个目标的预测类别及其可信度。分类结果可用于空缺或错误字段补全或校正。  相似文献   

9.
朴素贝叶斯分类算法由于其计算高效在生活中应用广泛。本文根据集成算法的差异性特征,聚类算法聚类点的选择方式的可变性,提出了基于K-medoids聚类技术的贝叶斯集成算法,朴素贝叶斯的泛化性能得到了提升。首先,通过样本集训练出多个朴素贝叶斯基分类器模型;然后,为了增大基分类器之间的差异性,利用K-medoids算法对基分类器在验证集上的预测结果进行聚类;最后,从每个聚类簇中选择泛化性能最佳的基分类器进行集成学习,最终结果由简单投票法得出。将该算法应用于UCI数据集,并与其他类似算法进行比较可得,本文提出的基于K-medoids聚类的贝叶斯集成算法(NBKME)提高了数据集的分类准确率。  相似文献   

10.
针对当前大数据环境下朴素贝叶斯文本分类算法在处理文本分类任务时存在的数据稀疏以及效率低的问题,提出了一种基于Hadoop的Dirichlet朴素贝叶斯文本分类算法。该算法引入统计语言建模技术中的Dirichlet数据平滑方法,采用Map Reduce编程模型,在Hadoop云计算平台上实现了算法的并行化。通过实验对比分析了该算法与传统朴素贝叶斯文本分类算法对大规模文本数据的分类效果。结果表明,该算法显著提高了传统朴素贝叶斯文本分类算法的准确率、召回率,且具有高效性和易扩展性。  相似文献   

11.
大规模的netflow训练数据集是构建高质量、高稳定网络流量分类器的必然要求。但随着网络流特征维数的提高和数据集规模的扩大,无论是网络流的分析处理还是基于支持向量机(SVM)的分类器模型的训练,都无法在有效的时间内得到有效的处理结果。本文基于Hadoop云计算平台,采用MapReduce技术对SVM网络流量分类器进行分布式学习和训练,构建CloudSVM网络流量分类器。通过对来自校园网出口镜像的近2 T的大规模网络流量的跟踪文件的分布式存储和处理,对抽取的样本数据集进行分类,实验验证了基于Hadoop平台分布式存储和并行处理大规模网络数据集的高效率性,也验证了CloudSVM分类器在不降低分类准确度的情况下可以快速收敛到最佳,并随着大规模网络流样本的增加,SVM分类器训练的时间趋近平稳。  相似文献   

12.
随着电信企业的业务发展,其运营网络、业务系统及支撑系统等生产了大量的日志数据,这些数据蕴含了大量有用信息,传统日志处理方式限制了企业对海量日志文件的处理、分析及应用.针对电信企业特定应用平台产生的大量日志文件,实践了Hadoop平台的MapReduce编程模型,该平台以HDFS作为底层文件系统,以Hbase作为可扩展的数据存储系统,更大幅度地提高了对日志数据分析的效率,具有较好的实用价值.  相似文献   

13.
基于Hadoop的电信大数据采集方案研究与实现   总被引:1,自引:1,他引:0  
ETL是数据仓库实施过程中一个非常重要的步骤,设计一个能够对大数据进行有效处理的ETL流程以提高运营平台的采集效率,具有重要的实际意义.首先简单介绍某运营商大数据平台采集的主要数据内容.随后,为提升海量数据采集效率,提出了Hadoop与Oracle混搭架构解决方案.继而,提出一种动态触发式ETL调度流程与算法,与定时启动的ETL流程调度方式相比,可有效缩短部分流程的超长等待时间;有效避免资源抢占拥堵现象.最后,根据Hadoop和Oracle的系统运行日志,比较分析了两个平台的采集效率与数据量之间的关系.实践表明,混搭架构的大数据平台优势互补,可有效提升数据采集时效性,获得比较好的应用效果.  相似文献   

14.
在面对海量教育数据处理情况时,传统的协同过滤算法在单机上训练和测试效率低下,针对该问题,提出了基于Hadoop分布式平台和Spark并行计算模型的无中间结果输出改进型教育资源推荐策略,该策略较好地发挥了Spark的迭代计算能力优势,在应用于教育资源推荐时,比较了传统算法与改进算法在分布式情况和非分布式情况下的推荐效率和推荐质量的情况.实验结果表明,利用Spark计算模型实现协同过滤算法能够有效地提高教育资源个性化推荐的推荐质量以及推荐效率.  相似文献   

15.
当今网络带宽、设备和应用数量急剧扩张,日志管理面临数据量爆炸式增长的挑战。基于SQL-on-Hadoop构建网络日志分析平台,实现千亿级日志存储和高效、灵活查询。利用真实TB级数据集对多种Hadoop列存储格式及压缩算法进行性能测试,并对比Hive和Impala引擎日志扫描及统计查询效率,选用Gzip压缩的Parquet格式可将日志体积压缩80%,且将Impala查询性能提升至5倍。基于该平台已开发6种安全事件响应、攻击检测和预警应用并发挥良好效果。  相似文献   

16.
传统的数据分析方法面对海量电信数据存在管理和分析难的问题.Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于云计算领域.本文在对云计算和Hadoop进行分析和研究的基础上,提出了一种针对海量电信数据的分布式云计算方法,建立了基于Hadoop的海量电信数据云计算平台.实验证明,该平台能够有效完成海量数据的管理和分析任务,提高海量数据分析的速度和效率.  相似文献   

17.
在对PageRank算法进行研究的基础上,利用MapReduce编程模型思想对PageRank算法进行改进,设计了在云平台Hadoop环境下运行的基于MapReduce的PageRank分布式并行算法,并在实验中对不同规模的Web图数据集进行了测试,分析不同的Blocksize参数对于算法计算性能的作用以及集群节点数目对于算法运行效率的影响.  相似文献   

18.
Offiine network traffic analysis is very important for an in-depth study upon the understanding of network conditions and characteristics, such as user behavior and abnormal traffic. With the rapid growth of the amount of information on the Intemet, the traditional stand-alone analysis tools face great challenges in storage capacity and computing efficiency, but which is the advantages for Hadoop cluster. In this paper, we designed an offiine traffic analysis system based on Hadoop (OTASH), and proposed a MapReduce-based algorithm for TopN user statistics. In addition, we studied the computing performance and failure tolerance in OTASH. From the experiments we drew the conclusion that OTASH is suitable for handling large amounts of flow data, and are competent to calculate in the case of single node failure.  相似文献   

19.
针对当前贝叶斯网络结构学习算法易陷入局部最优和寻优效率低的问题,该文提出一种基于改进鲸鱼优化策略的贝叶斯网络结构学习算法。该算法首先提出一种新的方法建立较优的初始种群,然后利用不产生非法结构的交叉变异算子构建适用于贝叶斯网络结构学习的改进捕食行为,同时采用动态调节参数增强算法个体寻优的能力,通过适应度排序更新种群,最终获得最优的贝叶斯网络结构。仿真结果表明,该算法具有全局收敛性,寻优效率高,精确率高于其它同类优化算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号