共查询到19条相似文献,搜索用时 186 毫秒
1.
2.
面对降水粒子分类过程中可能存在的样本数不足,样本质量不高的问题,提出一种基于增量贝叶斯的双偏振气象雷达降水粒子分类方法。该方法首先处理有标签的训练数据集,获取属性节点和类节点之间的条件概率表构建朴素贝叶斯分类器;接着使用朴素贝叶斯分类器分类无标签数据,判断类置信度值后将符合条件的数据追加到训练数据集中,最后修正朴素贝叶斯分类器完成增量学习,得到增量贝叶斯分类器实现降水粒子分类。增量贝叶斯分类器不仅能够增加有效的数据样本,还能够及时更新分类器从而提高其泛化性和适应性,分类结果的准确性也得到了一定的改善。 相似文献
3.
朴素贝叶斯分类器是一种基于独立假设的贝叶斯定理的简单概率分类器,依靠精确的自然概率模型,在有监督学习的样本集中能获取得非常好的分类效果。本文以朴素贝叶斯分类器为基础,提出一种最优保存简单遗传算法为搜索方法,随机抽样分类测试作为适应性函数来设计实现实例选择算法。实验表明,该抽样方法在不降低朴素贝叶斯分类器精度的前提下明显降低计算代价,对部分数据集还可有效地提高分类器的分类精度。 相似文献
4.
大数据时代,面对海量且复杂的结构化、半结构化和非结构化数据,传统的信令监测分析系统无法快速准确地分类、处理以及存储海量数据中包含的信息.针对这些问题,提出了一种基于Hadoop系统技术平台和支持向量机(Support Vector Machine,SVM)分类算法的LTE-Advanced网络Uu接口用户行为分析系统.对用户行为分析系统的系统架构、在Hadoop平台下数据挖掘分类算法SVM的实现进行了详细阐述,并通过Uu接口进行了现网测试,测试结果表明,提出的用户行为分析系统达到了预期的效果,对用户偏好分析以及精准营销具有推广意义. 相似文献
5.
朴素贝叶斯分类器的条件独立性这一假设称为“朴素贝叶斯假设”,其限制了朴素贝叶斯分类的适用范围和分类准确率,为了解决问题,本文提出用改进的鲸鱼优化算法来优化朴素贝叶斯分类器,并对算法进行应用研究。改进的鲸鱼优化算法使用禁忌搜索机制来跳出算法寻优时候易陷入局部最优的误区。为了削弱朴素贝叶斯分类器独立性假设,通过改进的鲸鱼优化算法自动搜索分类器的属性全局性权值,从而提升了加权贝叶斯分类器的运算的准确率。试验证明,相比较传统的朴素贝叶斯分类算法,本文优化后的加权贝叶斯分类算法具有更精准的分类结果。最后提出将改进后的属性加权贝叶斯分类器应用到“移动云”建设的方案。 相似文献
6.
7.
文章针对生物信息实验中的分类预测问题,以属性缺失数据为对象,结合朴素贝叶斯算法的特点,设计了一种基于改进EM算法的缺失数据朴素贝叶斯填充模型,并应用于蛋白质作用位点的定位研究中.实验结果表明,通过算法进行生物缺失数据的处理,在准确率、精度、召回率、ROC方面均获得了比其他方法更好的效果. 相似文献
8.
9.
朴素贝叶斯分类算法由于其计算高效在生活中应用广泛。本文根据集成算法的差异性特征,聚类算法聚类点的选择方式的可变性,提出了基于K-medoids聚类技术的贝叶斯集成算法,朴素贝叶斯的泛化性能得到了提升。首先,通过样本集训练出多个朴素贝叶斯基分类器模型;然后,为了增大基分类器之间的差异性,利用K-medoids算法对基分类器在验证集上的预测结果进行聚类;最后,从每个聚类簇中选择泛化性能最佳的基分类器进行集成学习,最终结果由简单投票法得出。将该算法应用于UCI数据集,并与其他类似算法进行比较可得,本文提出的基于K-medoids聚类的贝叶斯集成算法(NBKME)提高了数据集的分类准确率。 相似文献
10.
针对当前大数据环境下朴素贝叶斯文本分类算法在处理文本分类任务时存在的数据稀疏以及效率低的问题,提出了一种基于Hadoop的Dirichlet朴素贝叶斯文本分类算法。该算法引入统计语言建模技术中的Dirichlet数据平滑方法,采用Map Reduce编程模型,在Hadoop云计算平台上实现了算法的并行化。通过实验对比分析了该算法与传统朴素贝叶斯文本分类算法对大规模文本数据的分类效果。结果表明,该算法显著提高了传统朴素贝叶斯文本分类算法的准确率、召回率,且具有高效性和易扩展性。 相似文献
11.
大规模的netflow训练数据集是构建高质量、高稳定网络流量分类器的必然要求。但随着网络流特征维数的提高和数据集规模的扩大,无论是网络流的分析处理还是基于支持向量机(SVM)的分类器模型的训练,都无法在有效的时间内得到有效的处理结果。本文基于Hadoop云计算平台,采用MapReduce技术对SVM网络流量分类器进行分布式学习和训练,构建CloudSVM网络流量分类器。通过对来自校园网出口镜像的近2 T的大规模网络流量的跟踪文件的分布式存储和处理,对抽取的样本数据集进行分类,实验验证了基于Hadoop平台分布式存储和并行处理大规模网络数据集的高效率性,也验证了CloudSVM分类器在不降低分类准确度的情况下可以快速收敛到最佳,并随着大规模网络流样本的增加,SVM分类器训练的时间趋近平稳。 相似文献
12.
13.
基于Hadoop的电信大数据采集方案研究与实现 总被引:1,自引:1,他引:0
ETL是数据仓库实施过程中一个非常重要的步骤,设计一个能够对大数据进行有效处理的ETL流程以提高运营平台的采集效率,具有重要的实际意义.首先简单介绍某运营商大数据平台采集的主要数据内容.随后,为提升海量数据采集效率,提出了Hadoop与Oracle混搭架构解决方案.继而,提出一种动态触发式ETL调度流程与算法,与定时启动的ETL流程调度方式相比,可有效缩短部分流程的超长等待时间;有效避免资源抢占拥堵现象.最后,根据Hadoop和Oracle的系统运行日志,比较分析了两个平台的采集效率与数据量之间的关系.实践表明,混搭架构的大数据平台优势互补,可有效提升数据采集时效性,获得比较好的应用效果. 相似文献
14.
在面对海量教育数据处理情况时,传统的协同过滤算法在单机上训练和测试效率低下,针对该问题,提出了基于Hadoop分布式平台和Spark并行计算模型的无中间结果输出改进型教育资源推荐策略,该策略较好地发挥了Spark的迭代计算能力优势,在应用于教育资源推荐时,比较了传统算法与改进算法在分布式情况和非分布式情况下的推荐效率和推荐质量的情况.实验结果表明,利用Spark计算模型实现协同过滤算法能够有效地提高教育资源个性化推荐的推荐质量以及推荐效率. 相似文献
15.
16.
17.
在对PageRank算法进行研究的基础上,利用MapReduce编程模型思想对PageRank算法进行改进,设计了在云平台Hadoop环境下运行的基于MapReduce的PageRank分布式并行算法,并在实验中对不同规模的Web图数据集进行了测试,分析不同的Blocksize参数对于算法计算性能的作用以及集群节点数目对于算法运行效率的影响. 相似文献
18.
Offiine network traffic analysis is very important for an in-depth study upon the understanding of network conditions and characteristics, such as user behavior and abnormal traffic. With the rapid growth of the amount of information on the Intemet, the traditional stand-alone analysis tools face great challenges in storage capacity and computing efficiency, but which is the advantages for Hadoop cluster. In this paper, we designed an offiine traffic analysis system based on Hadoop (OTASH), and proposed a MapReduce-based algorithm for TopN user statistics. In addition, we studied the computing performance and failure tolerance in OTASH. From the experiments we drew the conclusion that OTASH is suitable for handling large amounts of flow data, and are competent to calculate in the case of single node failure. 相似文献