共查询到10条相似文献,搜索用时 46 毫秒
1.
2.
随着互联网的到来,其技术的发展导致了各种数据呈现出爆发式的增长,比如文本数据,分类算法在海量数据前面临着新的挑战。为了解决传统朴素贝叶斯分类算法在面临挑战中的不足,对其中关键词进行加权来提高分类准确率,然后通过Map Reduce编程模型,设计出朴素贝叶斯算法在Hadoop平台下的实现。实验表明:在Hadoop集群上通过并行化的设计朴素贝叶斯分类算法展现出了良好的性能,同时表现出了可靠的扩展性。 相似文献
3.
4.
作为开源云计算平台的核心技术之一,Map Reduce作业处理框架及其作业调度算法,对整个系统的性能起着至关重要的作用,而数据本地性是衡量作业调度算法好坏的一个重要标准,首先本文介绍和分析了Map Reduce基本原理,Map Reduce作业处理机制和Map Reduce作业调度机制及其在数据本地性方面表现出的优缺点等相关内容。其次,针对原生作业调度算法在数据本地性考虑不周全的问题,结合数据预取技术的可行性与优势,通过引入资源预取技术设计并实现一种基于资源预取的Hadoop Map Reduce作业调度算法,使作业执行效率更高。 相似文献
5.
6.
7.
基于树桩网络的贝叶斯文本分类算法 总被引:2,自引:0,他引:2
分析贝叶斯文本分类算法的不足,提出相应的改进算法。放宽朴素贝叶斯文本分类模型中的属性独立性假设,采用一种改进的基于贝叶斯定理的文本分类模型“树桩网络”,改进朴素贝叶斯文本分类模型。实验证明,改进后的文本分类模型适合于文本分类的需要,改善了原有分类器的性能。 相似文献
8.
文本分类是信息检索和文本挖掘的重要基础,朴素贝叶斯是一种简单而高效的分类算法,可以应用于文本分类.但是其属性独立性和属性重要性相等的假设并不符合客观实际,这也影响了它的分类效果.如何克服这种假设,进一步提高其分类效果是朴素贝叶斯文本分类算法的一个难题.根据文本分类的特点,基于文本互信息的相关理论,提出了基于互信息的特征项加权朴素贝叶斯文本分类方法,该方法使用互信息对不同类别中的特征项进行分别赋权,部分消除了假设对分类效果的影响.通过在UCIKDD数据集上的仿真实验,验证了该方法的有效性. 相似文献
9.
针对高维、维度分层的大数据集,提出一种基于Map/Reduce框架的并行外壳片段立方体构建算法。算法采用Map/Reduce框架,实现外壳片段立方体的并行构建与查询。构建算法在Map过程中,计算出各个数据分块所有可能的数据单元或层次维编码前缀;在Reduce过程中,聚合计算得到最终的外壳片段和度量索引表。实验证明,并行外壳片段立方体算法一方面结合了Map/Reduce框架的并行性和高扩展性,另一方面结合了外壳片段立方体的压缩策略和倒排索引机制,能够有效避免高维数据物化时数据量的爆炸式增长,提供快速构建和查询操作。 相似文献
10.
在Bernoulli混合模型和期望最大化(EM)算法的基础上给出了一种基于不完整数据的改进方法。首先在已标记数据的基础上通过Bernoulli混合模型和朴素贝叶斯算法得到似然函数参数估计初始值, 然后利用含有权值的EM算法对分类器的先验概率模型进行参数估计,得到最终的分类器。实验结果表明,该方法在准确率和查全率方面要优于朴素贝叶斯文本分类。 相似文献