首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
传统串行贝叶斯算法在对大规模数据进行分类时,性能较低下.为此,在TFIDF(词频-逆向文件频率)特征加权基础上,提出ICF(逆类别因子)类别加权因子,对传统贝叶斯分类模型进行改进.利用MapReduce并行计算框架在处理海量数据方面的优势,设计并实现了一种对TFIDF改进的分布式朴素贝叶斯文本分类算法.实验结果表明,与传统分布式朴素贝叶斯算法和TFIDF加权的分布式朴素贝叶斯算法相比,改进后的分类算法在查准率、查全率、F-measure等方面都有了较大提高.  相似文献   

2.
传统朴素贝叶分类算法没有根据特征项的不同对其重要程度进行划分,使得分类结果不准确。针对这一问题,引入Jensen-Shannon(JS)散度,用JS散度来表示特征项所能提供的信息量,并针对JS散度存在的不足,从类别内与类别间的词频、文本频以及用变异系数修正过的逆类别频率这三个方面考虑,对JS散度进行调整修正,最后计算出每一特征项的权值,将权值带入到朴素贝叶斯的公式中。通过与其他算法的对比实验证明,基于JS散度并从词、文本、类别三方面改进后的朴素贝叶斯算法的分类效果最好。因此基于JS散度特征加权的朴素贝叶斯分类算法与其他分类算法相比,其分类性能有很大提高。  相似文献   

3.
由于朴素贝叶斯算法的特征独立性假设以及传统TFIDF加权算法仅仅考虑了特征在整个训练集的分布情况,忽略了特征与类别和文档之间关系,造成传统方法赋予特征的权重并不能代表其准确性.针对以上问题,提出了二维信息增益加权的朴素贝叶斯分类算法,进一步考虑到了特征的二维信息增益即特征类别信息增益和特征文档信息增益对分类效果的影响,并设计实验与传统的加权朴素贝叶斯算法相比,该算法在查准率、召回率、F1值指标性能上能提升6%左右.  相似文献   

4.
针对物流新闻类别分布不均衡,分类器容易倾向大类别而忽略小类别的问题,提出基于加权补集的朴素贝叶斯分类模型.构建物流新闻语料库,结合卡方检验进行特征选择,基于局部、全局和类内、类间的思想,分析并改进传统特征加权算法,设计适用于类别分布不均衡物流新闻的加权补集朴素贝叶斯模型.实验结果表明,相较传统分类方法,加权补集朴素贝叶...  相似文献   

5.
朴素贝叶斯分类方法由于其简单快速的特点,被广泛应用于文本分类领域。但是当训练集中各个类别的样本数据分布不均匀时,朴素贝叶斯方法分类精度不太理想。针对此问题,提出一种基于加权补集的朴素贝叶斯文本分类算法,该算法利用某个类别的补集的特征来表示当前类别的特征,且对特征权重进行归一化处理。通过实验对比了该方法与传统的朴素贝叶斯方法对文本分类效果的影响,结果表明,基于加权补集的朴素贝叶斯算法具有较好的文本分类效果。  相似文献   

6.
针对传统朴素贝叶斯分类模型应用过程中存在的特征项冗余问题,使用遗传禁忌算法对特征项集进行优化,并在此优化结果的基础上,提出了一种改进的朴素贝叶斯分类方法来解决用户模板中存在的单类别词汇问题。经实验证明,该方法比传统的朴素贝叶斯分类模型具有更好的鲁棒性和分类性能。  相似文献   

7.
朴素贝叶斯分类算法简单且高效, 但其基于属性间强独立性的假设限制了其应用范围. 针对这一问题, 提出一种基于属性选择的改进加权朴素贝叶斯分类算法(ASWNBC). 该算法将基于相关的属性选择算法(CFS)和加权朴素贝叶斯分类算法(WNBC)相结合, 首先使用CFS算法获得属性子集使简化后的属性集尽量满足条件独立性, 同时根据不同属性取值对分类结果影响的不同设计新权重作为算法的加权系数, 最后使用ASWNBC算法进行分类. 实验结果表明, 该算法在降低分类消耗时间的同时提高了分类准确率, 有效地提高了朴素贝叶斯分类算法的性能.  相似文献   

8.
针对朴素贝叶斯算法文本分词中过多的简化和条件独立性假设的缺陷,提出了一种改进的基于朴素贝叶斯算法的短信过滤算法。该算法通过改进概率算法将朴素贝叶斯算法更好地适用于垃圾短信的过滤器中,并且在求得的后验概率中加入了经过统计短信长度得到的不同长度所对应类别的一定概率值,从而降低正常短信被误判的概率。  相似文献   

9.
针对朴素贝叶斯分类算法中缺失数据填补问题,提出一种基于改进EM(Expectation Maximization)算法的朴素贝叶斯分类算法。该算法首先根据灰色相关度对缺失数据一个估计,估计值作为执行EM算法的初始值,迭代执行E步M步后完成缺失数据的填补,然后用朴素贝叶斯分类算法对样本进行分类。实验结果表明,改进算法具有较高的分类准确度。并将改进的算法应用于高校教师岗位等级的评定。  相似文献   

10.
研究了基于SVM算法的改进朴素贝叶斯文本分类算法及在垃圾短信过滤中的应用。针对朴素贝叶斯算法条件独立性假设、过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加,提出了改进的基于SVM算法的朴素贝叶斯算法垃圾短信过滤的解决方案,充分结合了朴素贝叶斯算法高效分类和SVM算法增量学习及不依赖样本空间的特点;首先利用结构风险最小化原理和非线性变换将分类问题转化为二次寻优问题,最后利用朴素贝叶斯算法过滤短信,提高分类的准确度和稳定性;仿真实验结果表明,该算法能够快速得到最优分类特征子集,有效提高了垃圾短信过滤的准确率和分类速度。  相似文献   

11.
基于图模型的TextRank算法是一种有效的关键词提取算法,在提取关键词时可取得较高准确度。但该算法在构造图的关联边时,所采用的共现窗口规则仅考虑了局部词汇间的关联,并具有较大随意性与不确定性。针对这一问题,该文提出了一种基于粗糙数据推理理论的改进TextRank关键词提取算法,粗糙数据推理可扩大关联范围,增加关联数据,得到的结果更加全面。结合粗糙数据推理理论中的关联规则,该文提出的算法做了以下改进: 依据词义对候选关键词进行划分;再通过粗糙数据推理对不同分类中候选词间的关联关系进行推理。实验结果表明,与传统的TextRank算法相比,改进后算法的提取精度有了明显的提高,证明了利用粗糙数据推理的思想能有效地改善算法提取关键词的性能。  相似文献   

12.
决策树C4.5算法的优化与应用   总被引:1,自引:0,他引:1  
C4.5算法作为目前最具影响力的决策树分类算法,仍存一些不足之处。针对C4.5算法在对连续值属性离散化处理过程中比较耗时的缺点,基于Fayyad和Irani的边界定理,在连续属性离散化之后使用Gini指标代替信息熵对算法进行了化简。针对决策树算法中的过度拟合问题,基于Occam’s razor,采用再带入估计,对算法进行了改进。将上述思想应用于金融借贷数据,实验结果表明,改进的C4.5算法在保证准确率的前提下,执行时间平均降低8.74%,模型复杂度平均降低6.26%,表明了该算法的有效性。  相似文献   

13.
周涛  蒋芸  王勇  张国荣  王明芳  明利特 《计算机应用》2010,30(10):2857-2860
为了提高乳腺癌早期诊断的准确率,将小波理论与神经网络理论相结合提出改进的小波神经网络算法。将经过预处理的医学图像提取特征值,然后利用基于改进的小波神经网络算法的分类器对医学图像进行分类。通过实验表明此分类器具有较高的分类精度,是有效和可行的;与单独使用后向传播神经网络算法相比分类效果也得到了改善。  相似文献   

14.
ID3算法是数据挖掘中经典的分类算法。它往往选择取值较多的属性进行分裂训练集,而选取的这个属性并非是最优的。针对这一缺点,提出了一种改进的ID3算法。通过改进信息增益公式,选取最优的划分属性,对采集的数据进行分类处理,建立决策树,这样的决策树包括较少的分支,并且树的高度较低。改进后的算法结合模式匹配算法来检测是否有入侵行为发生。通过实验验证了该算法减少了误报率和漏报率,并且比修改前在速度上有所提高,空间消耗有所减少。  相似文献   

15.
粒子群优化算法PSO(Particle Swarm Optimization)目前仍存在着早熟收敛和收敛速度较慢的难题,提出一种新的PSO改进算法.该算法利用水平集对PSO的每一代粒子按照适应度进行划分,把与目标相关的所有信息结合在一起,改变了原有的PSO进化公式,提高了算法的收敛速度;其次,对于每一代的某个个体进行变异,使其变异到粒子密度低的空间中去,从而提高了粒子的多样性,减少早熟发生的机会.实验证明,这种算法是有效的.  相似文献   

16.
为了支持更多的认知业务,提高认知系统的总体性能,提出了基于业务和信道分级的分布式信道分配算法.根据数据速率的不同,将认知用户的业务需求和可用信道分别分为不同等级,优先分配对应等级的空闲信道给干扰邻居数最小的认知用户,以保证更多的认知业务有机会获得空闲信道.仿真结果表明,算法能满足更多认知业务的需求,符合理论分析的结果.  相似文献   

17.
为解决AdaBoost+Haar分类器易发散和检测效率低等问题,对该算法的训练和检测进行改进:在训练阶段对负样本进行分类,训练出的分类器的结构先简单后复杂,这样可以有效避免分类器在训练的时候过早发散,提高检测效率;在检测阶段,提出车宽匹配检测算法,以检测框底边作参考边,调整检测窗口的范围,减少检测窗口数量。实测表明,在白天不同时段、不同场景情况下用该算法来检测车辆,能够在提高检测率的同时,将检测速度提高7倍。  相似文献   

18.
针对朴素贝叶斯算法存在的三方面约束和限制,提出一种数据缺失条件下的贝叶斯优化算法。该算法计算任两个属性的灰色相关度,根据灰色相关度完成相关属性的联合、冗余属性的删除和属性加权;根据灰色相关度执行改进EM算法完成缺失数据的填补,对经过处理的数据集用朴素贝叶斯算法进行分类。实验结果验证了该优化算法的有效性。  相似文献   

19.
针对入侵检测中存在样本少、特征多、难于将实际经验与现有算法有机结合的问题,将交互式遗传算法应用到入侵检测技术中,并结合SVM的特点,设计出改进后的分类识别算法。实验证明,将SVM与交互式遗传算法相结合应用于入侵检测领域中,算法有效、可行,而且能获得很好的检测率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号