共查询到19条相似文献,搜索用时 140 毫秒
1.
提出了一种使用基于贝叶斯的基分类器建立组合分类器的新方法PCABoost.本方法在创建训练样本时,随机地将特征集划分成K个子集,使用PCA得到每个子集的主成分,形成新的特征空间,并将全部的训练数据映射到新的特征空间作为新的训练集.通过不同的变换生成不同的特征空间,从而产生若干个有差异的训练集.在每一个新的训练集上利用AdaBoost建立一组基于贝叶斯的逐渐提升的分类器(即一个分类器组),这样就建立了若干个有差异的分类器组,然后在每个分类器组内部通过加权投票产生一个预测,再把每个组的预测通过投票来产生组合分类器的分类结果,最终建立一个具有两层组合的组合分类器.从UCI标准数据集中随机选取30个数据集进行实验.结果表明,本算法不仅能够显著提高基于贝叶斯的分类器的分类性能,而且与Rotation Forest和AdaBoost等组合方法相比,在大部分数据集上都具有更高的分类准确率. 相似文献
2.
《计算机应用与软件》2017,(6)
针对难以获得大量有标签的训练集问题,将增量式贝叶斯学习用于小规模训练集上,并提出了一种新的序列学习算法以弥补其学习序列中存在的不足:无法充分利用先验知识导致噪声数据不断传播。在增量学习的样本选择上,算法引入了配对样本检验和类支持度的知识,分别从横向和纵向角度充分利用先验知识来选取最优增量子集优化分类器,使分类器参数在动态学习过程中得以强化。实验结果表明,该算法能有效弱化噪声数据的消极影响,提高分类精度,同时能大幅度减少增量学习时间。 相似文献
3.
4.
5.
6.
针对传统的基于传输层端口和基于特征码的流量分类技术准确率低、应用范围有限等缺点,提出了使用树扩展的贝叶斯分类器的方法,该方法利用网络流量的统计属性和基于统计理论的贝叶斯方法构建分类模型,并利用该模型对未知流量进行分类。实验分析了不同权值、不同规模的数据集对其性能的影响,并与NB、C4.5算法做了比较。实验结果表明,该方法具有较好的分类性能和较高的分类准确率。 相似文献
7.
一种基于朴素贝叶斯分类的性能预测方法 总被引:1,自引:0,他引:1
基于朴素贝叶斯分类提出了一种复杂应用系统的性能预测方法.利用应用系统性能测试的结果作为训练集,引入朴素贝叶斯分类方法训练分类器,再将该分类器包装成预测模块嵌入应用系统,对响应时间等多种性能属性进行预测.与传统方法相比,该方法具有准确度高、构造简单、效率高、鲁棒性强、松耦合等优势.在针对金融报表系统的对比实验中准确率达到... 相似文献
8.
为了提高问答系统对问句理解的准确率,以概念层次网络理论结合传统计算语言学为思路,提出了适用于限定领域中问句分析模型,并根据限定领域的知识特点,设计了新的问句分类方法.在此问句分类方法的基础上,改进了基于多元贝努里模型的贝叶斯分类算法.在以实际教学过程中所收集的真实问句为问题集和训练集的测试中,取得了较好的实践效果. 相似文献
9.
10.
贝叶斯在训练样本不完备的情况下,对未知类别新增训练集进行增量学习时,会将分类错误的训练样本过早地加入到分类器中而降低其性能,另外增量学习采用固定的置信度评估参数会使其效率低下,泛化性能不稳定.为解决上述问题,提出一种动态置信度的序列选择增量学习方法.首先,在现有的分类器基础上选出分类正确的文本组成新增训练子集.其次,利用置信度动态监控分类器性能来对新增训练子集进行批量实例选择.最后,通过选择合理的学习序列来强化完备数据的积极影响,弱化噪声数据的消极影响,并实现对测试文本的分类.实验结果表明,本文提出的方法在有效提高分类精度的同时也能明显改善增量学习效率. 相似文献
11.
提出了一种没有训练集情况下实现对未标注类别文本文档进行分类的问题。类关联词是与类主体相关、能反映类主体的单词或短语。利用类关联词提供的先验信息,形成文档分类的先验概率,然后组合利用朴素贝叶斯分类器和EM迭代算法,在半监督学习过程中加入分类约束条件,用类关联词来监督构造一个分类器,实现了对完全未标注类别文档的分类。实验结果证明,此方法能够以较高的准确率实现没有训练集情况下的文本分类问题,在类关联词约束下的分类准确率要高于没有约束情况下的分类准确率。 相似文献
12.
一种限定性的双层贝叶斯分类模型 总被引:29,自引:1,他引:28
朴素贝叶斯分类模型是一种简单而有效的分类方法,但它的属性独立性假设使其无法表达属性变量间存在的依赖关系,影响了它的分类性能.通过分析贝叶斯分类模型的分类原则以及贝叶斯定理的变异形式,提出了一种基于贝叶斯定理的新的分类模型DLBAN(double-level Bayesian network augmented naive Bayes).该模型通过选择关键属性建立属性之间的依赖关系.将该分类方法与朴素贝叶斯分类器和TAN(tree augmented naive Bayes)分类器进行实验比较.实验结果表明,在大多数数据集上,DLBAN分类方法具有较高的分类正确率. 相似文献
13.
问题分类旨在对问题的类型进行自动分类,该任务是问答系统研究的一项基本任务。提出了一种基于答案辅助的半监督问题分类方法。首先,将答案特征结合问题特征一起实现样本表示;然后,利用标签传播方法对已标注问题训练分类器,自动标注未标注问题的类别;最后,将初始标注的问题和自动标注的问题合并作为训练样本,利用最大熵模型对问题的测试文本进行分类。实验结果表明,本文提出的基于答案辅助的半监督分类方法能够充分利用未标注样本提升性能,明显优于其他的基准方法。 相似文献
14.
针对朴素贝叶斯(NB)分类器在分类过程中存在诸如分类模型对样本具有敏感性、分类精度难以提高等缺陷,提出一种基于多种特征选择方法的NB组合文本分类器方法。依据Boosting分类算法,采用多种不同的特征选择方法建立文本的特征词集,训练NB分类器作为Boosting迭代过程的基分类器,通过对基分类器的加权投票生成最终的NB组合文本分类器。实验结果表明,该组合分类器较单NB文本分类器具有更好的分类性能。 相似文献
15.
16.
17.
18.
Each type of classifier has its own advantages as well as certain shortcomings. In this paper, we take the advantages of the associative classifier and the Naïve Bayes Classifier to make up the shortcomings of each other, thus improving the accuracy of text classification. We will classify the training cases with the Naïve Bayes Classifier and set different confidence threshold values for different class association rules (CARs) to different classes by the obtained classification accuracy rate of the Naïve Bayes Classifier to the classes. Since the accuracy rates of all selected CARs of the class are higher than that obtained by the Naïve Bayes Classifier, we could further optimize the classification result through these selected CARs. Moreover, for those unclassified cases, we will classify them with the Naïve Bayes Classifier. The experimental results show that combining the advantages of these two different classifiers better classification result can be obtained than with a single classifier. 相似文献
19.
问题分类是问答系统中重要的组成部分,问题分类结果的准确性直接影响到问答系统的质量。基于汉语框架网(Chinese FrameNet,CFN)提出了一种用于中文问题分类的新方法。该方法通过构建一系列汉语框架语义特征来表达每个问句的语义信息,进而使用最大熵模型进行中文问题的自动分类,与传统的问题分类技术相比,汉语框架语义信息的加入使得中文问题分类的精度得到了显著提高。实验结果进一步验证了该方法的有效性,大类和小类的分类精度分别达到了91.38%和83.20%。 相似文献