首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
提出一个文本分类器性能评价模型,对文本分类结果的可信度进行了估计,给出计算可信度的公式。将每一个子分类器的可信度指标用于Bagging集成学习算法,得到了改进的基于子分类器性能评价的Bagging算法(PBagging)。应用支持向量机作为子分类器基本模型,对日本共同社大样本新闻集进行分类。实验表明,与Bagging算法相比,PBagging算法分类准确率有了明显提高。  相似文献   

2.
针对卷积神经网络提取特征信息不完整导致图像分类方法分类精度不高等问题,利用深度学习的方法搭建卷积神经网络模型框架,提出一种基于迭代训练和集成学习的图像分类方法。利用数据增强对图像数据集进行预处理操作,在提取图像特征时,采用一种迭代训练卷积神经网络的方式,得到充分有效的图像特征,在训练分类器时,采用机器学习中集成学习的思想。分别在特征提取后训练分类器,根据各分类器贡献的大小,赋予它们不同的权重值,取得比单个分类器更好的性能,提高图像分类的精度。该方法在Stanford Dogs、UEC FOOD-100和CIFAR-100数据集上的实验结果表明了其较好的分类性能。  相似文献   

3.
传统的垃圾分类主要通过人工提取图像特征进行训练分类,过程复杂、特征提取不够均衡、分类效果不佳,已不能满足当前的垃圾分类需求.文章提出一种垃圾图像分类模型,为解决目标函数训练数据量不足的问题,先对图像进行预处理操作,对大规模数据集ImageNet上训练好的ResNet50进行迁移学习,修改全连接层,在华为提供的1万余张垃圾图像数据集上进行微调,优化网络.实验结果表明,按照当前垃圾分类标准划分为4类的前提下准确率可达92%左右,能够基本满足日常生活垃圾的分类需求.  相似文献   

4.
传统的垃圾分类主要通过人工提取图像特征进行训练分类,过程复杂、特征提取不够均衡、分类效果不佳,已不能满足当前的垃圾分类需求.文章提出一种垃圾图像分类模型,为解决目标函数训练数据量不足的问题,先对图像进行预处理操作,对大规模数据集ImageNet上训练好的ResNet50进行迁移学习,修改全连接层,在华为提供的1万余张垃圾图像数据集上进行微调,优化网络.实验结果表明,按照当前垃圾分类标准划分为4类的前提下准确率可达92%左右,能够基本满足日常生活垃圾的分类需求.  相似文献   

5.
基于词频分类器集成的文本分类方法   总被引:8,自引:0,他引:8  
提出了一种基于词频分类器集成的文本分类方法.词频分类器是在对文本中的单词和它在每个文本中出现的频率进行统计后得到的简单分类器.虽然词频分类器本身泛化能力不强,但它不仅计算代较小,而且在训练样本甚至类别增加时易于进行更新,而整个学习系统的泛化能力可以由集成学习机制来提高,因此,词频分类器很适合用做集成学习的基分类器.在集成时,使用了改进的AdaBoost算法,加入了一种强制重新分布权的机制,避免算法过早停止,更加适合文本分类任务.在标准文集Reuters-21578上的实验结果表明,该方法能取得很好的效果.  相似文献   

6.
基于Bagging的概率神经网络集成分类算法   总被引:1,自引:0,他引:1  
目前的神经网络较多集中在以BP算法为基础的BP神经网络上。针对BP神经网络的不足,在分析研究概率神经网络和机器学习的基础上,结合集成学习的思想,提出了基于Bagging的概率神经网络集成分类算法。理论分析和实验结果都表明,提出的算法能够有效地降低分类误差,提高分类准确率,具有较好的泛化能力以及较快的执行速度,能够取得比传统的BP神经网络分类方法更好和更稳定的分类结果。  相似文献   

7.
8.
垃圾分类识别算法是目前研究的热点问题,本文通过引入色块追踪模块Lab颜色模型对YOLOv3算法进行优化,利用优化后的算法搭建训练模型。并针对目前垃圾类别利用网络爬虫爬取日常生活中常见的垃圾图像并进行分类,形成数据集。其次通过优化的YOLOv3算法对处理好的数据集进行模型训练,将训练后的模型进行模型检测。最后通过实际测试,优化后的YOLOv3算法识别的平均准确率达到了94.33%,与原始算法相比,优化后的算法在稳定性和准确度上都有了明显的改善。  相似文献   

9.
不同类型的树叶有不同的形状特征,依据叶片的这些特征可以简单而有效地区分不同种类的叶片。该文在Matlab平台上从二值化的树叶图片中提取了13维特征指标,包括长宽比、矩形度、圆形度等,依据这些特征指标,使用概率神经网络(PNN)在83种树叶的数据集上进行实验,识别结果的平均准确率约为86.3%,使用集成学习(Bagging)对分类算法进行改进,使用PNN作为弱分类器,将多个PNN分类器的投票结果作为最终分类结果输出,相比于传统的PNN算法,该文使用的Bagging-PNN算法对于叶片识别准确率提高到了90.3%。  相似文献   

10.
方丁  王刚 《计算机系统应用》2012,21(7):177-181,248
随着Web2.0的迅速发展,越来越多的用户乐于在互联网上分享自己的观点或体验。这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信息的收集和处理,因此基于计算机的文本情感分类技术应运而生,并且研究的重点之一就是提高分类的精度。由于集成学习理论是提高分类精度的一种有效途径,并且已在许多领域显示出其优于单个分类器的良好性能,为此,提出基于集成学习理论的文本情感分类方法。实验结果显示三种常用的集成学习方法 Bagging、Boosting和Random Subspace对基础分类器的分类精度都有提高,并且在不同的基础分类器条件下,Random Subspace方法较Bagging和Boosting方法在统计意义上更优,以上结果进一步验证了集成学习理论在文本情感分类中应用的有效性。  相似文献   

11.
在实际的分类任务中,无标记样本数量充足而有标记样本数量稀少的情况经常出现,目前处理这种情况的常用方法是半监督自训练分类算法。提出了一种基于数据密度的半监督自训练分类算法,该算法首先依据数据的密度对数据集进行划分,从而确定数据的空间结构;然后再按照数据的空间结构对分类器进行自训练的迭代,最终得到一个新的分类器。在UCI中6个数据集上的实验结果表明,与三种监督学习算法以及其分别对应的自训练版本相比,提出的算法分类效果更好。  相似文献   

12.
基于互联网和self-training的中文问答模式学习   总被引:1,自引:0,他引:1  
在已有的问答模式学习中,模式定义和候选答案评分偏于简单,而且学习过程依赖于人工标定语料。通过挖掘Web文本中动、名词序列的骨架模式,用以扩充模式定义;将self-training学习机制引入问答模式学习:用一对训练语料进行初始学习,通过互联网搜索,自动选择可靠程度较高的问答对,重新训练;扩充了启发规则,改进候选答案的评分方法。实验结果表明:所提出的问答模式学习方法能有效地提高中文问答系统的性能。  相似文献   

13.
针对集成自训练算法随机初始化有标记样本容易在迭代中局部过拟合,不能很好地泛化到样本原始空间结构和集成自训练算法用WKNN分类器做数据剪辑时没有考虑到无标记样本对待测样本类别判定有影响的问题,提出结合近邻密度和半监督KNN的集成自训练算法。该算法用近邻密度方法选取初始化的已标注样本,避免已标注样本周围[k]个近邻样本成为已标注候选集。这样使初始化的已标注样本间的距离尽量分散,以更好地反应样本原始空间结构。同时在已标注样本候选集中选取密度最大的样本作为已标注样本。为了提高数据剪辑的性能,用半监督KNN代替WKNN,弥补WKNN做数据剪辑的时候只考虑到了有标记样本对待测样本类别的影响,而没有利用待测样本周围的无标记样本的问题,在UCI数据集上的对比实验验证了提出算法的有效性。  相似文献   

14.
基于集成学习的自训练算法是一种半监督算法,不少学者通过集成分类器类别投票或平均置信度的方法选择可靠样本。基于置信度的投票策略倾向选择置信度高的样本或置信度低但投票却一致的样本进行标记,后者这种情形可能会误标记靠近决策边界的样本,而采用异构集成分类器也可能会导致各基分类器对高置信度样本的类别标记不同,从而无法将其有效加入到有标记样本集。提出了结合主动学习与置信度投票策略的集成自训练算法用来解决上述问题。该算法合理调整了投票策略,选择置信度高且投票一致的无标记样本加以标注,同时利用主动学习对投票不一致而置信度较低的样本进行人工标注,以弥补集成自训练学习只关注置信度高的样本,而忽略了置信度低的样本的有用信息的缺陷。在UCI数据集上的对比实验验证了该算法的有效性。  相似文献   

15.
方面提取是观点挖掘和情感分析任务中的关键一步,随着社交网络的发展,用户越来越倾向于根据评论信息来帮助进行决策,并且用户也更加关注评论的细粒度的信息,因此,从海量的网络评论数据中快速挖掘方面信息对于用户快速决策具有重要意义。大部分基于主题模型和聚类的方法在方面提取的一致性上效果并不好,传统的监督学习的方法效果虽然表现很好,但是需要大量的标注文本作为训练数据,标注文本需要消耗大量的人力成本。基于以上问题,本文提出一种基于半监督自训练的方面提取方法,充分利用现存的大量未标签的数据价值,在未标签数据集上通过词向量模型寻找方面种子词的相似词,对每个方面建立与数据集最相关的方面表示词集合,本文方法避免了大量的文本标注,充分利用未标签数据的价值,并且本文方法在中文和英文数据集上都表现出了理想的效果。  相似文献   

16.
基于频谱能量的指纹分类   总被引:1,自引:0,他引:1  
指纹分类是自动指纹识别系统中的关键技术,但目前的算法对低质量的指纹图像的分类还存在较大的误差.为了能够对低质量的指纹图像进行准确分类,提出了一种基于频谱能量的指纹分类,首先对分块的指纹图像进行傅立叶变换,然后根据频谱图中能量的分布特点得到指纹图像的方向图,提取core点周围的指纹图像的方向向量作为该指纹图像的特征向量.最后使用K近邻分类器和最小距离分类器对输入指纹进行分类.在NIST-4指纹数据库上的实验结果表明了算法的有效性,分类正确率达到94.1%,且算法速度比同类算法有较大的提高.  相似文献   

17.
一种基于AdaBoost-SVM的流量分类方法   总被引:1,自引:0,他引:1  
针对传统分类方法的缺陷, 提出了一种基于AdaBoost-SVM的流量方法。该方法利用K-L变换从大量冗余流量特征中遴选出少量本征特征, 有效降低了算法的处理复杂度; 应用AdaBoost机制将一次分类过程等分成若干层基于支持向量机的弱分类器, 使得分类方法简单、易于实现; 通过分层组合和迭代权重的方法聚焦在困难分类的数据样本上, 提高了分类器的准确性能。理论分析和实验结果表明:在降低计算复杂度的同时, AdaBoost-SVM算法的准确性能够达到95%。  相似文献   

18.
李婷婷  吕佳  范伟亚 《计算机应用》2019,39(10):2822-2828
正例无标记(PU)学习中的间谍技术极易受噪声和离群点干扰,导致划分的可靠正例不纯,且在初始正例中随机选择间谍样本的机制极易造成划分可靠负例时效率低下,针对这些问题提出一种结合新型间谍技术和半监督自训练的PU学习框架。首先,该框架对初始有标记样本进行聚类并选取离聚类中心较近的样本来取代间谍样本,这些样本能有效地映射出无标记样本的分布结构,从而更好地辅助选取可靠负例;然后对间谍技术划分后的可靠正例进行自训练提纯,采用二次训练的方式取回被误分为正例样本的可靠负例。该框架有效地解决了传统间谍技术在PU学习中分类效率易受数据分布干扰以及随机间谍样本影响的问题。通过9个标准数据集上的仿真实验结果表明,所提框架的平均分类准确率和F-值均高于基本PU学习算法(Basic_PU)、基于间谍技术的PU学习算法(SPY)、基于朴素贝叶斯的自训练PU学习算法(NBST)和基于迭代剪枝的PU学习算法(Pruning)。  相似文献   

19.
根据免疫否定选择原理,设计了基于掩码分段匹配的否定选择分类器,用于实现规则匹配分类。给出了适用于免疫优化的分类规则编码及分类信息分的评价标准,通过免疫进化对其进行群体优化以生成更为简洁、便于理解的数据规则集。该方法使得免疫优化的各种优良特性在数据分类中得到充分的运用,避免了传统分类算法缺乏全局优化能力的缺点,提高了对样本的识别能力。实验结果表明,这种免疫分类器及优化方法是一种有效、可行的分类器设计方案,提高了数据分类的准确性。  相似文献   

20.
词义消歧一直是自然语言处理中的热点和难题。集成方法被认为是机器学习研究的四大趋势之一,在系统研究已有集成学习方法在汉语词义消歧中的应用后,借鉴模式识别领域集成分类器思想,提出了一种动态自适应加权投票的多分类器集成方法来构建融合分类器。实验结果表明,所提融合分类器模型对汉语文本自动消歧结果的准确率提高较大。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号