首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
基于混合概率模型的无监督离散化算法   总被引:10,自引:0,他引:10  
李刚 《计算机学报》2002,25(2):158-164
现实应用中常常涉及许多连续的数值属性,而且前许多机器学习算法则要求所处理的属性取离散值,根据在对数值属性的离散化过程中,是否考虑相关类别属性的值,离散化算法可分为有监督算法和无监督算法两类。基于混合概率模型,该文提出了一种理论严格的无监督离散化算法,它能够在无先验知识,无类别是属性的前提下,将数值属性的值域划分为若干子区间,再通过贝叶斯信息准则自动地寻求最佳的子区间数目和区间划分方法。  相似文献   

2.
已有的数据流分类算法多采用有监督学习,需要使用大量已标记数据训练分类器,而获取已标记数据的成本很高,算法缺乏实用性。针对此问题,文中提出基于半监督学习的集成分类算法SEClass,能利用少量已标记数据和大量未标记数据,训练和更新集成分类器,并使用多数投票方式对测试数据进行分类。实验结果表明,使用同样数量的已标记训练数据,SEClass算法与最新的有监督集成分类算法相比,其准确率平均高5。33%。且运算时间随属性维度和类标签数量的增加呈线性增长,能够适用于高维、高速数据流分类问题。  相似文献   

3.
目前,网络对抗对入侵检测智能化和自主性的需求不断提高,基于深度学习的方法通过训练和学习来区分复杂攻击模式和行为,但有监督的学习方法需要专家知识和大量人工开销。针对上述问题,文章提出一种基于集成学习的无监督网络入侵检测方法,并使用基于3种不同异常检测理念的深度学习检测器,在3种不同集成逻辑下对各单检测器的检测结果进行检测判定。该方法可以综合分析时间序列数据中不同类型的异常数据,降低无监督异常检测模型由于过度拟合所造成的影响,并以一种高效的在线方式检测可能存在的网络攻击数据流。在KDD CUP 1999和CSE-CICIDS 2018数据集上进行验证,实验结果表明,与其他单一的无监督异常检测模型相比,文章提出的集成方法结合了不同无监督检测模型的优势,适用于对多种网络入侵引起的异常进行检测。  相似文献   

4.
当前已有的数据流分类模型都需要大量已标记样本来进行训练,但在实际应用中,对大量样本标记的成本相对较高。针对此问题,提出了一种基于半监督学习的数据流混合集成分类算法SMEClass,选用混合模式来组织基础分类器,用K个决策树分类器投票表决为未标记数据添加标记,以提高数据类标的置信度,增强集成分类器的准确度,同时加入一个贝叶斯分类器来有效减少标记过程中产生的噪音数据。实验结果显示,SMEClass算法与最新基于半监督学习的集成分类算法相比,其准确率有所提高,在运行时间和抗噪能力方面有明显优势。  相似文献   

5.
推特文本中包含着大量的非标准词,这些非标准词是由人们有意或无意而创造的。对很多自然语言处理的任务而言,预先对推特文本进行规范化处理是很有必要的。针对已有的规范化系统性能较差的问题,提出一种创新的无监督文本规范化系统。首先,使用构造的标准词典来判断当前的推特是否需要标准化。然后,对推特中的非标准词会根据其特征来考虑进行一对一还是一对多规范化;对于需要一对多的非标准词,通过前向和后向搜索算法,计算出所有可能的多词组合。其次,对于多词组合中的非规范化词,基于二部图随机游走和误拼检查,来产生合适的候选。最后,使用基于上下文的语言模型来得到最合适的标准词。所提算法在数据集上获得86.4%的F值,超过当前最好的基于图的随机游走算法10个百分点。  相似文献   

6.
半监督集成是将半监督学习与集成学习相结合的一种学习范式,它一方面通过无标记样本来提高集成学习的多样性,同时解决集成学习样本量不足的问题,另一方面集成多个分类器能够进一步提升半监督学习模型的性能。现有的研究从理论和实践两个角度证明了半监督学习与集成学习之间的互益性。针对当前半监督集成学习算法对无标记样本信息利用不完全的缺陷,文中提出了一种新的基于分类不确定性最小化的半监督集成学习(Classification Uncertainty Minimization-Based Semi-Supervised Ensemble Learning, CUM-SSEL)算法,它引入信息熵作为对无标记样本进行打标的置信度评判标准,通过最小化无标记样本打标过程中的不确定性迭代地训练分类器,实现对无标记样本的高效利用,以增强分类器的泛化性能。在标准的实验数据集上对CUM-SSEL算法的可行性、合理性和有效性进行了验证,实验表明:随着基分类器的增加,CUM-SSEL算法的训练呈现收敛的趋势,同时它能够获得优于Self-Training, Co-Training, Tri-Training, Semi-Boo...  相似文献   

7.
蔡铁  伍星  李烨 《计算机应用》2008,28(8):2091-2093
为构造集成学习中具有差异性的基分类器,提出基于数据离散化的基分类器构造方法,并用于支持向量机集成。该方法采用粗糙集和布尔推理离散化算法处理训练样本集,能有效删除不相关和冗余的属性,提高基分类器的准确性和差异性。实验结果表明,所提方法能取得比传统集成学习算法Bagging和Adaboost更好的性能。  相似文献   

8.
近邻法对不相关特征的敏感性很高,利用邻域重构系数可以保持原有数据结构的优点,为此,文中提出基于邻域保持学习的无监督特征选择算法.首先根据数据样本和邻域的相似性构造相似矩阵,并引入中间矩阵构造低维空间.然后利用拉普拉斯乘子法选择有效特征子集.在4个公开数据集上的实验表明,文中算法可以有效识别代表性特征.  相似文献   

9.
龚永红  郑威  吴林  谭马龙  余浩 《计算机应用》2018,38(10):2856-2861
针对现有属性选择算法平等地对待每个样本而忽略样本之间的差异性,从而使学习模型无法避免噪声样本影响问题,提出一种融合自步学习理论的无监督属性选择(UFS-SPL)算法。首先自动选取一个重要的样本子集训练得到属性选择的鲁棒性初始模型,然后逐步自动引入次要样本提升模型的泛化能力,最终获得一个能避免噪声干扰而同时具有鲁棒性和泛化性的属性选择模型。在真实数据集上与凸半监督多标签属性选择(CSFS)、正则化自表达(RSR)和无监督属性选择的耦合字典学习方法(CDLFS)相比,UFS-SPL的聚类准确率、互信息和纯度平均提升12.06%、10.54%和10.5%。实验结果表明,UFS-SPL能够有效降低数据集中无关信息的影响。  相似文献   

10.
半监督分类算法试图根据已知样本对特定的未知样本建立一套进行识别的方法和准则。渐进直推式分类学习算法是一种基于SVM的半监督分类学习方法,在基于渐进直推式分类学习算法的基础上,利用Fisher准则中的样本离散度作为度量标准,采用Fisher准则函数作为评价函数,提出了一种基于离散度量和SVM相结合的半监督分类算法,在时间复杂度和样本测试精度上较PTSVM算法都取得了良好的学习效果。  相似文献   

11.
用代表点替代类均值代表类、用加权距离替代欧氏距离作为样本与类之间的相似性度量,由此建立一种新的无监督数据聚类算法.提取指标对分类所作贡献大小的量化值,以此为启发性知识定义加权距离,建立了用质心修正当前代表点的迭代算法.与均值聚类等序贯算法不同,基于质心的迭代算法的批处理性可消除输入产生的随机性干扰.采用IRIS数据和Breast Cancer数据验证了该算法的有效性.  相似文献   

12.
Elghazel  Haytham  Aussem  Alex 《Machine Learning》2015,98(1-2):157-180
Machine Learning - In this paper, we show that the way internal estimates are used to measure variable importance in Random Forests are also applicable to feature selection in unsupervised...  相似文献   

13.
针对基于自编码器的离群点检测算法在中小规模数据集上易过拟合以及传统的基于集成学习的离群点检测算法未对基检测器进行优化选择而导致的检测精度低的问题,提出了一种基于自编码器与集成学习的离群点检测(EAOD)算法。首先,随机改变自编码器的连接结构来生成不同的基检测器,以获取数据对象的离群值和标签离群值;然后,通过最近邻算法计算数据对象之间的欧氏距离,并在对象周围构建局部区域;最后,根据离群值与标签离群值之间的相似度,选择在该区域内检测能力强的基检测器进行组合,组合后的对象离群值作为EAOD算法最终判定的离群值。在实验中,所提算法与自编码器(AE)算法相比,在Cardio数据集上,接受者操作特征曲线下方的面积(AUC)和平均精度(AP)分值分别提高了8.08个百分点和9.17个百分点;所提算法与特征装袋(FB)集成学习算法相比,在Mnist数据集上,运行时间成本降低了21.33%。实验结果表明,在无监督学习下所提算法具有良好的检测性能和检测实时性。  相似文献   

14.
为了去除集成学习中的冗余个体,提出了一种基于子图选择个体的分类器集成算法。训练出一批分类器,利用个体以及个体间的差异性构造出一个带权的完全无向图;利用子图方法选择部分差异性大的个体参与集成。通过使用支持向量机作为基学习器,在多个分类数据集上进行了实验研究,并且与常用的集成方法Bagging和Adaboost进行了比较,结果该方法获得了较好的集成效果。  相似文献   

15.
顾清华  张晓玥  陈露 《控制与决策》2022,37(10):2456-2466
当使用代理辅助进化算法求解昂贵高维多目标优化问题时,代理模型通常用于近似昂贵的适应度函数.然而,随着目标数的增加,近似误差将逐渐累积,计算量也会急剧增加.对此,提出一种基于改进集成学习分类的代理辅助进化算法,使用一种改进的装袋集成学习分类器作为代理模型.首先,从被昂贵的适应度评价的个体中选择一组分类边界,将所有个体分成两类;其次,利用这些带有分类标签的个体训练分类器,以对候选个体的类别进行预测;最后,选择有前途的个体进行昂贵适应度评价.实验结果表明,算法中所提出的代理模型可有效提高基于分类的代理辅助进化算法求解昂贵高维多目标优化问题的能力,且与目前流行的代理辅助进化算法相比,基于改进集成学习分类的代理辅助进化算法更具竞争力.  相似文献   

16.
针对无标签高维数据的大量出现,对机器学习中无监督特征选择进行了研究。提出了一种结合自表示相似矩阵和流形学习的无监督特征选择算法。首先,通过数据的自表示性质,构建相似矩阵,结合低维流形能够表示高维数据结构这一流形学习思想,建立一种考虑流形学习的无监督特征选择优化模型。其次,为了保证选择更有用及更稀疏的特征,采用◢l◣▼2,1▽范数对优化模型进行约束,使特征之间相互竞争,消除冗余。进而,通过变量交替迭代对优化模型进行求解,并证明了算法的收敛性。最后,通过与其他几个无监督特征算法在四个数据集上的对比实验,表明所给算法的有效性。  相似文献   

17.
针对传统人工设计特征描述不充分及单分类器泛化能力弱等问题,提出一种基于深度卷积神经网络(DCNN)特征与集成学习相结合的车型分类算法。微调VGG16深度卷积神经网络模型,将全连接层Fc7输出的4096维矢量采用PCA方法降至100维,作为图像的特征表示;采用拉格朗日支持向量机(LSVM)作为基分类器,以Adaboost方法自动学习各样本及基分类器的权重实现分类器集成。基于BIT和MIO-TCD数据集的对比实验结果表明,平均分类精度分别达到84.5%与83%,优于其它传统特征与单分类器方法。  相似文献   

18.
目前数据流分类算法大多是基于类分布这一理想状态,然而在真实数据流环境中数据分布往往是不均衡的,并且数据流中往往伴随着概念漂移。针对数据流中的不均衡问题和概念漂移问题,提出了一种新的基于集成学习的不均衡数据流分类算法。首先为了解决数据流的不均衡问题,在训练模型前加入混合采样方法平衡数据集,然后采用基分类器加权和淘汰策略处理概念漂移问题,从而提高分类器的分类性能。最后与经典数据流分类算法在人工数据集和真实数据集上进行对比实验,实验结果表明,本文提出的算法在含有概念漂移和不均衡的数据流环境中,其整体分类性能优于其他算法的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号