首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
针对软件缺陷预测中的样本集数量少和分布不对称问题,提出一种基于均衡有偏支持向量机的软件缺陷预测方法。该方法通过标记样本集和未标记样本集进行半监督学习,在少量非对称的标记样本集上,利用有偏支持向量机进行泛化学习。在半监督学习的迭代过程中,采用重采样策略平衡样本集以消除大量不对称的未标记样本集对软件缺陷预测的性能影响。在基准数据集上的实验结果表明,该方法能够有效地对类别不均衡的样本集进行软件缺陷预测。  相似文献   

2.
为解决传统协同过滤算法中用户评分数据稀疏性,忽视物品及用户特征,所带来的推荐质量下降的问题,提出了一种基于安全的、高置信度的半监督方法的协同过滤推荐算法,采用安全的,高置信度的半监督方法S4VM对没有评分的数据进行有效预测,同时考虑用户的行为信息以及物品及用户特征。通过对未评分数据进行预测,能够有效地缓解数据的稀疏性,从而提高寻找最近邻的准确度。实验结果表明,该算法能够有效地提高系统的推荐质量。  相似文献   

3.
如何有效利用海量的数据是当前机器学习面临的一个重要任务,传统的支持向量机是一种有监督的学习方法,需要大量有标记的样本进行训练,然而有标记样本的数量是十分有限的并且非常不易获取.结合Co-training算法与Tri-training算法的思想,给出了一种半监督SVM分类方法.该方法采用两个不同参数的SVM分类器对无标记样本进行标记,选取置信度高的样本加入到已标记样本集中.理论分析和计算机仿真结果都表明,文中算法能有效利用大量的无标记样本,并且无标记样本的加入能有效提高分类的正确率.  相似文献   

4.
针对半监督软件缺陷预测中的类不平衡以及特征中含有过多无关特征和冗余特征的问题,提出一种改进的半监督集成软件缺陷预测方法FeSSTri(semi-supervised software prediction using Feature Selecting and Sample and Tri-training).首先使用...  相似文献   

5.
为了在标记样本数目有限时尽可能地提高支持向量机的分类精度,提出了一种基于聚类核的半监督支持向量机分类方法。该算法依据聚类假设,即属于同一类的样本点在聚类中被分为同一类的可能性较大的原则去对核函数进行构造。采用K-均值聚类算法对已有的标记样本和所有的无标记样本进行多次聚类,根据最终的聚类结果去构造聚类核函数,从而更好地反映样本间的相似程度,然后将其用于支持向量机的训练和分类。理论分析和计算机仿真结果表明,该方法充分利用了无标记样本信息,提高了支持向量机的分类精度。  相似文献   

6.
在软件缺陷预测中,标记样本不足与类不平衡问题会影响预测结果.为了解决这些问题,文中提出基于半监督集成学习的软件缺陷预测方法.该方法利用大量存在的未标记样本进行学习,得到较好的分类器,同时能集成一系列弱分类器,减少多数类数据对预测产生的偏倚.考虑到预测风险成本问题,文中还采用训练样本集权重向量更新策略,降低有缺陷模块预测为无缺陷模块的风险.在NASA MDP数据集上的对比实验表明,文中方法具有较好的预测效果.  相似文献   

7.
曹路 《计算机科学》2016,43(12):97-100
传统的支持向量机在处理不平衡数据时效果不佳。为了提高少类样本的识别精度,提出了一种基于支持向量的上采样方法。首先根据K近邻的思想清除原始数据集中的噪声;然后用支持向量机对训练集进行学习以获得支持向量,进一步对少类样本的每一个支持向量添加服从一定规律的噪声,增加少数类样本的数目以获得相对平衡的数据集;最后将获得的新数据集用支持向量机学习。实验结果显示,该方法在人工数据集和UCI标准数据集上均是有效的。  相似文献   

8.
在生物信息学中,对给定氨基酸序列的蛋白质进行分类,检测细微的蛋白质序列相似性或远同源性对于准确预测蛋白质功能和结构都非常重要。提出一种新的基于半监督支持向量机的远同源性检测方法,通过定义序列概率剖面,充分利用大型数据库的非标记数据,并行构筑支持向量机核函数,并结合最近邻分类器实现对任何数据的全覆盖。实验表明,该方法能够大幅提高蛋白质序列分类器的性能与效率。使用并行技术将总体计算时间控制在一定范围,推动了半监督支持向量机分类器的广泛应用。  相似文献   

9.
胡庆辉  丁立新  何进荣 《软件学报》2013,24(11):2522-2534
在机器学习领域,核方法是解决非线性模式识别问题的一种有效手段.目前,用多核学习方法代替传统的单核学习已经成为一个新的研究热点,它在处理异构、不规则和分布不平坦的样本数据情况下,表现出了更好的灵活性、可解释性以及更优异的泛化性能.结合有监督学习中的多核学习方法,提出了基于Lp范数约束的多核半监督支持向量机(semi-supervised support vector machine,简称S3VM)的优化模型.该模型的待优化参数包括高维空间的决策函数fm和核组合权系数θm.同时,该模型继承了单核半监督支持向量机的非凸非平滑特性.采用双层优化过程来优化这两组参数,并采用改进的拟牛顿法和基于成对标签交换的局部搜索算法分别解决模型关于fm的非平滑及非凸问题,以得到模型近似最优解.在多核框架中同时加入基本核和流形核,以充分利用数据的几何性质.实验结果验证了算法的有效性及较好的泛化性能.  相似文献   

10.
针对支持向量机要求输入向量为已标记样本,而实际应用中已标记样本很难获取的问题,提出将半监督学习和支持向量机结合的煤与瓦斯突出预测方法;介绍了采用SVM预测煤与瓦斯突出的流程及其输入向量的选择;对半监督学习中的协同训练算法进行了改进:在同一属性集上训练2个不同分类器SVM和KNN,将2个分类器标记一致的样本加入训练集,从而充分利用未标记样本不断补充信息,更新训练集标记样本,达到强化训练集的目的。测试结果表明,改进后的算法比单独的支持向量机预测方法准确率更高。  相似文献   

11.
软件缺陷预测已成为软件工程的重要研究课题,构造了一个基于粗糙集和支持向量机的软件缺陷预测模型。该模型通过粗糙集对原样本集进行属性约减,去掉冗余的和与缺陷预测无关的属性,利用粒子群对支持向量机的参数做选择。实验数据来源于NASA公共数据集,通过属性约减,特征属性由21个约减为5个。实验表明,属性约减后,Bayes分类器、CART树、神经网络和本文提出的粗糙集—支持向量机模型的预测性能均有所提高,本文提出的粗糙集支持向量机的预测性能好于其他三个模型。  相似文献   

12.
将支持向量机与半监督学习理论相结合,提出基于支持向量机协同训练的半监督回归模型,使用两个支持向量机回归模型相互影响,协同训练。利用实验数据集进行实验,并与监督支持向量机回归模型、半监督自训练支持向量机回归模型作比较。实验结果表明,基于支持向量机协同训练的半监督回归模型在缺少标记样本的情况下,提高了回归估计的精度。  相似文献   

13.
软件缺陷预测是典型的非平衡学习问题。基于CS SVM和聚类算法改进代价敏感支持向量机(SVM)算法,提出了CCS SVM软件缺陷预测模型。在CCS SVM预测模型中,将SVM与类别误分代价结合起来,以非平衡数据评价指标作为目标函数,优化错分代价因子,提升少数类样本的识别率。通过聚类找到每类样本的中心点,根据样本到其中心点的距离定义每个样本的类别置信度,给每个样本分配不同的误分代价系数,并把样本的置信度引入到代价敏感SVM优化问题中,提高算法鲁棒性,提升SVM分类性能。此外,为了提高模型的泛化能力,使用遗传算法优化特征选择和模型参数。通过美国航空航天局NASA MDP数据集实验表明,本文方法的G mean和F measure模型评价值有明显的提升。  相似文献   

14.
杜阳  姜震  冯路捷 《计算机应用》2019,39(12):3462-3466
半监督学习结合少量有标签样本和大量无标签样本,可以有效提高算法的泛化性能。传统的半监督支持向量机(SVM)算法在目标函数中引入无标签样本的依赖项来推动决策面通过低密度区域,但往往会带来高计算复杂度和局部最优解等问题。同时,半监督K-means算法面临着如何有效利用监督信息进行质心的初始化及更新等问题。针对上述问题,提出了一种结合SVM和半监督K-means的新型学习算法(SKAS)。首先,提出一种改进的半监督K-means算法,从距离度量和质心迭代两个方面进行了改进;然后,设计了一种融合算法将半监督K-means算法与SVM相结合以进一步提升算法性能。在6个UCI数据集上的实验结果表明,所提算法在其中5个数据集上的运行结果都优于当前先进的半监督SVM算法和半监督K-means算法,且拥有最高的平均准确率。  相似文献   

15.
一个有效的核方法通常取决于选择一个合适的核函数。目前研究核方法的热点是从数据中自动地进行核学习。提出基于最优分类标准的核学习方法,这个标准类似于线性鉴别分析和核Fisher判别式。并把此算法应用于模糊支持向量机多类分类器设计上,在ORL人脸数据集和Iris数据集上的实验验证了该算法的可行性。  相似文献   

16.
软件缺陷预测是提升软件质量的有效方法,而软件缺陷预测方法的预测效果与数据集自身的特点有着密切的相关性。针对软件缺陷预测中数据集特征信息冗余、维度过大的问题,结合深度学习对数据特征强大的学习能力,提出了一种基于深度自编码网络的软件缺陷预测方法。该方法首先使用一种基于无监督学习的采样方法对6个开源项目数据集进行采样,解决了数据集中类不平衡问题;然后训练出一个深度自编码网络模型。该模型能对数据集进行特征降维,模型的最后使用了三种分类器进行连接,该模型使用降维后的训练集训练分类器,最后用测试集进行预测。实验结果表明,该方法在维数较大、特征信息冗余的数据集上的预测性能要优于基准的软件缺陷预测模型和基于现有的特征提取方法的软件缺陷预测模型,并且适用于不同分类算法。  相似文献   

17.
软件缺陷检测旨在自动检测程序模块中是否包含缺陷,从而加速软件测试过程,提高软件系统的质量。针对传统软件缺陷预测模型被限制在一定的应用范围而影响其预测的准确性和适用性,提出了一种基于PSO-BP软件缺陷预测模型。该模型运用粒子群优化算法优化BP神经网络的权值和阈值,采用交叉验证的方式进行实验,并与传统的机器学习方法J48和BP神经网络等方法进行了比较。实验结果表明提出的方法具有较高的预测准确性。  相似文献   

18.
为了解决当已分类完未标号样本,又有新的未标号样本的半监督学习问题,提出了能用于在线数据分类的半监督最接近支持向量机。在人工数据和UCI数据集上的实验显示,不因标号数据的增多而提高分类性能,未标号数据基本上不降低其分类性能,因此算法可在线使用。  相似文献   

19.
针对科学实践、经济生活等诸多领域数据分布相对复杂的分类问题,使用传统支持向量机(SVM)无法很好地刻画其变量间的相关性,从而影响分类性能。对于这一情况,提出使用经典高斯函数的参数推广形式--Q-高斯函数作为SVM的核函数构建财务危机预警模型。结合沪深股市A股制造业上市公司的财务数据分别建立T-2和T-3财务预警模型进行实证分析,采用显著性检验筛选出合适的财务指标并利用交叉验证方法确定模型参数。相比高斯核SVM财务危机预警模型,使用Q-高斯核SVM建立的T-2和T-3模型的预报准确率都提高了大约3%,而且成本较高的第Ⅰ类错误最多降低了14.29%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号