首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
米文博  李勇  陈囿任 《科学技术与工程》2022,22(32):14275-14281
通过软件缺陷预测可以有效地提高软件测试效率,保证软件产品的质量。针对新开发的项目面临训练数据不足,标注代价高以及源项目与目标项目的缺陷模式难以匹配的问题,提出了基于主动学习的跨项目软件缺陷预测方法。首先使用主动学习方法对目标项目进行筛选标注,其次将得到的标签集与跨项目数据进行数据融合和模式匹配,最后构建跨项目软件缺陷预测模型。采用真实的软件缺陷数据进行实验,在保证预测率的前提下,曲线下面积(area under curve, AUC)能够达到0.692,与传统方法相比综合性能均有显著提升。结果表明:所提方法可以通过模式匹配有效提高跨项目软件缺陷预测模型的性能。  相似文献   

2.
针对传统的软件缺陷预测方法难以在单独的项目中利用小规模训练数据的问题,提出了一种基于迁移学习的软件缺陷预测技术,利用已有的项目辅助新项目的预测.该方法在源项目和目标项目之间寻找一个公共特征空间,使得在公共特征空间上2个项目的数据分布距离最小.在这个公共空间进行模型训练,以达到迁移分类的效果.实验结果显示该方法相对传统的缺陷预测算法有更好的预测性能,并且充分利用了原始训练数据,可以更高效地运用于各种软件缺陷预测任务.  相似文献   

3.
主动学习时向专家查询得到的标注如果带有噪声,将会影响学习的性能.为减少噪声,人们提出了基于“少数服从多数”的多专家主动学习算法,但该算法的缺点是代价往往太高.文章采用了一种自我训练(self-training)方法,对某些平均置信度高的样本,直接确定其分类标注,不必向专家查询,以节省学习代价.同时,使用置信度差异作为度量标准,选取那些最不确定的样本向专家查询,提高了学习效率.在UCI数据集上验证了本文算法的有效性.  相似文献   

4.
针对入侵检测的代价敏感主动学习算法   总被引:1,自引:2,他引:1  
入侵检测系统通过提供可能由恶意攻击导致的告警信息来保护计算机系统.为了能够利用历史数据自动提升入侵检测的性能,机器学习方法被引入入侵检测.但是,高质量训练数据的获取往往需要繁重的劳动或代价昂贵的监控过程.同时,不同类型的误分类导致的代价也是不一样的,入侵检测需要使误分类代价最小.针对这两种需要综合考虑的问题,提出一种基于代价敏感主动学习的入侵检测分类器构造方法ACS.该方法结合代价敏感学习和主动学习方法,其目标为减少学习代价敏感分类器的标注次数,使代价敏感分类器的误分类代价最小.该方法在主动学习的学习引擎中使用代价敏感学习算法替代传统的错误最小学习算法,同时在采样引擎中使用最大误分类代价的采样标准.ACS方法在主动学习中版本空间的构造、更新过程都针对代价敏感环境作了对应的改进,使该算法能够以较高的收敛速度收敛到误分类代价最小的目标函数.在入侵检测数据集KDDCUP99上的的实验表明,ACS方法能够有效地减少学习代价敏感分类器的标注次数.  相似文献   

5.
针对传统自适应增强学习算法训练过程中只关注预测误差率最小的缺陷,本文提出了一种基于代价敏感系数的改进自适应增强学习算法并应用于混凝土抗压强度预测。首先考虑影响混凝土强度的8种参数作为特征变量,通过自适应增强学习算法集成回归树,依据样本权值抽样建立多个弱回归学习器。同时引入线性敏感系数与指数敏感系数来优化增强学习过程中样本权值的更新问题,采用引力搜索算法对代价敏感系数的基数进行最优选取。最后,根据权重比集成弱学习器得到最终预测模型。通过对所提出的两组不同代价敏感系数组合策略下的预测模型与随机森林、BP神经网络算法等模型的预测结果进行对比分析,验证了所提预测模型具有更好的预测性能。  相似文献   

6.
软件缺陷对软件功能的实现具有不可预知的危险,是软件产品的固有成分,提高软件的可靠性,关键在于降低软件缺陷出现的概率,而如何利用已有缺陷数据构建预测系统框架是研究的重点.针对传统软件测试技术虽然能够有效发现软件缺陷,但需要消耗大量的时间和精力,制约软件开发效率的缺点,提出基于特征选择的软件缺陷预测方法,算法对软件缺陷模型的经验数据集进行多特征选择,进而克服数据集之间的冗余性移除无关特征,得到缺陷模型的分类,最终实现软件缺陷的精确预测.实验表明,基于特征选择的软件缺陷预测方法具有较好的预测效果和较高的应用价值.  相似文献   

7.
为了得到一个低误分类代价的特征子集,本文通过定义样本间的代价距离并将代价距离引入了现有的特征选择架构,把流形学习和代价敏感特征选择问题相结合得到了一个新的代价敏感特征选择方法,称之为基于流形学习的代价敏感特征选择算法。以前提出的代价敏感特征选择算法在选择特征的过程中只考虑到了特征与误分类代价的关系,并对特征一个一个的进行选择,而本文所提出的代价敏感特征选择算法同时考虑了特征与误分类代价的关系和特征之间内在的判别信息,从而提高了代价敏感特征选择效果。在六个现实世界数据集上的实验证明了本文所提出的算法效果优于现有的相关算法。  相似文献   

8.
[目的]由于购买商品的消费者数量远小于未购买商品的消费者数量,网购意愿预测研究是典型的不平衡数据分类问题.研究不平衡数据的分类问题以提升网购意愿预测的分类准确率,该问题主要存在少数类样本识别准确率远小于多数类样本的问题.[方法]提出一种基于贝叶斯优化的代价敏感轻量梯度提升机(Light Gradient Boosting Machine, LightGBM)模型.首先引入误分类代价作为惩罚因子修正LightGBM的损失函数,其次通过阈值移动降低模型的分类阈值以提高针对少数类样本的预测准确率,最后利用贝叶斯优化算法优化误分类代价参数、分类阈值及其他参数.[结果]从KEEL数据库中选取5个典型的不平衡数据集进行对比实验,相较于标准LightGBM模型,改进LightGBM模型的AUC值和G-mean值均提升了10%左右;相较于遗传算法优化代价敏感LightGBM模型和粒子群优化代价敏感LightGBM模型,改进LightGBM模型的AUC值和G-mean值普遍提升了4%左右;相较于ADASYN-LightGBM模型和BorderlineSMOTE-LightGBM模型,改进LightGBM...  相似文献   

9.
为了避免在变量多重情况下基于PCA的软件缺陷预测出现明显失误,对传统PCA方法的缺陷加以改进,利用UML软件工程组织网站上公布的某中等规模软件公司项目功能点数据,采用改进的PCA方法对项目综合性能进行软件缺陷预测,并与传统PCA方法的预测结果进行了对比.结果表明,改进的PCA方法对软件系统的综合性能有较好的预测能力.  相似文献   

10.
针对常用决策树生成方法中存在的缺点,通过引用属性关联度和代价敏感学习,利用粗糙集理论对条件属性进行约减。在构建决策树过程中,把属性的关联程度和性价比作为选择分裂结点的依据,利用改进的信息增益构建代价敏感决策树。试验结果表明,该方法在分类准确度和生成决策的结点总量上比常用决策树生成方法优越。  相似文献   

11.
即时软件缺陷预测针对项目开发与维护过程中的代码提交来预测是否会引入缺陷。在即时软件缺陷预测研究领域,模型训练依赖于高质量的数据集,然而已有的即时软件缺陷预测方法尚未研究数据集扩充方法对即时软件缺陷预测的影响。为提高即时软件缺陷预测的性能,提出一种基于数据集扩充的即时软件缺陷预测(prediction based on data augmentation,PDA)方法。PDA方法包括特征拼接、样本生成、样本过滤和采样处理4个部分。增强后的数据集样本数量充足、样本质量高且消除了类不平衡问题。将提出的PDA方法与最新的即时软件缺陷预测方法(JIT-Fine)作对比,结果表明:在JIT-Defects4J数据集上,F1指标提升了18.33%;在LLTC4J数据集上,F1指标仍有3.67%的提升,验证了PDA的泛化能力。消融实验证明了所提方法的性能提升主要来源于数据集扩充和筛选机制。  相似文献   

12.
针对ID3决策树生成法中存在的缺点,通过引用属性关联度和代价敏感学习,提出了一种基于属性关联度和代价敏感学习的决策树生成法。该方法利用粗糙集理论对条件属性进行约减,在构建决策树过程中,把属性的关联程度和性价比作为选择分裂结点的依据,利用改进的信息增益方法构建代价敏感决策树。试验结果表明,该方法在分类准确度和生结点总数量上比常用决策树生成方法优越。  相似文献   

13.
属性约简是粗糙集理论中的重要问题.为了满足用户对属性的偏好,人们研究了属性序下的属性约简,然而对一些问题却很难给出完整的属性序.针对该问题,比较分析了属性组序下的约简子集的优劣,并提出代价敏感下的属性组序约简的算法.该算法通过属性组序的特点考虑用户偏好并结合属性代价以及属性重要度加权的方式选择局部属性,可以得到更符合用户偏好的约简.理论分析和实验结果验证了该算法的可行性和有效性,并且能在一般情形下找到满足用户偏好的约简.  相似文献   

14.
代价敏感学习算法的目的是最小化各种代价总和,与其他学习算法一样,它必须面对过度拟合这个挑战性问题,即分类器可以较好地拟合训练数据,但对测试或实际数据的效果较差.针对代价敏感学习的这些缺点,提出两个克服过度拟合的策略.第一个滤波技术策略针对TCSDT分类建立,滤波后的概率估计值被用于对每个分离属性的潜在误分类代价计算,并延缓潜在大误分类代价的分离属性的优先选择,最后,采用交叉验证方法决定m的值.第二个策略与基于标准错误的Laplace剪枝方法不同,阈值剪枝采用一个预先定义的阈值集合(跟代价有关)来确定决策树的一个叶节点是否被剪除.这两策略可独立或联合用于避免TCSDT分类的数据过度拟合.实验表明,所提出的两算法不但在代价敏感学习中有优势,在非代价敏感学习也具有优势,可以有效地减弱过度拟合,有很强的健壮性,UCI数据集实验结果显示算法的拟合能力平均优于存在方法10%以上.  相似文献   

15.
引入图的误分类代价矩阵,选取以最小误分类代价为目标的加权子图作为图样本的特征属性,建立起图的决策树桩分类器,进行集成学习,得到一个对新图进行分类的判别函数.在生成候选子图时,利用子图的超图增益值具有上界的性质来裁剪增益值比较小的候选子图,从而减少候选子图数量,提高算法效率.实验结果表明,所提算法比其他图分类算法的误分类代价更小.  相似文献   

16.
17.
针对传统邮件分类模型中较少对邮件主题进行描述和分析的问题,提出一种代价敏感多主题学习的邮件分类算法,用以实现垃圾邮件过滤.首先,基于LDA(潜在狄利克雷分布)对邮件的多个主题进行提取,对邮件语义进行描述;其次,利用CS-SVM(代价敏感支持向量机)对邮件进行代价敏感学习,实现对不同类别邮件的惩罚;最后,结合MI-SVM(多示例支持向量机)进行代价敏感的多主题学习,实现邮件分类.实验采用四组ling-spam处理数据集.实验结果证明:该分类算法较比传统邮件分类算法,可以取得更高的准确性、特异性与敏感性.  相似文献   

18.
随着时间的变化,用户对汽车产品评论的情感信息会有所波动,然而,通过挖掘这些情感信息可为潜在用户和企业提供决策依据。对于大量的汽车评论,仅靠人工去分析这些评论数据的情感显得无能为力。因此,文章采用迁移学习思想,通过前一时期标注数据获得当前时期数据的初始标注样本,利用主动学习不断优化分类模型,进而预测当前时期汽车评论的情感倾向。实验结果表明,该方法在较少人工标注量的情况下取得了较好的情感预测结果。  相似文献   

19.
为解决因网络数据分布不均匀性而造成的链路预测问题,提出一种改进的代价敏感型链路预测算法(Link Boost).设计一种有监督链路预测可变代价损失函数,该函数对低节点度有链路节点对出现分类错误时的惩罚大于高节点度有链路节点对,解决了节点度的分布偏差.考虑到以损失函数优化为目标的链路预测算法将导致社区内预测链路数量大于社区间的链路数量,进而设计一种Boosting算法来实现损失函数最小化.通过将网络分为多个分区,并对各个分区构建的弱学习器进行融合,提高了算法的可伸缩性.利用4个真实网络数据集进行性能评估.研究结果表明:Link Boost算法的性能与许多当前算法的性能相当或者优于当前算法.  相似文献   

20.
主动学习是机器学习领域的重要研究方向.现有主动学习方法通常选择不确定性的或具有代表性的样本供专家打标,然后添加到已标记的数据集中供分类器学习,但没能充分利用数据的分布信息,并且在野点采集问题上有待改进.结合邻域粗糙集理论,提出了一种基于邻域粗糙集的主动学习方法(neighhbor rough set active learn-ing,NRS-AL).实验结果表明,在加州大学数据集(university of CaliforniaIrvine,UCI)上,该算法充分利用了数据的分布信息,同时结合样本的不确定性和代表性计算,处理了野点的选择,是一种能有效解决主动学习样本选择问题的算法,在accuracy,受试者工作特征(receiver operating characteristic curve,ROC)曲线下面的面积(area under curve,AUC)指标上优于文献中的主动学习算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号