首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对软件缺陷预测过程中未充分使用源代码语义特征以及训练数据集中的类重叠问题, 提出一种面向类重叠的跨版本软件缺陷深度特征学习方法. 该方法采用混合式最近邻清理策略缓解深度学习语义特征中存在的类重叠问题. 在PROMISE公开数据集上进行测试的结果表明, 该策略能提升基于深度语义学习的软件缺陷预测性能, 分类性能最多在中值上提升14.8%. 实验结果表明, 在跨版本深度缺陷预测问题中可采用混合式最近邻清理策略缓解类重叠问题.  相似文献   

2.
米文博  李勇  陈囿任 《科学技术与工程》2022,22(32):14275-14281
通过软件缺陷预测可以有效地提高软件测试效率,保证软件产品的质量。针对新开发的项目面临训练数据不足,标注代价高以及源项目与目标项目的缺陷模式难以匹配的问题,提出基于主动学习的跨项目软件缺陷预测方法。首先使用主动学习方法对目标项目进行筛选标注,其次将得到的标签集与跨项目数据进行数据融合和模式匹配,最后构建跨项目软件缺陷预测模型。采用真实的软件缺陷数据进行实验,与传统方法比较性能有所提升。结果表明该方法可以通过模式匹配有效提高跨项目软件缺陷预测模型的性能。  相似文献   

3.
为了提高噪声污染数据的聚类效果及质量,提出了一种基于k-Means均匀效应的健壮聚类初始化算法.k-Means聚类结果中各子簇样本量均匀一致,导致其中稀疏子簇范围大、稠密子簇范围小以及相邻稠密子簇范围相当等关系.算法利用超过实际聚类数的k-Means算法,以便获得上述子簇范围关系,通过合并邻近小子簇、丢弃稀疏的大子簇,自动获得相似样本簇并有效地消除噪声,从而实现健壮的聚类初始化.理论和实验证明了该算法的有效性.  相似文献   

4.
针对煤与瓦斯突出影响因素复杂,即不仅具有随机性,又具有模糊性。为了保证预测的准确性,采用组合聚类策略。通过建立多个k近邻聚类器,可以产生多个簇集。来自不同簇集的子簇之间必然存在交集,最后利用子簇的加权连通图合并子簇。以平顶山八煤矿煤与瓦斯突出的相关因素指标为基础,对历年的煤与瓦斯突出的数据进行聚类分析,预测结果表明,该方法具有较好的预测效果,为煤与瓦斯突出预测提供了一种新的解决方案。  相似文献   

5.
随着软件系统规模的不断扩大和复杂程度的日益加大,从20世纪60年代末期开始,出现了以大量软件项目进度延期、预算超支和质量缺陷为典型特征的软件危机。在对软件项目进行估算时,通常情况下能得到相关软件组织或软件产品的某些历史数据,充分利用这些历史数据对预测与估算软件项目是很有帮助的。稳健回归分析(RRA),就是这样一种相当常用与有效的数据驱动方法。在比较、回顾一些稳健回归分析研究成果的基础上,重点解决了软件成本估算数据用传统回归分析存在的问题,并有效地解决了由于异常数据存在而产生的掩蔽效应。同时尝试提出在软件成本数据估算中运用稳健回归方法进行系统而全面的仿真实验分析,发现该方法能有效地解决异常数据的掩蔽效应,得到比较满意的结果。  相似文献   

6.
针对传统的软件缺陷预测方法难以在单独的项目中利用小规模训练数据的问题,提出了一种基于迁移学习的软件缺陷预测技术,利用已有的项目辅助新项目的预测.该方法在源项目和目标项目之间寻找一个公共特征空间,使得在公共特征空间上2个项目的数据分布距离最小.在这个公共空间进行模型训练,以达到迁移分类的效果.实验结果显示该方法相对传统的缺陷预测算法有更好的预测性能,并且充分利用了原始训练数据,可以更高效地运用于各种软件缺陷预测任务.  相似文献   

7.
PN学习作为一种新型的二元分类器,对结构化的无标签数据有较好的分类性能.软件模块缺陷预测中对无标签样本数据的分类直接影响着预测结果的准确性和可靠性.提出了基于PN学习方法的软件模块缺陷预测模型,结合灰色关联分析方法对实验样本进行降维处理从而提高模型的运算速度.通过实验和分析,证明了本方法的有效性.  相似文献   

8.
软件成本估算是软件工程领域中的一个重要问题。针对积累了大量的软件项目历史数据,提出一种基于决策树的软件成本估算方法。在对历史数据进行预处理后,通过建立软件成本估算的决策树分类模型,预测目标属性的值。最后,通过软件项目历史数据验证该软件成本估算方法的有效性。  相似文献   

9.
跨项目软件缺陷预测(cross project defect prediction,CPDP)旨在实际的软件开发场景中,需要进行缺陷预测的目标项目可能是一个新启动项目,或这个项目已有的训练数据较为稀缺,需要利用其他项目已经搜集的训练数据来构建缺陷预测模型,其已经成为软件质量保证的一种手段,吸引了国内外研究人员的关注.然...  相似文献   

10.
随着全球化石燃料短缺日益严重,可再生能源的开发与利用愈发得到重视。风能是被广泛使用的清洁能源之一,在生产工作中,风力发电作为风能的主要利用形式,需要对其功率进行预测。依托风场日常记录的历史数据,传统学习模型可对风功率进行短期预测,但往往仅使用自己域内的历史数据作为分析对象,该类算法导致结果片面,局限性大,不能有效使用类数据中的隐含联系,抑制原始数据缺失或异常值引起的模型性能下降问题。笔者设计一种基于历史数据深度迁移的短期风功率预测模型。首先,使用带降噪处理的自动编码机构建深度神经网络模型。其次,应用深度迁移方法共享隐藏层,挖掘特征之间的隐含联系。最后,从具有相似特征和地理位置的风场数据中迁移重要知识,提高模型准确率和可靠性。实验结果表明,研究方法较之未使用迁移的方法更充分利用现有数据,预测准确率显著提高。  相似文献   

11.
准确预测变电站及配网工程的物资需求,对于节约工程成本,提高资金利用率,具有重要意义.尽管研究者在电力物资需求预测方面已经开展了一系列的研究,提出了很多预测模型和算法,例如基于神经网络的算法,然而,这些算法普遍存在输入数据过于简单和理想、仅对少数几种物资的需求量进行了预测实验、预测的准确率偏低等不足.因此,目前生产系统普遍采用人工方式进行电力物资需求预测,由有经验的领域专家根据工程初步设计方案预测各类物资的需求量.为了解决现有电力物资需求预测方法存在的不足,本文提出基于矩阵分解的预测方法,以电网建设项目物资需求历史数据和项目计划的部分物资作为输入,通过矩阵分解算法对项目其他物资需求用量进行预测.矩阵分解算法不需要大量的历史用量数据,只用部分项目的物资数据就能进行预测,且算法不需要提前进行训练.  相似文献   

12.
即时软件缺陷预测针对项目开发与维护过程中的代码提交来预测是否会引入缺陷。在即时软件缺陷预测研究领域,模型训练依赖于高质量的数据集,然而已有的即时软件缺陷预测方法尚未研究数据集扩充方法对即时软件缺陷预测的影响。为提高即时软件缺陷预测的性能,提出一种基于数据集扩充的即时软件缺陷预测(prediction based on data augmentation,PDA)方法。PDA方法包括特征拼接、样本生成、样本过滤和采样处理4个部分。增强后的数据集样本数量充足、样本质量高且消除了类不平衡问题。将提出的PDA方法与最新的即时软件缺陷预测方法(JIT-Fine)作对比,结果表明:在JIT-Defects4J数据集上,F1指标提升了18.33%;在LLTC4J数据集上,F1指标仍有3.67%的提升,验证了PDA的泛化能力。消融实验证明了所提方法的性能提升主要来源于数据集扩充和筛选机制。  相似文献   

13.
针对大学生就业问题,以层次聚类策略为技术支撑,架构出一种就业去向短期预测系统.根据待挖掘数据量,选取簇间距离度量标准,架构簇与子簇构成的层次聚类树,完成目标数据的聚类或分类处理.构建层次聚类算法模块中相关算法运行流程,结合预测系统用户与管理员的角色职责,设计多个系统数据库实体.建立各实体间关系的映射模型,基于此完成数据...  相似文献   

14.
针对不平衡数据集的低分类准确性,提出基于蚁群聚类改进的SMOTE不平衡数据过采样算法ACC-SMOTE.一方面利用改进的蚁群聚类算法将少数类样本划分为不同的子簇,充分考虑类间与类内数据的不平衡,根据子簇所占样本的比例运用SMOTE算法进行过采样,从而降低类内数据的不平衡度;另一方面对过采样后的少数类样本采用Tomek ...  相似文献   

15.
一种基于半监督降维的聚类算法   总被引:1,自引:1,他引:0  
半监督聚类通过利用少量有标号样本或成对约束等监督信息来提高聚类性能.在此提出一种新颖的基于半监督降维的聚类算法,首先用半监督降维方法对原始数据进行降维,然后在降维后的空间中进行半监督聚类.由于在降维和聚类两个阶段中都利用了监督信息,从而使得算法的聚类性能得到进一步提升.在UCI标准数据集、yale人脸库以及文本数据集上的实验结果验证了该算法的有效性.  相似文献   

16.
基于流线曲率法发展了一种适用于跨声速压气机性能预测的高精度模型,对最小损失攻角及非设计点损失预测模型进行了修正.提出了一种非设计点损失分析方法——四象限法,结合该方法对跨声速压气机的损失构成进行了重新定义,对不同工况的损失特点开展了深入分析,在一定程度上揭示了跨声速压气机的损失分布和增长规律.采用新发展的模型对某高负荷跨声速转子进行了详细的计算,并与实验数据进行对比.结果表明,发展的性能预测模型和损失分析方法能够较为可靠地预测全流量工况下跨声速转子的总体性能与气动参数沿展向的分布,为跨声速压气机的特性预测提供了新的思路,具有较强的借鉴意义和工程实用价值.  相似文献   

17.
风机盘管(FCU)变工况供冷性能数据是空调工程设计中FCU选型的重要依据,针对在FCU供冷性能测试过程中变工况实验次数非常多,非常费时和能耗大的问题,研究了运用灰色系统建模理论建立FCU供冷量与工况条件参数的G(1,N)灰色模型,并论述了利用该建模方法预测FCU变工况时供冷量估计值的方法过程.研究结果表明建模拟合精度和预测估计精度都较高,为FCU企业和测试部门在做变工况特性实验时,利用少数几个工况的实验数据和以往同规格品种FCU更多工况的历史数据估计本批次FCU变工况特性提供了有效的方法,从而可以大幅度减少实验次数,提高实验测试的工作效率,节省测试的能源消耗.  相似文献   

18.
针对不确定W eb社会网络的Top-k子图查询问题,以无向、顶点带标签及边赋权重的简单图为基本模型,设计了用来简洁描述社会网络并编码原始图信息的摘要图,提出了Top-k子图同构查询算法。针对真实和虚拟网络数据进行了大量实验,结果表明:基于摘要图的Top-k子图查询算法较VF2算法运算时间缩短;由于构建摘要图时的主要依据是顶点的标号,因此查询图的标号分布对查询性能有较大影响;顶点标号数目增加时该算法的查询性能呈类似指数形式提高,而VF2算法的查询性能没有受到较大影响;当数据图的顶点数量增大时,该算法与VF2算法相比,消耗时间的增长更缓慢;该算法在处理Top-k查询时体现出了稳定高效的性能。  相似文献   

19.
一种不平衡数据的分类方法   总被引:1,自引:0,他引:1  
针对一个球的模式分类(SSPC)方法没有考虑样本分布不平衡的问题,提出一种不平衡数据的分类方法.该方法引入类权重因子和样本权重因子,通过一个超球面将两类数据以最大分离比率分离,从而提高不平衡数据对正类分类和预测的性能.实验结果表明,该方法可以有效提高不平衡数据的分类性能.  相似文献   

20.
密度峰值聚类算法(Density peaks clustering, DPC)是一种基于密度的新型聚类算法。该算法的优点十分显著:所需参数较少,没有迭代过程,能自适应获得聚类数目并识别任意形状的簇类。该算法也有一些问题亟待解决:(1)在决策图上人工选择聚类中心,产生聚类误差;(2)在密度不同的流形数据集上聚类效果不佳。针对这些不足,该文提出一种基于电子分层模型和凝聚策略的密度峰值聚类算法(Density peaks clustering based on electronic shells model and merging strategy, EMDPC)。其利用电子分层模型计算每个数据点的局部密度,更易识别出低密度簇;通过子簇凝聚策略自适应识别簇类数目,降低了人工选取聚类中心时误差发生的概率;并且子簇凝聚策略能较好地解决DPC在密度不均匀的流形数据上聚类效果不佳的问题。实验分析表明基于电子分层模型和凝聚策略的密度峰值聚类算法具有较高的精度和较好的聚类性能,其结果优于其他先进的聚类算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号