首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
软件缺陷定位是软件缺陷修复任务的一个重要步骤。面向软件缺陷报告的缺陷定位方法以描述缺陷产生现象的软件缺陷报告作为查询,以项目的源代码作为语料库,通过分析缺陷报告与源代码单元之间的相关关系,设计缺陷报告与源代码单元之间相关度的计算方法;随后,挖掘各类软件历史仓库来创建缺陷定位数据集,构建缺陷定位模型,以识别缺陷报告所描述的缺陷对应的源代码单元(即缺陷位置),实现缺陷定位。对近年来国内外学者在该研究领域取得的成果进行了系统总结。首先,介绍了软件缺陷定位的相关概念,归纳了面向软件缺陷报告的缺陷定位方法的主要流程;其次,围绕定位流程中的3个关键步骤梳理了已有研究工作;然后,总结了缺陷定位领域常用的实验数据集和实验评估指标;最后,对未来研究可能面临的挑战进行了展望。  相似文献   

2.
传统的基于向量空间模型的软件缺陷分派方法,由于存在特征空间维度高、数据稀疏且包含噪音等问题,分派准确率较低。为此,提出一种基于隐含狄利克雷分配(LDA)主题模型的软件缺陷分派方法,将缺陷报告从原始的高维文本单词空间映射到低维语义主题空间,在新的低维主题空间上进行分派。实验结果表明,在使用SVM和KNN分类器时,该方法的分派准确率较高。  相似文献   

3.
周丰  马力 《计算机工程与设计》2011,32(1):210-212,300
为了确切地估计软件缺陷分布,提出了基于AODE和再抽样的软件缺陷预测模型。分析了几种常用贝叶斯分类器的优缺点,以及软件缺陷度量元和再抽样方法,设计了多AODE分类器,该分类器是由多个AODE二分类器组成的。在以上基础上,建立了采用多AODE分类器和再抽样方法的软件缺陷预测模型,实验结果表明,该分类器的分类准确度较常用贝叶斯分类器高。通过收集到的缺陷数据样本比较结果表明,该模型比一些常用贝叶斯模型具有更好的预测准确性和稳定性。  相似文献   

4.
融合语义特征的关键词提取方法   总被引:1,自引:0,他引:1  
关键词提取被广泛应用于文本挖掘领域,是文本自动摘要、自动分类、自动聚类等研究的基础。因此,提取高质量的关键词具有十分重要的研究意义。已有关键词提取方法研究中大多仅考虑了部分文本的统计特征,没有考虑词语的隐式语义特征,导致提取结果的准确率不高,且关键词缺乏语义信息。针对这一问题,文中设计了一种针对词语与文本主题之间的特征进行量化的算法。该算法首先用词向量的方法挖掘文本中词语的上下文语义关系,然后通过聚类方法抽取文本中主要的语义特征,最后用相似距离的方式计算词语与文本主题之间的距离并将其作为该词语的语义特征。此外,通过将语义特征与多种描述词语的词频、长度、位置和语言等特征结合,文中还提出了一种融合语义特征的短文本关键词提取方法,简称SFKE方法。该方法从统计信息和语义层面分析了词语的重要性,从而可以综合多方面因素提取出最相关的关键词集合。实验结果表明,相比TFIDF,TextRank,Yake,KEA和AE等方法,融合多种特征的关键词提取方法的性能有了明显的提升。该方法与基于有监督的AE方法相比,F-Score提升了9.3%。最后,用信息增益的方法对特征的重要性进行评估,结果表明,添加语义...  相似文献   

5.
软件缺陷预测技术通过分析软件静态信息,对软件模块的缺陷倾向性做出判断,合理分配测试资源。但有时搜集的大量度量元信息是无关或冗余的,这些高维的特征增加了缺陷预测的复杂性。文章提出了一种新的度量元选择方法,首先通过样本聚类将相似度高的样本聚在同一簇中,然后在每个簇中按照最低冗余度进行特征子集的挑选,主要选择相互间冗余度低,且预测能力强的度量元。最后通过NASA数据集的实例证明本文方法能有效降低特征子集的冗余率,并能有效提高预测的准确度。  相似文献   

6.
文本分类研究逐渐成为网络文本挖掘的研究热点,针对中文文本进行自动分类的研究也在逐渐升温.针对新闻文本的特殊性,在文本分类中经典的向量空间模型的基础上,提出了一套改进的四维向量空间模型及自适应追踪策略,进而提高了新闻文本分类的效果.实验结果表明,算法可以使传统空间向量模型的分类性能由81.5%提高至92.49%,证明算法是有效的.  相似文献   

7.
缺陷预测能够有效地提升软件测试的效率。基于朴素贝叶斯理论,提出了一个利用平面中点与直线几何关系进行分类的软件缺陷预测模型LGD-NB。LGD-NB有两种工作模式,当其基于最小风险进行决策时,比传统的朴素贝叶斯具有对代价更为精确的描述;在定义了几何上的高风险决策区域后,LGD-NB可作为元分类器,提供一个可集成其他分类模型进行二次分类的集成框架。实验结果显示:基于最小风险LGD-NB模型的预测性能优于传统的朴素贝叶斯;而集成了SVM算法后的LGD-NB,其预测能力也有较为明显的提升。  相似文献   

8.
针对Bugzilla缺陷跟踪系统的Eclipse项目软件缺陷报告数据集,使用特征选择和机器学习算法对向量化的原始数据进行特征降维、权重优化等处理,得到数据维度较低的优化数据集,并采用分类算法评估软件缺陷报告严重程度。通过对4种特征选择算法及4种机器学习算法处理结果的交叉对比表明,使用信息增益特征选择算法对原始数据集进行特征优化,并结合多项式贝叶斯算法对优化数据集进行训练与测试,可使软件缺陷报告严重性预测的AUROC值提高至0.767。  相似文献   

9.
面向开发阶段的软件缺陷分类方法研究   总被引:1,自引:0,他引:1  
提出一种面向开发阶段的软件缺陷分类方法Phase-DC,将缺陷和软件开发各阶段相关联,计算阶段及过程的缺陷排除有效性,并结合缺陷的类型和表现形式等详细信息分析开发过程的质量,以帮助软件组织促进并实施过程改进活动.通过实例说明了该方法在过程改进中的应用,并对方法的完备性、正交性和一致性进行了分析验证.  相似文献   

10.
11.
史小婉  马于涛 《计算机科学》2018,45(11):193-198, 219
开源软件项目的缺陷管理和修复是保障软件质量及软件开发效率的重要手段,而提高软件缺陷分配的效率是其中亟需解决的一个关键问题。文中提出了一种基于文本分类和评分机制的开发者预测方法,其核心思想是综合考虑基于机器学习的文本分类和基于软件缺陷从属特征的评分机制来构建预测模型。针对大型开源软件项目Eclipse和Mozilla的十万级已修复软件缺陷的实验表明,在“十折”增量验证模式下,所提方法的最好平均准确率分别达到了78.39%和64.94%,比基准方法(机器学习分类+再分配图)的最高平均准确率分别提升了17.34%和10.82%,从而验证了其有效性。  相似文献   

12.
软件错误报告的自动分类能够节省大量人力和时间,然而用户提交的错误报告主观性较强,对错误报告的描述较随意,造成自动分类的效率低下。为此,基于传统的词频-逆向文件频率( TF-IDF )算法,结合文档内词条频度与词条在同类别及不同类别文档中的分布情况,提出2种特征降维的改进算法,降维后再对词条进行权值处理,进一步提高特征降维的效果。实验结果表明,应用该算法得到的错误报告自动分类在精确率、召回率、F1值和准确度等指标上比现有算法都有明显提高。  相似文献   

13.
软件缺陷在软件开发过程中不可避免,提交的缺陷报告则是分析和修复缺陷的重要信息来源.开发人员常通过借鉴相似的历史缺陷报告和修复信息来辅助对当前新缺陷的分析和修复.文中提出了一种知识驱动的相似缺陷报告推荐方法.该方法首先利用信息检索和Word Embedding技术构建缺陷知识图谱;然后利用TF-IDF和Word Embe...  相似文献   

14.
在软件仓库挖掘领域, 通常 将软件工程任务转换成数据挖掘问题进行解决。领域特征的使用严重影响了软件任务的解决效果。然而,如何根据特定任务从软件仓库数据中提取有价值的特征,在软件仓库挖掘领域尚缺乏系统的研究。数据驱动特征提取方法是一种新的特征提取方法。对于给定的软件工程任务,该方法从任务的数据集中选取部分数据(如源代码、缺陷报告等),招募若干志愿者人工完成该任务,并要求志愿者说明在人工完成特定软件工程任务时所考虑的因素。通过分析这些因素,可以提取所需的领域特征。以缺陷报告摘要任务为例进行实验,结果表明新方法能够发现高效的领域特征,并取得比现有方法更好的预测效果。  相似文献   

15.
基于向量空间模型的过滤不良文本方法   总被引:10,自引:3,他引:10  
李强  李建华 《计算机工程》2006,32(10):4-5,8
就向量空间模型文本表示方法以及归一化技术对不良文本过滤性能的影响进行了研究,并基于平衡样本集和不平衡样本集分别进行了试验。试验和结果分析表明,Naive Bayes方法由于采用概率模型进行文本表示,在不平衡样本集上显示了较差的准确度,而基于向量空间模型进行文本表示的方法,如中心向最法(VSM)、支持向量机(SVM)等在平衡或非平衡样本上取得了较好的准确度,并用于过滤不良文本的文本内容安全监管中。  相似文献   

16.
为了在不加入外部语义知识的前提下改善向量空间模型的文本分类效果,通过挖掘语料库内部蕴含的词间关系和文本间关系,并以不同的方式融入原始的词文本矩阵,然后选择常用的SVM和KNN算法,在领域性较强的法律语料库和领域性较宽泛的新闻语料库上进行文本分类的对比实验。实验证明,加入词间关系和文本间关系通常能有效改善文本分类的效果,但是对不同的分类方法和领域特征有不同的影响,在实际应用中应该区别对待。  相似文献   

17.
基于概念统计的英文自动文摘研究   总被引:6,自引:2,他引:6  
文章提出了一种基于概念统计和语义层次分析的自动文摘方法,并以此实现了一个英文自动文摘系统。系统利用WordNet对英文文章进行词语分析,用概念统计的方法选取文章的主题概念,以此构建向量空间模型;并根据主题概念在概念层次树上的分布划分意义块,以意义块为单位抽取文摘,初步解决多主题文章的文摘结构不平衡问题。该文主要介绍概念层次树的构造,主题概念的抽取步骤,句子重要度的计算和意义块的划分算法。测试表明该文提到的方法比传统的基于词频统计的方法有更高的召回率与精确率。  相似文献   

18.
钱俊霖  余建桥 《计算机工程》2012,38(10):266-268
针对房产电子档案分类与关键信息提取的问题,提出一种改进的特征提取与分类方法。将文档图像的段落特征和局部像素分布值特征作为房产文档图像的综合特征,利用模板训练支持向量机分类器,实现对入库的房产档案图像的自动分类。实验结果表明,该方法的分类效果和稳定性较好。  相似文献   

19.
特征建模是软件产品线开发中的一项关键活动,对特征可变性和特征依赖的建模是特征模型中最重要的组成部分。阐述了特征模型的元模型,着重讨论了特征可变性建模过程,详细分析了特征可变性、特征之间关系、特征依赖类型的识别方法和使用特征依赖矩阵的表示方法。在此基础上,还通过一个库房监视系统应用软件的产品线可变性建模实例验证了该方法的有效性。  相似文献   

20.
Web访问模式聚类中引入Web内容挖掘的方法   总被引:3,自引:0,他引:3       下载免费PDF全文
陈正明  马光志 《计算机工程》2006,32(18):70-71,7
在用户访问模式的聚类过程中引入页面的相似性因子,从用户访问的主要内容和访问路径两个方面来度量访问模式的相似性,针对以往对这种集成研究忽略的问题进行深入的探讨,提出了有效的解决方法,合理地降低了聚类结果的类别数目,能更准确地发现一个网站的潜在用户类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号