首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 249 毫秒
1.
史高翔  赵逢禹 《计算机科学》2016,43(11):246-251
准确地将缺陷分配给最合适的修复者对大型软件项目的缺陷修复具有重要意义。当前缺陷自动分配技术的研究主要利用历史缺陷报告的描述信息、缺陷关联信息、历史分派信息等,但这些方法都没有将缺陷报告信息充分挖掘。提出在缺陷报告分配时将缺陷历史分派信息和缺陷文本相似信息相结合。首先根据缺陷历史分派信息生成再分配图;然后计算新缺陷报告与历史缺陷报告缺陷的文本相似度,找出相似度最高的前K个缺陷报告所对应的修复者;最后,根据这些修复者在再分配图中的依赖关系生成预测再分配路径。为了验证该方法的有效性,利用Eclipse和Mozilla的缺陷报告集进行实验,实验表明提出的方法在预测的准确度上明显优于其他方法。  相似文献   

2.
对于大型开源软件项目来说,用户提交了海量缺陷报告,人工分发缺陷时会出现大量的错误分配。提出OSDR(Open Software Developer Recommendation)方法通过计算新缺陷报告和历史缺陷报告之间的文本相似度,基于K最近邻算法得到相似度最高的K个历史缺陷报告及其对应的修复人列表,再基于频率和社交网络图的各项指标对开发者专业能力进行评价。从Mozilla Firefox缺陷库中采集真实实验数据,比较不同社交网络指标在推荐修复人时的准确率与召回率。结果表明,推荐性能最高的指标是频率和出度,其准确率大约在0.6左右;Betweenness和Closeness的推荐效果最差;度、入度以及PageRank推荐效果良好。  相似文献   

3.
该文提出基于Word Embedding的歧义词多个义项语义表示方法,实现基于知识库的无监督字母缩略术语消歧。方法分两步聚类,首先采用显著相似聚类获得高置信度类簇,构造带有语义标签的文档集作为训练数据。利用该数据训练多份Word Embedding模型,以余弦相似度均值表示两个词之间的语义关系。在第二步聚类时,提出使用特征词扩展和语义线性加权来提高歧义分辨能力,提高消歧性能。该方法根据语义相似度扩展待消歧文档的特征词集合,挖掘聚类文档中缺失的语义信息,并使用语义相似度对特征词权重进行线性加权。针对25个多义缩略术语的消歧实验显示,特征词扩展使系统F值提高约4%,使用语义线性加权后F值再提高约2%,达到89.40%。  相似文献   

4.
针对向量空间模型VSM中,在计算文档相似度时要求文档标引词必须相互独立这一缺陷,提出融合本体与粗糙集的文档相似度计算方法。在该方法中,不仅可以利用本体对概念关系的准确揭示,计算文档之间的概念相似度,还可以结合粗糙集对相关概念实例的属性重要性进行度量,从而计算属性相似度,克服了传统方法需要依赖人的先验知识这一缺陷,最后综合形成文档语义向量相似度,并通过实验分析证明该方法可以在很大程度上提高文档相似度计算的准确性。  相似文献   

5.
融合用户评分与显隐兴趣相似度的协同过滤推荐算法   总被引:1,自引:0,他引:1  
协同过滤算法是推荐系统中使用最广泛的算法,其核心是利用某兴趣爱好相似的群体来为用户推荐感兴趣的信息。传统的协同过滤算法利用用户-项目评分矩阵计算相似度,通过相似度寻找用户的相似群体来进行推荐,但是由于其评分矩阵的稀疏性问题,对相似度的计算不够准确,这间接导致推荐系统的质量下降。为了缓解数据稀疏性对相似度计算的影响并提高推荐质量,提出了一种融合用户评分与用户显隐兴趣的相似度计算方法。该方法首先利用用户-项目评分矩阵计算用户评分相似度;然后根据用户基本属性与用户-项目评分矩阵得出项目隐性属性;之后综合项目类别属性、项目隐性属性、用户-项目评分矩阵和用户评分时间,得到用户显隐兴趣相似度;最后融合用户评分相似度和用户显隐兴趣相似度得到用户相似度,并以此相似度寻找用户的相似群体以进行推荐。在数据集Movielens上的实验结果表明,相比传统算法中仅使用单一的评分矩阵来计算相似度,提出的新相似度计算方法不仅能够更加准确地寻找到用户的相似群体,而且还能够提供更好的推荐质量。  相似文献   

6.
针对决策信息为区间数的不确定性动态决策问题,在属性权重和时间权重未知的情况下,基于改进向量相似度的方法,构建一种兼顾决策信息和决策偏好的动态多指标决策模型.利用区间型决策信息的相对相似性和属性重要度,构造相对相似度最小规划模型以确定指标权重;在综合考虑决策信息时间价值、决策者偏好的基础上,构建极大熵模型以确定时间权重;结合向量相似度计算存在的缺陷,提出一种基于向量投影思想的向量综合相似度测度方法,从而建立不确性动态决策模型,并通过实例分析检验该模型的合理性和有效性.  相似文献   

7.
网络数据下的概念认知与知识发现是网络背景下机器学习和人工智能的重要研究方向,已被引入到推荐系统研究中。现有的基于概念格的推荐方法忽视了节点之间的网络结构关系,同时构造概念格的效率低且构建概念集合的约束条件较严,在大规模的社交网络中难以实现。为解决这些问题,本文在网络形式背景的框架下,综合复杂网络的拓扑结构和弱概念相似度,提出了基于弱概念相似度的组推荐算法。首先,定义属性度、属性密度来描述属性的重要性,通过改进的节点影响力来确定专家节点;其次,利用专家节点划分社区,在划分的社区中通过属性弱概念下限相似度进行组推荐研究,进而获取推荐规则并对相应社区进行组推荐;最后,利用MovieLens数据集和Filmtrust数据集分析了各参数对本文所提算法的影响,并确定了参数的合理取值。将本文所提算法与其他推荐算法进行比较测试,实验验证了本文算法的有效性。  相似文献   

8.
利用知识图谱技术进行数据管理可实现对煤矿综采设备的有效表示,以便获取具有深度挖掘价值的信息。煤矿综采设备数据不均衡、某些类别设备实体较少等问题影响实体识别精度。针对上述问题,提出了一种基于联合编码的煤矿综采设备知识图谱构建方法。首先构建综采设备本体模型,确定概念及关系。然后设计实体识别模型:利用Token Embedding、Position Embedding、Sentence Embedding和Task Embedding 4层Embedding结构与Transformer-Encoder进行煤矿综采设备数据编码,提取词语间的依赖关系及上下文信息特征;引入中文汉字字库,利用Word2vec模型进行编码,提取字形间的语义规则,解决煤矿综采设备数据中生僻字问题;使用GRU模型对综采设备数据和字库编码后的字符向量进行联合编码,融合向量特征;利用Lattice-LSTM模型进行字符解码,获取实体识别结果。最后利用图数据库技术,将抽取的知识以图谱的形式进行存储和组织,完成知识图谱构建。在煤矿综采设备数据集上进行实验验证,结果表明该方法对综采设备实体的识别准确率较现有方法提高了1.26%以上...  相似文献   

9.
基于用户的协同过滤推荐算法在进行近邻用户的筛选时以用户之间相似度的计算结果作为依据,数据量的增大加剧了数据的稀疏程度,导致了计算结果的准确性较差,影响了推荐准确度.针对该问题本文提出了一种基于用户联合相似度的推荐算法.用户联合相似度的计算分为用户对项目属性偏好的相似度和用户之间人口统计学信息的相似度两个部分.用户的项目属性偏好引入了LDA模型来计算,计算时评分数据仅作为筛选依据,因而避免了对数据的直接使用,减缓了稀疏数据对相似度计算结果的影响;用户之间人口统计学信息的相似度则在数值化人口统计学信息之后通过海明距离进行度量.实验结果表明,本文提出的算法在推荐准确度上优于传统协同过滤推荐算法.  相似文献   

10.

针对目标案例与历史案例的非一致属性集合问题, 基于匹配度生成子案例库, 使用基于核密度的群体序关系分析法对目标案例各属性进行赋权. 利用符号型属性和数值型属性的特征, 通过不同相似度计算方法分别计算各属性下的相似度, 集结各属性相似度信息和权重信息得到非一致属性集合的历史案例与目标案例的相似度, 最终得到应急方案的推荐结果. 最后通过算例表明了该方法的有效性和可行性.

  相似文献   

11.
林涛  高建华  伏雪  马燕  林艳 《计算机科学》2016,43(6):179-183
软件工程中的软件缺陷报告数量在快速增长,开发者们越来越困惑于大量的缺陷报告。因此,为了达到缺陷修复和软件复用等目的,有必要研究软件缺陷报告的提取方法。提出一种提取方法,该方法首先合并缺陷报告中的同义词,然后建立空间向量模型,使用词频反文档频率以及信息增益等文本挖掘的方法来收集软件缺陷报告中单词的特征,同时设计算法来确定句子复杂度以选择长句,最后将贝叶斯分类器引入该领域。该方法可以提高缺陷报告提取的命中率,降低虚警率。实验证明,基于文本挖掘和贝叶斯分类器的软件缺陷报告提取方法在接受者工作特征曲线面积(0.71)、F-score(0.80)和Kappa值(0.75)方面有良好效果。  相似文献   

12.
情感分类是用于判断数据的情感极性,广泛用于商品评论,微博话题等数据。标记信息的昂贵使得传统的情感分类方法难以对不同领域的数据进行有效的分类。为此,跨领域情感分类问题引起广泛关注。已有的跨领域情感分类方法大多以共现为基础提取词汇特征和句法特征, 而忽略了词语间的语义关系。基于此,提出了基于word2vec的跨领域情感分类方法WEEF(Cross-domain Classification based on Word Embedding Extension Feature),选取高质量的领域共现特征作为桥梁,并以这些特征作为种子,基于词向量的相似度计算,将领域专有特征扩充到这些种子中,形成特征簇,从而减小领域间的差异。在SRAA和Amazon产品评论数据集上的实验结果表明方法的有效性,尤其在数据量较大时。  相似文献   

13.
王燕  吴化尧  聂长海  徐家喜  尹震  钮鑫涛 《软件学报》2022,33(11):3983-4007
缺陷追踪是软件项目管理的一个重要环节,是保证现代大规模开源软件开发顺利进行并持续提高软件质量的必要手段.目前,大部分开源软件都使用开放的缺陷跟踪系统进行软件缺陷的管理.它允许用户向开发者提交系统故障(即defect类型缺陷)以及系统改进建议(即enhancement类型缺陷),但是这些用户的反馈所起的作用尚未得到充分研究.针对这一问题,对Firefox的缺陷跟踪系统进行实证研究,收集了2018年和2019年提交的19 474份Firefox Desktop以及3 057份Firefox for Android缺陷报告.在此基础上,对比分析了普通用户和核心开发者提交的缺陷在数量、严重性、组件分布、修复率、修复速度以及修复者上的差别,并调查了缺陷报告的撰写质量与缺陷处理结果和修复时间的关系.主要发现包括:(1)当前缺陷追踪系统中普通用户人数众多,但参与程度较浅,86%的用户只提交过一个缺陷,其中,高严重等级的缺陷不超过3%;(2)普通用户提交的缺陷主要分布在和用户交互相关的UI组件上(例如地址栏、音频/视频等),然而还有43%的缺陷由于缺乏充分描述信息而难以准确地定位到具体的关联组件;(3)在缺陷处理结果上,由于查重系统以及缺陷填报系统在设计上过于简单,致使普通用户提交的大量缺陷被处理为“无用”缺陷,缺陷修复率低于10%;(4)在缺陷修复流程上,由于普通用户难以准确、充分地描述缺陷,导致系统对其重视程度不足,普通用户提交缺陷的处理流程也比核心开发者提交的复杂,平均需要多花至少8天的时间进行修复.上述研究结果揭示了当前缺陷追踪系统在用户参与激励机制、缺陷自动查重以及缺陷报告填写智能辅助等方面的不足,能够为缺陷跟踪系统开发者和管理者改进系统、提高普通用户对开源软件的贡献提供参考.  相似文献   

14.
Bug fixing has a key role in software quality evaluation. Bug fixing starts with the bug localization step, in which developers use textual bug information to find location of source codes which have the bug. Bug localization is a tedious and time consuming process. Information retrieval requires understanding the programme's goal, coding structure, programming logic and the relevant attributes of bug. Information retrieval (IR) based bug localization is a retrieval task, where bug reports and source files represent the queries and documents, respectively. In this paper, we propose BugCatcher, a newly developed bug localization method based on multi‐level re‐ranking IR technique. We evaluate BugCatcher on three open source projects with approximately 3400 bugs. Our experiments show that multi‐level reranking approach to bug localization is promising. Retrieval performance and accuracy of BugCatcher are better than current bug localization tools, and BugCatcher has the best Top N, Mean Average Precision (MAP) and Mean Reciprocal Rank (MRR) values for all datasets.  相似文献   

15.
重复缺陷报告的自动化检测可以减少开发冗余和维护成本,最近重复缺陷报告的检测倾向于利用深度神经网络,并考虑结构化和非结构化信息来生成混合表示特征。为了更有效获得缺陷报告的非结构化信息的特征,提出一种D_BBAS(Doc2vec and BERT BiLSTM-attention similarity)方法,它基于大规模缺陷报告库训练特征提取模型,生成能反映深层次语义信息的缺陷摘要文本表示集和缺陷描述文本表示集;利用这两个分布式的表示集计算出缺陷报告对的相似度,从而得到两个新的相似度特征;这两个新特征将与基于结构化信息生成的传统特征结合后参与重复缺陷报告的检测。在著名开源项目Eclipse、NetBeans 和Open Office的缺陷报告库上验证了D_BBAS方法的有效性,其中包含超过50万个缺陷报告。实验结果表明,相比于代表性方法,该方法的F1值平均提升了1.7%,证明了D_BBAS方法的有效性。  相似文献   

16.
自动分析软件缺陷报告间相关性的方法研究*   总被引:2,自引:1,他引:1  
针对缺陷报告相关性分析的研究主要采用计算其文本信息相似度的方法使其查全率和查准率并不理想,提出了一种将结构化信息相似度与文本信息相似度计算相结合的方法,即同时提取出缺陷报告中的文本信息(包括主题和详细描述)以及结构化信息(包括补丁、异常堆栈和代码片段),从缺陷外部表现和内部特征两个角度共同衡量缺陷报告间的相关性。通过对Eclipse系统中的1 000个缺陷报告进行实验,结果显示,增加结构化信息相似度计算,可以有效地将缺陷报告间相关性分析的查准率和查全率均提高到90%左右。  相似文献   

17.
Software crashes are severe manifestations of software bugs. Debugging crashing bugs is tedious and time-consuming. Understanding software changes that induce a crashing bug can provide useful contextual information for bug fixing and is highly demanded by developers. Locating the bug inducing changes is also useful for automatic program repair, since it narrows down the root causes and reduces the search space of bug fix location. However, currently there are no systematic studies on locating the software changes to a source code repository that induce a crashing bug reflected by a bucket of crash reports. To tackle this problem, we first conducted an empirical study on characterizing the bug inducing changes for crashing bugs (denoted as crash-inducing changes). We also propose ChangeLocator, a method to automatically locate crash-inducing changes for a given bucket of crash reports. We base our approach on a learning model that uses features originated from our empirical study and train the model using the data from the historical fixed crashes. We evaluated ChangeLocator with six release versions of Netbeans project. The results show that it can locate the crash-inducing changes for 44.7%, 68.5%, and 74.5% of the bugs by examining only top 1, 5 and 10 changes in the recommended list, respectively. It significantly outperforms the existing state-of-the-art approach.  相似文献   

18.
李政亮  陈翔  蒋智威  顾庆 《软件学报》2021,32(2):247-276
基于信息检索的软件缺陷定位方法是当前软件缺陷定位领域中的一个研究热点.该方法主要分析缺陷报告文本和程序模块代码,通过计算缺陷报告和程序模块间的相似度,选取与缺陷报告相似度最高的若干程序模块,将其推荐给开发人员.本文对近些年国内外研究人员在该综述主题上取得的成果进行了系统的梳理和总结.首先,给出研究框架并阐述影响方法性能的三个重要因素:数据源、检索模型和场景应用;其次,依次对这三个影响因素的已有研究成果进行总结;然后,总结基于信息检索的软件缺陷定位研究中常用的性能评测指标和评测数据集;最后总结全文并对未来值得关注的研究方向进行展望.  相似文献   

19.
张天伦  陈荣  杨溪  祝宏玉 《软件学报》2019,30(5):1386-1406
在所有的软件系统开发过程中,Bug的存在是不可避免的问题.对于软件系统的开发者来说,修复Bug最有利的工具就是Bug报告.但是人工识别Bug报告会给开发人员带来新的负担,因此,自动对Bug报告进行分类是一项很有必要的工作.基于此,提出用基于极速学习机的方法来对Bug报告进行分类.具体而言,主要解决Bug报告自动分类的3个问题:第1个是Bug报告数据集里不同类别的样本数量不平衡问题;第2个是Bug报告数据集里被标注的样本不充足问题;第3个是Bug报告数据集总体样本量不充足问题.为了解决这3个问题,分别引入了基于代价的有监督分类方法、基于模糊度的半监督学习方法以及样本迁移方法.通过在多个Bug报告数据集上进行实验,验证了这些方法的可行性和有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号