首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
提出一种基于K-Means和主题模型的软件缺陷分析方法,对软件缺陷的类别和关键词进行研究.获取缺陷报告进行预处理,获取有效特征,利用向量空间模型进行文本表示,计算权重,根据最终特征向量进行聚类;提取每一类缺陷的主题和关键词,帮助修复人员快速找到对应的修复方式.关键词提取结果以单词形式呈现给修复人员.实验结果表明,所提方法在bugzilla、firefox和SeaM onkey这3款软件的缺陷报告共1500条缺陷信息上最终聚类平均准确率能达到81%.  相似文献   

2.
基于敏感点颜色聚类和行聚类筛选的文本提取   总被引:1,自引:0,他引:1  
针对现有的文本提取算法不能适应复杂背景变化和文字本身的形状变化问题,提出一种基于敏感点颜色两级聚类和文本行聚类筛选的方法。新方法利用人眼视觉对颜色大幅度变化更敏感的特点,以敏感点的主要颜色作为聚类分析的依据,克服了现有阈值方法和聚类方法受背景颜色变化影响较大的问题。在此基础上,以文本行的空间排列特征为依据进进行文本行筛选,以克服一般方法容易受文字形状和尺寸变化影响的缺点。实验表明,新方法对于背景的复杂变化和文字的形状尺寸变化都具有很好的适应性。  相似文献   

3.
该文采用聚类分析的k均值算法对学生的考试成绩进行聚类,得到了簇中心和个类数。研究表明,如果优秀率、良好率、中等率、及格率和不及格率符合正态分布,说明教学效果良好,学生对该课程内容掌握较好。  相似文献   

4.
软件缺陷原因分析方法   总被引:5,自引:4,他引:5  
刘海  郝克刚 《计算机科学》2009,36(1):242-243
软件缺陷原因分析对提高软件质量、保证软件项目顺利进行具有重要的意义.对定性和定量的软件缺陷分类方法进行了系统的总结,分析了它们的优势和弱点,并探讨了将这两类方法相融合以增强其功能和实用性的方法.  相似文献   

5.
基于SOM网和K-means的聚类算法   总被引:1,自引:1,他引:0  
K-means算法因对初始中心依赖性而导致聚类结果可能陷入局部极小.而恰当的选取初始中心向量就成为改进K-means算法的关键所在.因此可以先通过SOM进行聚类,较快确定聚类范围,再将其结果作为K-means方法的初始中心向量加以使用.实验证明结合这两种算法能够弥补这两种方法的缺陷,较好改善聚类效果.  相似文献   

6.
软件缺陷预测技术通过分析软件静态信息,对软件模块的缺陷倾向性做出判断,合理分配测试资源。但有时搜集的大量度量元信息是无关或冗余的,这些高维的特征增加了缺陷预测的复杂性。文章提出了一种新的度量元选择方法,首先通过样本聚类将相似度高的样本聚在同一簇中,然后在每个簇中按照最低冗余度进行特征子集的挑选,主要选择相互间冗余度低,且预测能力强的度量元。最后通过NASA数据集的实例证明本文方法能有效降低特征子集的冗余率,并能有效提高预测的准确度。  相似文献   

7.
针对高分辨率天文图像中的星点聚类研究中存在的 2 个问题:①天文图像的分辨率 较高,且图像处理速度较慢;②选取何种聚类算法对天文图像中的星点进行聚类分析效果较好。 在研究中,问题 1 采用图像分块的方法提高图像的处理速度;问题 2 提出了一种改进的 K 均值聚 类算法,以解决传统的 K 均值聚类算法的聚类结果易受到 k 值和初始聚类中心随机选择影响的问 题。该算法首先在用 K 均值聚类算法对数据初步聚类的基础上确定合适的 k 值,其次用层次聚类 对数据聚类确定初始聚类中心,最后在此基础上再采用 K 均值聚类算法进行聚类。通过 MATLAB 仿真实验的结果表明,该算法的聚类结果与效率优于其他聚类算法。  相似文献   

8.
K均值算法是一种常用的基于原型的聚类算法。但该算法要求用户随机选择初始质心,使得K均值算法受初始化影响较大。二分K均值算法虽然改善了这个问题,但仍然要求用户指定聚类个数,影响了聚类效果。用层次聚类对二分法进行改进,解决了二分K均值算法受用户指定的聚类个数的影响的问题。并结合Chameleon算法,合并划分过细簇,优化聚类结果。仿真实验证明改进的聚类算法的抱团性和分离性优于二分K均值聚类算法。  相似文献   

9.
基于自适应在线聚类的背景提取   总被引:1,自引:0,他引:1       下载免费PDF全文
分析目前应用于背景提取的各类聚类方法的原理和存在的问题,提出一种基于自适应在线聚类的背景提取方法。通过使用自适应动态改变的聚类阈值对视频进行在线聚类,无须设定任何参数即能自适应地提取出背景图像。实验结果表明,该方法具有较好的自适应性,能够提取出较优的背景图像,对于各种视频具有较好的鲁棒性。  相似文献   

10.
k近邻分类(kNN)是一种简单而有效的非参数分类算法, 但存在着参数需要人工确定, 没有显式构建分类模型造成存储空间大、分类效率低, 且易受到“维灾”效应影响等缺点. 针对这些缺点, 提出一种高效的近邻分类新方法, 构造了两个新的近邻分类器. 新方法使用由K均值聚类产生的优化的簇原型集合为分类模型, 减少了存储空间的同时提高了分类效率; 提出三种类重叠分析策略并引入模糊基准度量以减轻维灾影响. 以该分类模型学习方法为基础, 提出一种新的kNN分类器和组合朴素贝叶斯的新分类器, 算法涉及的参数都可以自动确定. 在人工和现实数据集上进行的实验表明, 新分类器具有良好的分类效率和分类准确率.  相似文献   

11.
为了克服传统主题词抽取算法中的主题漂移与主题误判等问题,提出了利用词的共现信息来提高主题词抽取的准确率。根据词汇与文本中的上下文环境词汇的共现关系来调节词的权重评分,与文本主题具有较高共现率的词将被优先抽取为文本的主题词,从而提高文本的主题词抽取精度。经实验证明,提出的主题词抽取方法较一般主题词抽取方法准确率有所提升,特别是抽取文本篇幅较短时,该方法明显优于一般方法。  相似文献   

12.
基于词频统计的文本关键词提取方法   总被引:1,自引:0,他引:1  
针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TF-IDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TF-IDF算法与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效减少关键词提取运行时间。  相似文献   

13.
为利用软件测试活动检测到的缺陷信息进行测试活动的有效性评估,改进软件测试活动,提出一种基于缺陷度量和缺陷基线的测试有效性评估方法.以正交缺陷分类方法为基础建立软件缺陷的分类框架,研究缺陷触发特征、缺陷类型统计信息与测试活动的关联,建立缺陷关联基线.通过分析实际缺陷度量与缺陷基线的偏离情况,评估测试活动的有效性,明确测试活动的改进方向.实例分析表明,该模型能够便捷地应用于测试活动有效性的定性评估.  相似文献   

14.
杨朝举  葛维益  王羽  徐建 《计算机应用研究》2021,38(4):1022-1026,1032
关键词提取在众多文本挖掘任务中扮演着重要的角色,其提取效果直接影响了文本挖掘任务的质量。以文本为研究对象,提出了一种基于k-truss图分解的关键词提取方法,名为KEK(keyword extraction based on k-truss)。该方法首先借助空间向量模型理论,以文本中的词为节点,通过词语之间的共现关系来构建文本图,接着利用k-truss图分解技术来获取文本语义特征,并结合词频、单词位置特征、复杂网络特征等构造无参评分函数,最终根据评分结果来提取关键词。通过在基准数据集上进行实验验证,结果表明KEK算法在提取短文本关键词上的F1值性能指标优于其他基于文本图的关键词提取方法。  相似文献   

15.
蔡静颖 《微计算机信息》2012,(6):182-183,181
传统的文本聚类方法都是基于簇的算法,文本聚类错误率较高,效率较低。本文提出了一种新的文本聚类算法,首先将特征文本提取,根据特征文本之间的相似度构造一个加权的复杂网络,利用加权复杂网络社团划分方法对其网络进行社团划分,实现文本聚类。将文本特征提取,实现网络稀疏性,提高聚类效率;利用网络的社团划分提高了文本的聚类效果。实验证明该方法的可行性和有效性。  相似文献   

16.
以语义为基础实现文档关键词提取是提高自动提取准确度的有效途径。以中文文档为处理对象,通过《同义词词林》计算词语间语义距离,对词语进行密度聚类,得到主题相关类,并从主题相关类中选取中心词作为  相似文献   

17.
能通过编译的C/C++程序代码可能依然隐含安全、设计或风格上缺陷,从而导致运行时出现内存泄露、运行异常等现象,难以完成软件需求所预期的目标。针对开源软件缺陷检测工具Cppcheck软件存在的不足,主要分析了Cppcheck架构、缺陷模式表示与实现,在对已收集350个缺陷模式分析总结基础上,对其完善,提高缺陷检测能力。通过两组实验验证改进Cppcheck工作的有效性。  相似文献   

18.
聚类与PCA融合的特征提取方法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
针对主成分分析(Principal Component Analysis,PCA)在克服变量多重相关性中的局限作用,提出了基于K-maxmin聚类的改进PCA特征提取方法,并结合RelieF算法去除分类不相关特征,可进一步提高算法效率和准确性。实验结果表明,该方法的特征提取效果优于传统的PCA方法。  相似文献   

19.
一种基于词聚类的中文文本主题抽取方法   总被引:2,自引:0,他引:2  
陈炯  张永奎 《计算机应用》2005,25(4):754-756
提出了一种基于词聚类的中文文本主题抽取方法,该方法利用相关度对词的共现进行分析,建立词之间的语义关联,并生成代表某一主题概念的用种子词表示的词类。对于给定文档,先进行特征词抽取,再借助词类生成该文档的主题因子,最后按权重输出主题因子,作为文本的主题。实验结果表明,该方法具有较高的抽准率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号