首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
重复缺陷报告检测能够避免对描述同一缺陷的多份报告进行重复的任务分派和修复,可降低软件维护成本.为了进一步提高检测的准确率,提出一种融合文本分布式表示的重复缺陷报告检测方法.首先,基于大规模缺陷报告数据库训练Doc2Vec模型并抽取缺陷报告的分布式表示,将不同长度的缺陷报告编码为统一长度的稠密向量.接着,通过比较这些向量...  相似文献   

2.
3.
软件缺陷在软件的开发和维护过程中是不可避免的,软件缺陷报告是软件维护过程中重要的缺陷描述文档,高质量的软件缺陷报告可以有效提高软件缺陷修复的效率.然而,由于存在许多开发人员、测试人员和用户与缺陷跟踪系统交互并提交软件缺陷报告,同一个软件缺陷可能被不同的人员报告,导致了大量重复的软件缺陷报告.重复的软件缺陷报告势必加重人工检测重复缺陷报告的工作量,并造成人力物力的浪费,降低了软件缺陷修复的效率.以系统文献调研的方式,对近年来国内外学者在重复软件缺陷报告检测领域的研究工作进行了系统的分析.主要从研究方法、数据集的选取、性能评价等方面具体分析总结,并提出该领域在后续研究中存在的问题、挑战以及建议.  相似文献   

4.
针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型--主题句向量模型(Doc2vec-LDA,Doc-LDA),该模型通过将LDA主题模型(Latent Dirichlet Allocation)和句向量模型融合(Doc2vec),不仅使得在模型训练过程中既能利用整个语料库的信息,而且还利用Paragraph Vector的局部语义空间信息完善LDA的隐性语义信息。实验采用爬取到的知网摘要文本作为数据集,选用[K]-Means聚类算法对各模型的摘要文本进行效果比较。实验结果表明,基于Doc-LDA模型的聚类效果优于LDA、Word2vec、LDA+Word2vec模型。  相似文献   

5.
由于太赫兹(THz)时域光谱技术能够有效获取半导体芯片内部结构的时域和频域信息,从而为半导体芯片产品内部结构成像和缺陷检测提供了可能。但由于单一频点的太赫兹图像特征表达能力不足,无法直接应用于工业领域。为此,充分利用不同频点的太赫兹光谱数据所蕴含的芯片不同特征信息,并开展图像融合方法的研究,采用多尺度变换将图像分离为低频和高频分量,并对低频分量和全通分量分别采用基于稀疏表示的融合算法和多尺度变换进行融合,建立了多尺度变换和稀疏表示的图像融合框架和重构算法,实现了对芯片特征信息的增强和图像成像精度的提高。同时,针对半导体芯片内部缺陷在线实时检测网络训练过拟合、效率低以及工业图像具有稀疏性、缺陷不明显等问题,通过构建半导体芯片缺陷检测数据集,研究了小样本状态下轻量级神经网络缺陷检测模型(LiCNN),并优化模型参数,实现精简的参数规模,实验验证LiCNN对小样本数据集缺陷检测的有效性,从而为半导体芯片内部缺陷的无损检测和质量控制提供理论方法指导。  相似文献   

6.
提出了一种用于判断输入句子完整性的深度学习模型BCLN,并由此来完成后续的数据清洗工作。通过利用BCLN模型,可以将单语数据集中的非完整句子进行辨别并处理。所提出的BCLN模型是基于BERT加入了卷积神经网络,通过此模型来进行特征提取,加入判断模块最终判断句子的完整程度。BCLN模型在专用数据集上进行测试,实验结果显示,提出的模型对判断句子完整性有明显效果。  相似文献   

7.
针对miRNA-疾病关联研究中信息使用不充分、过于依赖网络中节点的相似度信息以及预测准确度较低的问题,提出一种基于网络表示学习的miRNA-疾病关联预测方法(network representation learning miRNA-disease association,NRLMDA)。该方法通过引入长链非编码RNA(lncRNA)构造出miRNA-lncRNA-疾病异构网络,丰富原有网络的生物学信息;采用网络表征学习node2vec算法在上述提出的异构网络中以一定的游走策略获得节点的近邻序列,并通过skip-gram模型进行深度学习,从而获得节点的低维特征向量;最后基于miRNA-miRNA相似性的关联规则推断方法预测miRNA与疾病的关联。该方法能够挖掘出全局网络的拓扑结构特征,并且不需要负样本。NRLMDA在留一交叉验证和五折交叉验证以及进一步的案例研究上的实验结果优于经典方法。  相似文献   

8.
李伯涵  李红莲 《计算机应用研究》2021,38(11):3289-3292,3358
针对生成式文本摘要中模型对文本语义了解不够充分以及生成摘要缺乏关键信息的问题,提出一种融合关键词的中文摘要生成模型KBPM(Key-BERT-Pen model).首先使用TextRank方法将文本中关键词抽取出来,然后将抽取出的关键词与原文一起经过BERT预训练模型得到更加精确的上下文表示,最终将得到的词向量输入到带有双重注意力机制的指针模型中,指针模型从词汇表或原文中取出词汇来生成最终的摘要.实验结果表明,KBPM模型能够生成可读性更好、ROUGE分数更高的文本摘要.通过对比分析也验证了KBPM模型有效解决了生成摘要中缺乏关键信息的问题.  相似文献   

9.
针对已有实体相似度计算方法在实体对齐任务上准确率较低的问题,提出一种多信息加权融合实体对齐算法.分别采用动态规划求解最小编辑距离及Doc2 vec模型训练文本获取包含语义信息的特征向量等方法,对实体的结构化属性及非结构化文本进行相似度求解;通过加权平均获取实体综合相似度,完成实体对齐任务.对比实验表明,所提出算法有效提...  相似文献   

10.
太阳能电池片缺陷检测是太阳能电池板可靠运行的重要保证。基于计算机视觉技术的机器学习类缺陷检测方法存在诸如需要人工特征选择、训练参数过多以及某些缺陷类型检测效果差等问题。提出了一种基于深度卷积神经网络(DCNN)的太阳能电池片缺陷检测方法。该方法以区分缺陷类别为检测目标,以太阳能电池片图像作为输入,构建一个包含3个卷积层、1个池化层、1个全连接层和1个输出层的深度网络。在训练网络参数的过程中,提出了参数个数优化策略,参数调整算法以及应对过拟合问题的措施。在数据集上的实验结果表明,DCNN方法对太阳能电池片的缺陷检测准确率可以达到97%以上,F值可达0.690。该方法在各个缺陷类别的检测准确率均要高于现有方法,其即时检测速度能够满足现实生产要求。  相似文献   

11.
基于Word2Vec的一种文档向量表示   总被引:2,自引:0,他引:2  
唐明  朱磊  邹显春 《计算机科学》2016,43(6):214-217, 269
在文本分类中,如何运用word2vec词向量高效地表达一篇文档一直是一个难点。目前,将word2vec模型与聚类算法结合形成的doc2vec模型能有效地表达文档信息。但是,这种方法很少考虑单个词对整篇文档的影响力。为了解决这个问题,利用TF-IDF算法计算每篇文档中词的权重,并结合word2vec词向量生成文档向量,最后将其应用于中文文档分类。在搜狗中文语料库上的实验验证了新方法的有效性。  相似文献   

12.
大型软件系统的缺陷定位通常采用源代码与缺陷报告的文本相似性的排序方法,但是这种基于文本相似性的方法没能充分利用源代码结构信息,缺陷定位的准确率低。为了解决这个问题,本文提出了一种基于源代码结构(如类名、方法名、变量名、注释等)信息和历史缺陷报告信息进行缺陷定位的方法,对于源代码结构的不同部分,在与缺陷报告进行词语匹配时,赋予它们不同的权重,同时充分利用历史缺陷报告信息,提高缺陷定位的精度。本文使用了Eclipse作为测试项目进行实验,通过与BugLocator和BugScout等方法的结果进行对比,结果表明本文方法能显著的提高缺陷定位的精度,验证了本文方法的可行性和有效性。  相似文献   

13.
胸部X光片是患者胸部检查的优先选择,对患者的诊断治疗起着重要的作用。医生依据自身的经验和习惯书写胸部X光片诊断报告,由于一些主观或者客观的原因,会开具一些影像描述与诊断结论不相符的异常诊断报告,因此对诊断报告进行异常检测有着重要的研究意义。胸片诊断报告未登录词多、数据高维稀疏,缺乏大量有效标注,传统方法检测异常胸片诊断报告效果不佳,为此,提出了一种基于主题模型的胸部X光片诊断报告异常检测方法。首先用双向LSTM-CRF模型结合诊断报告中的字符级特征,获取特定的医疗术语特征,解决诊断报告中未登录词多,描述自由的问题。然后依据领域知识和模板将诊断报告进行有效的特征扩展,缓解数据稀疏问题。最后用LDA模型判断诊断报告中影像描述与诊断结论特征是否匹配,检测出异常胸片诊断报告。实验结果表明,在阈值为2的情况下,异常检测的准确率为92.82%,召回率为69.54%,检测性能优于传统方法的。  相似文献   

14.
针对互联网中在线招聘的工作广告,建立准确的薪水预测模型有助于求职者选择合适的职位。目前的研究方法都是通过词频或词向量平均化计算来获取职位的文本描述信息特征,无法全面理解文本语义。针对上述问题,本文利用文本深度表示模型Doc2vec计算文本的特征向量,能更深入地表征出文本语义特征。实验结果表明,与TF-IDF和word2vec相比,使用Doc2vec提取文本特征在对薪水进行预测的效果更好。  相似文献   

15.
针对文本聚类时文本特征维度高,忽略文档词排列顺序和语义等问题,提出了一种基于句向量(Doc2vec)和卷积神经网络(convolutional neural networks,CNN)的文本特征提取方法用于文本聚类。首先利用Doc2vec模型把训练数据集中的文本转换成句向量,充分考虑文档词排列顺序和语义;然后利用CNN提取文本的深层语义特征,解决特征维度高的问题,得到能够用于聚类的文本特征向量;最后使用k-means算法进行聚类。实验结果表明,在爬取的搜狗新闻数据上,该文本聚类模型的准确率达到了0.776,F值指标达到了0.780,相比其他文本聚类模型均有所提高。  相似文献   

16.
黄伟  林劼  江育娥 《计算机应用》2016,36(5):1212-1215
用户提交的软件错误报告随意性大、主观性强且内容少导致自动分类正确率不高,需要花费大量人工干预时间。随着互联网的快速发展用户提交的错误报告数量也不断增加,如何在海量数据下提高其自动分类的精确度越来越受到关注。通过改进词频-逆文档频率(TF-IDF),考虑到词条在类间和类内出现情况对文本分类的影响,提出一种基于软件错误报告数据集的改进多项式朴素贝叶斯算法,同时在Hadoop平台下使用MapReduce计算模型实现该算法的分布式版本。实验结果表明,改进的多项式朴素贝叶斯算法将F1值提高到71%,比原算法提高了27个百分点,同时在海量数据下可以通过拓展节点的方式缩短运行时间,有较好的执行效率。  相似文献   

17.
针对当前政务系统中人工审批文本效率低下的问题,本文将文本相似度引入电子政务中。当前基于文本相似度的网络模型中,存在着生成的词向量矩阵巨大,需要大量的时间去训练,而且仅利用上下文的环境来生成词向量,忽略了文档的语序和语义的关系。为了提高效率并降低训练成本,本文提出基于Do-Bi-LSTM文本相似度计算方法,该模型首先通过Doc2vec语言模型把训练数据集中的文本转换成向量,该方法在词向量的基础上增加了文本向量,从而获取了句子之间以及段落之间的相互关系。然后把得到的向量作为Bi-LSTM网络模型的输入进行模型训练,最后与LSTM网络模型、传统的深度网络模型相比,实验表明本文方法的准确率有很大的提高,具有可行性。  相似文献   

18.
针对语义信息对TextRank的影响,同时考虑新闻标题信息高度浓缩以及关键词的覆盖性与差异性的特点,提出一种新的融合LSTM和LDA差异的关键词抽取方法。首先对新闻文本进行预处理,得到候选关键词;其次通过LDA主题模型得到候选关键词的主题差异影响度;然后结合LSTM模型和word2vec模型计算候选关键词与标题的语义相关性影响度;最后将候选关键词节点按照主题差异影响度和语义相关性影响度进行非均匀转移,得到最终的候选关键词排序,抽取关键词。该方法融合了关键词的语义重要性、覆盖性以及差异性的不同属性。在搜狗全网新闻语料上的实验结果表明,该方法的抽取结果相比于传统方法在准确率和召回率上都有明显提升。  相似文献   

19.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号