首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
随着IT社区和代码托管平台的发展,针对代码的用户评论数量急剧增加。用户在使用代码后给出的评论中包含丰富的静态和动态代码质量信息,对其进行提取与分析将有助于开发者了解用户关注的代码质量信息,以有针对性地提升代码质量,还有助于用户选择满足要求的代码。为此,文中提出了包含静态特性和动态特性的代码质量模型,以及识别并分析用户评论中代码质量信息的方法。首先,根据评价对象和评价句型规则识别出具有代码质量的用户评论;然后,应用评价对象和评价观点抽取代码质量属性表现;最后,通过分析代码质量属性表现和情感倾向给出代码静态和动态质量的相关结果。实验结果表明,所提方法能够有效地分析用户评论中的代码质量信息。  相似文献   

2.
对代码托管平台中的用户评论进行研究发现,用户评论中反映的代码质量信息可以帮助用户快速选择满足其需求的开源代码,并且可以帮助软件开发人员提高代码质量。但是当前研究存在代码质量信息提取不全面和不够准确的问题,为此提出一种基于事件图谱的代码质量分析方法来对用户评论中的代码质量信息进行分析。构建代码质量层次图表示多方面的代码质量信息结构;对用户评论进行分析,构建针对代码用户评论的事件图谱;提出将事件图谱映射为代码质量层次图的方法;对代码质量层次图中的代码质量信息进行识别。实验结果表明,该方法在代码评论文本中识别代码质量信息的平均准确率为86.9%,因此该方法能够对代码质量信息进行有效识别和分析。  相似文献   

3.
针对复杂文本评论的情感分析研究存在着隐式主题方面分类不精确、文本特征提取不全面和识别文本上下文语义不足等问题,论文提出了一种多维特征融合的混合神经网络文本情感分析模型MFF-HNN.该模型先把词向量、词性、位置和句法依存特征进行注意力特征融合,抽取出主题词库,然后把融合特征输入到改进的TBGRU模型和DCNN模型中获取语义信息和局部特征信息,再与主题词库结合进行注意力特征融合语义特征信息,最后使用SoftMax函数获取文本方面级情感分类信息.实验表明,该模型的情感分类的效果优于其它模型.  相似文献   

4.
带混合属性的神经网络规则提取方法   总被引:1,自引:0,他引:1  
人工神经网络应用中最大的弊端是缺乏可理解性,而对结果的解释是任何一个完善的智能系统必备的基本特征.从神经网络中提取规则被公认为是解决该问题最有效的手段之一.因此,所提取规则的可理解程度成为衡量规则提取算法质量的重要指标.目前该领域的研究主要集中在分类规则的提取上.对于分类问题,待测模式的属性的取值可能是离散的,也可能是连续的.现有的算法针对全连续或者全离散的问题已取得较好的效果.但对既包含连续属性也包含离散属性的问题,已有算法未取得理想的结果.本文针对带混合属性的分类问题,提出了一种规则提取算法,在提取规则的可理解性上同时照顾了连续属性和离散属性.  相似文献   

5.
在线用户评论向消费者提供了丰富的商品信息,帮助他们挑选从日常用品到娱乐活动相关的商品.然而,评论的数量之大让用户难以对商品有一个清晰的认识.现有解决电子商务网站中评论信息过载问题的方法包括评估评论质量以及总结评论观点等.但是,基于评论质量排序的方法可能信息冗余,而评论总结方法忽视上下文导致易读性较差.因此,需要实现有效的评论选择方法.设计了基于字典和规则以及基于主题模型LDA的观点获取算法来形式化地表示每条评论;提出一种基于贪心算法的评论选择方法,实现从商品评论集中选择一组高质量的评论,并最大化评论集的商品属性覆盖度和评论观点多样性.最后在真实数据集上对算法进行实验来验证该算法,实验结果表明了该算法的有效性.  相似文献   

6.
吕照进  沈立炜  赵文耘 《计算机科学》2017,44(2):216-221, 256
在开发新的需求功能或维护已有代码的过程中,安卓应用开发者会尝试获取与特定主题功能相对应的代码片段并了解其逻辑结构。当涉及代码层次上的分析工作时,复杂的源代码结构以及开发者不良的代码风格将会导致开发者需要花费大量的时间去定位代码片段并理清实现逻辑。因此,找出一种能够快速定位到代码片段的方法对于开发者具有重要的实际意义。提出了一种面向场景的安卓应用代码定位方法,其目标是根据特定主题功能的执行场景,综合运用动态与静态相结合的分析技术来确定与该主题功能相关的代码片段。此方法的执行步骤包括主题功能执行轨迹的收集与分析、安卓应用源代码的静态分析、基于静态与动态方法信息的匹配与综合以及方法信息的可视化展现。基于该方法实现了一款插件工具,该工具支持用户便捷查找与主题功能相关的代码信息,并支持高亮标记用户所指定的方法片段。  相似文献   

7.
王青叶  万志远  李善平  夏鑫 《软件学报》2022,33(7):2581-2598
代码审查是一种由其他开发者而非代码作者本人评审代码的形式.在代码审查系统中,开发者通过提交代码变更来修复软件缺陷或添加软件特性.并非所有的代码变更都会被集成到代码库中,部分代码变更会被拒收.被拒收的代码变更有可能被恢复,并继续接受审查,提供代码贡献者改进代码变更的机会.然而,审查恢复过的代码变更需要花费更多的时间.收集了4个开源项目中的920 700条代码变更,采用主题分析方法识别出11类代码变更恢复的原因,并定量分析被恢复的代码变更的特征.主要发现包括:1)导致代码变更恢复的原因中,“提升改进”类型占比最大; 2)不同项目之间,代码变更被恢复的原因类别分布存在差异,但并不显著; 3)与从未恢复过的代码变更相比,恢复的代码变更接收率低10%,评论数量平均多1.9倍,审查所用时间平均多5.8倍; 4) 81%的恢复代码变更被接收, 19%的恢复代码变更被拒收.  相似文献   

8.
针对基于决策形式背景进行属性约简与规则提取能够更便捷有效地获取知识,因此规则提取及属性约简是形式概念分析理论重要的研究课题。本文基于等价关系研究粒协调决策形式背景的属性约简与规则提取,定义粒协调集与粒约简,给出粒协调集判定定理,并结合布尔方法给出属性约简算法,最后利用集值向量包含度这一工具给出决策形式背景中的乐观规则融合方法与悲观规则融合方法。  相似文献   

9.
数字属性的优化关联规则开采   总被引:2,自引:0,他引:2  
关联规则揭示了关系表中属性之间潜在的联系,优化关联规则是发现特定属性间用户最感兴趣关系的一种有效途径。该文提出了一种基于数字属性的优化关税规则开采算法,该算法允许优化关联规则包含多维析取范式。  相似文献   

10.
一种新的属性重要性度量及其规则获取   总被引:1,自引:0,他引:1       下载免费PDF全文
在分析规则知识条件和结论所在等价类包含关系基础上,提出了一个新的属性相对重要性的定义,并给出一种以决策类为基础的逐渐增加条件属性直接获取最简分类规则方法,同时用实例进行了验证。  相似文献   

11.
张文芳  陈桢  刘旭东  王小敏 《软件学报》2019,30(9):2760-2771
为了解决用户属性变化带来的权限访问控制问题,支持属性撤销的基于属性加密方案被提出.然而,现有的属性撤销机制大多存在撤销代价大、撤销粒度粗等问题,且已有的方案均存在安全隐患,即属性授权中心可以伪装成任意用户解密密文.为弥补上述不足,提出一种支持细粒度属性直接撤销的密文策略的基于属性加密方案(CP-ABE),并给出该方案的形式化定义与安全模型.所提方案中,用于生成用户密钥的秘密参数由系统中心和属性授权机构分别产生,可避免属性授权中心解密密文的安全隐患.同时,通过引入多属性授权中心进一步降低了安全风险.在属性撤销方面,通过设计高效的重加密算法并引入属性撤销列表,实现细粒度的属性直接撤销.安全证明和性能分析表明:所提方案在适应性选择密文攻击下具有不可区分性并能抵抗不可信授权中心的破译攻击,较同类方案具有更高的计算效率以及更细的属性撤销粒度.  相似文献   

12.
胡甜媛  姜瑛 《软件学报》2019,30(10):3168-3185
随着APP软件应用的普及,针对APP软件的用户评论数量急剧增加,基于用户评论挖掘有价值的软件使用反馈,可以帮助开发人员有针对性地维护和改进APP软件.针对不同类型的APP软件使用反馈,提出了评价对象和评价观点抽取规则,给出了评论模式和评论种子的定义;应用评论种子挖掘与之相同或相似的体现相同使用反馈类型的用户评论,基于人工标注的少量初始评论种子持续构建候选评论模式库;应用半监督自学习的方式,基于候选评论模式库动态扩充评论种子库;通过循环挖掘的方式,动态扩大挖掘体现不同使用反馈类型的APP软件用户评论的范围.实验结果表明,所提方法可以有效地挖掘体现使用反馈的APP软件用户评论,平均挖掘率达到77.82%.  相似文献   

13.
针对学术论文推荐中项目冷启动问题,提出了一种基于频繁主题集偏好的协同主题回归模型。该算法考虑到用户在选择学术论文时对研究热点的偏好,使用频繁主题集代表研究热点,将用户对研究热点的偏好表示成用户对频繁主题集的偏好。通过潜在狄利克雷分布主题模型挖掘得到论文—主题概率分布矩阵,并筛选出论文中概率较高的主题;然后挖掘出频繁出现的主题集合,并得到论文—频繁主题集矩阵;最后在预测未知评分时融入用户对频繁主题集的偏好。在CiteULike数据集上的实验表明,相比于矩阵分解模型和协同主题回归模型,该算法在召回率、准确率和RMSE三个指标上都有所提升。  相似文献   

14.
话题的延续和转换是篇章中重要的语用功能。该文从句首话题共享的角度对话题延续和转换进行了分类,分为句首话题延续、句中子话题延续、完全话题转换、兼语话题转换、新支话题转换五种,进而对话题转换的特殊情况——新支话题展开研究。基于33万字的广义话题结构语料库,该文对新支话题的句法成分、语义角色进行了统计和分析。通过句法成分分析发现,宾语从句或补语从句主语、主谓谓语句小主语、状性成分起始句主语、句末宾语、连谓句非句末宾语、兼语句兼语、介词宾语甚至状语等都能成为新支话题,从而引出新支句,其中,句末宾语作为新支话题的情况最多,但未发现间接宾语作为新支话题的情况;语义角色分析发现,大部分主体论元(施事、感事、经事、主事)和客体论元(受事、系事、结果、对象、与事)及少数凭借论元(方式)和环境论元(处所、终点)能成为新支话题引出新支句。同时,系事和受事成为新支话题的情况最显著;施事、结果和对象次之;原因和目的等论元难以成为新支话题。该文的研究揭示了句法、语义对话题转换这一语用现象的一种可能的约束途径,有助于人和计算机更深入地理解汉语篇章的话题转换机制,以期将这种语用现象逐步落实到语义直至句法的形式中,最终实现计算机对话题转换的自动分析。  相似文献   

15.
代码表征是对代码数值化的一种技术,把代码映射为一组连续的实值向量,提取隐藏在代码内部的属性,辅助程序员生成或分析代码,是代码克隆、代码推荐、代码剽窃等软件工程任务的核心技术和研究热点。研究者们对代码表征方面进行了一系列研究,根据源代码抽取信息的方式,分为基于文本的表征、基于语法的表征、基于语义的表征和基于功能的表征;根据表征粒度的大小,分为基于词汇的表征、基于语句的表征、基于函数的表征等不同等级;根据表征方法的不同,分为基于统计的模型、基于自然语言的模型和基于深度学习的模型。对近几年基于深度学习的代码表征研究进展进行了综述,并从表征粒度、表征层次、表征模型、应用场景等方面对现有工作进行了概括、比较和分析。对基于深度学习的代码表征的未来发展趋势进行分析和展望。  相似文献   

16.
如何对生产环境中经代码混淆的结构化数据集的敏感属性(字段)进行自动化识别、分类分级,已成为对结构化数据隐私保护的瓶颈。提出一种面向结构化数据集的敏感属性自动化识别与分级算法,利用信息熵定义了属性敏感度,通过对敏感度聚类和属性间关联规则挖掘,将任意结构化数据集的敏感属性进行识别和敏感度量化;通过对敏感属性簇中属性间的互信息相关性和关联规则分析,对敏感属性进行分组并量化其平均敏感度,实现敏感属性的分类分级。实验表明,该算法可识别、分类、分级任意结构化数据集的敏感属性,效率和精确率更高;对比分析表明,该算法可同时实现敏感属性的识别与分级,无须预知属性特征、敏感特征字典,兼顾了属性间的相关性和关联关系。  相似文献   

17.
移动社交网络中细粒度朋友发现隐私保护机制   总被引:1,自引:0,他引:1  
罗恩韬  王国军  刘琴  孟大程 《软件学报》2018,29(10):3223-3238
在移动社交网络中,用户可以通过匹配彼此的特征属性进行朋友发现,针对单属性管理中心用户属性密钥更容易被攻击者窃取和服务高峰出现的性能瓶颈问题,提出一种由多个属性管理中心、分级管理用户属性子密钥方案.在该方案中,多个属性中心细粒度地管理用户的不同特征属性,并根据用户特征属性生成属性子密钥,交友请求者只有满足交友发起者设置的交友访问策略,才能正确地将各子密钥组合成完整的解密密钥,进而解密存储在交友中心的用户加密数据文件.通过对属性子密钥进行分级分类管理,不仅避免了单属性管理中心容易被攻击而造成的密钥泄漏以及单点故障风险,而且多属性中心协同工作提高了交友匹配计算效率.通过验证方案是否可挑战明文攻击,证明可达到CPA安全,可以有效地保护用户的隐私不被泄露.同时与既有方案进行了充分的对比实验,确保该方案计算开销最小,可以提供良好的用户体验.  相似文献   

18.
传统的协同过滤算法虽然可以很容易地挖掘出用户的兴趣爱好,但存在数据冷启动和稀疏性问题.针对这些问题,提出一种基于用户兴趣模型的推荐算法.首先通过LDA主题模型训练数据集得到物品-主题概率分布矩阵,利用物品-主题概率分布矩阵得到用户历史兴趣模型,然后结合用户历史行为信息和物品内容信息得到用户兴趣模型,最后计算用户与候选集之间的相似度,进行TOP-N推荐.在豆瓣电影数据集上的实验结果表明,改进后的推荐算法能够更好地处理稀疏数据和冷启动问题,并且明显提高了推荐质量.  相似文献   

19.
刘志伟  邢永旭  于澔  李涛  张晓东 《软件学报》2019,30(5):1498-1509
在大型IT企业中,尤其像Google或者百度,代码搜索已是软件开发过程中不可或缺且频繁的活动,其通过借鉴或复用已有代码,加速开发过程的速度.多年以来,已有大量的研究人员关注代码搜索,且设计出很多优秀的工具.但是已有的研究和工具主要是在小规模或者编程语言单一的代码数据集上,没有从企业实际搜索需求出发,且对用户的查询输入也有所限制,尚缺少一套针对企业级海量代码的检索与管理技术方案.提出了一套企业级海量数据代码搜索引擎的方案和系统实现,面向开发过程中用户最直接的需求,通过离线分析与在线分析,完成对海量代码库的索引构建与检索.其中,离线分析负责代码相关数据的获取与分析、构建索引集群.在线过程负责变换用户的query、对搜索的结果进行高级排序、生成摘要.本系统部署在百度代码库上,为数十TB级的Git代码库构建了索引,平均一次检索时间在1s之内.在百度推出应用以来,访问量逐步增加,现每周平均用户有数千人,每周查询平均有数万次,广受百度工程师好评.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号