首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 141 毫秒
1.
诸如Stack Overflow这种软件开发问答网站已成为开发者在编程中寻找问题解决方案的主要手段,它们通过众包的方式为开发者提供解决方案和代码片段作为参考.自动识别代码片段的用途将为软件开发问答网站的知识抽取提供支持.通过对Stack Overflow上的问题及代码片段进行研究,总结出4种问题类型和8种代码片段类型.在此基础上,实现基于朴素贝叶斯的自动分类方法.实验表明,8个类型代码片段的分类准确率都在50%以上,整体准确率达到70%以上.  相似文献   

2.
在Stack Overflow、Quora等社区问答网站中,日益增长的用户数使新问题数量急剧增加,传统的专家发现方法通常根据历史回答记录建立用户文档,再从中提取用户文本特征,难以及时寻找到合适的专家进行回答。针对该问题,提出一种社区问答中基于用户-标签异构网络的专家发现方法。根据用户历史回答记录和问题的附带标签构建用户-标签网络,以此得到用户的向量表示。在此基础上,使用全连接神经网络提取用户特征和问题文本特征,通过比较两者的余弦相似度得到候选专家列表。基于StackExchange的真实世界数据集进行测试,实验结果表明,与LDA、STM、RankingSVM和QR-DSSM方法相比,该方法的MRR指标值较高,能够准确寻找到可提供正确答案的专家。  相似文献   

3.
4.
刘猛  杨志敏  龚蓬 《计算机应用》2004,24(Z1):222-224
堆栈溢出(Stack Overflow)返回地址攻击已成为当今黑客和网络病毒攻击最常用手段,文中提出了分别用软件和硬件方式实现的有效防止该攻击的方法.  相似文献   

5.
目前软件领域中软件开发问答网站应用广泛,但是针对网站用户的API讨论情况的研究较少。对于用户在问答网站中的API讨论在句式、语义上的研究,将帮助后续研究人员更好地构造自然语言处理程序,自动化提取网站中用户讨论的核心内容,开展其他方面的研究。收集Java与Android API集合,定义规则生成API的别名库,使用文本匹配的方法对Stack Overflow帖子中的API进行实体识别。人工分析Stack Overflow中用户对10个常用API的讨论后,得到API常以导入语句和赋值表达式的形式出现在不规范句子中,在规范语句中作为主语和宾语,用户倾向于讨论程序错误、原理及用法介绍和同类API对比,以及用户习惯省略方法参数或过长的全限定名的结论。  相似文献   

6.
数据库管理系统虽是一种较为成熟的软件系统,但开发人员在应用数据库系统进行数据管理以及数据分析时还是会遇到各种问题,因此会在Stack Overflow之类的问答论坛上寻求解决方法.文中获取了Stack Overflow上94473条与数据库相关的问题,应用LDA主题模型将这些问题归为25个主题,结果显示开发者的问题可归为"表""SQL""SELECT"等主题.通过研究与数据库相关的不同主题的流行度和困难程度发现,"SQL"主题相关的问题较为流行.除此以外,文中还分别研究了3种不同的数据库,即MySQL,Oracle和MongoDB,分析了与不同数据库系统相关的问题的主题分布.文中的研究成果有助于了解数据库开发者所面临的挑战,从而为数据库系统版本更新、数据库课程教学内容的设置,甚至是数据库领域的研究问题提供参考.  相似文献   

7.
API相关的知识通常分散隐含在多个信息源,如API参考文档、问答网站等非结构化的文本中,不利于API的查询与检索.为此,提出一种多源信息融合的API知识图谱构建方法,以提高API检索的效率.API参考文档从设计者角度描述了API的功能和结构,Stack Overflow问答网站从用户角度提供了API的使用目的及应用场景,二者互为补充,可共同为API查询与检索提供支持.通过分析API参考文档,抽取API和领域概念作为实体,构建API和领域概念之间的关联关系;利用Stack Overflow问答网站,抽取问答QA和API概念作为实体,构建问答QA和API概念之间的关联关系.在此基础上,将二者进行知识融合,构建多源API知识图谱,以实现基于知识图谱的API推荐.为验证本文方法,分别从知识抽取的准确性和推荐应用两方面对本文构建API知识图谱的有效性进行评估.实验结果表明,基于知识图谱的API推荐,在推荐效果及效率上均有提升.  相似文献   

8.
在软件开发在线问答网站上,解决问题的过程并非简单的一问一答,而经常包含着一个复杂的交互过程。深刻理解软件开发在线问答网站的问答特点及其交互过程,对于提高问题和回答质量、改进交互效率以及开发相关的自动化辅助工具都有着重要的意义。从Stack Overflow中问题的目的和意图、基本要素以及所包含的交互方式三个角度开展研究,抽样并分析1 001个问题,总结出问题的7种类型、8个要素和10类交互方式。根据研究结果,对软件开发在线问答网站的使用者、开发者以及辅助问答工具的研究者提出了相应的建议。  相似文献   

9.
社区问答系统已经成为获取和分享知识的一种重要渠道,但用户提供的信息质量差异比较大。本文针对社区问答系统中具有多个答案的问题,提出了一种基于混合式的社区问答答案质量评价模型,可实现最佳答案的选取。该模型首先利用基于用户活动的UAM模型获得问题和答案的主题相似度并剔除无关回复,然后结合用户权威度及多重评价标准,对答案进行评分,获得对答案的定量评价结果。基于Stack Overflow的实验表明,该方法可有效的对答案进行质量评分,有实用价值。  相似文献   

10.
软件问答网站基于关键词的搜索机制往往并不能很好地帮助用户找到问题的答案。众多的返回结果造成信息迷航,用户需要花费额外的时间来筛选出自己所需要的信息。针对这种情况,基于Stack Overflow提供的文本信息,提出通过文本主题聚类结合多刻面技术的方法。对搜索结果以及链接关系等信息进行知识抽取,帮助用户理解搜索结果的主题以及方向。设计一种力导引加树形布局的可视化模型对知识进行表达。实现了一个基于Web的动态交互可视化工具,基本达到了解决信息迷航,帮助用户定位问题答案的搜索优化目的。  相似文献   

11.
受限领域问答系统的中文问句分析研究   总被引:1,自引:0,他引:1       下载免费PDF全文
对用户所提问句的理解是受限领域问答系统实现的关键,该文提出一种基于本体和问句句型模板规则的中文问句分析方法,研究如何使用问句语义表征来表示问句分析的结果,将该方法应用于某受限领域问答系统中。实验结果表明,使用该方法进行中文问句分析,准确率达90%以上,可以在实际的问答系统中使用该方法。  相似文献   

12.
复杂类问题理解是中文问答系统研究的难点,基于组块的问句分析方法将整个问句转化为若干组块,降低了问句分析的难度和复杂性。针对以含有事件(动作)信息的复杂类问题,提出基于语义组块的中文问答系统问题语义表征模型,采用语义组块的思想将问题的语义成分定义为疑问焦点块、问题主题块和问题事件块三个语义组块,对问句中的事件语义信息,建立了问题事件语义结构,将一个问句表征为一个基于语义组块的问题语义表征结构,用于问答系统的问题理解。通过序列标注学习方法实现问题语义表征中语义组块自动标注。实验结果表明:问题语义组块标注效果较好,问题语义表征模型获取了问题的关键语义信息,为语义层面上的问题理解提供基础。  相似文献   

13.
Programming-specific Q&A sites (e.g., Stack Overflow) are being used extensively by software developers for knowledge sharing and acquisition. Due to the cross-reference of questions and answers (note that users also reference URLs external to the Q&A site. In this paper, URL sharing refers to internal URLs within the Q&A site, unless otherwise stated), knowledge is diffused in the Q&A site, forming a large knowledge network. In Stack Overflow, why do developers share URLs? How is the community feedback to the knowledge being shared? What are the unique topological and semantic properties of the resulting knowledge network in Stack Overflow? Has this knowledge network become stable? If so, how does it reach to stability? Answering these questions can help the software engineering community better understand the knowledge diffusion process in programming-specific Q&A sites like Stack Overflow, thereby enabling more effective knowledge sharing, knowledge use, and knowledge representation and search in the community. Previous work has focused on analyzing user activities in Q&A sites or mining the textual content of these sites. In this article, we present a methodology to analyze URL sharing activities in Stack Overflow. We use open coding method to analyze why users share URLs in Stack Overflow, and develop a set of quantitative analysis methods to study the structural and dynamic properties of the emergent knowledge network in Stack Overflow. We also identify system designs, community norms, and social behavior theories that help explain our empirical findings. Through this study, we obtain an in-depth understanding of the knowledge diffusion process in Stack Overflow and expose the implications of URL sharing behavior for Q&A site design, developers who use crowdsourced knowledge in Stack Overflow, and future research on knowledge representation and search.  相似文献   

14.
时宇岑  印莹  赵宇海  张斌  王国仁 《软件学报》2019,30(5):1561-1574
随着互联网技术的迅猛发展,基于开发者社区的提问-回答经验交流方式已成为众多开发人员解决软件开发、维护过程中所遇问题的重要手段之一.如何为开发者社区中的提问者及时、准确地推荐问题回答者,是具有实际需求的重要问题.通过对Stack Overflow和Github两个具有代表性的主流开发者社区相关数据的收集和分析,观察到影响上述问题推荐准确性和反馈及时性的3个现象:(1)用户标签自定现象,即开发者社区中,用户的标签信息是由用户自己主观定义所得,而非系统根据用户的历史行为客观标定;(2)不对称活跃现象,即用户可能在某个或某些开发者社区中活跃,但在其他社区中并不具有同等活跃程度,甚至不活跃;(3)关键词集封闭现象,即开发者社区中的问题回答者推荐仅依据问题文本中的关键词,而未考虑其他语义相关的关键词.针对以上问题,融合开发者社区的用户信息,通过分析用户与用户之间的互动行为,建立跨社区的开发者网络,并提出一种基于重启随机游走的算法更新用户标签.进一步地,通过使用Taxonomy来扩充问题的查询关键词范围,在此基础上,协同用户矩阵进行更加准确的推荐,并增大了推荐时有效用户的范围.收集的实验数据包括170万个有效主题、累计40万用户以及117个标签.实验结果证实,所提出的算法具有较好的F-measure和NDCG度量.特别是在冷门标签的推荐中,与未采用该方法的推荐算法相比,基于NDCG度量的推荐准确率至少可提高2倍,部分甚至可高达4倍.  相似文献   

15.
在社区问答系统中,每天大量涌现的问题导致用户很难寻找自己感兴趣并且擅长的问题进行回答。为了更好地解决这一问题,本文根据用户兴趣,将用户的活跃度指数融入推荐算法。实验结果显示,该方法在一定程度上提高了问题推荐的效率。   相似文献   

16.
一种基于LDA的社区问答问句相似度计算方法   总被引:2,自引:0,他引:2  
传统的问答系统(QA)只是直接返回问题的答案,而且没有用户交互特性,而基于社区的问答系统(CQA),含有大量的“问答对”可以利用。该文提出了一种基于LDA的匹配框架来解决相似问句的匹配问题,分别从问句的统计信息、语义信息和主题信息三个方面来计算问句相似度,综合得到整体相似度。实验是在Yahoo! Answers上抽取的真实标注数据集上进行,最终的实验结果表明,该文的方法达到了很好的性能。  相似文献   

17.
前沿相关研究将相似问句识别转化为二元问句匹配识别并取得很大进展。但是在自动问答系统的实际应用场景中存在大量数据,这些方法受限于二元问句匹配识别模式,导致时效性不高。针对这一问题,受人脸识别相关研究的启发,该文提出基于语义空间距离衡量的相似问句识别方法(Semantic Space Distance Method,SSDM)。该方法将相似问句识别作为多分类问题进行训练,通过利用人脸识别任务中Margin Softmax损失函数得到语义编码模型。该语义编码模型能够将相似问句在语义空间中聚合,不相似问句在语义空间中远离。SSDM方法将相似问句识别转化成语义空间中的向量距离计算,突破二元问句匹配的方式,保证了一定的高时效性,并且仍然能够在深层语义层面对相似问句进行识别。该方法在Biendata的ASQD数据集中实验测试,取得了比基线方法更优的性能,验证了SSDM方法的有效性。  相似文献   

18.
问答系统可以针对用户提出的自然语言问题给出精准的答案,是自然语言处理领域中一个重要的研究方向。对于具有复杂语义结构和句法结构的多跳问题,模型需要强大的自然语言理解能力。问题分解作为问题理解的一种技术,有着不可估量的作用。阐述了问题分解的研究背景与意义;根据问题特征提取的方式,将现有的方法分为传统机器学习方法和深度学习方法两大类,传统机器学习方法以规则模板匹配和基于分割的方法为主,深度学习方法以基于Transformer、图神经网络、注意力机制、查询图和强化学习为主,并分别从模型架构、优势、劣势等方面进行分析。结合目前研究的动态,初步展望了未来的研究方向。  相似文献   

19.
机器阅读理解是自然语言处理(NLP)领域的一个研究热点,目前大部分的研究是针对答案简短的问题,而具有长答案的问题,如描述类问题是现实世界无法避免的,因此有必要对该类问题进行研究。该文采用QU-NNs模型对阅读理解中描述类问题的解答进行了探索,其框架为嵌入层、编码层、交互层、预测层和答案后处理层。由于该类问题语义概括程度高,所以对问题的理解尤为重要,该文在模型的嵌入层和交互层中分别融入了问题类型和问题主题、问题焦点这三种问题特征,其中问题类型通过卷积神经网络进行识别,问题主题和问题焦点通过句法分析获得,同时采用启发式方法对答案中的噪音和冗余信息进行了识别。在相关数据集上对QU-NNs(Question Understanding-Neural Networks)模型进行了实验,实验表明加入问题特征和删除无关信息可使结果提高2%~10%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号