首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 30 毫秒
1.
软件的开发及维护过程中经常要对代码进行搜索。基于关键字匹配的代码搜索面临与传统信息检索一样的问题,即用户查询关键字与代码文本用词不匹配。为提高代码搜索精度,需要挖掘软件中的语义相关词进行查询扩展。本文针对软件工程领域设计了一种基于Word Embedding的语义相关词挖掘方法,并且采用IT技术问答网站Stack Overflow的文档作为语料库训练得到了共包含19332个单词的语义相关词表。与前人工作的对比实验验证了本文方法挖掘的语义相关词能有效提高代码搜索精度。  相似文献   

2.
When performing queries in web search engines, users often face difficulties choosing appropriate query terms. Search engines therefore usually suggest a list of expanded versions of the user query to disambiguate it or to resolve potential term mismatches. However, it has been shown that users find it difficult to choose an expanded query from such a list. In this paper, we describe the adoption of set‐based text visualization techniques to visualize how query expansions enrich the result space of a given user query and how the result sets relate to each other. Our system uses a linguistic approach to expand queries and topic modeling to extract the most informative terms from the results of these queries. In a user study, we compare a common text list of query expansion suggestions to three set‐based text visualization techniques adopted for visualizing expanded query results – namely, Compact Euler Diagrams, Parallel Tag Clouds, and a List View – to resolve ambiguous queries using interactive query expansion. Our results show that text visualization techniques do not increase retrieval efficiency, precision, or recall. Overall, users rate Parallel Tag Clouds visualizing key terms of the expanded query space lowest. Based on the results, we derive recommendations for visualizations of query expansion results, text visualization techniques in general, and discuss alternative use cases of set‐based text visualization techniques in the context of web search.  相似文献   

3.
顾逸圣  曾国荪 《计算机应用》2017,37(10):2958-2963
针对在编写软件、复用源代码的过程中仅依靠关键词无法精准搜索到适用源代码的问题,提出一种将语法和语义结合的源代码精准搜索方法。首先依据源代码语法语义的客观和唯一性,增加语法结构和"输入/输出"语义作为用户录入请求的一部分,并规范了具体的请求格式;然后在此基础上分别设计源代码语法匹配算法、"输入/输出"语义匹配算法、关键词兼容匹配,以及源代码搜索结果可信度计算算法;最后综合上述算法实现对源代码的精准搜索。测试结果表明:与单纯的关键词搜索相比,提出的方法对搜索的平均排序倒数(MRR)有超过62%的提升,有助于实现源代码的精准搜索。  相似文献   

4.
Qing Huang  Yang Yang  Ming Cheng 《Software》2019,49(11):1600-1617
The overexpansion problem negatively affects the quality of query expansion. To improve the quality of queries for searching code, this paper proposed a DBN-based algorithm for effective query expansion. The deep belief network (DBN) model is trained on the code sequences and their change sequences, which aims to capture the meaningful terms during the evolution of source code. In contrast to previous studies, the proposed model not only extracts relevant terms to expand a query but also excludes irrelevant terms from the query. It addresses two problems in query expansion, including the overexpansion of the original query and the negative influence of the changed terms in the target source code. Experiments on both artificial queries and real queries show that the proposed algorithm outperforms several query expansion algorithms for code search.  相似文献   

5.
"乒乓"量子通信协议的量子直接通信已引起了许多学者们的关注,然而,由于双向量子信道的对称性,该协议存在安全性缺陷.基于量子纠错码(QECC)编码原理和构造技术提出了一种新的攻击策略.基于该攻击策略分别对纠缠态和非正交态的"乒乓"协议进行了论证,并从信息论角度对Eve可以获得的信息量和可能被检测到的概率进行了分析.分析结果表明,以前提出的"乒乓"量子通信协议都是不安全的,即攻击者可以在不被检测到的情况下获得传输的信息.  相似文献   

6.
李阵  钮俊  王奎  辛园园 《计算机应用》2018,38(3):812-817
对开源代码进行准确搜索是实现代码复用的前提。在基于关键字搜索的研究中,目前只关注匹配方法签名。结合源代码注释对方法功能的语义描述,提出结合代码注释的关键字搜索方法。通过生成源代码抽象语法树,从中识别方法签名与各类型注释等组合代码特征;将代码特征与查询语句分别用向量表示,并计算向量间的余弦相似度,然后制定针对搜索结果多特征权重分配的评分机制。根据评分对搜索结果进行排序,得到与查询语句相关的结果序列。实验结果表明,多个代码特征在不同权重影响下可以提升源代码搜索准确度。  相似文献   

7.
个性化的社会标签查询扩展技术研究   总被引:1,自引:0,他引:1       下载免费PDF全文
随着互联网上的信息日益增长,个性化的搜索需求越来越迫切,由于用户兴趣的不同和行为的差异,如何为不同的用户提供不同的检索结果成为一个具有挑战性的问题。首先对现有搜索引擎的个性化信息检索和查询扩展技术进行了分类总结,分析了它们各自的优缺点。然后提出了基于社会化标签的个性化查询词扩展方法。这些方法通过从用户所收藏的社会化标签或标签所对应的网页中提取出和用户查询词相关的词,来对用户的初始查询进行扩展。最后利用Delicious网站上的用户数据,对比研究了这几种个性化查询扩展算法。通过与Google进行对比分析实验,结果表明所提出的社会化标签的个性化查询词扩展方法能够较好地满足用户的个性化需求,检索结果比Google的检索结果更接近用户需求。  相似文献   

8.
How to automatically understand and answer users' questions (eg, queries issued to a search engine) expressed with natural language has become an important yet difficult problem across the research fields of information retrieval and artificial intelligence. In a typical interactive Web search scenario, namely, session search, to obtain relevant information, the user usually interacts with the search engine for several rounds in the forms of, eg, query reformulations, clicks, and skips. These interactions are usually mixed and intertwined with each other in a complex way. For the ideal goal, an intelligent search engine can be seen as an artificial intelligence agent that is able to infer what information the user needs from these interactions. However, there still exists a big gap between the current state of the art and this goal. In this paper, in order to bridge the gap, we propose a Markov random field–based approach to capture dependence relations among interactions, queries, and clicked documents for automatic query expansion (as a way of inferring the information needs of the user). An extensive empirical evaluation is conducted on large‐scale web search data sets, and the results demonstrate the effectiveness of our proposed models.  相似文献   

9.
刘志伟  邢永旭  于澔  李涛  张晓东 《软件学报》2019,30(5):1498-1509
在大型IT企业中,尤其像Google或者百度,代码搜索已是软件开发过程中不可或缺且频繁的活动,其通过借鉴或复用已有代码,加速开发过程的速度.多年以来,已有大量的研究人员关注代码搜索,且设计出很多优秀的工具.但是已有的研究和工具主要是在小规模或者编程语言单一的代码数据集上,没有从企业实际搜索需求出发,且对用户的查询输入也有所限制,尚缺少一套针对企业级海量代码的检索与管理技术方案.提出了一套企业级海量数据代码搜索引擎的方案和系统实现,面向开发过程中用户最直接的需求,通过离线分析与在线分析,完成对海量代码库的索引构建与检索.其中,离线分析负责代码相关数据的获取与分析、构建索引集群.在线过程负责变换用户的query、对搜索的结果进行高级排序、生成摘要.本系统部署在百度代码库上,为数十TB级的Git代码库构建了索引,平均一次检索时间在1s之内.在百度推出应用以来,访问量逐步增加,现每周平均用户有数千人,每周查询平均有数万次,广受百度工程师好评.  相似文献   

10.
邢双双  刘名威  彭鑫 《软件学报》2022,33(11):4027-4045
开源及企业软件项目和各类软件开发网站上的代码片段是重要的软件开发资源.然而,很多开发者代码搜索需求反映的代码的高层意图和主题难以通过基于代码文本的信息检索技术来实现精准的代码搜索.因此,反映代码整体意图和主题的语义标签对于改进代码搜索、辅助代码理解都具有十分重要的作用.现有的标签生成技术主要面向文本内容或依赖于历史数据,无法满足大范围代码语义标注和辅助搜索、理解的需要.针对这一问题,提出了一种基于知识图谱的代码语义标签自动生成方法KGCodeTagger.该方法通过基于API文档和软件开发问答文本的概念和关系抽取构造软件知识图谱,作为代码语义标签生成的基础.针对给定的代码,该方法识别并抽取出通用API调用或概念提及,并链接到软件知识图谱中的相关概念上.在此基础上,该方法进一步识别与所链接的概念相关的其他概念作为候选,然后按照多样性和代表性排序,产生最终的代码语义标签.通过实验对KGCodeTagger软件知识图谱构建的各个步骤进行了评估,并通过与几个已有的基准方法的比较,对所生成的代码语义标签质量进行了评估.实验结果表明,KGCodeTagger的软件知识图谱构建步骤是合理有效的,该方法所生成的代码语义标签是高质量、有意义的,能够帮助开发人员快速理解代码的意图.  相似文献   

11.
在信息检索研究领域,资源与查询词的匹配决定信息检索质量。现有检索方法的检索结果存在过多不相关信息,不能很好满足用户需求。针对传统信息检索存在的问题与当前语义查询扩展方法的特点,本文在分析各种语义查询扩展方法及其相关研究的基础上,提出一种改进的基于领域本体的语义查询扩展方法。该方法论通过本体模型和概念相似度的计算对检索信息进行检索意图树的构建并扩展;然后在资源本体中以最短路径的方式搜索资源。实验结果表明,本文方法相较其他查询扩展方法能得到更好的检索结果。  相似文献   

12.
在计算广告学中,为用户查询返回相关的广告一直是研究的热点。然而用户的查询一般比较简短,广告的表示也局限在简短的创意和一些竞价词上,返回符合用户查询意图的广告十分困难。为了解决这个问题,该文提出利用多特征融合的方法进行广告查询扩展,先将查询输入到搜索引擎中,获得Top-k网页查询结果,将它们作为获取扩展词的外部资源,由于采用一般的特征选取方法获取扩展词采用的特征比较单一,缺乏语义信息,容易产生主题漂移现象,该文通过计算扩展词和查询词在网页查询结果中的共现度,并融合传统的TF特征和词性信息,获得与原始查询语义相关的扩展词。在真实的广告语料上的实验结果显示,基于多特征融合的选择广告扩展词的方法能有效地提高返回广告的相关性。  相似文献   

13.
隐私问题受到越来越多的关注,基于计算的私有信息检索(CPIR)的隐私保护技术允许用户从服务提供商检索数据并且不会泄露查询信息。但是,对于大规模应用,隐私保护技术与可用性之间存在较大差距。针对CPIR算法计算量大、计算时间长而不适合应用于大规模数据隐私保护的问题,提出了基于Spark和Huffman编码的CPIR最近邻查询隐私保护算法(H-PCPIR-V)。H-PCPIR-V算法主要是在数据预处理阶段将最近邻矩阵使用Huffman编码进行压缩减少计算位数,然后通过压缩后矩阵中元素的最大位数对其他元素进行补位,在服务端使用Spark并行框架对查询网格进行并行计算。通过对比实验及实验结果分析发现,相比PCPIR-V算法,H-PCPIR-V算法在服务端的计算代价下降30%左右,客户端的计算代价下降10%左右,通信代价下降40%左右。  相似文献   

14.
对XML文档查询的常用方法有两种:一种是使用查询语言;另一种是使用关键字,而使用关键字查询XML文档比使用查询语言更为简单方便。给出了一种使用关键字查询XML文档的索引查找算法。该算法只需要扫描一次关键字对应的编码列,就可以找到需要的编码,提高了查询效率。实验表明该算法是可行的和有效的。  相似文献   

15.
魏敏  张丽萍 《计算机应用研究》2021,38(11):3215-3221,3230
开源软件的成功推动了软件产业的蓬勃发展,大量代码资源为代码搜索创造了条件.如何通过代码搜索技术找到需求代码成为一个重要问题.为了更好地推进后续研究工作,首先对代码搜索相关概念及研究趋势进行介绍和说明;其次对使用不同技术的代码搜索研究工作进行综述,包括基于信息检索、查询和代码描述增强、程序特征分类以及深度学习等方面,并进一步总结归纳不同方法的优缺点;接下来针对代码搜索技术所应用的多个领域进行介绍,包括程序合成、代码推荐与补全和代码风格改善等方面;最后分析现阶段代码搜索面临的主要问题,为未来该方向的发展提供一定的参考与建议.  相似文献   

16.
吴旭虹  陈昭炯 《计算机工程》2010,36(12):219-220
针对传统图像马赛克算法中的瓦片图像颜色调整问题,提出一种基于全局色彩传递的图像马赛克算法,提高瓦片图像对源图像颜色空间的拟合阶数,在此基础上采用矩形碎片图像拼贴方式实现了相应的马赛克系统。实验结果表明,该算法能够获得良好的性能。  相似文献   

17.
基于关键词的搜索引擎无法满足用户需求,传统查询扩展方式又会带来许多语义理解错误,针对该问题,提出一种基于本体的垂直搜索引擎概念模型,建立基于关键词和基于概念的两层索引结构,利用行业领域本体对用户提交的关键词进行语义查询扩展,并对按照本体标注的文档进行排序优化,提高查询的查全率和查准率。  相似文献   

18.
随着互联网海量信息的不断涌现,根据用户的兴趣提供相关查询结果,是现有搜索引擎要考虑的一个问题,PageRank算法是基于链接的排序算法,已在Google搜索引擎广泛应用,但其忽略了用户个性化需求。采用网页预分类技术,来表示用户查询的兴趣度,进一步提出改进传统的PageRank算法,从而能适当提高用户在使用搜索引擎方面的个性化需求。  相似文献   

19.
Engineers create engineering documents with their own terminologies, and want to search existing engineering documents quickly and accurately during a product development process. Keyword-based search methods have been widely used due to their ease of use, but their search accuracy has been often problematic because of the semantic ambiguity of terminologies in engineering documents and queries. The semantic ambiguity can be alleviated by using a domain ontology. Also, if queries are expanded to incorporate the engineer’s personalized information needs, the accuracy of the search result would be improved. Therefore, we propose a framework to search engineering documents with less semantic ambiguity and more focus on each engineer’s personalized information needs. The framework includes four processes: (1) developing a domain ontology, (2) indexing engineering documents, (3) learning user profiles, and (4) performing personalized query expansion and retrieval. A domain ontology is developed based on product structure information and engineering documents. Using the domain ontology, terminologies in documents are disambiguated and indexed. Also, a user profile is generated from the domain ontology. By user profile learning, user’s interests are captured from the relevant documents. During a personalized query expansion process, the learned user profile is used to reflect user’s interests. Simultaneously, user’s searching intent, which is implicitly inferred from the user’s task context, is also considered. To retrieve relevant documents, an expanded query in which both user’s interests and intents are reflected is then matched against the document collection. The experimental results show that the proposed approach can substantially outperform both the keyword-based approach and the existing query expansion method in retrieving engineering documents. Reflecting a user’s information needs precisely has been identified to be the most important factor underlying this notable improvement.  相似文献   

20.
为了更有效、更准确地进行图像检索,提出了一种利用分形编码这项重要的拓扑特性来处理图像索引的新方法,即将图像经分形编码,首先得到每张图像的迭代函数,然后将其伴随图像存人数据库中,成为该图像的索引文件最后对数据库进行搜索时,则通过对此索引文件的比对来找出与查询图像相似的图像。反观使用其他方法建立的图像索引数据库,则无法证明其建立的索引文件具有上述特质。实验显示,图像经过分形编码所表现出的几何性质以及独特的有效性和鲁棒性,证明该方法是一个更有效率、准确度高的检索方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号