首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
为了解决搜索引擎检索结果中的主题混杂现象,帮助用户快速准确地定位到有价值的信息,提出基于主题短语的搜索引擎结果聚类方法。首先从检索结果中提取查询词并与相邻词语组成主题短语,建立包含高频独立词语及主题短语的混合向量空间模型,同时引入同义词词林对特征项进行语义扩充,最后采用改进的k-means聚类算法对搜索结果进行聚类,并为各个类别提取类别标签。实验结果表明,该算法能有效提高聚类结果的准确率。  相似文献   

2.
一种层次化的检索结果聚类方法   总被引:3,自引:1,他引:2  
检索结果聚类能够帮助用户快速地浏览搜索引擎返回的结果.传统的聚类方法由于不能生成有意义的类别标签因此是不适合的,为了改善检索结果层次化聚类的效果,采用了基于标签的聚类算法,提出了将DF、查询日志、查询词上下文特征融合的类别标签抽取算法,并以抽取的标签构造基础类别图,通过GBCA算法构建层次化聚类结果.实验证明了多特征融合模型的有效性;GBCA算法在类别标签抽取和F-Measure两个评价指标上都比STC和Snaket算法有很大的提高.  相似文献   

3.
搜索引擎针对某个查询条件返回给用户的查询结果可能数量非常巨大,要从这么多的返回信息中找到所需要的信息是很困难的.研究聚类算法是为了帮助用户更好地查询到自己所需要的和感兴趣的信息.提出采用基于K-means与FCA的网页文本聚类算法,并分析了两种算法各自的优势与缺点,为研究更优的网页文本聚类算法提供依据.  相似文献   

4.
基于后缀树的Web检索结果聚类标签生成方法   总被引:1,自引:0,他引:1  
对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果。该文提出了一种新的思路,注重于如何在聚类之前就产生好的标签,在生成了标签的基础上,再进行检索结果聚类。对于搜索引擎返回的结果,我们先统一建立一棵后缀树,然后计算后缀树中各个短语的得分,选取得分最高的若干短语作为候选标签。得到标签后,将搜索引擎返回的各个结果项分配到它所包含的标签对应的分类中,形成最后的聚类。实验表明,我们的方法是比较有效的。  相似文献   

5.
一种基于聚类技术的个性化信息检索方法   总被引:7,自引:2,他引:5       下载免费PDF全文
实践证明聚类技术是改进搜索结果显示方式的一种有效手段。然而,目前的聚类方法没有考虑到用户兴趣,对于相同的查询,返回给所有用户同样的聚类结果。由此提出一种个性化聚类检索方法。该方法改进了k-means算法,利用该算法对传统搜索引擎返回的结果结合用户兴趣进行聚类,返回针对特定用户的网页簇。实验证明该方法能够提供个性化服务,改善了聚类的效果,提高了用户的检索效率。  相似文献   

6.
随着互联网的普及和web上网页数量的迅猛增长,搜索引擎已经成为从网上获取信息的首选工具。然而,目前主流的搜索引擎利用关键词建立索引,根据检索结果和查询词的相关性从高到低排成一个很长的线性列表,而且检索结果中包含了大量的无用信息,因此对检索结果进行重新组织和挖掘成为了研究热点。本文介绍了检索结果聚类的应用背景,然后介绍了检索结果聚类的算法,最后介绍了检索结果聚类质量评测标准。  相似文献   

7.
目前大多搜索引擎结果聚类算法针对用户查询生成的网页摘要进行聚类,由于网页摘要较短且质量良莠不齐,聚类效果难以保证。提出了一种基于频繁词义序列的检索结果聚类算法,利用WordNet结合句法和语义特征对搜索结果构建聚类及标签。不像传统的基于向量空间模型的聚类算法,考虑了词语在文档中的序列模式。算法首先对文本进行预处理,生成压缩文档以降低文本数据维度,构建广义后缀树,挖掘出最大频繁项集,然后获取频繁词义序列。从文档中获取的有序频繁项集可以更好地反映文档的主题,把相同主题的搜索结果聚类在一起,与用户查询相关度高的优先排序。实验表明,该算法可以获得与查询相关的高质量聚类及基于语义的聚类标签,具有更高的聚类准确度和更高的运行效率,并且可扩展性良好。  相似文献   

8.
为有效地弥补全文搜索引擎的不足,提出了一种动态求解的最优密度聚类算法并加以实现.该算法构造了一颗簇关系树,将两种典型聚类算法:密度聚类算法DBSCAN和层次聚类算法BIRCH进行有效结合,对聚类参数ε进行动态求解,以达到参数ε的最优.与其它文本聚类算法相比,该算法的查询结果与用户感兴趣的主题相关度较大,对具有二义性的关键词有较高的查准率,能有效提升搜索引擎的查询效率,加快用户搜索信息的速度.  相似文献   

9.
夏斌  徐彬 《电脑开发与应用》2007,20(5):16-17,20
针对目前搜索引擎返回候选信息过多从而使用户不能准确查找与主题有关结果的问题,提出了基于超链接信息的搜索引擎检索结果聚类方法,通过对网页的超链接锚文档和网页文档内容挖掘,最终将网页聚成不同的子类别。这种方法在依据网页内容进行聚类的同时,充分利用了Web结构和超链接信息,比传统的结构挖掘方法更能体现网站文档的内容特点,从而提高了聚类的准确性。  相似文献   

10.
目前,搜索结果聚类方法大多数采用基于文档的方法,不能生成有意义的聚类标签。为了解决这个问题,提出一种基于关键名词短语聚类的中文搜索结果聚类方法,该方法将名词短语、相关搜索词作为候选聚类标签,利用C-Value算法、IDF值筛选标签,然后使用Chameleon算法将标签聚类,最后将搜索结果划分到最相关的聚类簇。实验证明,该方法把关键名词短语和相关搜索词作为聚类标签,有效地提高了标签的描述性,降低了聚类算法的时间复杂度。  相似文献   

11.
In web browsers, a variety of anti-phishing tools and technologies are available to assist users to identify phishing attempts and potentially harmful pages. Such anti-phishing tools and technologies provide Internet users with essential information, such as warnings of spoofed pages. To determine how well users are able to recognise and identify phishing web pages with anti-phishing tools, we designed and conducted usability tests for two types of phishing-detection applications: blacklist-based and whitelist-based anti-phishing toolbars. The research results mainly indicate no significant performance differences between the application types. We also observed that, in many web browsing cases, a significant amount of useful and practical information for users is absent, such as information explaining professional web page security certificates. Such certificates are crucial in ensuring user privacy and protection. We also found other deficiencies in web identities in web pages and web browsers that present challenges to the design of anti-phishing toolbars. These challenges will require more professional, illustrative, instructional, and reliable information for users to facilitate user verification of the authenticity of web pages and their content.  相似文献   

12.
Web spam denotes the manipulation of web pages with the sole intent to raise their position in search engine rankings. Since a better position in the rankings directly and positively affects the number of visits to a site, attackers use different techniques to boost their pages to higher ranks. In the best case, web spam pages are a nuisance that provide undeserved advertisement revenues to the page owners. In the worst case, these pages pose a threat to Internet users by hosting malicious content and launching drive-by attacks against unsuspecting victims. When successful, these drive-by attacks then install malware on the victims’ machines. In this paper, we introduce an approach to detect web spam pages in the list of results that are returned by a search engine. In a first step, we determine the importance of different page features to the ranking in search engine results. Based on this information, we develop a classification technique that uses important features to successfully distinguish spam sites from legitimate entries. By removing spam sites from the results, more slots are available to links that point to pages with useful content. Additionally, and more importantly, the threat posed by malicious web sites can be mitigated, reducing the risk for users to get infected by malicious code that spreads via drive-by attacks.  相似文献   

13.
针对互联网站点信息海量和结构复杂的趋势,推荐系统被用来协助互联网用户方便快捷地找到所需信息,培养用户忠诚度。Web挖掘技术在处理海量数据和稀疏数据上有着先天的优势,所以Web挖掘技术在推荐系统中得到了越来越广泛的研究和应用。基于Web挖掘的推荐系统所使用的主要技术有聚类、关联规则、序列模式等等。然而,这些技术往往不能在推荐的准确性和覆盖范围方面做到两全。综合这几种技术,取其优点去其缺点,提出了一种新的算法(AIR算法)。通过基于实际使用数据的详尽的实验评估,可以证明该算法能够在准确性和覆盖范围方面明显提高推荐系统的整体性能。  相似文献   

14.
一种WWW搜索引擎的设计与实现   总被引:2,自引:1,他引:2  
随着Internet在我国的迅速发展和WWW信息的不断增长,迫切需要开发中英文兼容的WWW搜索引擎来获得所需的信息。该文在分析WWW搜索引擎主要功能模块:信息采集模块、信息预处理模块和信息查询模块的基础上,提出采用人工智能搜索算法来遍历网页,对中英文网页进行自动的索引,并用向量空间的表示方法来表示网页内容和用户输入的查询表达式。实践证明,使用该搜索引擎,可以快速准确地搜索到用户所需的信息。  相似文献   

15.
Recent research suggests that older Internet users seem to find it more difficult to locate navigation links than to find information content in web pages. One possibility is that older Internet users’ visual exploration of web pages is more linear in nature, even when this type of processing is not appropriate for the task. In the current study, the eye movements of young and older Internet users were recorded using an ecological version of the web pages or a discursive version designed to induce a linear exploration. The older adults found more targets when performing content-oriented compared to navigation-oriented searches, thus replicating previous results. Moreover, they performed less well than young people only when required to locate navigation links and tended to outperform the younger participants in content-oriented searches. Although the type of search task and type of web page resulted in different visual strategies, little or no support was found for the hypothesis that older participants explore web pages in a more linear way in cases where this strategy was not appropriate. The main conclusion is that differences in visual exploration do not seem to mediate the specific difficulty older adults experience in navigation-oriented searches in web pages.  相似文献   

16.
网络是一个非常动态的世界.每时每刻都有大量的网页加入,删除.更新.对于网络信息跟踪系统来说,需要着眼于跟踪一些固定的网页集合,同时及时地把更新的信息反应给用户.为了跟踪大量在地理上分布的网页集合,采用分布式的技术进行网络信息跟踪是非常有效率的办法.本文研究了采用分布式网络信息跟踪的各项参数特征,包括运行时的数据传输特征,分布式站点的数据负担特征,以及网络占用时间情况特征等.  相似文献   

17.
随着互联网的发展,网络论坛中蕴涵着数量巨大且质量较好的知识资源。因此对论坛信息进行有效地检索具有重要应用价值。该文研究适合于论坛数据的检索模型,以期能够充分利用论坛平台累积的海量数据来满足用户的信息需求。针对论坛页面和普通新闻页面的区别,该文提出关键帖抽取算法和论坛线索重构算法来选择论坛中信息含量丰富的帖子,并利用得到的帖子构建检索系统。实验表明该文提出的方法能够有效地提升论坛检索系统的效果。  相似文献   

18.
田莉霞 《软件》2020,(4):67-71
随着信息化社会的来临,各种互联网技术应运而生,数字信息已然成为当今社会中商家必争的宝贵财富资源。众多数字信息中,怎样帮助用户精准筛选出有效信息是当前搜索引擎所面临的巨大挑战。传统的互联网搜索仅仅是基于本文的链接,搜索时仅单纯的给出包含搜索词的网页,让用户去网页中寻找答案,这种检索方法耗时耗力,还不能准确给出用户想要的答案。由此谷歌率先提出以知识图谱(Knowledge Graph)为技术基础的的搜索引擎,这是搜索引擎界的一次重大变革。它以图的形式表现客观世界中的概念和实体及其之间关系,现如今广泛应用于语义搜索、智能问答、决策支持等智能服务领域。本文针对什么是知识图谱、如何表示构建知识图谱及知识图谱的主要应用作了详细阐述,希望更多的读者可以了解知识图谱及其对人工智能发展的巨大贡献。  相似文献   

19.
李清华  徐明伟 《微计算机应用》2007,28(12):1250-1255
大量不良网页的出现威胁了互联网安全。为了检测不良网页,提出了一种基于声誉的协作检测机制,WebShield。用户对网页评分,服务器汇聚用户评分得到网页的综合评分,并依此检测不良网页。设计了一种基于贡献的声誉模型,通过用户声誉加强评分汇聚的准确性和鲁棒性。模拟表明,WebShield对不良网页的检测效率较高、对恶意用户的抵抗性较好。  相似文献   

20.
The enormous amount of information available on the Internet requires the use of search engines in order to find specific information. As far as web accessibility is concerned, search engines contain two kinds of barriers: on the one hand, the interfaces for making queries and accessing results are not always accessible; on the other hand, web accessibility is not taken into account in information retrieval (IR) processes. Consequently, in addition to interface problems, accessing the items in the list of results tends to be an unsatisfactory experience for people with disabilities. Some groups of users cannot take advantage of the services provided by search engines, as the results are not useful due to their accessibility restrictions. The goal of this paper is to propose the integration of web accessibility measurement into information retrieval processes. Firstly, quantitative accessibility metrics are defined in order to accurately measure the accessibility level of web pages. Secondly, a model to integrate these metrics within IR processes is proposed. Finally, a prototype search engine which re-ranks results according to their accessibility level based on the proposed model is described.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号