共查询到18条相似文献,搜索用时 187 毫秒
1.
聚类技术能将大规模数据按照数据的相似性划分成用户可迅速理解的簇.从而使用户更快地了解大量文档中所包含的内容。因此.聚类技术成为搜索引擎中不可或缺的部分和研究热点。Web上的AJAX应用和PowerPoint文件等弱链接文档由于缺乏足够的超链接信息,导致搜索该类文档时.排序结果不佳。针对该问题.给出一个弱链接文档的搜索引擎框架,并重点描述一个基于网页搜索结果的弱链接文档排序算法.基于聚类的弱链接文档排序算法利用聚类算法从高质量的网页搜索结果中提取与查询相关的主题.并根据主题的相关网页的排名确定该主题的重要性.根据识别的带权重的主题计算弱链接文档的排序值。实验结果表明该算法能够为弱链接文档产生较好的排序结果. 相似文献
2.
孙莉娜 《数字社区&智能家居》2006,(26)
面对当前大量的文本数据信息,如何帮助人们准确定位所需信息,成为文本挖掘领域的一个研究趋势。通过将文本分类和聚类方法应用于信息检索-—对网页文本进行聚类,提出了基于超链接信息的Web文本自动聚类模型。利用结构挖掘技术获得主题领域的多个权威网页作为初始聚类中心,通过去除超链接信息中的噪声和多余链接得到网站的简明拓扑结构,并结合内容挖掘,动态调整聚类中心,最终将网页聚成各主题下的不同子类别。 相似文献
3.
郎凤举 《电脑编程技巧与维护》2010,(2):74-75
每个网页中都存在许多超链接,很多网页的有用信息都存在于超链接中,如何有效地获取这些超链接成为Web挖掘的一个重要步骤。提出了利用HTMLParser开源工具实现Web页面解析,提取网页的超链接,从而获取有用信息,为下一步开发搜索引擎做准备。 相似文献
4.
由于网络上信息数量庞大,多元搜索引擎可能会产生一个相当大的结果集,本文借鉴了Web挖掘中聚类算法FCMA和网页排序算法HITS的技术和思想,改进了多元搜索引擎的结构,以提高系统的查询效率. 相似文献
5.
搜索引擎返回的信息太多且不能根据用户的兴趣提供检索结果,使得用户使用搜索引擎难以用简便的方式找到感兴趣的文档。个性化推荐是一种旨在减轻用户在信息检索方面负担的有效方法。文中把内容过滤技术和文档聚类技术相结合,实现了一个基于搜索结果的个性化推荐系统,以聚类的方法自动组织搜索结果,主动推荐用户感兴趣的文档。通过建立用户概率兴趣模型,对搜索结果STC聚类的基础上进行内容过滤。实验表明,概率模型比矢量空间模型更好地表达了用户的兴趣和变化。 相似文献
6.
7.
基于搜索结果的个性化推荐系统研究 总被引:1,自引:0,他引:1
卫琳 《计算机技术与发展》2007,17(9):65-67,70
搜索引擎返回的信息太多且不能根据用户的兴趣提供检索结果,使得用户使用搜索引擎难以用简便的方式找到感兴趣的文档。个性化推荐是一种旨在减轻用户在信息检索方面负担的有效方法。文中把内容过滤技术和文档聚类技术相结合,实现了一个基于搜索结果的个性化推荐系统,以聚类的方法自动组织搜索结果,主动推荐用户感兴趣的文档。通过建立用户概率兴趣模型,对搜索结果跚℃聚类的基础上进行内容过滤。实验表明,概率模型比矢量空间模型更好地表达了用户的兴趣和变化。 相似文献
8.
搜索引擎结果聚类对提高搜索引擎服务质量和智能化水平有较高的应用价值,它是从标题和文档片段的有限信息中寻找文档相关度进行聚类。传统搜索引擎聚类没有充分利用搜索引擎结果的自身特点,或者计算复杂度较高。本文提出了一种基于主题词匹配频数的搜索引擎聚类算法,该算法从高频词中筛选出主题词,根据主题词共现情况自动产生类别,其他结果依据满足与类别主题词表的匹配频数的文档数进行聚类。实验结果与STC和LINGO算法相比,搜索质量有所提高。 相似文献
9.
Deep Web信息通过在网页搜索接口提交查询词获得。通用搜索引擎使用超链接爬取网页,无法索引deep Web数据。为解决此问题,介绍一种基于最优查询的deep Web爬虫,通过从聚类网页中生成最优查询,自动提交查询,最后索引查询结果。实验表明系统能自动、高效地完成多领域deep Web数据爬取。 相似文献
10.
11.
加速评估算法:一种提高Web结构挖掘质量的新方法 总被引:13,自引:1,他引:13
利用Web结构挖掘可以找到Web上的高质量网页,它大大地提高了搜索引擎的检索精度,目前的Web结构挖掘算法是通过统计链接到每个页面的超链接的数量和源结点的质量对页面进行评估,基于统计链接数目的算法存在一个严重缺陷:页面评价两极分化,一些传统的高质量页面经常出现在Web检索结果的前面,而Web上新加入的高质量页面很难被用户找到,提出了加速评估算法以克服现有Web超链接分析中的不足,并通过搜索引擎平台对算法进行了测试和验证。 相似文献
12.
风雨 《数字社区&智能家居》2006,(9):99-101
在上期,我们为大家介绍了无线网络的组建和基本使用,但是在使用过程中,无线网络也常常出现各种问题,比如连接出错、无法共享、笔记本电脑无法上网等,下面就为大家介绍几个典型的案例,让大家网络畅通无阻,上网无忧! 相似文献
13.
14.
主题搜索引擎是专为查询某一学科或主题信息而出现的查询工具。针对目前各种主题搜索引擎在主题搜索上的优缺点,提出将基于文字内容启发的超链接引导技术与基于Web链接图的PageRank算法相结合的IPageRank?IND算法,以提高链接相关度判断的准确性和主题资源搜索的覆盖率,并将网页按照VSM算法进行内容相关度判断和自动分类,从而提高检索效率。最后构建一个搜索引擎进行实验,通过比较该算法与其他几种算法的实验结果,能够看到IPageRank-IND算法的优势是明显的。 相似文献
15.
应用链接分析的web搜索结果聚类 总被引:3,自引:0,他引:3
随着web上信息的急剧增长,如何有效地从web上获得高质量的web信息已经成为很多研究领域里的热门研究主题之一,比如在数据库,信息检索等领域。在信息检索里,web搜索引擎是最常用的工具,然而现今的搜索引擎还远不能达到满意的要求,使用链接分析,提出了一种新的方法用来聚类web搜索结果,不同于信息检索中基于文本之间共享关键字或词的聚类算法,该文的方法是应用文献引用和匹配分析的方法,基于两web页面所共享和匹配的公共链接,并且扩展了标准的K-means聚类算法,使它更适合于处理噪音页面,并把它应用于web结果页面的聚类,为验证它的有效性,进行了初步实验,实验结果显示通过链接分析对web搜索结果聚类取得了预期效果 相似文献
16.
17.
18.
针对Web结构挖掘算法容易出现“主题漂移”以及主机间的多重互相加强关系的问题,提出了一种基于最大流与页面相似度值的超链接结构挖掘方法。该方法在传统的超链接结构挖掘算法HITS的基础上引入页面相似度值构造邻接矩阵,并结合基于最大流的Web社区发现技术来构建特征向量空间模型,通过迭代计算最终获得价值最高的权威结果集和中心结果集。实验结果证明该方法有较好的查准率与查全率,并有效抑制了“主题漂移”现象,具有一定的实用价值。 相似文献