首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
针对用户利用常用搜索引擎查询信息时,搜索引擎返回海量杂乱、无序的网页,用户难以从中快速、准确地获得真正关心的信息的现状,从Internet用户的兴趣度出发,设计了一种基于近似网页聚类算法的智能搜索系统。该系统在用户利用常用搜索引擎系统进行信息检索时,消除搜索引擎返回的重复页,对剩余页面进行聚类,返回给用户聚类后的网页簇,这样用户就可以选择浏览自己感兴趣的页面,从而大大提高了信息检索的查准率;实验证明该系统在保证查全率和查准率的基础上大大提高了搜索效率。  相似文献   

2.
基于近似网页聚类的智能搜索系统   总被引:1,自引:1,他引:1  
从Internet用户的兴趣度出发,设计了一种基于近似网页聚类的智能搜索系统。该系统在用户利用常用搜索引擎系统进行信息检索时,消除搜索引擎返回的重复页,对剩余页面进行聚类,返回给用户聚类后的网页簇,这样用户就可以选择浏览自己感兴趣的页面,从而大大提高了信息检索的查准率;实验证明该系统在保证查全率和查准率的基础上大大提高了搜索效率。  相似文献   

3.
郭孝园  何臻 《工矿自动化》2012,38(8):100-104
为了解决煤矿企业网站用户查找信息难的问题,提出了一种基于Web日志的煤矿企业网站个性化推荐服务模型。该模型应用关联规则对新用户进行页面推荐,应用聚类算法对老用户进行页面推荐;并结合点击网页的次数、网页的浏览时间、雅可系数与最长公共路径系数来度量用户兴趣度的方法,可为用户准确地推荐其感兴趣的页面。测试结果表明,该模型能够有效地对网页资源进行分类并进行个性化推荐。  相似文献   

4.
数据挖掘与互联网技术的融合,使得在互联网页面存取记录当中执行数据挖掘成为可能。互联网页面访问者的行为被镌刻在Web服务器的日志文件当中。分析和探求这一行为当中的规则性,能够改善系统性能,提高提供给终端用户的互联网信息服务质量,预计电子商务的潜在客户群。把终端用户分为簇,只有访问路径相似的终端用户才被归入相同的簇。采用适当的聚簇方法,根据用户请求网页的顺序相似性,也就是他们页面访问记录的相似性,来把用户聚簇。这样如果知道一组网页总是被一起访问,当用户访问其中之一时,就可以把这一组网页放入缓存,以加快信息传递速度。本文分析Web日志数据挖掘算法,从正确性、通用性等多方面对层次聚簇算法和K-均值聚簇算法进行比较和验证。  相似文献   

5.
基于数据挖掘的个性化网页推送服务模式研究   总被引:1,自引:1,他引:0  
为满足用户及时获取个性化信息的需求,利用数据挖掘中的聚类分析方法对Web日志数据进行聚类,对网站已有用户的访问行为进行划分,得出各类别用户网页推送的数据集;采用关联规则方法提取聚类结果中各个簇的访问规则,完成个性化页面推送服务。结果表明该模式能够实现网站个性化页面推送的功能。  相似文献   

6.
集成Web使用挖掘和内容挖掘的用户浏览兴趣迁移挖掘算法   总被引:2,自引:0,他引:2  
提出了一种集成Web使用挖掘和内容挖掘的用户浏览兴趣迁移模式的模型和算法。介绍了Web页面及其聚类。通过替代用户事务中的页面为相应聚类的方法得到用户浏览兴趣序列。从用户浏览兴趣序列中得到用户浏览兴趣迁移模式。该模型对于网络管理者理解用户的行为特征和安排Web站点结构有较大的意义。  相似文献   

7.
提出了一个结合Web文本挖掘的分布式Web使用挖掘模型DWLMST,以及基于该模型的局部浏览兴趣迁移模式更新算法LITP和全局浏览兴趣迁移模式更新算法GITP。利用页面聚类来表示用户兴趣。通过将用户事务中的页面替代为相应的聚类号来得到用户浏览兴趣序列。从用户浏览兴趣序列中分析得到用户浏览兴趣迁移模式。算法较好地解决了Web访问信息的异地存储、实时增长等因素给模式分析过程带来的困难,同时也提高了用户浏览兴趣表示的准确性。  相似文献   

8.
搜索引擎针对某个查询条件返回给用户的查询结果可能数量非常巨大,要从这么多的返回信息中找到所需要的信息是很困难的.研究聚类算法是为了帮助用户更好地查询到自己所需要的和感兴趣的信息.提出采用基于K-means与FCA的网页文本聚类算法,并分析了两种算法各自的优势与缺点,为研究更优的网页文本聚类算法提供依据.  相似文献   

9.
随着通信技术的发展,人们迫切希望能方便地利用手持移动设备访问Web网站,由于移动设备的小屏幕和低带宽的缺点,使得这一难题一直没有得到很好的解决.本文提出一种适合于移动设备小屏幕的Web页面分块算法,算法利用Web网页上对象的位置信息对信息块进行逐层聚类,生成一棵网页分块树,再根据移动设备屏幕的特点把网页分块树转换成适合小屏幕浏览的页面.  相似文献   

10.
针对目前Web聚类准确率不高的问题,提出一种基于Web页面链接结构和页面中图片主色调特征的聚类算法。通过分析Web页面中的链接结构和Web页面中所显示图片的主色调来比较页面之间的相似度,对Web站点中的Web页面进行聚类。聚类过程兼顾Web页面结构和页面的主要色彩特征。系统实验结果表明,该算法能有效提高聚类的准确性。  相似文献   

11.
随着信息的爆炸式增长,现有的搜索引擎在很多方面不能满足人们的需要。Web文档聚类可以减小搜索空间,加快检索速度,提高查询精度。提出了一种融合SOM(Self-Organizing Maps)粗聚类和改进PSO(Particle Swarm Optimization)细聚类的Web文档集成聚类算法。首先根据向量空间模型表示法,用特征词条及其权值表示Web文档信息,其次用SOM算法对文档特征集进行粗聚类,得到一组输出权值,然后用这组权值初始化改进的PSO算法,用改进PSO算法对此聚类结果进行细化,最终实现Web文档聚类。仿真结果表明,该算法能有效提高文档查询的查准率和查全率,具有一定的实用价值。  相似文献   

12.
基于日志的Web使用挖掘,利用用户访问页面的相关性提出用户兴趣度,并应用于远程教育中数据准备和页面的推荐过程.讨论教学过程中按需学习和因才施教的可行性,介绍聚类算法在预测推荐页面中的设计与应用.实验运行结果表明,该算法是可行和有效的.  相似文献   

13.
夏斌  徐彬 《电脑开发与应用》2007,20(5):16-17,20
针对目前搜索引擎返回候选信息过多从而使用户不能准确查找与主题有关结果的问题,提出了基于超链接信息的搜索引擎检索结果聚类方法,通过对网页的超链接锚文档和网页文档内容挖掘,最终将网页聚成不同的子类别。这种方法在依据网页内容进行聚类的同时,充分利用了Web结构和超链接信息,比传统的结构挖掘方法更能体现网站文档的内容特点,从而提高了聚类的准确性。  相似文献   

14.
Web挖掘是针对包括Web页面内容、页面之间的结构、用户访问信息等在内的各种Web数据,应用数据挖掘的方法,提取抽象的、潜在的有用的知识。本文通过对远程教学系统中Web挖掘应用的分析,着重介绍了Web访问挖掘基本流程,并总结了Web挖掘结果在远程教学系统中的重要作用。  相似文献   

15.
Web挖掘是针对包括Web页面内容、页面之间的结构、用户访问信息等在内的各种Web数据.应用数据挖掘的方法.提取抽象的、潜在的有用的知识。本文通过对远程教学系统中Web挖掘应用的分析。着重介绍了Web访问挖掘基本流程.并总结了web挖掘结果在远程教学系统中的重要作用。  相似文献   

16.
提出一种新的网页排序方法-ClusterRank方法。该方法先对检索结果进行文本挖掘,然后利用Web网页的链接信息以及用户点击率对网页重要性的影响对挖掘结果进行排序。该算法可以引导用户进一步明确其检索需求。  相似文献   

17.
Web sites contain an ever increasing amount of information within their pages. As the amount of information increases so does the complexity of the structure of the web site. Consequently it has become difficult for visitors to find the information relevant to their needs. To overcome this problem various clustering methods have been proposed to cluster data in an effort to help visitors find the relevant information. These clustering methods have typically focused either on the content or the context of the web pages. In this paper we are proposing a method based on Kohonen’s self-organizing map (SOM) that utilizes both content and context mining clustering techniques to help visitors identify relevant information quicker. The input of the content mining is the set of web pages of the web site whereas the source of the context mining is the access-logs of the web site. SOM can be used to identify clusters of web sessions with similar context and also clusters of web pages with similar content. It can also provide means of visualizing the outcome of this processing. In this paper we show how this two-level clustering can help visitors identify the relevant information faster. This procedure has been tested to the access-logs and web pages of the Department of Informatics and Telecommunications of the University of Athens.  相似文献   

18.
基于模糊概念图的文档聚类及其在Web中的应用   总被引:12,自引:0,他引:12  
陈宁  陈安  周龙骧  贾维嘉  罗三定 《软件学报》2002,13(8):1598-1605
随着World Wide Web上数据量的日益庞大,现有的搜索引擎已经不能满足用户日益增长的需求.利用数据挖掘技术,提高搜索效率,实现了查询的用户化.首先提出了模糊概念图的模型来描述词语间的关系,然后在聚类过程中引入概念知识,提出了基于模糊概念图的文档聚类算法,通过分析用户的浏览行为发现兴趣模式.在上述技术的基础上,给出了一种用户化的智能搜索系统的实现策略,通过分析概念间的关系和用户的兴趣模式,评价超链/文档和查询的相关程度,从而帮助用户得到更准确的信息.  相似文献   

19.
基于Bayes潜在语义模型的半监督Web挖掘   总被引:26,自引:0,他引:26  
宫秀军  史忠植 《软件学报》2002,13(8):1508-1514
随着互联网信息的增长,Web挖掘已经成为数据挖掘研究的热点之一.网页分类是通过学习大量的带有类别标注的训练样本来预测网页的类别,人工标注这些训练样本是相当繁琐的.网页聚类通过一定的相似性度量,将相关网页归并到一类.然而传统的聚类算法对解空间的搜索带有盲目性和缺乏语义特征.提出了两阶段的半监督文本学习策略.第1阶段,利用贝叶斯潜在语义模型来标注含有潜在类别主题词变量的网页的类别;第2阶段,利用简单贝叶斯模型,在第1阶段类别标注的基础上,通过EM(expectation maximization)算法对不含有潜在类别主题词变量的文档作类别标注.实验结果表明,该算法具有很高的精度和召回率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号