首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 673 毫秒
1.
基于Weblog的模式发现及应用的研究   总被引:6,自引:0,他引:6  
近年来 ,由于电子商务 ,电子图书馆 ,远程教育等的应用 ,对 web站点设计和功能提出了更高的要求 ,要求 web站点具有智能性 .本文通过对 Weblog日志的挖掘 ,找出用户浏览页面的关联规则、聚类信息、访问路径等 ,并把它们应用到 web站点的智能化设计中 .主要讨论了站点的在线推荐 ,自适应设计问题 ,在此基础上简单介绍了一个 Weblog挖掘系统原型 Adaptive Web.Adaptive Web可创建自适应 web站点 ,使其具有部分智能 .  相似文献   

2.
基于Web页面链接和标签的聚类方法   总被引:1,自引:0,他引:1  
针对目前Web聚类效率和准确率不高的问题,提出一种基于Web页面链接结构和标签信息的聚类方法CWPBLT(clustering web pages based on their links and tags),它是通过分析Web页面中的链接结构和重要标签信息来比较页面之间的相似度,从而对Web站点中的Web页面进行聚类,聚类过程同时兼顾了Web页面结构和页面标签提供的内容信息.实验结果表明,该方法有效地提高了聚类的时间效率和准确性,是对以往仅基于页面主题内容或页面结构聚类方法的改进.  相似文献   

3.
王爽  华庆一 《微机发展》2008,(1):129-131
分析丁软件维护当中的问题,提出了一种针对Web系统的逆向工程方法。该方法以Web站点为输入分析页面的源码,从页面链接和交互进行逆向,构建出站点的部署和任务模型,从而直观地表示出对维护人员有帮助的系统信息,同时介绍了笔者自行开发的逆向工程辅助工具。通过该方法.维护人员能够直接得到系统信息,而不必去分析源代码,克服了缺乏设计文档的困难。通过一个web站点的逆向实例,演示了这种方法。  相似文献   

4.
基于元搜索引擎的个性化Web信息采集   总被引:4,自引:0,他引:4  
为了减少传统Web采集系统网络资源的耗费,并增强其个性化支持,结合用户兴趣向量模型,将元搜索引擎技术应用到Web信息采集领域中,设计一个基于元搜索引擎的个性化Web信息采集系统.该系统通过调用成员搜索引擎发现与用户兴趣相关的目标Web站点,通过爬虫程序采集目标站点上的Web页面内容.在发现兴趣站点方面更具有针对性,能有效减少爬虫的数量.重点研究了系统的体系结构、个性化Web采集的工作流程,最后给出了该系统的应用场合.  相似文献   

5.
王香刚 《福建电脑》2007,(11):147-148,146
企业员工通过浏览web页面可以向外发送企业敏感信息,针对这种情况,设计并实现了一种对web方式下外发信息进行监控和审计的系统,该系统能捕获并复原用户通过web页面向外发送的所有信息.介绍了系统的功能与结构,对系统主要模块的实现技术进行了阐述.最后通过实例说明了系统的实际运行效果.  相似文献   

6.
本文主要是针对企业员工可能通过浏览web页面向外发送企业敏感信息的情况,设计并实现了一种对web方式下外发信息进行监控和审计的系统,该系统能捕获并复原用户通过web页面向外发送的所有信息:本文介绍了系统的功能与结构,对系统主要模块的实现技术进行了阐述。最后通过实例说明了系统的实际运行效果。[编者按]  相似文献   

7.
Web页面和客户群体的模糊聚类算法   总被引:17,自引:0,他引:17  
web日志挖掘在电子商务和个性化web等方面有着广泛的应用.文章介绍了一种web页面和客户群体的模糊聚类算法.在该算法中,首先根据客户对Web站点的浏览情况分别建立Web页面和客户的模糊集,在此基础上根据Max—Min模糊相似性度量规则构造相应的模糊相似矩阵,然后根据模糊相似矩阵直接进行聚类.实验结果表明该算法是有效的.  相似文献   

8.
针对目前Web聚类准确率不高的问题,提出一种基于Web页面链接结构和页面中图片主色调特征的聚类算法。通过分析Web页面中的链接结构和Web页面中所显示图片的主色调来比较页面之间的相似度,对Web站点中的Web页面进行聚类。聚类过程兼顾Web页面结构和页面的主要色彩特征。系统实验结果表明,该算法能有效提高聚类的准确性。  相似文献   

9.
针对提供大规模数据查询的Web页面,提出了一种基于站点内页面对比分析的web数据提取方法。在对页面建树和分块的基础上对比分析获得页面数据块,然后利用同结构多页面对比和格式判断提取出数据,最后将数据存入到主据库中。该方法成功运用到多个信息提取系统中,实现了高效、准确的数据提取。  相似文献   

10.
Web软件边界处理能力是构建安全Web的重要指标。设计合理的web软件边界处理模型,加强传播至web软件边界请求的处理能力,是提高web站点安全的重要保障。Net架构及ASP.Net提供了开发和运行加强Web软件边界处理能力的系统平台环境,可以协作系统构建强壮的Web软件边界处理通用模块。  相似文献   

11.
基于关键词聚类和节点距离的网页信息抽取   总被引:2,自引:0,他引:2  
大部分网页信息抽取方法都针对特定的网站,例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时,必须人为地增加抽取规则或者提供新的训练网页集。而且,当网站的模版改变时,也要重新设计这些规则或重新输入训练网页集。这些方法难以维护,因此不能应用到从大量不同的网站上进行信息抽取。本文提出了一种新的网页信息抽取方法,该方法基于特定主题的关键词组和节点距离,能够不加区分地对不同的网站页面信息自动抽取。对大量网站的网页进行信息抽取的实验显示,该方法能够不依赖网页的来源而正确和自动地抽取相关信息,并且已经成功应用到电子商务智能搜索和挖掘系统中。  相似文献   

12.
基于主题的信息采集是信息检索领域内一个新兴且实用的方法,通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目标是更准确地找到对用户有用的信息。探讨了主题爬虫的一些关键问题,通过改进主题模型、链接分类模型的学习方法及链接分析方法来提高下载网页的主题相关度及质量。在此基础上设计并实现了一个主题爬虫系统,该系统利用主题敏感HITS来计算网页优先级。实验表明效果良好。  相似文献   

13.
一种基于HITS的主题敏感爬行方法   总被引:2,自引:0,他引:2  
基于主题的信息采集是信息检索领域内一个新兴且实用的方法,通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目标是更准确地找到对用户有用的信息。探讨了主题爬虫的一些关键问题,通过改进主题模型、链接分类模型的学习方法及链接分析方法来提高下载网页的主题相关度及质量。在此基础上设计并实现了一个主题爬虫系统,该系统利用主题敏感HITS来计算网页优先级。实验表明效果良好。  相似文献   

14.
Web站点的超链结构挖掘   总被引:11,自引:0,他引:11  
WWW是一个由成千上万个分布在世界各地的Web站点组成的全球信息系统,每个Web站点又是一个由许多Web页构成的信息(子)系统。由于一个文档作者可以通过超链把自己的文档与任意一个已知的Web页链接起来,而一个 Web站点上的信息资源又通常是由许多人共同提供的, 因此 Web站点内的超链链接通常是五花八门、各种各样的,它们可以有各种含义和用途。文章分析了WWW系统中超链的使用特征和规律,提出了一个划分超链类型、挖掘站点结构的方法,初步探讨了它在信息收集和查询等方面的应用。  相似文献   

15.
基于Web中文检索系统SEARCH2000的设计与实现   总被引:3,自引:0,他引:3  
本文详细介绍Search 2000中文检索系统的设计思想及实现方法。与传统的全文检索系统相比,基于WEB的信息检索系统,具有许多全新的特征。页面为半结构化文档、页面通过超链接相互关联、页面的内容覆盖不同应用领域并且拥有大量专有名词和缩略词汇,这些特性成为影响查询精度的主要因素。针对Web的上述特性设计的Search2000全文检索系统,使用智能化的页面相关分析、评分技术,以及高效数据存取、压缩算法和知识库的支持,使其具有使用方便、查询时间短、查询精度高等特点。  相似文献   

16.
In order to provide a ubiquitous, comprehensive and versatile service on the WWW the development of a WWW telephone browsing system named Phone‐Web is proposed. This Phone‐Web browser system would act as an intermediary between the telephone user and Web sites, thereby facilitating access to the WWW from any phone. The Phone‐Web system would filter Web page information and then convert it into speech format. Users of the Phone‐Web system could retrieve and hear information stored on WWW servers by using telephone handsets. For this system to work it requires a new hypertext language “Hyper Phone Markup Language” (HPML) and a dedicated Phone‐Web browser. By using the proposed HPML language, Web page designers can easily specify service information in a set of HPML pages, which would be included in the site they are designing. The Phone‐Web browser would be capable of retrieving and then converting the HPML pages into speech patterns. By connecting to the Phone‐Web browser, telephone users can access any information on any site using the HPML language from any telephone anywhere in the world. However, HPML‐specified pages can also be accessed using existing browsers (e.g., Netscape Navigator, Microsoft Internet Explorer, etc.) This means that both telephone and computer users can now access the same set of Web pages to retrieve the same information. Therefore, instead of maintaining the existing two systems (access via the telephone or computer) service providers can now maintain one system, which would provide a versatile, and comprehensive service for users at all levels of Web‐literacy. This revised version was published online in August 2006 with corrections to the Cover Date.  相似文献   

17.
Content in numerous Web data sources, designed primarily for human consumption, are not directly amenable to machine processing. Automated semantic analysis of such content facilitates their transformation into machine-processable and richly structured semantically annotated data. This paper describes a learning-based technique for semantic analysis of schematic data which are characterized by being template-generated from backend databases. Starting with a seed set of hand-labeled instances of semantic concepts in a set of Web pages, the technique learns statistical models of these concepts using light-weight content features. These models direct the annotation of diverse Web pages possessing similar content semantics. The principles behind the technique find application in information retrieval and extraction problems. Focused Web browsing activities require only selective fragments of particular Web pages but are often performed using bookmarks which fetch the contents of the entire page. This results in information overload for users of constrained interaction modality devices such as small-screen handheld devices. Fine-grained information extraction from Web pages, which are typically performed using page specific and syntactic expressions known as wrappers, suffer from lack of scalability and robustness. We report on the application of our technique in developing semantic bookmarks for retrieving targeted browsing content and semantic wrappers for robust and scalable information extraction from Web pages sharing a semantic domain. This work has been conducted while the author was at Stony Brook University.  相似文献   

18.
基于本体语义检索技术研究   总被引:3,自引:1,他引:2       下载免费PDF全文
络信息的激增和多样化给有效的信息检索带来了种种困难,目前的检索工具仅提供了基于关键字的检索,而忽视了关键字本身所含的语义内容。本文提出的图书信息检索系统利用本体论中概念规范、语义丰富的特点将用户的检索要求扩充成语义集,并且将检索到的文档通过文档分析器进一步过滤,使用户最终得到与检索要求内容匹配度较高的 的文档。  相似文献   

19.
虚拟组织是网格体系结构中的基本组织单元,借鉴网格研究中对虚拟组织的特性分析,可以在网络信息检索研究中定义虚拟站点的概念。实验发现,虚拟站点入口页面是网络信息环境中具有较高质量的一个网页集合:实验表明,仅为全部页面数量21 %的此类页面就涵盖了70 %以上的超链接,对这个集合进行的内容检索也比对网页全集的检索有超过60 %的性能提高。这提供了一种在减少索引规模前提下提高网络信息检索性能的解决方案。  相似文献   

20.
A fully automated wrapper for information extraction from Web pages is presented. The motivation behind such systems lies in the emerging need for going beyond the concept of "human browsing". The World Wide Web is today the main "all kind of information" repository and has been so far very successful in disseminating information to humans. By automating the process of information retrieval, further utilization by targeted applications is enabled. The key idea in our novel system is to exploit the format of the Web pages to discover the underlying structure in order to finally infer and extract pieces of information from the Web page. Our system first identifies the section of the Web page that contains the information to be extracted and then extracts it by using clustering techniques and other tools of statistical origin. STAVIES can operate without human intervention and does not require any training. The main innovation and contribution of the proposed system consists of introducing a signal-wise treatment of the tag structural hierarchy and using hierarchical clustering techniques to segment the Web pages. The importance of such a treatment is significant since it permits abstracting away from the raw tag-manipulating approach. Experimental results and comparisons with other state of the art systems are presented and discussed in the paper, indicating the high performance of the proposed algorithm.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号