首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
Div+CSS流行于Web页面的布局,在这种布局下,网页中很多数据记录以重复结构的形式聚集在一个层级.提出一种基于属性标签的Web数据提取的方法,构造带有属性标签的DOM树,通过比较属性标签的值挖掘重复模式,制定三个规则排除干扰模式,找到数据域,进而从数据域中提取出数据记录.  相似文献   

2.
基于网页的结构相关性及隐马尔可夫过程提出一种基于Web网页结构相关性的预取模型,通过网页抓捕建立特征词集,在此特征词集的基础上对用户的访问序列进行分析,提取超链接语义中蕴含的信息需求,在此特征词集的基础上对网页超链语义进行分析。模型引入隐马尔可夫模型实现用户访问序列中潜在意图的挖掘。性能测试实验的结果表明,该模型具有较好的整体性能。  相似文献   

3.
基于链接相似度Web挖掘算法的研究与改进   总被引:1,自引:0,他引:1  
在Web挖掘分类模式基础上,研究和分析了基于链接分析的Web结构挖掘算法HITS(Hyperlink induced topic Search)。针对HITS算法在获取拓展集处理过程中只考虑基于根集网页链接出、入网页,不考虑出、入网页相似度的不足之处,提出了一种改进的DS-HITS(Document Similarity hyperlink induced topic search)算法。该算法在拓展集处理过程中引进多种反映网页相似度的权值,从而使获取的网页在核心和权威值方面明显得到改进。最后,基于Webla开源项目初始数据,对比了DS-HITS算法和HITS算法的搜索结果。  相似文献   

4.
基于Ontology的Web内容二阶段半自动提取方法   总被引:12,自引:0,他引:12  
目前Web中的海量信息已经成为人们重要的信息来源,如何从大量半结构化或无结构的HTML网页中提取信息已成为目前的研究热点.但是Web页面的初始设计目的是为了方便用户浏览,而不是便于应用程序自动处理,如何实现一个精确的、应用广泛的提取系统面临很多困难.传统的方法可以粗略划分为基于交互产生的包装程序和自动生成的包装程序,但是基于交互产生的包装程序不具备普遍的应用性,基于自动生成的包装程序准确性不高.该文提出了一种新的二阶段基于语义的半自动提取方法,在保证提取准确性的前提下,尽可能减少交互操作,同时随着参与网站的增加,逐步提高包装程序生成的自动化.相对于目前的方法,该文方法同时考虑了包装程序提取结果的准确性和提取过程的应用普遍性.其有效性在原型系统中得到验证.应用该方法,已经成功提取了120万HTML页面.  相似文献   

5.
基于模块的网页设计技术   总被引:1,自引:0,他引:1  
在信息资源迅速增长的今天,如何Web大量的信息进行高效地组织和维护,以及提高Web上搜索和浏览信息的速度和性能是我们面向对的一个重要问题,从模块化的程度设计思想中得到启发,提出了一种模块化网页设计技术,该技术在网页快速制作,模块重用,数据一致性维护,快速浏览以及信息检索等方面具有一定的参考价值。  相似文献   

6.
基于多知识的Web网页信息抽取方法   总被引:10,自引:1,他引:9  
从Web网页中自动抽取所需要的信息内容,是互联网信息智能搜取的一个重要研究课题,为有效解决网页信息抽取所需的信息描述知识获取问题,这里提出了一个种基于多知识的Web网页信息抽取方法(简称MKIE方法)。该方法将网页信息抽取所需的知识分为二类,一类是描绘网页内容本身表示特点,以及识别各网信息对象的确定模式知识,另一类则描述网页信息记录块,以及各网页信息对象的非确定模式知识,MKIE方法根据前一类知识,动态分析获得后一类知识;并利用这两类知识,最终完全从信息内容类似担其表现形式各异的网页中,抽取出所需要的信息,美大学教员论文网页信息抽取实验结果表明,MKIE方法具有较强的网而信息自动识别与抽取能力。  相似文献   

7.
基于Web企业竞争对手情报自动搜集平台   总被引:4,自引:1,他引:4  
从互联网中准确有效及时地自动搜索出需要的信息,是Web信息处理中的一个重要研究课题。本文在所提出的基于搜索路径Web网页搜索和基于多知识网页信息抽取方法基础上,给出基于Web企业竞争对手情报自动收集平台的实现方法,该平台可以有效地从多个企业门户网站中,自动搜索出所需要的目标网页,并能够从目标网页中自动抽取其中多记录信息。本文利用该平台进行了企业人才招聘信息的自动搜索实验。实验结果证实了该平台在信息自动搜集方面的有效性和准确性。  相似文献   

8.
基于主题的Web信息个性化服务   总被引:6,自引:0,他引:6  
实现互联网信息的个性化服务,是Web信息处理中的一个重要研究课题,本文在所提出的基于搜索路径Web网页搜索和基于多知识网页信息抽取方法的基础上,提出一种基于对象的信息层次模型新方法,可以有效描述Web用户的信息需求,将这三种方法有机结合在一起,构成了一个基于主题的Web信息个性化服务的解决方案,该方案既可以用于服务端,也可以直接应用在客户端,是一个轻量级网络信息服务解决方案。  相似文献   

9.
Web网页的发表时间在Web搜索中起到重要的作用,因为用户获取的结果往往是与时间密切相关的.本文围绕Web新闻发表时间的提取,提出了一种高效的Web新闻发表时间提取方法.该方法考虑到了Web新闻网页URL地址隐含时间信息的特性,信息发表时间与新闻标题的距离约束.在主流的7个中文搜索引擎,使用了30个关键字,共获取3827篇Web新闻信息进行了提取时间的准确率及时间消耗的实验分析与比较,结果显示本文提出方法的准确率为95.5%,时间消耗为88秒.  相似文献   

10.
基于潜在语义索引的Web信息预测采集过滤方法   总被引:6,自引:0,他引:6  
Web信息急速膨胀使有效定向采集特定领域信息成为网上信息检索中一个日益重要的研究方向.提出一种基于潜在语义索引的Web信息预测采集过滤方法.在样本文档集潜在语义索引对文档相似计算的基础上,构造出用户兴趣模型,判断页面相关性进行文本过滤.通过对Web站点结构分析、对未知网页的相关性预测来控制信息采集过程.在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源。  相似文献   

11.
基于结果模式的Deep Web数据抽取   总被引:3,自引:0,他引:3  
高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为Deep Web数据集成奠定了良好的基础.  相似文献   

12.
最近的一些研究提出将Web使用日志的挖掘技术应用于Web个人化系统中,用于克服传统个人化技术(如CF技术、基于内容的过滤技术)中存在的问题,如处理大数据量的能力较差,依赖于用户主观的登记信息,产生的用户描述是静态的,不能获取对象之间丰富的语义联系等。但是基于Web使用日志挖掘的个人化技术不能适用于用户的使用信息获取困难或者站点内容经常变化的情况。更有效的办法是将站点的内容特征和使用特征结合到一个Web挖掘结构中去,以备推荐引擎统一使用。提出了一个基于关联规则挖掘的个人化系统,它使用概念格作为存储频繁页面集的数据结构,并介绍了如何利用概念格实时地为当前活动用户产生推荐集。  相似文献   

13.
基于概念格和关联规则Web个人化系统   总被引:1,自引:1,他引:0  
最近的一些研究提出将Web使用日志的挖掘技术应用于Web个人化系统中,用于克服传统个人化技术(如CF技术、基于内容的过滤技术)中存在的问题,如处理大数据量的能力较差,依赖于用户主观的登记信息,产生的用户描述是静态的,不能获取对象之间丰富的语义联系等.但是基于Web使用日志挖掘的个人化技术不能适用于用户的使用信息获取困难或者站点内容经常变化的情况.更有效的办法是将站点的内容特征和使用特征结合到一个Web挖掘结构中去,以备推荐引擎统一使用.提出了一个基于关联规则挖掘的个人化系统,它使用概念格作为存储频繁页面集的数据结构,并介绍了如何利用概念格实时地为当前活动用户产生推荐集.  相似文献   

14.
For efficiently managing Web Services (WS) transactions which are executed across multiple loosely-coupled autonomous organizations, isolation is commonly relaxed. A Web service operation of a transaction releases locks on its resources once its jobs are completed without waiting for the completions of other operations. However, those early unlocked resources can be seen by other transactions, which can spoil data integrity and cause incorrect outcomes. Existing WS transaction standards do not consider this problem. In this paper, we propose a mechanism to ensure the consistent executions of isolation-relaxing WS transactions. The mechanism effectively detects inconsistent states of transactions with a notion of an end-state dependency and recovers them to consistent states. We also propose a new Web services Transaction Dependency management Protocol (WTDP). WTDP helps organizations manage the WS transactions easily without data inconsistency. WTDP is designed to be compliant with a representative WS transaction standard, the Web Services Transactions specifications, for easy integration into existing WS transaction systems. We prototyped a WTDP-based WS transaction management system to validate our protocol.  相似文献   

15.
Efficient execution of composite Web services exchanging intensional data   总被引:1,自引:0,他引:1  
Web service technologies provide a standard means of integrating heterogeneous applications distributed over the Internet. Successive compositions of new Web services using pre-existing ones usually create a hierarchical structure of invocations among a large number of Web services. For the efficient execution of these composite Web services, we propose an approach which exploits intensional XML data, i.e. an XML document that contains special elements representing the calls to Web services, in order to delegate the invocations of the external Web services to some relevant nodes. We formalize an invocation plan for composite Web services in which intensional data is used as their parameters and results, and define a cost-based optimization problem to obtain an efficient invocation plan for them. We provide an A∗ heuristic search algorithm to find an optimal invocation plan for a given set of Web services and also present a greedy method of generating an efficient solution in a short time. The experimental results show that the proposed greedy method can find a close-to-optimal solution efficiently and has good scalability for a complex call hierarchy of Web services.  相似文献   

16.
Web挖掘在现代远程教育中的应用   总被引:5,自引:1,他引:5  
梁开健 《微机发展》2005,15(8):101-104
从Web上异质的、非结构化的数据中发现有用的知识或者模式,是目前数据挖掘研究中的一个重要内容。Web挖掘就是从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏的信息。文章介绍了Web挖掘基本情况。在此基础上对基于Web的文本挖掘进行了分析研究,给出了一个基于Web的文本挖掘的结构模型图。在Web挖掘和数据挖掘研究的基础上,提出了一个智能化、个性化的现代远程教育系统结构模型。它比传统的远程教育系统具有更大的发展前景。  相似文献   

17.
基于多示例学习技术的Web目录页面链接推荐   总被引:2,自引:0,他引:2  
在Web目录页面中,向用户推荐其感兴趣的链接有助于用户高效地访问网络资源.然而,用户往往不愿花费很多时间来标记训练样本,其提供的数据可能只能说明某个目录网页是否包含其感兴趣的内容,而不能明确标示出其感兴趣的具体链接.由于训练数据中缺乏对链接的标记,但预测时却需要找出用户感兴趣的链接,这就使得Web目录页面链接推荐问题相当困难.CkNN-ROI算法被提出用于解决该问题.实验表明,CkNN-ROI算法在解决这一困难的链接推荐问题上比其他一些算法更为有效.  相似文献   

18.
Web数据语义标注是Web信息抽取中的关键步骤.条件随机场是利用序列特征处理序列标注问题的经典方法.然而现有条件随机场模型无法综合利用已有的Web数据库信息和Web数据元素之间的逻辑关系,导致Web数据语义标注准确率不高.因此,提出一种约束条件随机场模型(CCRF).该模型通过引入可信约束和逻辑约束,有效利用了已有的Web数据库信息和Web数据元素之间的逻辑关系.为了克服现有条件随机场模型Viterbi推理方法无法综合利用这2类约束的不足,该模型采用整数线性规划推理方法,将两类约束同时引入推理过程.通过在多个领域的真实数据集上的实验结果表明,所提出的模型能够显著提高Web数据语义标注的性能,并且为Web信息抽取奠定了良好的基础.  相似文献   

19.
获取模式信息是深入研究Deep Web数据的必要步骤,针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法.通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得到对应Deep Web的结果模式,并对其进行规范化处理,解决不同数据...  相似文献   

20.
周勇  刘锋 《微机发展》2008,18(3):151-153
Web站点是由许多Web页面构成的信息系统,随着网络的飞速发展,Web挖掘得到了越来越多的研究。如何从Web中找到与用户查询主题相关的权威页面,是Web结构挖掘的一个重要研究方向。粗糙集理论作为一种有效处理模糊和不确定信息的数学工具,由于其不需要任何先验知识,在数据挖掘领域取得了广泛的应用。文中概述了Web结构挖掘的有关概念,基于粗糙集理论,定义了Web结构挖掘的数据模型,并给出了基于粗糙集的Web结构挖掘的实现流程,分析说明了该方法的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号