首页 | 官方网站   微博 | 高级检索  
     

半结构化数据的最小化模式发现
引用本文:李久仲,石硕,沈轶.半结构化数据的最小化模式发现[J].计算机应用与软件,2009,26(4).
作者姓名:李久仲  石硕  沈轶
作者单位:1. 广东轻工职业技术学院计算机系,广东,广州,510300
2. 华中科技大学控制科学与工程系,湖北,武汉,430074
摘    要:半结构化数据的模式抽取对于半结构化数据查询、优化及异构数据的集成具有重要的意义.结合标签路径及标签路径的目标集概念,提出了基于OEM(Object Exchange Model)模型的半结构化数据最小化模式抽取新方法,并给出了与标签路径目标集、支持度计算相关的两个定理.算法的基本思路:依据文中的两个定理,采用宽度优先自顶向下的遍历策略依次求出各标签路径的最后一个标签的目标集及支持度,标签支持度大的目标集优先映射为对应的模式节点.对同一半结构数据实例,算法抽取的模式与其他算法得到的模式相比规模小、算法执行时间短.算法适用于层次型及包含环路的OEM半结构化数据模式抽取.

关 键 词:半结构化数据  模式抽取  OEM模型  标签路径  标签路径的支持度  标签路径的目标集

MINIMIZED SCHEMA DISCOVERY FOR SEMI-STRUCTURED DATA
Li Jiuzhong,Shi Shuo,Shen Yi.MINIMIZED SCHEMA DISCOVERY FOR SEMI-STRUCTURED DATA[J].Computer Applications and Software,2009,26(4).
Authors:Li Jiuzhong  Shi Shuo  Shen Yi
Affiliation:Department of Computer Science Guangdong Industry Technical College;Guangzhou 510300;Guangdong;China;Department of Control Science and Engineering;Huazhong University of Science and Technology;Wuhan 430074;Hubei;China
Abstract:Schema extraction of Semi-structured data is important for semi-structured data query and optimization as well as integration of heterogeneous data.By combining two conceptions of label path and target set of label path,this paper presents a new algorithm of minimized schema extraction for semi-structured data based on the OEM model,and gives two theorems related to computing the target set and supporting degree of label path.The basic idea of the algorithm is: with the help of two theorems,using width-firs...
Keywords:Semi-structured data Schema extraction OEM model Label path Label path supporting degree Target set of label path  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号