首页 | 官方网站   微博 | 高级检索  
     

"元数据模型"在数据提取中的实现
引用本文:杨文安,陈行益."元数据模型"在数据提取中的实现[J].吉林大学学报(信息科学版),2005,23(1):32-36.
作者姓名:杨文安  陈行益
作者单位:1. 徐州建筑职业技术学院,计算机技术工程系,江苏,徐州,221008
2. 北京邮电大学,计算机科学与技术学院,北京,100876
摘    要:大量分散的形式及不同格式的数据给现代数据处理带来了越来越大的困难.为统一数据形式以利于数据操作和处理,讨论了将形式多样的数据格式转换成统一的XML(extensible Markup Language)格式的问题.在计算机网络中,应用"元数据模型"技术,对数据源中不同格式文件数据,按照预先定义的XML模板,以格式说明文件结构统一描述,并提取数据或作进一步的处理,最后转换为XML格式输出.设计了具体的实现策略以及实现流程:实现了从TXT文件格式数据中提取数据转换成XML格式的代码,将TXT文件数据提取成XML格式的数据;完成了数据说明文件格式的设计,数据路径选择工具的开发,语言分析工具的设计开发等工作.结果表明:能满足同类产品的按行(line)为单位的源数据结构形式处理,还具有同类产品不具备的非行(字符串和关键字)提取处理功能.

关 键 词:数据提取  元数据模型  格式说明文件  可扩充标记语言  元数据模型  数据提取  Applications  Model  Metadata  功能  关键字  字符串  形式处理  数据结构  单位  line  产品  结果  工作  设计开发  语言分析  路径选择  数据说明  文件格式
文章编号:1671-5896(2005)01-0032-05
修稿时间:2004年2月17日

On Applications of "Metadata Model" to Data Extraction
YANG Wen-an,CHEN Xing-yi.On Applications of "Metadata Model" to Data Extraction[J].Journal of Jilin University:Information Sci Ed,2005,23(1):32-36.
Authors:YANG Wen-an  CHEN Xing-yi
Abstract:The largely dispersive and different forms of data have resulted in more and more difficulties to the modern data processing. In order to unify the data form to help data operating and processing, the issue how to transform the various data forms into unified XML (Extensible Markup Language)format is discussed. In the computer network, the "Metadata Model" to the file data of different forms in the source data is applied, according to the predefining XML cyclostyle, with unified specification in the structure of format specification file and extracting data to make further processing, and finally outputting after transforming into XML code. The concrete strategy and process to realize the flow is designed: making it true that distracting data from TXT file and then transforming into XML code, completing such research work as design of data format specification file, development of data route-chosen tool, design and development of language analysis tool. The result showed: The technique of "Metadata Model" not only can process the source data structure form in terms of line that other kind of products can do, but also has the ability to process the non-line (character strings and
Keywords:data extracting that other kind of products can not do  Key words:extract data  metadata model  format specification file  extensible markup language(XML)  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号