基于序列前缀技术的XML频繁路径挖掘算法 Prefix-Based XML Frequent Path Mining Algorithm期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于序列前缀技术的XML频繁路径挖掘算法

引用本文：	张洁,毛国君.基于序列前缀技术的XML频繁路径挖掘算法[J].计算机系统应用,2018,27(1):78-85.

作者姓名：	张洁毛国君

作者单位：	中央财经大学信息学院, 北京 100081,中央财经大学信息学院, 北京 100081

基金项目：	国家自然科学基金（61273293）

摘要：	XML文档是半结构化数据，对其进行频繁路径挖掘可以分为两步：XML文档序列化和序列挖掘阶段. 现有的序列化方式将XML文档表示为Xpath路径集合，其中有大量的节点冗余；序列挖掘阶段采用的类Apriori算法需要多次扫描数据库并产生大量的候选集，采用的PrefixSpan算法会产生大量的投影数据库，占用较大的内存. 针对以往XML频繁路径挖掘算法存在的不足，本文提出一种高效的挖掘算法——基于序列前缀技术的XML频繁路径挖掘算法（PXFP，Prefix-based XML Frequent Path Mining Algorithm）. PXFP算法以广度优先方式遍历XML文档树并将每个节点表示为“节点：父节点”的形式，这种序列化的方式减少了节点冗余. 在序列挖掘阶段借鉴PrefixSpan 算法中前缀的概念，但不产生投影数据库，仅得到直接后缀（即前缀的子节点），通过记录频繁子路径的位置信息逐渐扩大频繁模式的长度，位置信息的引入减少了对数据库的扫描. 实验结果表明，PXFP算法取得了比PrefixSpan算法更高的时间和空间效率.
关键词：	XML频繁路径挖掘序列化位置信息前缀
收稿时间：	2017/4/9 0:00:00
修稿时间：	2017/5/9 0:00:00
Prefix-Based XML Frequent Path Mining Algorithm

ZHANG Jie and MAO Guo-Jun.Prefix-Based XML Frequent Path Mining Algorithm[J].Computer Systems& Applications,2018,27(1):78-85.

Authors:	ZHANG Jie and MAO Guo-Jun

Affiliation:	School of Information, Central University of Finance and Economics, Beijing 100081, China and School of Information, Central University of Finance and Economics, Beijing 100081, China

Abstract:

Keywords:	XML frequent path mining serialization location information prefix

	点击此处可从《计算机系统应用》浏览原始摘要信息
	点击此处可从《计算机系统应用》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏