数据立方体与频繁项集的统一计算框架研究 |
| |
引用本文: | 徐静文,游进国,王全鹍,黄星瑞,贾连印.数据立方体与频繁项集的统一计算框架研究[J].计算机学报,2023(4):780-802. |
| |
作者姓名: | 徐静文 游进国 王全鹍 黄星瑞 贾连印 |
| |
作者单位: | 1. 昆明理工大学信息工程与自动化学院;2. 云南省人工智能重点实验室 |
| |
基金项目: | 国家自然科学基金项目(No.62062046,No.61462050)资助~~; |
| |
摘 要: | 数据立方体和频繁项集挖掘分别是数据仓库和数据挖掘领域的重要技术,已开展了大量的相关研究工作,取得了较好的进展.数据立方体和频繁项集挖掘依据各自的数据单元和项集构造了类似的代数格(Lattice)结构;数据立方体的等价类上界单元与频繁项集挖掘的闭项集也是相对应的.如果能够论证二者的统一性,则可以为彼此提供更广泛的研究思路,有利于两种技术的相互促进,如:在数据库中利用冰山立方体计算实现频繁项集挖掘来避免数据迁移、利用频繁项集挖掘算法优化数据立方体计算等.之前的工作没有将二者系统地结合起来研究,也没有建立二者之间较为完整的联系.本文在深入研究数据立方体的计算和频繁项集挖掘的过程后,将二者有效地结合在一起,提出了统一的计算框架,给出了二者众多计算性质和方法之间的映射关系,进行了相关概念泛化,具体地建立了冰山立方体、浓缩立方体和商立方体等主要数据立方体计算与相应频繁项集挖掘方法的对应关系.通过算法和实验进一步论证统一计算的有效性:(1)将频繁项集挖掘事务集导入关系数据库,用冰山立方体计算方式进行频繁项集挖掘,从而在数据库中用标准的或扩展的SQL可以实现对关系表进行频繁项集挖掘;(2)验证了浓缩立...
|
关 键 词: | 数据立方体 频繁项集挖掘 格结构 统一计算方法 计算效率 |
|
|