排序方式: 共有128条查询结果,搜索用时 0 毫秒
1.
基于数据空间网格划分的PK 树索引结构* 总被引:1,自引:0,他引:1
在大规模高维数据挖掘研究中,数据存储与索引方法的有效性是决定算法时空效率的重要因素。将数据空间网格划分策略与高效率的树型索引结构结合起来,可以充分发挥两者在数据组织上的综合优势,将复杂问题转换为结构化的简单重复问题。在统一的框架下给出了各种数据空间网格划分的定义,讨论了两种适用于实现网格化数据索引的R树和PK树索引结构。试验结果表明,PK树在数据存储和索引上具有更高的效率,与网格化数据组织方法结合起来,对于降低大规模高维数据分析问题的时空复杂度具有重要意义。 相似文献
2.
3.
4.
挖掘关联规别是数据挖掘研究的一个重要方面,而如何快速有效地挖掘出关联规则是当前研究的热点.本文提出了一种前缀广义链表,并应用此结构进行关联规则的挖掘,得到了一种快速的关联规则发现算法、该算法不仅方便、效率高,而且避免了产生组合爆炸问题. 相似文献
5.
为聚类非线性相关的数据对象,引入广义信息论中二次互信息作为相似性度量,利用矩阵理论降低了二次互信息的计算量,并结合滑动窗口技术,建立了一种时序数据非线性相关模型.在此基础上提出了适用于时序基因表达数据的确定性联合聚类算法MI-TSB.该算法将时序数据转化为抽象字符序列,然后插入到MI-泛化后缀树中,避免了穷举各种组合,从而快速索引全部聚类结果.实验结果显示MI-TSB算法具有良好的运行性能,成功聚类出非线性相关的对象;利用Gene Ontology对聚类结果进行基因注释,也验证了聚类结果的生物学意义. 相似文献
6.
数字地球的建设与应用前景 总被引:5,自引:0,他引:5
1.引言 1999年11月29日至12月2日,来自25个国家和地区的科学家聚集北京,召开了世界上第一次“数字地球”国际会议。一个科学概念提出不过短短两年,就引起了世界各国科学家、政治家的密切关注,这在科学发展史上是极为罕见的。 1998年1月31日,美国副总统阿尔·戈尔在加利福尼亚科学中心的一次演讲中,首次提出了“数字地球” 相似文献
7.
基于k均值分区的数据流离群点检测算法 总被引:10,自引:0,他引:10
离群知识发现是数据挖掘研究的一个重要方面,数据流离群点挖掘更因其挖掘对象具有动态性、不可复读性、数据量大等特点而成为离群知识发现研究的一个难点.提出一种基于k均值分区的流数据离群点发现算法,先对数据流进行分区做k均值聚类生成中间聚类结果(均值参考点集),随后在这些均值参考点中,根据离群点的定义找出可能存在的离群点.理论分析和实验结果表明,算法可以有效解决数据流离群点检测问题,算法是有效可行的. 相似文献
8.
高维数据流聚类及其演化分析研究 总被引:5,自引:0,他引:5
基于数据流数据的聚类分析算法已成为研究的热点.提出一种基于子空间的高维数据流聚类及演化分析算法CAStream,该算法对数据空间进行网格化,采用近似的方法记录网格单元的统计信息,并将潜在密集网格单元快照以改进的金字塔时间结构进行存储,最后采用深度优先搜索方法进行聚类及其演化分析.CAStream能够有效处理高雏数据流,并能发现任意形状分布的聚类.基于真实数据集与仿真数据集的实验表明,算法具有良好的适用性和有效性. 相似文献
9.
基于k均值分区的流数据高效密度聚类算法 总被引:2,自引:0,他引:2
数据流聚类是数据流挖掘研究的一个重要内容,已有的数据流聚类算法大多采用k中心点(均值)方法对数据进行聚类,不能对数据分布不规则以及高维空间数据流进行有效聚类.论文提出一种基于k均值分区的流数据密度聚类算法,先对数据流进行分区做k均值聚类生成中间聚类结果(均值参考点集),随后对这些均值参考点进行密度聚类,理论分析和实验结果表明算法可以有效解决数据分布不规则以及高维空间数据流聚类问题,算法是有效可行的. 相似文献
10.
基于投影数据集的序列模式增量挖掘算法 总被引:1,自引:0,他引:1
提出一种基于投影数据集的序列增量更新算法Inc_SPM,该算法以PrefixSpan算法为基础。首先利用已有的知识得出频繁1序列,然后生成投影数据集以迭代产生频繁k序列;同时为了控制投影数据集的规模,利用等价投影数据集来改进投影终止条件。 相似文献