首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 570 毫秒
1.
在高维数据空间的子空间中对高维数据进行处理是减小甚至消除“维度灾难”的一个有效方法。为选择合理的子空间,提出了一种基于网格划分的子空间生成方法。在考虑数据集整体分布的前提下,对各维数据进行等深度的区间划分,为高维数据的后续相关处理奠定了良好的基础。  相似文献   

2.
作为一种重要的数据挖掘手段,异常检测在数据分析领域有着广泛的应用。然而现有的异常检测算法针对不同的数据,往往需要调整不同的参数才能达到相应的检测效果,在面对大型数据时,现有算法检测的时间效率也不尽如人意。基于网格的异常检测技术,可以很好地解决低维数据异常检测的时间效率问题,然而检测精度严重依赖于网格的划分尺度和密度阈值参数,该参数鲁棒性较差,不能很好地推广到不同类型数据集上。基于上述问题,提出了一种基于多分辨率网格的异常检测方法,该方法引入一个鲁棒性较好的子矩阵划分参数,将高维数据划分到多个低维的子空间,使异常检测算法在子空间上进行,从而保证了高维数据的适用性;通过从稀疏到密集的多分辨率网格划分,综合权衡了数据点在不同尺度网格下的局部异常因子,最终输出全局异常值的得分排序。实验结果表明,新引入的子矩阵划分参数具有较好的鲁棒性,该方法能较好地适应高维数据,并在多个公开数据集上都能得到良好的检测效果,为解决高维数据异常检测的相关问题提供了一种高效的解决方案。  相似文献   

3.
针对轨迹聚类算法在相似性度量中多以空间特征为度量标准,缺少对时间特征的度量,提出了一种基于时空模式的轨迹数据聚类算法。该算法以划分再聚类框架为基础,首先利用曲线边缘检测方法提取轨迹特征点;然后根据轨迹特征点对轨迹进行子轨迹段划分;最后根据子轨迹段间时空相似性,采用基于密度的聚类算法进行聚类。实验结果表明,使用所提算法提取的轨迹特征点在保证特征点具有较好简约性的前提下较为准确地描述了轨迹结构,同时基于时空特征的相似性度量因同时兼顾了轨迹的空间与时间特征,得到了更好的聚类结果。  相似文献   

4.
由于从病例库中进行病例的相似性检索关系到能否提供给医生充分且正确的候选病例,因此如何高效、准确地实现影像病例的相似性检索是学术界和医学界的研究热点之一.迄今为止,很多文献提出了用于提高查询精度的检索策略,但涉及检索效率的文章还为之甚少.基于此,提出了一种融多种度量空间相似性计算于一体的M2+-树高维索引技术.该索引将病例中的文本和影像合成一个高维多特征向量,该向量在度量空间上将数据空间划分成若干子空间,并借助关键向量对划分后的数据子空间再进行向量空间上的二次划分.关键向量的无重叠划分和三角不等式过滤原理可以加快病例的检索速度.总之,在度量和向量空间上的两次数据划分使得M2+-索引树大大减少了待查询病例与数据库病例间的不必要相似性计算的次数,从而加快了相似性病例的检索速度.实验结果表明,M2+-树的性能优于典型的度量空间多特征索引代表M2-树的性能.  相似文献   

5.
子空间学习是特征提取领域中的一个重要研究方向,其通过一种线性或非线性的变换将原始数据映射到低维子空间中,并在该子空间中尽可能地保留原始数据的几何结构和有用信息.子空间学习的性能提升主要取决于相似性关系的衡量方式和特征嵌入的图构建手段.文中针对子空间学习中的相似性度量与图构建两大问题进行研究,提出了一种基于核保持嵌入的子空间学习算法(Kernel-preserving Embedding based Subspace Learning,KESL),该算法通过自表示技术自适应地学习数据间的相似性信息和基于核保持的构图.首先针对传统降维方法无法挖掘高维非线性数据的内部结构问题,引入核函数并最小化样本的重构误差来约束最优的表示系数,以期挖掘出有利于分类的数据结构关系.然后,针对现有基于图的子空间学习方法大都只考虑类内样本相似性信息的问题,利用学习到的相似性矩阵分别构建类内和类间图,使得在投影子空间中同类样本的核保持关系得到加强,不同类样本间的核保持关系被进一步抑制.最后,通过核保持矩阵与图嵌入的联合优化,动态地求解出最优表示下的子空间投影.在多个数据集上的实验结果表明,所提算法在分类任务中的性能优于主流的子空间学习算法.  相似文献   

6.
子空间学习是特征提取领域中的一个重要研究方向,其通过一种线性或非线性的变换将原始数据映射到低维子空间中,并在该子空间中尽可能地保留原始数据的几何结构和有用信息.子空间学习的性能提升主要取决于相似性关系的衡量方式和特征嵌入的图构建手段.文中针对子空间学习中的相似性度量与图构建两大问题进行研究,提出了一种基于核保持嵌入的子空间学习算法(Kernel-preserving Embedding based Subspace Learning,KESL),该算法通过自表示技术自适应地学习数据间的相似性信息和基于核保持的构图.首先针对传统降维方法无法挖掘高维非线性数据的内部结构问题,引入核函数并最小化样本的重构误差来约束最优的表示系数,以期挖掘出有利于分类的数据结构关系.然后,针对现有基于图的子空间学习方法大都只考虑类内样本相似性信息的问题,利用学习到的相似性矩阵分别构建类内和类间图,使得在投影子空间中同类样本的核保持关系得到加强,不同类样本间的核保持关系被进一步抑制.最后,通过核保持矩阵与图嵌入的联合优化,动态地求解出最优表示下的子空间投影.在多个数据集上的实验结果表明,所提算法在分类任务中的性能优于主流的子空间学习算法.  相似文献   

7.
遥感高光谱数据是一种具有空间聚集特性的高维数据。对PT方法进行改进使之与iDistance的索引机制相适应,并融合这两种不同的空间划分策略,提出一种适用于高光谱数据的索引结构。该索引是一种度量空间的高维索引,采用两级空间划分,在处理光谱相似性查询时可同时完成针对距离和空间方位的数据过滤。实验证明该索引可以有效降低I/O和距离计算次数,具有较高的剪枝效率,适用于高光谱数据相似性查询。  相似文献   

8.
一种基于网格方法的高维数据流子空间聚类算法   总被引:4,自引:0,他引:4  
基于对网格聚类方法的分析,结合由底向上的网格方法和自顶向下的网格方法,设计了一个能在线处理高维数据流的子空间聚类算法。通过利用由底向上网格方法对数据的压缩能力和自顶向下网格方法处理高维数据的能力,算法能基于对数据流的一次扫描,快速识别数据中位于不同子空间内的簇。理论分析以及在多个数据集上的实验表明算法具有较高的计算精度与计算效率。  相似文献   

9.
郏宣耀 《计算机应用》2005,25(Z1):176-177
针对高维数据相似度难定义的问题,提出了一种基于相似性二次度量的高维聚类算法.该算法首先由属性分布相似度和空间距离计算数据对象间实距离矩阵,得到各对象的最近邻表,根据该表内元素的交叉情况计算出数据间的相似性矩阵,最后根据该相似矩阵进行数据聚类.实验结果显示该算法能够获得优秀的聚类结果.  相似文献   

10.
基于混合网格划分的子空间高维数据聚类算法   总被引:1,自引:0,他引:1  
提出一种基于混合网格划分的子空间高维数据聚类算法.该算法消除了各个属性分量数值范围大小对计算的影响;有效去除冗余属性以提高聚类准确性与降低时间复杂度.根据数据分布情况灵活选择固定网格划分或是自适应网格划分,利用这二种不同的网格划分方法具有的优点,以实现进一步降低算法的时间复杂度和提高聚类结果的准确性,并使算法具有更优的可伸缩性.实验使用仿真数据表明,该算法在处理具有属性值域范围大的高维大规模数据时是实用有效的.  相似文献   

11.
针对传统基于距离度量的聚类算法难以适合高维数据聚类以及高维数据之间相似度难定义的问题,提出了一种新的高维数据聚类算法.该算法基于一个能够更准确地表达出高维对象之间相似性的度量函数,首先计算对象两两之间的相似度并得出一个相似度矩阵,然后根据该相似度矩阵和阈值大小自底向上对数据进行聚类分析.实验结果显示,该算法能够获得质量更高的聚类结果,并且不受孤立点影响,对输入数据顺序也不敏感.  相似文献   

12.
高维数据相似性度量方法研究   总被引:4,自引:0,他引:4       下载免费PDF全文
将低维空间中的距离度量方法(如Lk-范数)应用于高维空间时,随着维数的增加,对象之间距离的对比性将不复存在。研究高维数据有效的距离或相似(相异)度度量方法是一个重要且具有挑战性的课题。通过对传统的距离度量或相似性(相异性)度量方法在高维空间中表现出的不适应性的分析,并对现有的应用于高维数据的相似性度量方法进行总结,提出了高维数据相似性度量函数Hsim(X,Y)的改进方法HDsim(X,Y)。函数HDsim(X,Y)整合了各类型数据的相似性度量方法,在处理数值型、二值型以及分类属性数据上充分体现了原Hsim(X,Y)处理数值型数据、Jaccard系数处理二值数据以及匹配率处理分类属性数据的优越性。通过有效性及实例分析,充分论证了HDsim(X,Y)在高维空间中的有效性。  相似文献   

13.
高维数据之间的相似性度量问题是高维空间数据挖掘中所面临的问题之一。为了有效解决高维效应给相似性度量带来的种种问题,首先分析传统相似性度量算法,得出其局限性。再通过对传统度量算法进行改进,提出新的Close函数,以弥补传统相似性度量算法应用在高维空间时的不足。提出Close函数后,将其与几种传统的相似性度量算法作比较,得出新算法在高维空间相似性度量方面的优越性。文中最后用Matlab对该函数做了定量分析,实验证明该函数在高维空间中能有效避免噪声和维灾效应的影响。  相似文献   

14.
提出了一种新的DNA序列的3D图形表示方法,该方法能体现较多的DNA序列的特征,而且避免了信息的丢失。为了进行DNA序列之间的相似性分析,在此方法的基础上对图形进行特征提取并利用高维数据降维算法对提取后的高维数据进行降维,并降到3维,降维后的数据不但保持了原有高维数据的特征而且能很方便地观察它们之间的关系。通过对10个物种的β-球蛋白基因的第一个外显子的相似性分析,得到了较好的结果。  相似文献   

15.
流形学习算法的目的是发现嵌入在高维数据空间中的低维表示,现有的流形学习算法对邻域参数k和噪声比较敏感。针对此问题,文中提出一种流形距离与压缩感知核稀疏投影的局部线性嵌入算法,其核心思想是集成局部线性嵌入算法对高维流形结构数据的降维有效性与压缩感知核稀疏投影的强鉴别性,以实现高效有降噪流形学习。首先,在选择各样本点的近邻域时,采用流形距离代替欧氏距离度量数据间相似度的方法,创建能够正确反映流形内部结构的邻域图,解决以欧氏距离作为相似性度量时对邻域参数的敏感。其次,利用压缩感知核稀疏投影作为从高维观测空间到低维嵌入空间的映射,增强算法的鉴别性。最后,利用Matlab工具对实验数据集进行仿真,进一步验证所提算法的有效性。  相似文献   

16.
传统的基于余弦相似度度量的云模型协同过滤推荐算法未考虑特征向量的长度和维度,忽略了三个重要数字特征云期望、熵和超熵的关系,如各数字特征具有不同的性质和权重,导致特征丢失、区分度过小的问题。针对这些问题,提出了一种采用标准化的多维欧几里德相似度计算方法,通过将三个数字特征映射为三维空间的点,计算经指数函数标准化的欧几里德相似度,生成更合理的用户k近邻集,最终产生推荐。实验结果表明,该相似度计算方法能够为云特征向量提供更显著的区分度,并在一定程度上提高了推荐质量。  相似文献   

17.
改进的局部线性嵌入算法及其应用   总被引:1,自引:0,他引:1       下载免费PDF全文
局部线性嵌入算法(LLE)中常用欧氏距离来度量样本间相似度,而对于具有低维流形结构的高维数据,欧氏距离不能衡量流形上两点间相对位置关系。提出基于Geodesic Rank-order距离的局部线性嵌入算法(简称GRDLLE)。应用最短路径算法(Dijkstra算法)找到最短路径长度来近似计算任意两个样本间的测地线距离,计算Rank-order距离用于LLE算法的相似性度量。将GRDLLE算法、其他改进LLE的流形学习算法及2DPCA算法在ORL与Yale数据集上进行对比实验,对数据用GRDLLE算法进行降维后人脸识别率有所提高,结果表明GRDLLE算法具有很好的降维效果。  相似文献   

18.
分析了聚类数目的确定对大样本数据聚类效果的影响,对目前聚类质量衡量指标的几个主要流行观点进行了剖析.利用文本相似度的概念对文本语义最佳聚类数问题进行了研究,提出了一种基于聚类过程的丈本最佳聚类数算法CTBP,其主要思想是在文本向量集的每个文本向量中抽取出一个词汇,按相似度有序排列,用增量逐层划分以得到最优划分所对应的簇类数.这样通过扫描一遍数据就可以获得多个统计信息,最后求出最优解.实验结果表明了该算法的高质量和高效率.  相似文献   

19.
朱素文  曾宪华  胡梦 《传感技术学报》2016,29(10):1579-1588
利用接收信号强度(RSSI)进行无线传感器网络(WSN)定位是一类低成本定位方法。局部保持典型相关分析定位(LE-LPCCA)算法能通过节点间RSSI数据的相似度信息近似拟合WSN结构,取得了较高定位精度。但该算法只使用节点间相似性信息未保留信号空间和物理空间的相关性信息,且求解未知节点坐标时使用粗糙的质心法。针对以上问题,提出改进的局部保持典型相关分析定位(LE-ILPCCA)算法,该算法在样本训练阶段用平衡参数将数据的相似性和相关性信息进行融合,求取RSSI内在低维坐标表示的投影变换;在定位阶段,求解已知节点位置坐标和RSSI内在低维坐标之间存在的线性转换关系,获得未知节点的坐标。实验结果表明,本文算法与LE-LPCCA和LE-CCA相比定位精度高、稳定性强。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号