首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
客户行为的有效聚类   总被引:1,自引:0,他引:1       下载免费PDF全文
对客户的交易数据进行聚类是客户行为分析的一个重要手段。针对客户交易数据维数高的特点,提出了基于EMD和K-means的顾客行为聚类算法。首先利用EMD和自底向上分段算法实现交易数据序列维度的约简,再利用K-means算法完成降维后序列的聚类,最后利用每个类别中购买率较高的商品作为该类的描述,为商家提供促销依据。该聚类算法一方面可以有效实现客户行为的聚类,另一方面,由于算法对交易数据序列进行了降维处理,节约了一定的存储空间。  相似文献   

2.
K-匿名化是数据发布环境下保护个人隐私的一种有效的方法。指出目前已有的一些K-匿名模型存在隐私泄露问题,给出了一种新的有效的K-匿名模型——(α,L)多样化K-匿名模型解决存在的问题。通过一个局部化泛化算法对新模型的有效性进行实验验证。  相似文献   

3.
在PSO算法的基础上提出的基于量子行为的QPSO算法,并将其应用到基因表达数据集上。QPSO基因聚类算法是将N条基因根据使TWCV(Total Within-Cluster Variation)函数值达到最小分到由用户指定的K个聚类中。根据K-means算法的优点,利用K-means聚类的结果重新初始化粒子群,结合QPSO和PSO的聚类算法提出了KQPSO和KPSO算法。通过在4个实验数据集上利用K-means、PSO、QPSO、KPSO、KQPSO 5个聚类算法得出的结果比较显示QPSO算法在基因表达数据分析上具有良好的性能。  相似文献   

4.
利用P-集合的结构,给出属性迁移的信度特征:属性集α的内P-集合信度特征,属性集α的外P-集合信度特征,利用这些结果,给出内P-集合的信度特征,外P-集合的信度特征,提出内P-集合的随机结构与随机定理,外P-集合的随机结构。普通集合的结构是P-集合的随机结构的特例,P-集合的随机结构是普通集合结构的一般形式。  相似文献   

5.
新的K-均值算法最佳聚类数确定方法   总被引:8,自引:0,他引:8       下载免费PDF全文
K-均值聚类算法是以确定的类数k和随机选定的初始聚类中心为前提对数据集进行聚类的。通常聚类数k事先无法确定,随机选定的初始聚类中心容易使聚类结果不稳定。提出了一种新的确定K-均值聚类算法的最佳聚类数方法,通过设定AP算法的参数,将AP算法产生的聚类数作为聚类数搜索范围的上界kmax,并通过选择合适的有效性指标Silhouette指标,以及基于最大最小距离算法思想设定初始聚类中心,分析聚类效果,确定最佳聚类数。仿真实验和分析验证了以上算法方案的可行性。  相似文献   

6.
单向Sp-粗集中,具有属性集α的知识[x](R-元素等价类[x])具有这样的特征:若α内被补充属性,则[x]内的元素个数被减少。利用这一特征,考虑属性补充的随机性,给出Sp-上阶梯知识,Sp-上阶梯知识的依信度生成,Sp-上阶梯知识属性依赖的原理,给出Sp-上阶梯知识的属性依赖挖掘定理,Sp-上阶梯知识的状态识别算法。  相似文献   

7.
P-集合的动态特性   总被引:6,自引:3,他引:3       下载免费PDF全文
P-集合定义的基础上研究了P-集合的动态特性。提出了P-集合的动态识别——P-距离,P-距离可以将P-集合的动态变化程度进行量化,进而得到集成P-集合的过滤-剩余定理,利用这一定理可以进行药效识别、信息检索等。  相似文献   

8.
针对变精度粗糙集要依据先验领域知识来确定变精度闲值,大大影响属性约简和分类效率等问题,本文将可拓学和粗糙集应用到熵理论中,并结合不完备知识系统属性约简特征,提出一种变精度闲值的可拓熵属性约简算法(RAEE),该算法充分利用可拓熵在处理动态变化数据方面优势,能动态确定因先验知识不足的变精度阈值β,并选取最优阁值区间确定属性间近似依赖为启发式标准来进行可拓熵β-近似属性约简.仿真实验结果表明,RAEE算法在不完备系统中属性约简效率较高且对噪音具有较好抗干扰性.  相似文献   

9.
一种新的聚类有效性函数   总被引:3,自引:1,他引:2       下载免费PDF全文
聚类有效性函数是用于评价聚类结果优劣的指标,准确地给出初始聚类类别数将使得聚类结果趋于合理化。根据模糊不确定性理论及聚类问题的基本特性,引入了新的紧密度度量指标DiU;c),在此基础上提出了一个旨在寻求最优聚类类别数的有效性函数。该函数基于数据集的紧密度与分离度特征,综合考虑了数据成员的隶属度及数据集的几何结构。实验结果表明该有效性函数能够发现最优的聚类类别数,对于分类结构较为明确的数据集表现出良好的性能,并且对于权重系数具有良好的鲁棒性。  相似文献   

10.
将经典二值命题逻辑L中公式的真度概念推广到势为2的非均匀概率空间上;当p∈(0,1)时,证明了全体公式的真度值之集在[0,1]中没有孤立点;利用真度定义公式间的p-相似度和伪距离,进而定义了p-逻辑度量空间,证明了该空间没有孤立点,并在此空间中提出了三种不同类型的近似推理模式。  相似文献   

11.
Dimensionality reduction is a useful technique to cope with high dimensionality of the real-world data. However, traditional methods were studied in the context of datasets with only numeric attributes. With the demand of analyzing datasets involving categorical attributes, an extension to the recent dimensionality-reduction technique t-SNE is proposed. The extension facilitates t-SNE to handle mixed-type datasets. Each attribute of the data is associated with a distance hierarchy which allows the distance between numeric values and between categorical values be measured in a unified manner. More importantly, domain knowledge regarding distance considering semantics embedded in categorical values can be specified via the hierarchy. Consequently, the extended t-SNE can project the high-dimensional, mixed data to a low-dimensional space with topological order which reflects user's intuition.  相似文献   

12.
Northern landcover mapping for climate change and carbon modeling requires greater detail than what is available from coarse resolution data. Mapping landcover with medium resolution data from Landsat presents challenges due to differences in time and space between scene acquisitions required for full coverage. These differences cause landcover signatures to vary due to haze, solar geometry and phenology, among other factors. One way to circumvent this problem is to have an image interpreter classify each scene independently, however, this is not an optimal solution in the north due to a lack of spatially extensive reference data and resources required to label scenes individually. Another possible approach is to stabilize signatures in space and time so that they may be extracted from one scene and extended to others, thereby reducing the amount of reference data and user input required for mapping large areas. A radiometric normalization approach was developed that exploits the high temporal frequency with which coarse resolution data are acquired and the high spatial frequency of medium resolution data. The current paper compares this radiometric correction methodology with an established absolute calibration methodology for signature extension for landcover classification and explores factors that affect extension performance to recommend how and when signature extension can be applied. Overall, the new normalization method produced better extension and classification results than absolute calibration. Results also showed that extension performance was affected more by geographical distance than by differences in anniversary dates between acquisitions for the range of data examined. Geographical distance in the north-south direction leads to poorer extension performance than distance in the east-west direction due in part to differences in vegetation composition assigned the same class label in the latitudinal direction. While extension performance was somewhat variable and in some cases did not produce a best classification result by itself, it provided an initial best guess of landcover that can subsequently be refined by an expert image interpreter.  相似文献   

13.
光纤通道存储区域网扩展研究   总被引:4,自引:0,他引:4       下载免费PDF全文
存储扩展是建立数据容灾的基础。文章分析了基于因特网、同步光纤网/同步数字序列(SONET/SDH)和波分复用技术(WDM)的存储扩展工作原理以及它们的流控机制,对存储扩展的性能与扩展距离、流控机制以及与丢包率的关系进行了研究,对提高存储扩展性能的方法进行分析,对不同存储扩展技术的应用进行了归纳。  相似文献   

14.
现有扩张矩阵算法多为建立在理想数据基础上的,而实际的应用领域中不可避免地存在噪音数据,这样致使其在实际的应用中很难得到令人满意的结果。文章对原有扩张矩阵理论进行扩充,提出扩张矩阵集的概念,并在此基础上给出了一个容忍噪音的扩张矩阵启发式算法(NCV)。实际领域的实验结果表明:NCV算法能够得到较为简单而精确的规则,并且较好地解决了实际领域中存在的噪音问题。  相似文献   

15.
为了更加有效地检索到符合用户复杂语义需求的图像,提出一种基于文本描述与语义相关性分析的图像检索算法。该方法将图像检索分为两步:基于文本语义相关性分析的图像检索和基于SIFT特征的相似图像扩展检索。根据自然语言处理技术分析得到用户文本需求中的关键词及其语义关联,在选定图像库中通过语义相关性分析得到“种子”图像;接下来在图像扩展检索中,采用基于SIFT特征的相似图像检索,利用之前得到的“种子”图像作为查询条件,在网络图像库中进行扩展检索,并在结果集上根据两次检索的图像相似度进行排序输出,最终得到更加丰富有效的图像检索结果。为了证明算法的有效性,在标准数据集Corel5K和网络数据集Deriantart8K上完成了多组实验,实验结果证明该方法能够得到较为精确地符合用户语义要求的图像检索结果,并且通过扩展算法可以得到更加丰富的检索结果。  相似文献   

16.
传统根据[K]-近邻图计算测地距离的方法,虽然能够发现流形分布数据间的相似关系,但是当不同类的点存在粘连关系时,依此计算相似度时不能体现样本间的真实关系,从而无法有效聚类。针对传统测地距离计算相似度的方法不能有效处理粘连数据集的问题,提出了基于局部密度和测地距离的谱聚类方法。计算样本的局部密度,寻找每个样本点的最近高密度点,并选择边缘点和非边缘点;在边缘点和其最近高密度点之间构造边、非边缘点之间的[K]个近邻点构造边,依此计算测地距离和相似度并进行聚类。在人工数据集和UCI数据集上的实验表明,该算法在处理粘连数据集时有效提高了聚类准确率。  相似文献   

17.
Most manifold learning techniques are used to transform high-dimensional data sets into low-dimensional space. In the use of such techniques, after unseen data samples are added to the data set, retraining is usually necessary. However, retraining is a time-consuming process and no guarantee of the transformation into the exactly same coordinates, thus presenting a barrier to the application of manifold learning as a preprocessing step in predictive modeling. To solve this problem, learning a mapping from high-dimensional representations to low-dimensional coordinates is proposed via structured support vector machine. After training a mapping, low-dimensional representations of unobserved data samples can be easily predicted. Experiments on several datasets show that the proposed method outperforms the existing out-of-sample extension methods.  相似文献   

18.
可拓数据挖掘的概念与理论   总被引:2,自引:0,他引:2  
论文从数据挖掘概念和理论拓宽到可拓数据挖掘概念和理论,证明了两个可拓数据挖掘定理,并通过实例说明可拓数据挖掘是:在数据挖掘中获取的知识的基础上,通过可拓变换,获取可拓变换规则知识(变化知识)。  相似文献   

19.
针对传统的t分布随机近邻嵌入(t-SNE)算法只能处理单一属型数据,不能很好地处理混合属性数据的问题,提出一种扩展的t-SNE降维可视化算法E-t-SNE,用于处理混合属性数据。该方法引入信息熵概念来构建分类属性数据的距离矩阵,采用分类属性数据距离与数值属性数据欧式距离相结合的方式构建混合属性数据距离矩阵,将新的距离矩阵输入t-SNE算法对数据进行降维并在二维空间可视化展示。此外,为验证算法有效性,采用[k]近邻[(kNN)]算法对混合数据降维后的效果进行评价。通过在UCI数据集上的实验表明,该方法在处理混合属性数据方面,不仅具有较好的可视化能力,而且能有效地对不同类别的数据进行降维分簇,提升后续分类器的分类准确率。  相似文献   

20.
针对密度峰聚类分配时,仅考虑样本点与指向点(密度比它大的最近点)之间的距离,不适用于流形聚类(如Circleblock数据集、Lineblobs数据集等)的问题,提出了[K]近邻相似度优化的密度峰聚类算法。在计算每个点的密度与指向点后,通过相似度函数,找出每个点的[K]近邻,然后根据[K]近邻信息判断样本点的指向点是否正确,对于指向错误的点重新寻找正确的指向点,可以有效减少错误分配。在人工数据集和UCI数据集上的实验表明,新算法具有更高的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号