排序方式: 共有21条查询结果,搜索用时 15 毫秒
1.
建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率,提出基于"互为最小相似度文本对"搜索的文本聚类算法及分布式并行计算模型.首先利用向量空间模型提出一种文本相似度计算方法;其次,基于"互为最小相似度文本对"搜索选择二分簇中心,提出通过一次划分实现簇质心寻优的二分K-means聚类算法;最后,基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型.在Hadoop平台上运用真实文本数据的实验表明:提出的聚类算法与原始二分K-means相比,在获得相当聚类效果的同时,具有明显效率优势;并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性. 相似文献
2.
扩展LDA(latent dirichlet allocation)模型,提出基于作者引用文献关系的作者-兴趣主题-文献模型。每个作者被分配一个在所有主题上的多项概率分布,每个主题被分配一个在所有文献上的多项概率分布。在DBLP(digital bibliography &library project )文献引用关系数据集上的实验表明,所提模型能有效地提取一个研究领域的主要潜在研究兴趣主题及其所包含的代表性文献,并能挖掘每个作者属于每个研究兴趣主题的分布。 相似文献
3.
4.
尽管供应商评价应用日益增多,用单一评价方法处理所有定性和定量准则却存在一些局限. 为避免供应商选择中单一评价方法处理所有准则的不足,实现主观信息与客观信息相结合的合理评价,提出了一种基于供应商选择准则分类的伙伴供应商认证选择的综合方法. 该方法综合运用群组AHP方法、模糊综合评价、信息熵和TOPSIS方法的长处,使供应商的评价更为合理. 以某钢铁企业焦炭供应商选择为例进行了实证分析. 相似文献
5.
给出了在存在不确定性干扰的情况下,生产计划—库存控制过程最优化的动态提法.在此基础上提出了一个在线克服不确定性干扰寻求最优控制的实用算法. 相似文献
6.
高维数据聚类是数据挖掘领域的重要研究课题,大规模高维数据聚类研究非常具有挑战性.针对高效的CABOSFV高维数据聚类算法,采用并行计算模式提高其大规模数据的处理能力,提出基于稀疏指数排序的高维数据并行聚类算法P-CABOSFV.该算法根据高维数据稀疏指数排序进行分割点选择实现数据划分,将数据分配到多个计算节点同时处理聚类任务,再基于集合稀疏特征差异度聚类结果合并策略将各计算节点的聚类结果合并得到最终聚类结果.UCI数据集和计算机合成数据集实验表明:高维数据并行聚类算法P-CABOSFV聚类质量良好,具有很强的数据规模和数据维度可扩展性,是有效可行的. 相似文献
7.
提出基于集合差异度的聚类算法. 算法通过定义的集合差异度和集合精简表示,直接进行一个集合内所有对象总体差异程度的计算,而不必计算两两对象间的距离,并且在不影响计算精确度的情况下对分类属性高维数据进行高度压缩,只需一次数据扫描即得到聚类结果. 算法计算时间复杂度接近线性. 实例表明该算法是有效的. 相似文献
8.
扩展LDA(latent dirichlet allocation)模型,提出基于作者引用文献关系的作者-兴趣主题-文献模型。每个作者被分配一个在所有主题上的多项概率分布,每个主题被分配一个在所有文献上的多项概率分布。在DBLP(digital bibliographylibrary project)文献引用关系数据集上的实验表明,所提模型能有效地提取一个研究领域的主要潜在研究兴趣主题及其所包含的代表性文献,并能挖掘每个作者属于每个研究兴趣主题的分布。 相似文献
9.
CABOSFV_C是一种针对分类属性高维数据的高效聚类算法,该算法采用集合稀疏差异度进行距离计算,并采用稀疏特征向量实现数据压缩。该算法的聚类效果受集合稀疏差异度上限参数的影响,而该参数的选取没有明确的指导。针对该问题提出基于集合稀疏差异度的启发式分类属性数据层次聚类算法( heuristic hierarchical clustering algorithm of categorical data based on sparse feature dissimilarity,HABOS),该方法从聚结型层次聚类思想的角度出发,在聚类数上限参数的约束下,应用新的内部聚类有效性评价指标( clustering validation index based on sparse feature dissimilarity, CVISFD)进行启发式度量,从而实现对聚类层次的自动选取。 UCI基准数据集的实验结果表明,HABOS有效地提高了聚类准确性和稳定性。 相似文献
10.
为了解决传统检索技术无法为用户提供个性化服务和检索效率低的问题,提出了一种基于领域本体的个性化文本信息检索模型,阐述了该模型的结构和关键算法,并验证了算法的可行性。实验结果表明:基于领域本体的个性化文本信息检索能有效提高信息检索的准确率和效率。 相似文献