首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
针对大数据下密度聚类算法中存在的数据划分不合理、参数寻优能力不佳、并行性能较低等问题,提出一种基于IFOA的并行密度聚类算法(density-based clustering algorithm by using improve fruit fly optimization based on MapReduce,MR-DBIFOA)。首先,该算法基于KD树,提出网格划分策略(divide gird based on KD tree,KDG)来自动划分数据网格;其次在局部聚类中,提出基于自适应搜索策略(step strategy based on knowledge learn,KLSS)和聚类判定函数(clustering criterion function,CCF)的果蝇群优化算法(improve fruit fly optimization algorithm,IFOA);然后根据IFOA进行局部聚类中最优参数的动态寻优,从而使局部聚类的聚类效果得到提升;同时结合MapReduce模型提出局部聚类算法DBIFOA(density-based clustering algorithm using IFOA);最后提出了基于QR-tree的并行合并局部簇算法(cluster merging algorithm by using MapReduce,MR-QRMEC),实现局部簇的并行合并,使算法整体的并行性能得到加强。实验表明,MR-DBIFOA在大数据下的并行效率更高,且聚类效果更好。  相似文献   

2.
针对大数据环境下DCNN(deep convolutional neural network)算法中存在网络冗余参数过多、参数寻优能力不佳和并行效率低的问题,提出了大数据环境下基于特征图和并行计算熵的深度卷积神经网络算法MR-FPDCNN(deep convolutional neural network algorithm based on feature graph and parallel computing entropy using MapReduce)。该算法设计了基于泰勒损失的特征图剪枝策略FMPTL(feature map pruning based on Taylor loss),预训练网络,获得压缩后的DCNN,有效减少了冗余参数,降低了DCNN训练的计算代价。提出了基于信息共享搜索策略ISS(information sharing strategy)的萤火虫优化算法IFAS(improved firefly algorithm based on ISS),根据“IFAS”算法初始化DCNN参数,实现DCNN的并行化训练,提高网络的寻优能力。在Reduce阶段提出了基于并行计算熵的动态负载均衡策略DLBPCE(dynamic load balancing strategy based on parallel computing entropy),获取全局训练结果,实现了数据的快速均匀分组,从而提高了集群的并行效率。实验结果表明,该算法不仅降低了DCNN在大数据环境下训练的计算代价,而且提高了并行系统的并行化性能。  相似文献   

3.
针对大数据环境下并行K-means算法存在的面对高维数据聚类效果差、数据分区不均匀、初始质心敏感等问题,提出了一种基于MapReduce和MSSA的并行K-means算法MR-MSKCA。首先,提出基于肯德尔相关系数和深度稀疏自动编码器的降维策略(dimensionality reduction strategy based on Kendall correlation coefficient and DSAE,DRKCAE)对高维数据进行特征加权和特征提取,解决了高维数据不相关特征和结构稀疏导致的聚类效果差的问题;其次,提出基于两段映射的广义超平面分区策略 (uniform partition strategy based on two-stage mapping,UPS)对数据集进行划分,获取均匀的数据分区;最后提出非均匀变异麻雀搜索算法 (non-uniform mutation sparrow search algorithm,MSSA)用于获取并行K-means的聚类质心,解决了算法初始质心敏感的问题。在UCI数据集上进行的实验显示,MR-MSKCA较MR-KNMF、MR-PGDLSH、MR-GAPKCA的运行时间分别降低了45.1%、49.1%、59.8%,聚类效果分别提升了19.2%、22.8%、24%,表明 MR-MSKCA对大数据进行聚类时有良好性能,适用于不同场景的大数据聚类分析。  相似文献   

4.
针对猫群算法(cat swarm optimization,CSO)中极易陷入局部极值和收敛的速度偏慢等问题,提出一种基于动态搜索的自适应猫群算法(adaptive cat swarm algorithm based on dynamic search,ADSCSO).根据Logistic函数特点对分组率和惯性权重实行有范围的动态变化,提高算法收敛的速度;利用适应值的信息让变异率自适应变化,增加算法跳出局部解的几率.使用5个标准测试函数对CSO、仅加入动态搜索的猫群算法(cat swarm algorithm based on dynamic search,DSCSO)和ADSCSO进行比较测试,仿真数据表明,ADSCSO算法在收敛速度以及求解精度方面都具有一定程度的效果.  相似文献   

5.
针对基于差分隐私的K-means聚类存在数据效用差的问题,基于乌鸦搜索和轮廓系数提出了一个隐私保护的聚类算法(privacy preserving clustering algorithm based on crow search,CS-PCA)。该算法,一方面利用轮廓系数对每次迭代中每个簇的聚类效果进行评估,根据聚类效果添加不同数量的噪声,并利用聚类合并思想降低噪声对聚类的影响;另一方面利用乌鸦搜索对差分隐私的K-means隐私保护聚类算法中初始质心的选择进行优化,防止算法陷入局部最优。实验结果表明,CS-PCA算法的聚类有效性更高,并且同样适用于大规模数据。从整体上看,随着隐私预算的不断增大,CS-PCA算法的F-measure值分别比DP-KCCM和PADC算法高了约0~281.3312%和4.5876%~470.3704%。在相同的隐私预算下,CS-PCA算法在绝大多数情况下聚类结果可用性优于对比算法。  相似文献   

6.
针对大数据环境下并行深度森林算法中存在不相关及冗余特征过多、多粒度扫描不平衡、分类性能不足以及并行化效率低等问题,提出了基于互信息和融合加权的并行深度森林算法(parallel deep forest algorithm based on mutual information and mixed weighting,PDF-MIMW)。首先,在特征降维阶段提出了基于互信息的特征提取策略(feature extraction strategy based on mutual information,FE-MI),结合特征重要性、交互性和冗余性度量过滤原始特征,剔除过多的不相关和冗余特征;接着,在多粒度扫描阶段提出了基于填充的改进多粒度扫描策略(improved multi-granularity scanning strategy based on padding,IMGS-P),对精简后的特征进行填充并对窗口扫描后的子序列进行随机采样,保证多粒度扫描的平衡;其次,在级联森林构建阶段提出了并行子森林构建策略(sub-forest construction strategy based on mixed weighting,SFC-MW),结合Spark框架并行构建加权子森林,提升模型的分类性能;最后,在类向量合并阶段提出基于混合粒子群算法的负载均衡策略(load balancing strategy based on hybrid particle swarm optimization algorithm,LB-HPSO),优化Spark框架中任务节点的负载分配,降低类向量合并时的等待时长,提高模型的并行化效率。实验表明,PDF-MIMW算法的分类效果更佳,同时在大数据环境下的训练效率更高。  相似文献   

7.
黄学雨  向驰  陶涛 《计算机应用研究》2021,38(10):2988-2993,3024
对于基于划分的聚类算法随机选取初始聚类中心导致初始中心敏感,聚类结果不稳定、集群效率低等问题,提出一种基于MapReduce框架和改进的密度峰值的划分聚类算法(based on MapReduce framework and im-proved density peak partition clustering algorithm,MR-IDPACA).首先,通过自然最近邻定义新的局部密度计算方式,将搜索样本密度峰值点作为划分聚类算法的初始聚类中心;其次针对算法在大规模数据下运行时间复杂,提出基于E2LSH(exact Euclidean locality sensitive hashing)的一种分区方法,即KLSH(K of locality sensitive hashing).通过该方法对数据分区后结合MapReduce框架并行搜寻初始聚类中心,有效减少了算法在搜索初始聚类中心时的运行时间;对于MapReduce框架中的数据倾斜问题,提出ME(multistage equilibrium)策略对中间数据进行多段均衡分区,以提升算法运行效率;在MapReduce框架下并行聚类,得到最终聚类结果.实验得出MR-IDPACA算法在单机环境下有着较高的准确率和较强的稳定性,集群性能上也有着较好的加速比和运行时间,聚类效果有所提升.  相似文献   

8.
时空轨迹数据挖掘是发现移动对象行为模式的重要方式。针对海量轨迹数据处理的需求,提出一种增量并行化快速聚类算法。算法基于数据点的数量采用二分法对空间网格分区,结合贪心算法弹性重组分区,合理进行数据划分;进行本地局部聚类,获得合并簇候选集;采用R*-tree索引候选簇进行合并判断并处理;建立合并簇的无向无环图模型,并进行数据的全局重标签。实验结果表明:算法的弹性分区处理能有效地减少噪点数据,提高局部聚类的质量,采用R*-tree索引结构的合并策略有效提高了聚类的时间效率,聚类效果好,能实现大规模数据的在线处理。  相似文献   

9.
基于改进的Tent混沌万有引力搜索算法   总被引:1,自引:0,他引:1  
万有引力搜索算法(gravitational search algorithm,GSA)相比于传统的优化算法具有收敛速度快、开拓性能强等特点,但GSA易陷入早熟收敛和局部最优,搜索能力较弱.为此,提出一种基于改进的Tent混沌万有引力搜索算法(gravitational search algorithm based on improved tent chaos,ITC-GSA).首先,改进Tent混沌映射来初始化种群,利用Tent混沌序列随机性、遍历性和规律性的特性使得初始种群随机性和遍历性在可行域内,具有加强算法的全局搜索能力;其次,引入引力常数G的动态调整策略提高算法的收敛速度和收敛精度;再次,设计成熟度指标判断种群成熟度,并使用Tent混沌搜索有效抑制算法早熟收敛,帮助种群跳出局部最优;最后,对10个基准函数进行仿真实验,结果表明所提算法能够有效克服GSA易陷入早熟收敛和局部最优的缺点,提高算法的收敛速度和寻优精度.  相似文献   

10.
针对大数据环境下传统并行密度聚类算法中存在的数据划分不合理,聚类结果准确度不高,结果受参数影响较大以及并行效率低等问题,提出一种MapReduce下使用均值距离与关联性标记的并行OPTICS算法——POMDRM-MR。算法使用一种基于维度稀疏度的减少边界点划分策略(DS-PRBP),划分数据集;针对各个分区,提出标记点排序识别簇算法(MOPTICS),构建数据点与核心点之间的关联性,并标记数据点迭代次数,在距离度量中,使用领域均值距离策略(FMD),计算数据点的领域均值距离,代替可达距离排序,输出关联性标记序列;最后结合重排序序列提取簇算法(REC),对输出序列进行二次排序并提取簇,提高算法局部聚类的准确性和稳定性;在合并全局簇时,算法提出边界密度筛选策略(BD-FLC),计算筛选密度相近局部簇;又基于n叉树的并集型合并与MapReduce模型,提出并行局部簇合并算法(MCNT-MR),加快局部簇收敛,并行合并局部簇,提升全局簇合并效率。对照实验表明,POMDRM-MR算法聚类效果更佳,且在大规模数据集下算法的并行化性能更好。  相似文献   

11.
Gravitational search algorithm (GSA) is a newly developed and promising algorithm based on the law of gravity and interaction between masses. This paper proposes an improved gravitational search algorithm (IGSA) to improve the performance of the GSA, and first applies it to the field of dynamic neural network identification. The IGSA uses trial-and-error method to update the optimal agent during the whole search process. And in the late period of the search, it changes the orbit of the poor agent and searches the optimal agent’s position further using the coordinate descent method. For the experimental verification of the proposed algorithm, both GSA and IGSA are testified on a suite of four well-known benchmark functions and their complexities are compared. It is shown that IGSA has much better efficiency, optimization precision, convergence rate and robustness than GSA. Thereafter, the IGSA is applied to the nonlinear autoregressive exogenous (NARX) recurrent neural network identification for a magnetic levitation system. Compared with the system identification based on gravitational search algorithm neural network (GSANN) and other conventional methods like BPNN and GANN, the proposed algorithm shows the best performance.  相似文献   

12.
传统的模糊C均值聚类(FCM)算法须事先指出聚类数,该算法对孤立点和初始聚类敏感、易陷入局部最优,这些因素都将影响最终聚类结果的质量.针对这些缺陷,采用遗传算法和禁忌搜索的混合策略对FCM进行改进,该策略兼具了这两种算法的优势,改进后的算法自动生成最佳聚类数,优化初始聚类的选择,增强算法的爬山能力,有效改善了算法的性能.将改造前后的两种算法用于网络入侵检测实验,实验结果表明,改造后的算法产生的聚类质量明显优于原算法,用新算法对入侵检测建模,提高了模型的自适应性和实用性.  相似文献   

13.
Gravitational search algorithm (GSA) has been shown to yield good performance for solving various optimization problems. However, it tends to suffer from premature convergence and loses the abilities of exploration and exploitation when solving complex problems. This paper presents an improved gravitational search algorithm (IGSA) that first employs chaotic perturbation operator and then considers memory strategy to overcome the aforementioned problems. The chaotic operator can enhance its global convergence to escape from local optima, and the memory strategy provides a faster convergence and shares individual's best fitness history to improve the exploitation ability. After that, convergence analysis of the proposed IGSA is presented based on discrete-time linear system theory and results show that IGSA is not only guaranteed to converge under the conditions, but can converge to the global optima with the probability 1. Finally, choice of reasonable parameters for IGSA is discussed on four typical benchmark test functions based on sensitivity analysis. Moreover, IGSA is tested against a suite of benchmark functions with excellent results and is compared to GA, PSO, HS, WDO, CFO, APO and other well-known GSA variants presented in the literatures. The results obtained show that IGSA converges faster than GSA and other heuristic algorithms investigated in this paper with higher global optimization performance.  相似文献   

14.
针对大数据环境下并行支持向量机(SVM)算法存在冗余数据敏感、参数选取困难、并行化效率低等问题,提出了一种基于Relief和BFO算法的并行SVM算法RBFO-PSVM。首先,基于互信息和Relief算法设计了一种特征权值计算策略MI-Relief,剔除数据集中的冗余特征,有效地降低了冗余数据对并行SVM分类的干扰;接着,提出了基于MapReduce的MR-HBFO算法,并行选取SVM的最优参数,提高SVM的参数寻优能力;最后,提出核聚类策略KCS,减小参与并行化训练的数据集规模,并提出改进CSVM反馈机制的交叉融合级联式并行支持向量机CFCPSVM,结合MapReduce编程框架并行训练SVM,提高了并行SVM的并行化效率。实验表明,RBFO-PSVM算法对大型数据集的分类效果更佳,更适用于大数据环境。  相似文献   

15.
为提高引力搜索算法的全局搜索能力和收敛速度,提出改进引力搜索算法(IGSA)。为引力常量嵌入混沌映射,使其在减小的同时可以混沌地变化,快速地跳出局部极小值,扩展搜索区域;引入细菌觅食算法(BFA)的趋化算子,利用最优个体信息对当前最佳粒子进行调整,提高收敛速度。4种基准函数的测试结果对比表明,IGSA有着更好的搜索能力和收敛速度。利用IGSA对孪生支持向量机(TWSVM)的参数进行寻优,将寻优后的TWSVM分类器应用于工控标准入侵检测数据集。实验结果表明,IGSA-TWSVM对整体入侵的误报率、漏报率和对各类入侵的检测率都优于其它算法。  相似文献   

16.
针对并行深度森林算法在处理大数据问题时存在的冗余与不相关特征过多,多粒度扫描不平衡以及并行化效率低等问题,提出了大数据环境下基于信息论改进的并行深度森林算法——IPDFIT(improved parallel deep forest based on information theory).该算法基于信息论设计了一种混...  相似文献   

17.
数据聚类是大数据分析的基本手段,传统聚类方法易于陷入局部最优。针对这一问题,提出一种基于改进引力搜索机制GSA的数据聚类算法。定义一种适合于引力搜索进化的聚类解编码方式。为了衡量不同聚类解的差异,设计一种基于汉明距离的引力搜索粒子距离度量方法,有效衡量数据对象在各维度属性上的不同。同时,在粒子速度更新方面,引入加速因子到粒子速度更新策略中,利用最优粒子位置代表的聚类解加速局部开发过程,加速粒子向最优粒子移动,有效保持局部开发与全局搜索间的平衡。实验结果表明,在经典数据集测试下,该算法在多数测试集中比同类算法具有更低的聚类失误率。  相似文献   

18.
孙倩  陈昊  李超 《计算机应用研究》2020,37(6):1707-1710,1764
针对大数据聚类算法计算效率与聚类性能较低的问题,提出了一种基于改进人工蜂群算法与MapReduce的大数据聚类算法。将灰狼优化算法与人工蜂群算法结合,同时提高人工蜂群算法的搜索能力与开发能力,该策略能够有效地提高聚类处理的性能;采用混沌映射与反向学习作为ABC种群的初始化策略,提高搜索的解质量;将聚类算法基于Hadoop的MapReduce编程模型实现,通过最小化类内距离的平方和实现对大数据的聚类处理。实验结果表明,该算法有效地提高了大数据集的聚类质量,同时加快了聚类速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号