首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 515 毫秒
1.
模体识别是运用计算机算法寻找一系列功能相近且形式相似的DNA序列片段,从而找出生物信息学中控制基因表达调控机制的转录因子结合位点,将这种问题转化为AP聚类算法可处理的模型,然后用AP聚类得到稳定的候选模体聚类,最终利用贪心算法对问题进行求精,得出一组候选模体集,利用相对熵测度对候选模体集合进行评价并且择优输出,从而构造出一种新的模体识别算法.实验结果分别从模拟数据和真实数据证明了所提算法的有效性.  相似文献   

2.
为了研究大规模网络结构复杂性测度方法,并针对汽车行业站点网络布局与结构功能优化提出对策,基于万维网页面链接数据,构建汽车行业站点网络拓扑结构图.借助VOSviewer聚类算法及Gephi检测并划分网络社团结构,解析基于主题搜索的汽车行业站点内容分类体系及功能结构,并利用Pajek验证各内容社团结构的小世界性,基于Rand-ESU算法检测各社团的模体结构,提出基于模体的网络结构熵算法测度各社团的复杂性.最后,得出汽车行业站点网络社区中模体结构具有同构性,导致社区结构的信息传播功能具有相似性,模体规模与模体信息传播途径多样化对网络结构复杂性影响的显著性较高.  相似文献   

3.
为了克服模糊聚类算法的不足.提出了一种新的分级混合聚法,利用自组织神经网络对数据初步进行特征提取.再利用基于熵的聚类算法进行聚类。从而既提高了聚类过程的效率,又保证了聚类结果的有效性.  相似文献   

4.
针对基于密度带有“噪声”的空间聚类应用(DBSCAN)聚类算法存在的3个主要问题: 输入参数敏感、对内存要求高、数据分布不均匀时影响聚类效果,提出了一种基于遗传方法的DBSCAN算法改进方案数据分区中使用遗传思想的DBSCAN算法(DPDGA)来提高聚类质量.利用遗传算法改进K-means算法来获取初始聚类中心;对数据进行划分,在此基础上对划分的每一部分使用DBSCAN算法进行聚类;合并聚类的结果.仿真实验表明,新方法较好解决了传统DBSCAN聚类算法存在的问题,在聚类效率和聚类效果方面均优于传统DBSCAN聚类算法.  相似文献   

5.
为了能够在较短时间识别变电站火灾并发出报警,提出了一种基于特征识别的K-means聚类图像处理方法。通过远程传输获得变电站消防监控图像并提取HSI特征,采用欧氏距离法对HSI特征进行K-means聚类并分割图像子集。通过样本熵信号处理算法识别火灾子集和类火灾子集熵值,实现变电站火灾的精准辨别。结果表明:TPR为100%,FRP为4.44%,火灾识别并报警时间为15.21 s。该方法不但规避了漏检风险且具有较强鲁棒性,能够迅速、精准地识别变电站火灾,有效提高了变电站消防安全的管理能力。  相似文献   

6.
为了解决现有子空间聚类算法时间复杂度偏高和对输入参数敏感的问题,提出了一种基于联合熵矩阵的子空间聚类算法. 通过计算每个属性实例分布的熵降维,计算任意两个维度的联合熵,形成联合熵矩阵,在联合熵矩阵中搜索最高阶全1子矩阵作为兴趣子空间,最后在兴趣子空间完成聚类. 在人工数据集和公开数据集上的实验表明,与传统子空间聚类算法相比,新算法能以较低的开销识别维度更高的兴趣度子空间.  相似文献   

7.
对聚类结果的理解有助于评价聚类效果,可以据此调整聚类过程,更高效地使用聚类结果.但是,聚类结果的理解仍然是一个尚未解决的问题.提出了基于离群点识别技术分析任意聚类算法的聚类结果,发现了聚类结果属性特征簇的方法;提出一种基于不相似性比值的离群点识别算法.通过对全部数据簇的属性描述进行离群点分析,发现各数据簇的特征属性,实现对聚类结果的理解.所提方法适用于任意聚类算法结果的分析.对UCI的iris、ZOO和Housing数据集的采用X-means、Frozen和DBScan算法的聚类结果进行聚类结果分析,实验表明所提方法较成功地发现了不同聚类算法的属性特征簇,有助于对聚类结果的深入理解.  相似文献   

8.
时间序列分类是数据挖掘中的重要主题,现有的大部分时间序列分类方法较少考虑到序列形状对分类结果的影响。该文提出了一种基于k-shape的时间序列模糊分类方法。该方法通过使用k-shape聚类算法对时间序列训练数据集各类别的成员进行聚类,获得各类别的聚类中心并形成聚类中心群,将每个类别的聚类中心群作为时间序列数据模糊分类的初始聚类中心,根据隶属度最大原则确定测试时间序列数据的类别标签。在30个时间序列公开数据集上的分类实验结果表明,该方法相较于SVM、Bayes、EAIW和TLCS这4种分类算法具有更好的分类性能,对具有扭曲和位移特征的时间序列数据分类有更好的可用性。  相似文献   

9.
由于分类型数据相异度度量的局限性以及分类型数据在高维空间中的稀疏性,使得传统的相异度度量在高维分类型数据聚类中失效,针对上述问题,本研究提出了一个基于信息熵的理论高维分类型数据聚类算法。该算法综合考虑对应子空间和噪声空间的维度信息熵设计了一个高效、无监督的子空间搜索对高维数据进行有效降维,同时提出了基于整体数据的平均信息熵的全局优化方法对聚类结果进行迭代寻优。通过用人工数据和Votes、Mushroom和Soybean 3个典型的真实分类数据集试验,与其他分类型聚类算法相比,新算法在聚类准确性、熵值、CU(category utility)以及类个数等指标上有明显提高。  相似文献   

10.
聚类是机器学习领域的一个重要研究方向,在过去几十年间,针对不同类型中小规模数据集聚类算法的研究取得了很大的进展,许多行之有效的算法先后问世.然而,这些算法在处理大规模数据集时,计算复杂度较高,处理高维数据的能力较弱,难以获得令人满意的效果.随着大数据时代的到来,数据的采集和存储变得相对容易和便捷,但数据量也与日俱增,因此,针对各种实际应用的聚类问题应运而生,使得专门针对大规模数据集的聚类算法研究成为当前机器学习领域的重要任务之一.本文以大规模数据集的可计算性为切入点,对目前串行和并行计算环境下专门用于处理大规模数据集的聚类算法进行综述和分析,重点评述了串行计算环境下基于样例选择、增量学习、特征子集和特征转换的聚类算法以及并行计算环境下基于MapReduce、Spark和Storm框架的聚类算法,给出了有关未来大规模数据集聚类算法设计思路与应用前景的思考和讨论,包括基于数据并行和训练过程自动化的聚类算法设计策略及关于社交网络大数据聚类算法的若干理解.  相似文献   

11.
借鉴生物信息学中序列模式发现思想,提出了基于MEME(multiple expectation-maximization for motif elicitation)的不确定数据流模体发现算法。该算法根据不确定数据流的特点,设计了不确定滑动窗口的简化计算方法,改进了SAX(symbolic aggregate approximation)的符号化策略,用防空反导情报传感器网络中的一组不确定数据流验证了其可行性,通过植入不同数目模体的方法测试了其准确性,并在元组存在概率为1的条件下与已有算法进行比较,验证其有效性。  相似文献   

12.
在对粗集及其相关理论的研究基础上,给出了一种基于推广粗集模型和信息熵的规则不确定性量度及其相关定理的证明,同时在此基础上还提出了一种规则噪音处理方法,实验结果证明该不确定性量度适用于评价从有噪音数据中提取的规则。  相似文献   

13.
14.
K-均值算法对初始聚类中心敏感,聚类结果随不同初始聚类中心波动。针对以上问题,提出一种基于最小方差的自适应K-均值初始化方法,使初始聚类中心分布在K个不同样本密集区域,聚类结果收敛到全局最优。首先,根据样本空间分布信息,计算样本方差得到样本紧密度信息,并基于样本紧密度选出满足条件的候选初始聚类中心;然后,对候选初始聚类中心进行处理,筛选出K个初始聚类中心。实验证明,算法具有较高的聚类性能,对噪声和孤立点具有较好的鲁棒性,且适合对大规模数据集聚类。  相似文献   

15.
Shapelet发现的目标是寻找质量最佳的Shapelet,Shapelet的质量取决于子序列的可辨别性。针对精准发现有效Shapelet的问题,提出基于子类聚类和SAX表示的Shapelet快速发现算法,将子类聚类与经典的符号表示SAX法相结合进而快速准确的获取最优的Shapelet。该算法利用子类聚类将时间序列进行降维,得到多个子序列原型作为Shapelet候选集;再利用SAX表示将候选集符号化表示,直观的将候选集用字符串表示,便于找到最优Shapelet;最后选取候选集中信息增益最大的作为最优Shapelet进行时间序列分类。实验结果表明,该算法具有较好分类效果,同时提高了分类速度。  相似文献   

16.
为了减少基于密度的异常点检测算法邻域查询操作的次数,同时避免ODBSN(Outlier Detection Basedon Square Neighborhood)中有意义异常点的丢失和稀疏聚类中的对象靠近稠密聚类时导致错误的异常点判断,提出了一种基于邻域和密度的异常点检测算法NDOD(Neighborhoodand Densitybased Outlier Detection)。NDOD吸收基于网格方法的思想,以广度优先扩张方形邻域,成倍地减少了邻域查询的次数,从而快速排除聚类点并克服基于网格方法中的“维灾”。新引入的基于邻域的局部异常因子代表候选异常点的异常程度,用于对候选异常点的精选,可避免ODBSN的缺陷,发现更多有意义的异常点。大规模和任意形状的二维空间数据的测试结果表明,该算法是可行有效的。  相似文献   

17.
针对传感网络中节点能耗高的问题,提出了一种基于层次的多跳非均匀分簇路由算法UCER.该算法通过计算各层次中节点的平均剩余能量,挑选剩余能量高于层次平均能量的节点形成候选簇头集合,根据不同层次中候选簇头竞争半径的不同,在局部层次范围内竞争正式簇头,并建立非均匀簇结构.结果表明,与同类型分簇算法相比,UCER可以产生更加合理的簇头数量和簇头间距,并较好地均衡了各个簇及簇头的能耗,延长13. 4%的网络生存时间.  相似文献   

18.
移动P2P网络节点的移动性特征使得网络搜索性能的变化大,也造成了资源搜索的成功率低下和系统不稳定性增加.通过选择信誉高、动态弱的节点作为超级节点,再选择一个与超级节点相对信息熵最小的节点作为此超级节点的候选超级节点的基于超级节点信息熵的选择算法.理论分析和仿真结果表明,该算法使得系统稳定性增加,可有效地提高系统的资源搜索的成功率.  相似文献   

19.
在无背景知识的面向数据的频繁模式发现研究中按照关系数据库概念重新定义了面向数据的多关系频繁模式发现任务和搜索空间.同时,使用了一个优化的精化算子构建搜索空间,这一精化算子一方面有效地利用了关系数据库隐含的数据模式特征,从而能够自然地构建有趣形态的模式,另一方面能够在不过度限制搜索空间的情况下避免等价模式的产生.建立了一个候选模式评估共享计算策略,从而降低了方法评估阶段的时间复杂性.实验表明,所提出的MRFP-DA算法整体上具有良好的效率和可扩展性.  相似文献   

20.
常用的排列法从微阵列数据中选择的基因集合会包含相关性较高的基因,这会影响分类器的性能,为了去除这些冗余基因(特征),提出了无监督的特征选择算法.该算法主要包含:将原始特征集划分为一组相似的子集(聚类);从每个聚类中选择代表性特征.特征的划分采用特征间的相关性作为测度以k近邻原则来完成.该算法无需指定聚类数量,时间复杂度低.真实的生物学数据实验证明该算法可显著提高分类器的分类准确性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号