首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
蛋白质复合物对于生物学家有效了解细胞组织和功能具有重要意义,如何通过计算方法从蛋白质-蛋白质相互作用(PPI)网络中识别复合物是当前研究热点之一。然而,由于PPI网络中存在大量假阴性和假阳性噪声数据且现有已知蛋白质复合物并不完整,使得如何克服PPI网络的噪声问题,以及更好地利用已知蛋白质复合物,成为蛋白质复合物识别亟待解决的关键问题。为此,该文提出一种基于蛋白质复合物拓扑信息,利用监督学习进行蛋白质复合物识别的算法(NOBEL)。首先,NOBEL根据蛋白质的生物信息和拓扑信息构建加权PPI网络,降低了网络中的噪声问题;然后,通过加权PPI网络和未加权PPI网络提取复合物拓扑信息作为特征,并根据提取的特征训练监督学习模型,使得监督学习模型能有效学习复合物蕴含的信息;最后,将训练好的模型应用于PPI网络识别蛋白质复合物。作者在四种真实PPI网络上进行了实验,实验结果表明,NOBEL与其他七种蛋白质复合物识别算法相比,在F-measure方面分别至少提高了4.39%(Gavin)、1.32%(DIP)、2.39%(WI-PHI_core)和2.34%(WI-PHI_extend)。  相似文献   

2.
针对在蛋白质相互作用网络上的关键蛋白质识别只关注拓扑特性,蛋白质相互作用数据中存在较高比例的假阳性数据以及基于复合物信息的关键蛋白质识别算法对节点的邻域信息和复合物的挖掘对关键蛋白质的识别影响效果考虑不够全面等导致的识别准确率和特异性不高的问题,提出一种基于复合物参与度和密度的关键蛋白质预测算法PEC。首先融合GO注释信息和边聚集系数构造加权PPI网络,克服假阳性对实验结果的影响;基于蛋白质相互作用的边权重,构造相似度矩阵,设计特征值间的最大本征差值来自动确定划分数目K,同时根据加权网络中的蛋白质节点度来选取K个初始聚类中心,进而利用谱聚类结合模糊C-means聚类算法实现复合物的挖掘,提高聚类的准确率,降低数据的维数;其次基于蛋白质节点的复合物参与度以及节点邻域子图密度,设计出关键节点的关键性得分。在DIP和Krogan 2个数据集上,将PEC与DC、BC、CC、SC、IC、PeC、WDC、LIDC、LBCC和UC 10种经典算法相比,实验结果表明,PEC算法能够识别出更多的关键蛋白质,且聚类结果的准确率和特异性较高。  相似文献   

3.
蛋白质相互作用数据具有较高的假阳性率和假阴性率,这直接导致计算方法从中预测蛋白质复合物会产生较大的误差。为了弥补数据的这种先天性不足,通过结合多数据源,一种新的蛋白质复合物预测算法被提出。匹配分析和GO功能富集分析被用于评估算法的性能。测试结果表明,新算法远优于以前的其他算法。  相似文献   

4.
实验产生的蛋白质相互作用数据不可避免地伴随着假阳性和假阴性,因而,基于蛋白质相互作用数据预测蛋白质复合物的计算方法天然具有较大的误差。为了弥补这种数据先天性不足,基因表达谱被结合进来,构造了新的加权蛋白质网络。为了验证网络的生物学意义,马尔可夫聚类算法被用于从加权与非加权网络中预测蛋白质复合物,预测到的复合物与基准复合物进行匹配分析。分析结果表明,加权网络比非加权网络具有更高的生物学意义。  相似文献   

5.
关键蛋白质是生物体内一切生命活动中不可缺少的物质基础,关键蛋白质的识别不仅可以从理论上理解生命活动机理,同时在实际应用中为药物研制、疾病治疗提供重要基础。目前,现有的关键蛋白质识别算法大多应用在静态PPI网络上,忽略了蛋白质的动态性和保守性,只考虑网络拓扑结构,忽略了蛋白质的生物特性,并且未能完全解决PPI网络中假阳性和假阴性问题。针对以上问题,构建一种混合动态保守蛋白质的时序加权PPI网络,并提出一种名为JTBC(Joint Topological properties,Biological properties and Complexes information)的关键蛋白质识别算法。利用基因表达数据提取动态蛋白质和保守蛋白质的活性信息,以动态调整静态PPI网络进而构建时序PPI网络,有效降低了PPI网络中的假阴性;设计一种融合双重拓扑特性的点边凝聚度DEcc(node and edge cohesion coefficient),以衡量蛋白质在PPI网络中的拓扑特性,再结合带有生物特性的蛋白质结构域信息和皮尔逊相关系数为时序PPI网络加权,以准确描述蛋白质之间的相互作用,减少了假阳性的影响;根据关键蛋白质的聚集特性和共表达特性,设计一种共表达复合物中心性方法局部评估蛋白质的重要程度。综上考虑,整合权重信息和蛋白质复合物信息来综合衡量蛋白质的关键性。实验结果表明该算法能够从全局和局部特性较准确地识别关键蛋白质。  相似文献   

6.
洪海燕  刘维 《计算机科学》2017,44(10):38-44
关键蛋白质是生物体内维持所有生命活动最重要的物质基础。随着高通量技术的发展,如何从蛋白质相互作用网络中识别出关键蛋白质成为目前蛋白质组学的研究热点。针对大部分现有方法仅仅基于网络拓扑结构信息进行识别以及蛋白质相互作用数据假阳性高的问题,提出了改进的粒子群算法来识别关键蛋白质。通过综合考虑网络拓扑结构特性和多源生物属性信息构建了高质量的加权网络,还考虑使用蛋白质节点间联系的紧密程度来衡量蛋白质的关键性,并扩展局部网络拓扑至二阶邻居,大大提高了预测的准确率。提出了衡量top-p关键蛋白质的整体性指标,降低了计算复杂度。在标准数据集上的实验结果表明,与其他经典算法相比,所提算法更具优势,能够识别出更多的蛋白质,具有较高的准确率。  相似文献   

7.
关键蛋白质的识别对于理解细胞的生长调控过程、疾病研究和药物设计等方面具有重要的意义。随着高通量技术的发展,越来越多的蛋白质相互作用数据被获取,使得可以从网络水平上研究关键蛋白质。目前,许多基于蛋白质网络拓扑特征的算法被提出,但是这类方法忽略了蛋白质网络的生物信息和假阴性、假阳性数据的影响。因此,论文通过结合蛋白质结构域和蛋白质网络的拓扑特征提出了一种新的算法Do-ECC。实验结果表明,Do-ECC明显优于其他8种算法(D C,BC,CC,SC,EC,IC,LAC,NC)。  相似文献   

8.
洪海燕  刘维 《计算机科学》2016,43(Z11):16-20, 25
关键蛋白质对于细胞生活是不可缺少的,识别关键蛋白质可以帮助了解细胞生活的最小需求,同时对药物设计也有非常大的作用。随着高通量技术的发展,人们可得到越来越多的蛋白质-蛋白质相互作用(PPI)的数据,这就使得可以在网络层次上来研究关键蛋白质。目前,学术界已经提出了一系列的计算方法来识别关键蛋白质,但这些方法并没有完全解决蛋白质相互作用数据的假阳性问题。除此之外,现有方法一般只考虑了网络的拓扑结构,对于生物信息的考虑,目前还是比较欠缺的。蛋白质对于人类细胞的生命活动不仅仅与网络拓扑结构有关,还和蛋白质在网络上的生物信息相关。因此,针对以上问题,提出了一种高效的预测关键蛋白质的新方法EPP(Essential Proteins Predict),该方法通过计算蛋白质在PPI网络中的重要性来进行预测,蛋白质的重要性越高,成为关键蛋白质的可能性就越大。取重要性排名前P%的蛋白质作为关键蛋白质,在进行蛋白质重要性的计算时,综合考虑语义相似度及可信度因素,以综合考虑网络的拓扑结构与蛋白质本身的生物信息。实验结果表明,与其他传统方法相比,提出的新方法复杂度较低,且能够识别出更多的关键蛋白质,并且其统计指标也高于其他的方法。  相似文献   

9.
现有关键蛋白质识别算法对生物信息考虑不全面、识别准确率亦有待提高,针对此问题,提出一种高效关键蛋白质识别算法PDWS。首先,结合由亚细胞定位信息获取到的蛋白质位置和蛋白质相互作用网络边聚类系数构建加权网络;其次,依据蛋白质所处亚细胞位置,提出亚细胞定位区室子网参与度指标;最后,融合亚细胞定位区室子网参与度和蛋白质复合物子网参与度指标,多维度度量蛋白质关键性。在DIP和Krogan两个标准数据集上的实验结果表明,PDWS算法性能优于PeC、PCSD等已有算法,可识别出更多特定结构的关键蛋白质,且识别精度分别达到0.76与0.73。  相似文献   

10.
蛋白质互作用网络是一种典型的复杂网络,呈现了明显的社区结构。网络中的社区对应于功能模块,通常被看作蛋白质复合物。蛋白质复合物识别对预测蛋白质功能,解释特定生物进程具有重要作用。基于种子节点扩展的图聚类方法在蛋白质复合物识别中应用广泛。针对此类算法最终结果受种子节点的影响较大,并且在簇的形成过程中搜索空间有限等问题,提出了一种基于遗传算法的蛋白质复合物识别算法GAGC(genetic algorithm based graph clustering),其中个体表示聚类结果(类别之间可能存在重叠节点),以F-measure值作为种群进化的目标函数。算法采用IPCA(improvement development clustering algorithm)算法产生初始种群;针对初始种群,设计了染色体对齐方式以进行交叉操作产生下一代种群。通过与DPClus、MCODE、IPCA、Cluster One、HC-PIN、CFinder等经典算法的对比实验表明,GAGC算法能够扩大图聚类算法的搜索空间,提高解的多样性,进而提高蛋白质复合物检测的性能。  相似文献   

11.
不断增长的蛋白质相互作用数据使我们能够采用计算方法预测蛋白质复合物。然而,由于实验条件和技术的限制,现有的PPI网络中包含噪声。为了降低噪声对复合物识别所产生的负面影响,提出了一种改进的名为WPC的算法,用于从加权网络中识别蛋白质复合物。给定一个选定节点,所有邻居节点组成候选集,候选集中节点的邻居节点组成邻居集。对于候选集中的节点,若该节点在候选集与邻居集间的加权比低于设定阈值,则将该点剔除。处理后的候选集被标记为复合物。对于没有包含在任何复合物中的节点,如果节点在某一复合物内的平均加权度超过一个自适应的阈值,则将其补充到该复合物中。对WPC算法和现有的几种经典蛋白质复合物识别算法的性能进行了综合比较。实验结果表明,WPC算法的性能优于几种对比的复合物识别算法。  相似文献   

12.
针对加权模块度函数聚类算法在蛋白质相互作用网络中进行复合物识别的准确率不高、召回率较低以及时间性能不佳等问题进行了研究,提出一种基于模块度函数的加权蛋白质复合物识别算法IWPC-MF(Algorithm for Identifying Weighted Protein Complexes based on Modularity Function)。融合点聚集系数改进边聚集系数,将改进后的边点聚集系数与基因共表达的皮尔逊相关系数结合来构建加权蛋白质网络;基于节点权重选取种子节点,遍历种子的邻居节点,设计节点间的相似度度量和蛋白质附着度来获取初始聚类模块;设计基于紧密度的蛋白质复合物模块度函数来合并初始模块,并最终完成复合物的识别,克服传统的模块度函数无法识别出重叠和规模较小的复合物的缺陷。将IWPC-MF算法应用在DIP数据上进行复合物的识别,实验结果表明IWPC-MF算法的准确率和召回率较高,能够较准确地识别蛋白质复合物。  相似文献   

13.
蛋白质复合物的预测对生物研究至关重要,现有的预测算法主要是基于蛋白质相互作用网络的局部结构发现算法,其存在一定的局限性,无法利用已知复合物作为先验知识,无法有效融合蛋白质生物关联性数据,因此其预测结果中会存在部分不符合复合物形成规律的样本。本文提出基于图卷积的复合物筛选模型,该模型充分考虑了蛋白质特征,在蛋白质复合物对应的局部图中将特征进行深度融合,从而有效地对蛋白质复合物进行评分,识别并剔除一般复合物预测算法结果中的低分复合物样本,提高其预测的准确性。  相似文献   

14.
蛋白质是生命活动的物质基础,直接参与、执行生命的活动过程。大多数蛋白质通过相互作用形成复合物来实现各种生物功能,因此预测蛋白质复合物有助于了解复合物的结构及其功能,也为细胞机制的研究奠定了重要基础。目前,随着高通量实验技术的不断发展,全基因组蛋白质相互作用(PPI)数据日益增多,领域内已经出现了很多基于计算的蛋白质复合物预测方法。虽然现有方法各具特色与优势,但也存在一些不足。首先,针对现有基于计算的蛋白质复合物预测方法进行了分类和比较全面、详细的分析评述;接着,介绍了复合物预测中常用的评价指标和主要数据集,并比较和分析了几种代表性方法的预测性能;最后,对复合物预测方法进行了总结与展望,提出了今后有待解决的若干问题。希望通过对各类方法的分析与比较,为相关人员使用和研究基于计算的蛋白质复合物预测方法提供有价值的参考和方向指引。  相似文献   

15.
针对蚁群融合模糊C-means (FCM)聚类算法在蛋白质相互作用网络中进行复合物识别的准确率不高、召回率较低以及时间性能不佳等问题进行了研究,提出一种基于模糊蚁群的加权蛋白质复合物识别算法FAC-PC(algorithm for identifying weighted protein complexes based on fuzzy ant colony clustering)。首先,融合边聚集系数与基因共表达的皮尔森相关系数构建加权网络;其次提出EPS(essential protein selection)度量公式来选取关键蛋白质,遍历关键蛋白质的邻居节点,设计蛋白质适应度PFC(protein fitness calculation)来获取关键组蛋白质,利用关键组蛋白质替换种子节点进行蚁群聚类,克服蚁群算法中因大量拾起放下和重复合并过滤操作而导致准确率和收敛速度过慢的缺陷;接着设计SI(similarity improvement)度量优化拾起放下概率来对节点进行蚁群聚类进而获得聚类数目;最后将关键蛋白质和通过蚁群聚类得到的聚类数目初始化FCM算法,设计隶属度更新策略来优化隶属度的更新,同时提出兼顾类内距和类间距的FCM迭代目标函数,最终利用改进的FCM完成复合物的识别。将FAC-PC算法应用在DIP数据上进行复合物的识别,实验结果表明FAC-PC算法的准确率和召回率较高,能够较准确地识别蛋白质复合物。  相似文献   

16.
《计算机科学与探索》2017,(8):1279-1287
蛋白质复合物的检测对人类了解细胞组织和疾病预测起着至关重要的作用。然而,当前的蛋白质复合物识别方法的准确率低,对噪音敏感等缺点导致其识别效果并不理想。提出了一种新的蛋白质复合物识别方法PIOC(pigeon-inspired optimization clustering)。该方法根据蛋白质复合物的特性提出了簇的紧密邻接点概念和附件对核心的附着度概念,基于这两个概念,PIOC通过模拟鸽子优化算法中鸽子寻找目的地的过程来识别蛋白质复合物;结合鸽子算法中先全局搜索再局部搜索的特性和蛋白质复合物的核心附件结构,先通过鸽子算法中地图罗盘操作的全局搜索形成蛋白质复合物的核心,再通过鸽子算法地标操作的局部搜索将附件蛋白质聚集到核心簇中形成蛋白质复合物。基于酵母蛋白质相互作用网络DIP上的实验表明,PIOC比当前其他的蛋白质复合物识别算法能更有效地识别蛋白质复合物。  相似文献   

17.
针对蛋白质相互作用(protein-protein interaction,PPI)网络中存在大量噪声以及现有关键蛋白识别方法准确率不高等问题,提出了一种基于中心性和模块特性(united centrality and modularity,UCM)的方法来识别关键蛋白质。首先,整合蛋白质拓扑数据和生物数据构建多元属性网络,以降低PPI网络中噪声的影响;其次,根据关键蛋白质的拓扑特性和生物特性,提出一种挖掘稠密且高度共表达的关键模块算法,从多元属性网络中挖掘高可靠性的关键模块,以从多维角度强化关键蛋白质在模块中的重要程度;最后,整合蛋白质的中心性和模块化特性,设计一种衡量蛋白质关键性的策略(essential integration strategy,EIS),以提高识别高关键蛋白质的准确率。UCM方法应用在DIP数据集上进行验证,实验结果表明,与其他10种关键蛋白质识别方法相比较,该方法具有较好的识别性能,能够识别更多的关键蛋白质。  相似文献   

18.
蛋白质相互作用(PPI)网络中存在大量不确定性及已知蛋白质复合物数据的不完整性,单独地根据结构信息进行搜索或对已知复合物进行监督学习的方法在识别蛋白质复合物的准确性上存在不足。对此,提出一种XGBoost模型与复合物拓扑结构信息相结合的搜索方法(XGBP)。首先,根据复合物拓扑结构信息进行特征提取;然后,把所提取的特征用XGBoost模型进行训练;最后,将拓扑结构信息与监督学习方法相结合,建立特征与复合物之间的映射关系以提高蛋白质复合物预测的准确性。该算法分别与目前流行的马尔可夫聚类算法(MCL)、极大团聚类方法(CMC)、基于核心-附属结构算法(COACH)、快速层级聚类算法(HC-PIN)、基于重叠邻居的扩展聚类(ClusterONE)、分子复合物检测算法(MCODE)、基于不确定图模型的蛋白质复合物检测方法(DCU)和加权核心-附属算法(WCOACH)这八种非监督学习算法和三种监督学习方法贝叶斯网络(BN)、支持向量机(SVM)、回归模型(RM)进行比较,所提方法在精准度、敏感度、F-measure方面显示出良好的性能。  相似文献   

19.
一种蛋白质复合体模块度函数及其识别算法   总被引:1,自引:0,他引:1  
蛋白质复合体对于研究细胞活动具有重要意义.随着新的生物实验技术的不断出现,产生了大量的蛋白质相互作用网络.通过对蛋白质相互作用网络进行聚类识别蛋白质复合体是当前研究热点.然而,目前大多数蛋白质复合体识别算法的性能不够理想.为此,提出了蛋白质复合体模块度函数(PQ),并在此基础上提出了基于蛋白质复合体模块度函数的模块合并(based on protein complexes modularity function for merging modules,BMM)算法.BMM算法首先识别网络中一些稠密子图作为初始模块,然后依据PQ函数对这些初始模块进行合并,最终得到了质量较高的蛋白质复合体.将识别出的复合体分别与2种已知的蛋白质复合体数据集进行比对,结果表明BMM算法具有很好的识别性能.此外,与其他最新的识别算法相比,BMM算法的识别准确率较高.  相似文献   

20.
动态蛋白质网络的构建和复合物识别问题是生物信息学领域目前研究的热点.针对现有的算法在解决前述问题上的不足,提出了一种基于隐马尔科夫模型的蛋白质复合物识别算法(HMM-PC).首先基于蛋白质的基因共表达特性构建初始蛋白质网络,然后利用蛋白质的共享功能注释、共享结构域和连接强度等信息来对网络进行加权,得到动态蛋白质网络.在此基础上,考虑前一时刻蛋白质网络拓扑结构信息对当前时刻蛋白质网络拓扑结构信息的影响,采用隐马尔科夫模型描述蛋白质复合物与网络个体间的相互关系,进而将动态蛋白质网络中的复合物识别问题建模为隐马尔科夫模型中的最优状态序列发现问题,并采用维特比算法识别得到蛋白质复合物.最后通过理论分析证明了所提算法的复杂度较低.采用DIP数据集和MIPS数据集中的酵母蛋白质网络作为测试对象,大量的仿真实验结果也表明,HMM-PC算法的鲁棒性较强,在查全率、查准率、F-measure和效率等方面的性能都要优于现有的复合物识别算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号