首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
蛋白质相互作用位点预测为蛋白质功能和药物设计的理解提供重要线索。而蛋白质的各种特征为蛋白质相互作用位点预测提供了大量有用信息,特别是进化信息、残基序列邻近和空间邻近性。不同的蛋白质特征对蛋白质间的相互作用的贡献也不一样。通过提取蛋白质序列谱、保守性和残基熵,提出了特征融合技术对蛋白质相互作用位点进行研究,采用SVM构建三种预测器,分别对各种不同的特征加以验证,实验结果表明了基于特征融合方法的有效性和正确性。  相似文献   

2.
蛋白质相互作用位点研究在蛋白质功能分析及药物设计等方面有着重要的应用。文章以蛋白质中的氨基酸残基为研究对象,使用残基的溶剂可及表面积、进化保守性打分及残基的序列信息熵三个特征为特征集,构建了基于贝叶斯方法的蛋白质相互作用位点预测的贝叶斯分类预测器。方法有效的结合了蛋白质残基特征数据集经常性数据缺失的特点及贝叶斯网在处理不确定性数据方面的优点,通过对基准的71个蛋白质数据集进行实验,结果表明我们的分类器预测的有效性。  相似文献   

3.
为了从蛋白质结构数据库中提取经验知识,进行蛋白质作用位点预测,提出了以蛋白质序列谱作为特征向量,采用支持向量机算法进行训练和预测蛋白质相互作用位点的方法。从蛋白质一级序列出发,以序列上邻近残基的序列谱为输入特征向量,采用支持向量机方法构建预测器,来预测蛋白质相互作用位点,预测精度达到70.47%,相关系数CC=0.1919。实验结果表明,利用蛋白质序列谱,结合支持向量机算法进行蛋白质相互作用位点预测的方法是有效的。  相似文献   

4.
考虑到现有的基于序列的蛋白质相互作用预测方法均采用单一的特征提取方法,具有一定的局限性,提出一种方法。用元学习策略作为分类器融合策略,并集成多种蛋白质序列特征提取方法。在10 702对酿酒酵母蛋白质对数据集上,得到97.28%的预测精度,优于目前现有方法的平均水平,在独立测试集上同样具有优秀的表现,实验结果表明,该方法有效提高了蛋白质相互作用预测的准确率。  相似文献   

5.
蛋白质可溶性在药物设计的研究中起着重要的作用,传统生物实验测试蛋白质可溶性费时费力,因此基于计算方法对可溶性进行预测成为一个重要的研究方向.针对传统可溶性预测模型不能充分表示蛋白质特征的问题,文中设计了一种基于多种蛋白质序列信息的神经网络模型PSPNet,并应用到蛋白质可溶性预测中.该模型首先使用氨基酸残基序列嵌入信息...  相似文献   

6.
鉴于不同类型氨基酸的相互作用对蛋白质结构预测的影响不同,文中融合卷积神经网络和长短时记忆神经网络模型,提出卷积长短时记忆神经网络,并应用到蛋白质8类二级结构的预测中.首先基于氨基酸序列的类别信息和氨基酸结构的进化信息表示蛋白质序列,并采用卷积提取氨基酸残基之间的局部相关特征,然后利用双向长短时记忆神经网络提取蛋白质序列内部残基之间的远程相互作用,最后将提取的蛋白质的局部相关特征和远程相互作用用于蛋白质8类二级结构的预测.实验表明,相比基准方法,文中模型提高8类二级结构预测的精度,并具有良好的可扩展性.  相似文献   

7.
胡赛  熊慧军  赵碧海  李学勇  王晶 《自动化学报》2015,41(11):1893-1900
一个蛋白质可能在不同条件或不同时刻与不同的蛋白质发生相互作用,这称为蛋白质的动态特性.蛋白质在分子处理的不同阶段参与到不同的模块,与其他的蛋白质共同完成某项功能.因此, 动态蛋白质相互作用的研究有助于提高蛋白质功能预测的准确率.结合蛋白质相互作用网络和时间序列基因表达数据,构建动态蛋白质相互作用网络.为降低PPI网络中假阴性对功能预测产生的负面影响,结合结构域信息和复合物信息,预测和产生新的相互作用,并对相互作用加权.基于构建的动态加权网络,提出一种功能预测方法D-PIN (Dynamic protein interaction networks). 基于三个不同的酵母相互作用网络实验结果表明, D-PIN 方法的综合性能比现有方法提高了14%以上.结果验证了构建的动态加权蛋白质相互网络的有效性.  相似文献   

8.
利用相似规则、互补规则和分子识别理论建立一种氨基酸数字编码模型用于研究序列特征、功能预测。给出一种新的基于元胞自动机的蛋白质序列图像生成方法,其优点是考虑了氨基酸前后的相互作用,生成的图像与基因序列一一对应,许多隐藏在蛋白质序列中的重要特性通过元胞自动机图可以表现出来。基于蛋白质元胞自动机图所得到的蛋白质伪氨基酸成分,蛋白质亚细胞定位预测成功率可以达到86.4%。  相似文献   

9.
众所周知,研究未知膜蛋白的类型可对基础研究和药物发现提供有用的线索。在后基因组时代,伴随着蛋白质序列数量的剧增,用实验方法确定膜蛋白类型太过昂贵和费时。因此,研究出一种能够自动发现可能的膜蛋白的计算方法变得很重要。鉴于这种情况,曾有人采用DC(Dipeptide Composition)方法表示蛋白质序列并取得了很好的预测结果。然而,采用这种表示方法得到的特征维数很高,冗余很大,使得预测系统十分复杂。为了解决这个问题,本文采用非线性降维算法KPCA(Kernel Principle component analysis),通过从高维的DC(Dipeptide Composition)特征空间中提取出低维的重要特征来简化该系统,采用K-NN(K-nearest neighbor)分类器从约简后的低维特征中预测膜蛋白类型。实验结果表明,使用KPCA方法预测膜蛋白类型非常有效。  相似文献   

10.
蛋白质亚细胞的定位预测不仅是研究蛋白质结构和功能的重要基础,还对了解某些疾病的发病机理、药物设计与发现具有重要意义。然而,如何利用机器学习精准预测蛋白质亚细胞的位置一直是一项具有挑战性的科学难题。针对这一问题,提出了一种基于聚类与特征融合的蛋白质亚细胞定位方法。首先将自相关系数法和熵密度法引入蛋白质特征表达模型的构建,并在传统的PseAAC(Pseudo-amino Acid Composition)的基础上提出了一种改进型PseAAC方法。为了更好地表达蛋白质序列信息,文中首先将自相关系数法、熵密度法和改进型PseAAC进行融合,构造了一种全新的蛋白质序列表征模型;然后利用主成分分析法对融合后的特征向量进行降维,将结果输入到LibD3C集成分类器,对蛋白质亚细胞进行分类预测,并采用留一法在Gram-positive和Gram-negative数据集上进行交叉检验;最后将取得的实验结果与其他现有算法进行比较。实验结果表明,所提方法在Gram-positive和Gram-negative数据集上分别取得了99.24%和95.33%的预测准确率,说明所提方法具有科学性和有效性。  相似文献   

11.
Prediction of protein structural class plays an important role in protein structure and function analysis, drug design and many other biological applications. Prediction of protein structural class for low-similarity sequences is still a challenging task. Based on the theory of wavelet denoising, this paper presents a novel method of prediction of protein structural class for the first time. Firstly, the features of the protein sequence are extracted by using Chou’s pseudo amino acid composition (PseAAC). Then the extracted feature information is denoised by two-dimensional (2D) wavelet. Finally, the optimal feature vectors are input to support vector machine (SVM) classifier to predict protein structural classes. We obtained significant predictive results using jackknife test on three low-similarity protein structural class datasets 25PDB, 1189 and 640, and compared our method with previous methods The results indicate that the method proposed in this paper can effectively improve the prediction accuracy of protein structural class, which will be a reliable tool for prediction of protein structural class, especially for low-similarity sequences.  相似文献   

12.
现有基于深度学习的化合物-蛋白质交互预测方法未考虑数据的内部协变量偏移及序列数据的长距离依赖.针对此问题,文中提出基于图注意力网络和简单循环单元的化合物-蛋白质交互预测方法.利用图注意力网络-门控循环单元学习化合物分子的图级表示,利用多层简单循环单元学习氨基酸子序列的特征向量表示,结合多层前馈网络预测化合物-蛋白质的交互作用.实验表明,文中方法在2个公开数据集上的各项评估指标都有所提升,由此验证方法的有效性.  相似文献   

13.
Identification of drug–target interactions (DTIs) is critical for discovering potential target protein candidates for new drugs. However, traditional experimental methods have limitations in discovering DTIs. They are time‐consuming, tedious, and expensive, and often suffer from high false‐positive rates and false‐negative rates. Therefore, using computational methods to predict DTIs has received extensive attention from many researchers in recent years. To address this issue, in this paper, an effective prediction model is presented which is based on the information of drug molecular structure data and protein sequence data. It performs prediction with the following procedures. First, we transform the sequences of each target into a position‐specific scoring matrix (PSSM), such that the features can retain biological evolutionary information. We then use a feature vector of molecular substructure fingerprints to describe the chemical structure information of the drug compounds. Second, the Legendre moments algorithm is used to extract new features from the PSSM. Finally, a classification algorithm called rotation forest is used to perform prediction, we tested its prediction performance on four golden standard data sets: enzymes, G‐protein‐coupled receptors, ion channels, and nuclear receptors. As a result, the proposed method achieves average accuracies of 0.9026, 0.8260, 0.8703, and 0.7444 on these four data sets using five‐fold cross‐validation. We also compare the proposed method with the support vector machine and other existing approaches. The proposed model is proved to be superior to comparative methods, showing that it is feasible, effective, and robust for predicting potential DTI.  相似文献   

14.
Jong  Sung-Yang  Seungjin   《Pattern recognition》2006,39(12):2301-2311
Prediction of the cellular location of a protein plays an important role in inferring the function of the protein. Feature extraction is a critical part in prediction systems, requiring raw sequence data to be transformed into appropriate numerical feature vectors while minimizing information loss. In this paper, we present a method for extracting useful features from protein sequence data. The method employs local and global pairwise sequence alignment scores as well as composition-based features. Five different features are used for training support vector machines (SVMs) separately and a weighted majority voting makes a final decision. The overall prediction accuracy evaluated by the 5-fold cross-validation reached 88.53% for the eukaryotic animal data set. Comparing the prediction accuracy of various feature extraction methods, provides a biological insight into the location of targeting information. Our experimental results confirm that our feature extraction methods are very useful for predicting subcellular localization of proteins.  相似文献   

15.
基于关键功能模块挖掘的蛋白质功能预测   总被引:1,自引:0,他引:1  
精确注释蛋白质功能是从分子水平理解生物体的关键.由于内在的困难和昂贵的开销,实验方法注释蛋白质功能已经很难满足日益增长的序列数据.为此,提出了许多基于蛋白质相互作用(Protein-protein interaction,PPI)网络的计算方法预测蛋白质功能.当今蛋白质功能预测的趋势是融合蛋白质相互作用网络和异构生物数据.本文提出一种基于多关系网络中关键功能模块挖掘的蛋白质功能预测算法.关键功能模块由一组紧密联系且共享生物功能的蛋白质组成,它们能与网络中的剩余部分较好地区分开来.算法通过从多关系网络的每一个简单网络中挖掘高内聚、低耦合的子图形成关键功能模块.关键功能模块中邻居蛋白质的功能用于注释待预测功能的蛋白质.每一个简单网络在蛋白质功能预测中的重要性各不相同.实验结果表明,提出的方法性能优于现有的蛋白质功能预测方法.  相似文献   

16.
Recognition of protein folding patterns is an important step in protein structure and function predictions. Traditional sequence similarity-based approach fails to yield convincing predictions when proteins have low sequence identities, while the taxonometric approach is a reliable alternative. From a pattern recognition perspective, protein fold recognition involves a large number of classes with only a small number of training samples, and multiple heterogeneous feature groups derived from different propensities of amino acids. This raises the need for a classification method that is able to handle the data complexity with a high prediction accuracy for practical applications. To this end, a novel ensemble classifier, called MarFold, is proposed in this paper which combines three margin-based classifiers for protein fold recognition.The effectiveness of our method is demonstrated with the benchmark D-B dataset with 27 classes. The overall prediction accuracy obtained by MarFold is 71.7%, which surpasses the existing fold recognition methods by 3.1–15.7%. Moreover, one component classifier for MarFold, called ALH, has obtained a prediction accuracy of 65.5%, which is 4.7–9.5% higher than the prediction accuracies for the published methods using single classifiers. Additionally, the feature set of pairwise frequency information about the amino acids, which is adopted by MarFold, is found to be important for discriminating folding patterns. These results imply that the MarFold method and its operation engine ALH might become useful vehicles for protein fold recognition, as well as other bioinformatics tasks. The MarFold method and the datasets can be obtained from: (http://www-staff.it.uts.edu.au/~lbcao/publication/MarFold.7z).  相似文献   

17.
序列信息融合与两阶段特征选择的膜蛋白预测   总被引:1,自引:0,他引:1       下载免费PDF全文
膜蛋白的功能与其类型密切相关,因此膜蛋白类型的预测具有重要意义。针对膜蛋白特征表达过程中出现的特征维数高的问题,结合最大信息系数与遗传算法提出一种两阶段特征选择(MIC-GA)。抽取膜蛋白序列信息中的伪氨基酸组成、二肽组成和位置特异性分数矩阵等特征融合后作为特征参数,并在融合过程中提出一种改进的ReliefF算法(FReliefF)得到更有效的特征分数。基于Stacking集成学习框架,两次使用极端随机树对膜蛋白类型进行合理化预测。结果表明该方法能够有效提高膜蛋白预测的准确率。  相似文献   

18.
为了提高蛋白质氧链糖基化位点的预测准确率,提出了把独立成分分析和支持向量机相结合的方法。实验样本(蛋白质序列)用稀疏编码方式编码,窗口长度为w=21,对于训练样本和待测样本,首先用独立成分分析法(ICA)提取了120个独立成分(特征),把这些独立成分作为支持向量机的输入,在特征空间用支持向量机(SVM)进行预测(分类)。实验结果表明,ICA+SVM的方法比PCA+SVM和SVM的好。预测准确率为88%。更进一步,用同一个蛋白质序列在不同窗口长度下的样本做实验,结果表明,窗口长度越长,预测准确率越高。  相似文献   

19.
陈荣  吕强  吴宏杰  陈沙沙 《计算机科学》2012,39(10):209-213
跨膜螺旋是GPCR的最主要特征,单个螺旋的预测精度直接影响GPCR整体三维结构的预测。GPCR螺旋形变预测是一个挑战性的难题。该形变用发生形变的残基位置和该位置前后两端螺旋的夹角表示。基于目前已知的所有GPCR的跨膜螺旋结构,根据螺旋序列相似度进行聚类,然后在每类中对形变角度用连续型von Mises概率分布来建模。对建模后GPCR跨膜螺旋的形变角度进行了回归和预测测试。基于本文方法的模型,只需进行15次采样,就会有一次的采样结果近似符合天然螺旋的形变角度,这在很大程度上能够帮助跨膜螺旋空间结构的预测。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号