首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
蛋白质功能的准确预测有利于推进生物医学发展,高通量测序技术的快速发展加快了蛋白质序列的提取速度,从而产生了大量未注释的蛋白质,并且新测序序列缺乏结构等生物信息,针对该问题提出了基于序列和组合图卷积网络的蛋白质功能预测模型(Protein Function Prediction using Sequences and Combined Graph Convolutional Networks, PFP-SCGCN).首先通过深度学习方法捕获蛋白质序列的多维特征信息,再通过多序列比对从蛋白质序列中提取进化耦合信息和氨基酸残基群落,然后利用进化耦合信息和氨基酸残基群落生成序列氨基酸之间两种不同连接程度的邻接矩阵,将这两种邻接矩阵与序列特征信息一起输入给组合图卷积网络进行信息融合,最后通过多个全连接层获得蛋白质功能类别信息.本文还通过分析PFP-SCGCN的特定网络层识别蛋白质功能位点,可帮助人们推测出新序列中的重要氨基酸.模型结果表明,PFP-SCGCN模型的功能预测准确率远高于对比方法,具有较好的鲁棒性,并且可以较准确的识别功能位点.  相似文献   

2.
基于最大熵模型预测蛋白质结构的分类   总被引:1,自引:0,他引:1  
基于最大熵模型,构建一种简单的预测蛋白质序列结构分类的算法。不同性质的氨基酸组合,在特定结构的蛋白质二级结构中,出现的频率不同,通过在模体数据库Prosite中查找蛋白质序列匹配的模体,以10种氨基酸组合在序列中出现的频率,表示蛋白质序列的特征,构建相应的结构分类预测模型。最大熵模型用来确定蛋白质结构分类预测模型的参数。以自身一致性和Jackknife测试方法验证分类模型的准确性。结果表明新构建的方法简单、准确,综合性能优于一般的预测方法。  相似文献   

3.
在提出的符号序列的高维数字表达以及高维傅里叶变换概念的基础上,提出了蛋白质比较的新方法——高维共鸣识别。将两种蛋白质对应的氨基酸序列转化为向量序列,分别计算它们对应的向量序列的离散傅里叶变换。据此,定义两个蛋白质序列所对应的交叉谱函数,考查交叉谱函数的信噪比,判断两种蛋白质序列的相似性或差异性。计算结果显示它是蛋白质比对的又一个有效方法,是Cosic一维共鸣识别的拓展。  相似文献   

4.
敖培  王川  张纪 《计算机应用研究》2014,31(5):1328-1331
为了对蛋白质结构进行正确分类,提出了一种基于粗糙集理论的蛋白质结构分类属性筛选方法。通过多结构比对工具MAMMOTH-mult获得条件属性值,针对分辨矩阵中元素特点提出了分辨矩阵简化方法和改进的属性约简方法。实验以SCOP 1.71数据库中结构信息完整的35个家族数据集为研究对象,采用本方法得到%STRCTCORE和%LOOSECORE两个蛋白质分类属性,并通过两个属性的d1a0fa1与35个蛋白质家族、46 626家族与35个结构比对结果散点图可以看出,将这两个分类属性作为蛋白质结构分类标准,基本上可以对蛋白质结构进行客观正确的分类。  相似文献   

5.
利用相似规则、互补规则和分子识别理论建立一种氨基酸数字编码模型用于研究序列特征、功能预测。给出一种新的基于元胞自动机的蛋白质序列图像生成方法,其优点是考虑了氨基酸前后的相互作用,生成的图像与基因序列一一对应,许多隐藏在蛋白质序列中的重要特性通过元胞自动机图可以表现出来。基于蛋白质元胞自动机图所得到的蛋白质伪氨基酸成分,蛋白质亚细胞定位预测成功率可以达到86.4%。  相似文献   

6.
氨基酸序列编码问题一直是在蛋白质结构预测中导致算法输入空间较大的主要原因。只有对氨基酸序列进行更好的编码.才能为后续进行计算机分析打下基础。提出并实现了综合考虑了氨基酸序列的划分和长程作用效应,利用氨基酸正交编码区分每个氨基酸个体,利用基本正交矩阵获得氨基酸在物理、化学、生物上的相似性,利用分属概率来获得当前蛋白质序列中氨基酸构成不同二级结构的趋势的新的混合编码方法,从而改进了氨基酸残基序列编码,并利用现有算法比较了不同编码方式对蛋白质二级结构预测的影响,结果证实该编码方式能够提高蛋白质二级结构预测的准确性。  相似文献   

7.
有效分析蛋白质家族是生物信息学的一项重要挑战,聚类成为解决这一问题的主要途径之一.基于传统序列比对方法定义蛋白质序列间相似关系时,假设了同源片断问的邻接保守性,与遗传重组相冲突.为更好地识别蛋白质家族,提出了一种蛋白质序列家族挖掘算法ProFaM.ProFaM首先采用前缀投影策略挖掘表征蛋白质序列的模式,然后基于模式及其权重信息构造相似度度量函数,并采用共享最近邻方法,实现了蛋白质序列家族聚类.解决了以往方法在蛋白质模式挖掘及相似度设计中的不足.在蛋白质家族数据库Pfam上的实验结果证实了ProFaM算法在蛋白质家族分析上有良好的结果.  相似文献   

8.
氨基酸序列编码问题一直是在蛋白质结构预测中导致算法输入空间较大的主要原因。只有对氨基酸序列进行更好的编码,才能为后续进行计算机分析打下基础。提出并实现了综合考虑了氨基酸序列的划分和长程作用效应,利用氨基酸正交编码区分每个氨基酸个体,利用基本正交矩阵获得氨基酸在物理、化学、生物上的相似性,利用分属概率来获得当前蛋白质序列中氨基酸构成不同二级结构的趋势的新的混合编码方法,从而改进了氨基酸残基序列编码,并利用现有算法比较了不同编码方式对蛋白质二级结构预测的影响,结果证实该编码方式能够提高蛋白质二级结构预测的准确性。  相似文献   

9.
生物信息学的一个关键的研究课题是理解细胞的分子机制,这依赖于对基因所决定的每一条蛋白质的含义或者功能的理解.一般通过与一条或多条功能已知的蛋白质的相似性比较来推测未知蛋白质的功能,其中,基于支持向量机的一些算法取得了很好的成果.SVM-pairwise算法是当前最好的基于支持向量机的算法中的一个,该方法利用两条序列的相似性来将蛋白质序列转化为固定长度的向量.文中提出了一种新的利用支持向量机算法对蛋白质序列进行分类的方法,这种方法使用位点进化距离代替两条序列的比对得分,该方法比SVM-pairwise有着显著的改善,在蛋白质结构分类数据库(SCOP)上进行的实验表明,该方法具有比SVM-pairwise更好的分类性能.  相似文献   

10.
蛋白质二级结构类型预测是当今生物信息学研究的热点之一。利用氨基酸数字编码模型将氨基酸序列转换成数字信号,根据LZ复杂度的算法计算了氨基酸的伪氨基酸成分,再对伪氨基酸成分用OET-KNN算法进行分类预测。Jackknife测试结果表明该算法能使得预测成功率有较大的提高。  相似文献   

11.
Chaos game representation of proteins   总被引:1,自引:0,他引:1  
The present report proposes a new method for the chaos game representation (CGR) of different families of proteins. Using concatenated amino acid sequences of proteins belonging to a particular family and a 12-sided regular polygon, each vertex of which represents a group of amino acid residues leading to conservative substitutions, the method can generate the CGR of the family and allows pictorial representation of the pattern characterizing the family. An estimation of the percentages of points plotted in different segments of the CGR (grid points) allows quantification of the nonrandomness of the CGR patterns generated. The CGRs of different protein families exhibited distinct visually identifiable patterns. This implies that different functional classes of proteins follow specific statistical biases in the distribution of different mono-, di-, tri-, or higher order peptides along their primary sequences. The potential of grid counts as the discriminative and diagnostic signature of a family of proteins is discussed.  相似文献   

12.
MATCH-UP/MATRIX is a program designed to aid the investigator interested in determining primary protein structure. It is written in Applesoft BASIC for the Apple IIe microcomputer. MATCH-UP will survey any set of proteinaceous materials for amino acid sequence homology; however, it is primarily intended to compare the structures of newly sequenced peptides with the established structure of a protein with suspected homology. Any peptide-to-protein alignment which shows a homology greater than or equal to the percentage specified by the user will result in output. MATRIX will compare the sequences of two proteins (peptides) in whatever alignment specified by the user and is intended to spot insertions and/or deletions between structures.  相似文献   

13.
一种氨基酸序列只可能有一种蛋白质结构,所以在蛋白质理论预测中,正确定义能量函数、精确选用的计算机搜寻算法来寻找能量最低值,是蛋白质结构预测的关键。基于此,本文以两两残基之间距离分布和二面角分布符合玻尔兹曼定理,提出了一种抽象的蛋白质三维结构连续物理数学模型。然后应用了禁忌搜索算法很好的计算了牛胰岛素B(D)主链走向;比较计算了氨基酸序列最低能量的全局最优点。  相似文献   

14.
An algorithm is presented for computing degrees of sequence conservation found among aligned amino acid sequences. Sequence identities are calculated for each position of an alignment and average identity values of neighboring positions are figured. The average identity value of the whole alignment is chosen as a limit to discriminate between well and less conserved sequence sections. A second algorithm is given to calculate the degree of divergence of individual sequences compared to the other sequences of the alignment. The approach is easy to use on microcomputers and gives an exact picture of sequence identities and differences in order to determine, first, protein regions of high functional or structural importance among homologous proteins, and, second, significant differences of single sequences that may contribute to individual properties of the analysed protein. The method is illustrated by an example analysing a sequence alignment of higher plant nitrate reductases.  相似文献   

15.
《Applied Soft Computing》2007,7(3):1121-1130
We describe a new method for pairwise nucleic acid sequence alignment that can also be used for pattern searching and tandem repeat searching within a nucleic acid sequence. The method is broadly a hybrid algorithm employing ant colony optimization (ACO) and the simple genetic algorithm. The method first employs ACO to obtain a set of alignments, which are then further processed by an elitist genetic algorithm, which employs primitive selection and a novel multipoint crossover-mutation operator to generate accurate alignments. The resulting alignments show a fair amount of accuracy for smaller and medium size sequences. Furthermore, this algorithm can be used rather quickly and efficiently for aligning shorter sequences and also for pattern searching in both nucleic acid and amino acid sequences. Furthermore, it can be used as an effective local alignment method or as a global alignment tool. On improvement of accuracy, this method can be extended for use towards multiple sequence alignment.  相似文献   

16.
蛋白质序列中的多重分形分析   总被引:1,自引:0,他引:1       下载免费PDF全文
采用多重分形谱对蛋白质序列进行分析。按照SCOP分类法,从PDB中选取三条同属于类的分维相近的蛋白质序列,利用多重分形分别对蛋白质空间距离以及序列中氨基酸的极性、体积的复杂性进行比较。实验结果表明,多重分形的奇异谱函数比简单的分形维数能提供更多的信息,克服了分形维数相同情况下,精细结构无法区分的困难,分析结果能够更加准确地描述个体之间的差异。  相似文献   

17.
In biological research, alignment of protein sequences by computer is often needed to find similarities between them. Although results can be computed in a reasonable time for alignment of two sequences, it is still very central processing unit (CPU) time-consuming when solving massive sequences alignment problems such as protein database search. In this paper, an optimized protein database search method is presented and tested with Swiss-Prot database on graphic processing unit (GPU) devices, and further, the power of CPU multi-threaded computing is also involved to realize a GPU-based heterogeneous parallelism. In our proposed method, a hybrid alignment approach is implemented by combining Smith–Waterman local alignment algorithm with Needleman–Wunsch global alignment algorithm, and parallel database search is realized with compute unified device architecture (CUDA) parallel computing framework. In the experiment, the algorithm is tested on a lower-end and a higher-end personal computers equipped with GeForce GTX 750 Ti and GeForce GTX 1070 graphics cards, respectively. The results show that the parallel method proposed in this paper can achieve a speedup up to 138.86 times over the serial counterpart, improving efficiency and convenience of protein database search significantly.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号