首页 | 官方网站   微博 | 高级检索  
     

基于多重进化矩阵的蛋白质特征向量构造方法
引用本文:杜月寒,鹿文鹏,刘毅慧,成金勇.基于多重进化矩阵的蛋白质特征向量构造方法[J].计算机系统应用,2018,27(2):180-185.
作者姓名:杜月寒  鹿文鹏  刘毅慧  成金勇
作者单位:齐鲁工业大学(山东省科学院) 信息学院, 济南 250353,齐鲁工业大学(山东省科学院) 信息学院, 济南 250353,齐鲁工业大学(山东省科学院) 信息学院, 济南 250353,齐鲁工业大学(山东省科学院) 信息学院, 济南 250353
基金项目:国家自然科学基金(61375013,61502259);山东省自然科学基金(ZR2013FM020)
摘    要:特征向量的构造是蛋白质二级结构预测的一个关键问题. 现有的研究方法,通常只使用BLOSUM62进化矩阵生成PSSM矩阵,对蛋白质进化过程中存在的氨基酸残基突变现象缺乏考虑. 本文提出利用多重进化矩阵构造蛋白质特征向量,其融合了不同进化时间的PSSM矩阵,不仅能够很好地反映序列中氨基酸的位置信息,而且能够反映序列进化过程中氨基酸位点发生突变产生的影响. 本文通过组合不同进化程度的矩阵来构造特征向量,选用逻辑回归、随机森林和多分类支持向量机三种分类算法作为预测工具,利用网格搜索法和交叉实验法优化参数,在RS126、CB513和25PDB公用数据集上进行了若干组实验. 对比实验结果表明,本文所提出基于多重进化矩阵的蛋白质特征向量构造方法能够有效提高蛋白质二级结构的预测精度.

关 键 词:蛋白质结构预测  多重进化矩阵  逻辑回归  随机森林  多分类支持向量机
收稿时间:2017/4/25 0:00:00
修稿时间:2017/5/11 0:00:00

Protein Secondary Structure Prediction Based on Multiple Evolutionary Matrix
DU Yue-Han,LU Wen-Peng,LIU Yi-Hui and CHENG Jin-Yong.Protein Secondary Structure Prediction Based on Multiple Evolutionary Matrix[J].Computer Systems& Applications,2018,27(2):180-185.
Authors:DU Yue-Han  LU Wen-Peng  LIU Yi-Hui and CHENG Jin-Yong
Affiliation:School of Information, Qilu University of Technology (Shandong Academy of Sciences), Jinan 250353, China,School of Information, Qilu University of Technology (Shandong Academy of Sciences), Jinan 250353, China,School of Information, Qilu University of Technology (Shandong Academy of Sciences), Jinan 250353, China and School of Information, Qilu University of Technology (Shandong Academy of Sciences), Jinan 250353, China
Abstract:The construction of feature vector is a key issue for protein secondary structure prediction. In the present methods, only the BLOSUM62 matrix is taken into account, which neglects the amino acid mutation of protein in the evolutionary process. In this study, we propose to construct feature vector by combining PSSM matrices of different evolutionary times, which cannot only reflect the position information, but also reflect the interaction of amino acids. Based on the feature vector, logistics, randomforest and M-SVMCS models are utilized to predict protein secondary structure on the public datasets (RS126, CB513, and 25PDB). The experimental result demonstrates that the method can achieve a better performance than traditional methods.
Keywords:protein secondary structure prediction  multiple evolutionary matrix  logistics  randomforest  M-SVMCS
点击此处可从《计算机系统应用》浏览原始摘要信息
点击此处可从《计算机系统应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号