首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
黄秀  陈月辉  曹毅 《计算机工程》2011,37(1):159-160,163
提出一种基于柔性神经树的蛋白质结构预测方法,将近似熵和蛋白质序列的疏水特性作为伪氨基酸组成的特征。对数据集中的每一条蛋白质进行特征提取。对于一个蛋白质样本,用一个27-D伪氨基酸组成作为其特征,伪氨基酸组成特征作为输入数据,柔性神经树作为预测工具,分类方法采用M-ary方法,数据集选用640数据集。仿真结果表明,该方法具有较好的优化性能,提高了预测的准确率。  相似文献   

2.
从序列出发预测水解酶亚家族类型具有重要意义.本文利用不同标度的伪氨基酸组成提取序列特征值,采用k-近邻算法预测水解酶亚家族类型.选择参数后,三种方法各自在最优运行参数下预测水解酶亚家族的准确率分别为:85.15%,82.65%和80.14%.其中以Z标度的伪氨基酸组成效果最佳,比氨基酸组成识别精度提高12.85%.本文研究结果说明从序列出发,预测水解酶亚家族是可行的,且修正的伪氨基酸组成可望成为一种新的有效提取蛋白质序列特征值的方法.  相似文献   

3.
针对传统机器学习算法中仍需手工操作表示特征的问题,提出了一种基于堆栈式降噪自编码器(SDAE)深度网络的蛋白质亚细胞定位算法。首先,分别利用改进型伪氨基酸组成法(PseAAC)、伪位置特异性得分矩阵法(PsePSSM)和三联体编码法(CT)对蛋白质序列进行特征提取,并将这三种方法得到的特征向量进行融合,以得到一个全新的蛋白质序列特征表达模型;接着,将融合后的特征向量输入到SDAE深度网络里自动学习更有效的特征表示;然后选用Softmax回归分类器进行亚细胞的分类预测,并采用留一法在Viral proteins和Plant proteins两个数据集上进行交叉验证;最后,将所提算法的结果与mGOASVM、HybridGO-Loc等多种现有算法的结果进行比较。实验结果表明,所提算法在Viral proteins数据集上取得了98.24%的准确率,与mGOASVM算法相比提高了9.35个百分点;同时所提算法在Plant proteins数据集上取得了97.63%的准确率,比mGOASVM算法和HybridGO-Loc算法分别提高了10.21个百分点和4.07个百分点。综上说明所提算法可以有效提高蛋白质亚细胞定位预测的准确性。  相似文献   

4.
传统的预测方法在构造特征向量时只考虑了氨基酸的组成,而自相关系数不仅能够很好地反映序列中氨基酸的位置信息,而且考虑了序列内部不同位置的氨基酸间的相互影响。设计了一种将氨基酸组成和自相关系数相结合的方法来构造特征向量;在Chou提出的伪氨基酸组成模型(pseudo.aminoacidcomposition,PseAAC)的基础上,通过扩展信息重新构造了伪氨基酸组成模型,并将其与自相关系数组合在一起来构造特征向量。分别使用两种方法编码,选用支持向量机作为预测工具,在数据集Z277、Z498以及独立测试集D138上进行了若干实验,对比结果显示,新方法比传统的氨基酸组成方法的准确率分别平均提高了7.43%和8.53%,证明了新方法是有效的。  相似文献   

5.
针对传统机器学习算法中仍需手工操作表示特征的问题,提出了一种基于堆栈式降噪自编码器(SDAE)深度网络的蛋白质亚细胞定位算法。首先,分别利用改进型伪氨基酸组成法(PseAAC)、伪位置特异性得分矩阵法(PsePSSM)和三联体编码法(CT)对蛋白质序列进行特征提取,并将这三种方法得到的特征向量进行融合,以得到一个全新的蛋白质序列特征表达模型;接着,将融合后的特征向量输入到SDAE深度网络里自动学习更有效的特征表示;然后选用Softmax回归分类器进行亚细胞的分类预测,并采用留一法在Viral proteins和Plant proteins两个数据集上进行交叉验证;最后,将所提算法的结果与mGOASVM、HybridGO-Loc等多种现有算法的结果进行比较。实验结果表明,所提算法在Viral proteins数据集上取得了98.24%的准确率,与mGOASVM算法相比提高了9.35个百分点;同时所提算法在Plant proteins数据集上取得了97.63%的准确率,比mGOASVM算法和HybridGO-Loc算法分别提高了10.21个百分点和4.07个百分点。综上说明所提算法可以有效提高蛋白质亚细胞定位预测的准确性。  相似文献   

6.
蛋白质二级结构预测对确定蛋白质的空间结构和功能有极其重要的意义.融合卷积神经网络和贝叶斯优化模型,优化卷积神经网络的网络框架和超参数.采用优化后的卷积神经网络在测试集CASP9、CASP10、CASP11、CASP12、CB513和25PDB上获得了81.99%、81.36%、80.83%、78.10%、84.29%和84.80%的Q3准确率.实验结果表明,相比于其他方法,该模型提高了蛋白质3类二级结构预测的精度.  相似文献   

7.
提出了一种基于PSO_BFA优化的词袋模型。传统词袋模型有两个重要参数:窗口大小[d]和字典大小[k]。结合粒子群算法和细菌觅食算法产生新的PSO_BFA混合优化算法,在PSO进行局部搜索时,加入BFA的复制和迁移行为,得到PSO_BFA的最优解即为窗口大小和字典大小的最佳组合。将优化词袋模型与蛋白质序列的氨基酸组成算法和伪氨基酸组成算法结合,获得蛋白质序列的词袋特征。实验结果证明,基于PSO_BFA优化的词袋模型能有效提高蛋白质亚细胞定位预测的精度。  相似文献   

8.
组成蛋白质的基本单位是氨基酸,对于蛋白质分类预测问题,氨基酸序列特征提取方法是一个非常重要的因素。对基于氨基酸组成、位置的特征提取算法如熵密度、n阶耦联组成和基于氨基酸性质的特征提取方法如自相关函数、伪氨基酸组成等方法进行了阐述,并进行了简单评价。基于氨基酸组成的方法实现简单、计算量小,且对所有的氨基酸序列都适用,但丢失了氨基酸的顺序信息以及其问的相互作用,基于氨基酸位置信息或理化特性等方法计算量非常大,科研工作者可以根据对蛋白质的不同要求选择相应的特征提取方法。  相似文献   

9.
罗林波  陈绮 《微机发展》2010,(2):206-208,212
组成蛋白质的基本单位是氨基酸,对于蛋白质分类预测问题,氨基酸序列特征提取方法是一个非常重要的因素。对基于氨基酸组成、位置的特征提取算法如熵密度、n阶耦联组成和基于氨基酸性质的特征提取方法如自相关函数、伪氨基酸组成等方法进行了阐述,并进行了简单评价。基于氨基酸组成的方法实现简单、计算量小,且对所有的氨基酸序列都适用,但丢失了氨基酸的顺序信息以及其问的相互作用,基于氨基酸位置信息或理化特性等方法计算量非常大,科研工作者可以根据对蛋白质的不同要求选择相应的特征提取方法。  相似文献   

10.
肖绚  肖纯材  王普 《计算机应用研究》2010,27(10):3698-3700
蛋白质二级结构预测在蛋白质结构预测中具有很重要的作用。基于伪氨基酸成分表示蛋白质的方法,能提高蛋白质结构和功能预测的成功率,利用蛋白质距离矩阵灰度图,基于几何矩提出了一种伪氨基酸构造方法,结合氨基酸的成分对蛋白质二级结构类型进行预测,通过国际公认的Jackknife检验方法显示预测成功率达到95.10%,比其他方法高出许多,说明此方法具有有效的分类效果。  相似文献   

11.
互联网流量分类是识别网络应用和分类相应流量的过程,这被认为是现代网络管理和安全系统中最基本的功能。与应用相关的流量分类是网络安全的基础技术。传统的流量分类方法包括基于端口的预测方法和基于有效载荷的深度检测方法。在目前的网络环境下,传统的方法存在一些实际问题,如动态端口和加密应用,因此采用基于流量统计特征的机器学习(ML)技术来进行流量分类识别。机器学习可以利用提供的流量数据进行集中自动搜索,并描述有用的结构模式,这有助于智能地进行流量分类。起初使用朴素贝叶斯方法进行网络流量分类的识别和分类,对特定流量进行实验时,表现较好,准确度可达90%以上,但对点对点传输网络流量(P2P)等流量识别准确度仅能达到50%左右。然后有使用支持向量机(SVM)和神经网络(NN)等方法,神经网络方法使整体网络流量的分类准确度能达到80%以上。多项研究结果表明,对于多种机器学习方法的使用和后续的改进,很好地提高了流量分类的准确性。  相似文献   

12.
针对污水处理过程中具有的非线性、大时变等特征,提出了一种基于自适应递归模糊神经网络(recurrent fuzzy neural network,RFNN)的污水处理控制方法.该方法利用自适应RFNN识别器建立污水处理过程的非线性动态模型,建立的模型可以为RFNN控制器提供污水处理过程中的状态变量信息,保证了控制器根据系统响应调整操作变量的精确性;并且RFNN辨识器及RFNN控制器基于自适应学习率进行学习,确保了递归模糊神经网络的收敛精度和速度,并通过构造李雅普诺夫函数证明了此算法的收敛性;最后,基于基准仿真模型(benchmark simulation model 1,BSM1)平台进行仿真实验.结果表明,与PID、模型预测控制及前馈神经网络相比,该方法对污水处理中溶解氧浓度和硝态氮浓度的跟踪控制精度具有明显的提升.  相似文献   

13.
吕江海  杜军平  周南  薛哲 《计算机工程》2021,47(1):58-65,71
针对传统实体名识别方法无法兼顾文本序列提取特征的有效性和神经网络模型训练速度的问题,提出一种基于迭代膨胀卷积神经网络(IDCNN)与注意力机制(ATT)的实体名识别方法。IDCNN可利用GPU并行计算的优化能力,保留长短期记忆神经网络的特性,即用简单的结构记录尽可能多的输入信息,并在准确提取文本序列特征的同时加快神经网络模型的训练速度。通过引入ATT运用文本语法信息和单词词性信息,从众多文本特征中选择对实体名识别更关键的特征,从而提高文本特征提取的准确性。在新闻数据集和微博数据集上的实验结果表明,神经网络模型的训练速度比传统的双向长短期记忆神经网络有显著提升,基于注意力的实体名识别方法的评价指标比传统的无注意力机制方法提高2%左右。  相似文献   

14.
定义抽取是从非结构化文本中自动识别定义句的任务,定义抽取问题可建模为句子中术语及相应定义的序列标注问题,并利用标注结果完成抽取任务。针对传统的定义抽取方法在抽取定义特征过程中费时且容易造成错误传播的不足,提出一个基于双向长短时记忆(BiLSTM)的序列标注神经网络模型,对输入文本进行自动化定义抽取。通过将原始数据输入到BiLSTM神经网络中,完成输入句的特征表示,并采用基于LSTM的解码器进行解码得到标注结果。在Wikipedia英文数据集上的实验结果表明,该方法的精确率、召回率和F1值分别为94.21%、90.10%和92.11%,有效提升了基准模型效果。  相似文献   

15.
朱慧慧  王耀南 《计算机工程》2012,38(17):182-185,188
保健酒中可见异物个体微小、形状复杂多变,不利于自动分拣。为此,提出一种基于异物几何特征和不变矩特征的神经网络复合分类方法。通过单层感知器进行一级分类以检测毛发类异物,利用BP网络对非毛发类异物进行二级分类。为提高BP网络训练速度,设计动量因子和学习速率可自适应调整的改进学习算法。实验结果表明,该分类方法识别准确度高,识别速度快。  相似文献   

16.
Breast cancer is one of the leading causes of death among women worldwide. In most cases, the misinterpretation of medical diagnosis plays a vital role in increased fatality rates due to breast cancer. Breast cancer can be diagnosed by classifying tumors. There are two different types of tumors, such as malignant and benign tumors. Identifying the type of tumor is a tedious task, even for experts. Hence, an automated diagnosis is necessary. The role of machine learning in medical diagnosis is eminent as it provides more accurate results in classifying and predicting diseases. In this paper, we propose a deep ensemble network (DEN) method for classifying and predicting breast cancer. This method uses a stacked convolutional neural network, artificial neural network and recurrent neural network as the base classifiers in the ensemble. The random forest algorithm is used as the meta-learner for providing the final prediction. Experimental results show that the proposed DEN technique outperforms all the existing approaches in terms of accuracy, sensitivity, specificity, F-score and area under the curve (AUC) measures. The analysis of variance test proves that the proposed DEN model is statistically more significant than the other existing classification models; thus, the proposed approach may aid in the early detection and diagnosis of breast cancer in women, hence aiding in the development of early treatment techniques to increase survival rate.  相似文献   

17.
针对现有实体识别方法自动化水平不高、适应性差等不足,提出一种基于反向传播(BP)神经网络的Deep Web实体识别方法。该方法将实体分块后利用反向传播神经网络的自主学习特性,将语义块相似度值作为反向传播神经网络的输入,通过训练得到正确的实体识别模型,从而实现对异构数据源的自动化实体识别。实验结果表明,所提方法的应用不仅能够减少实体识别中的人工干预,而且能够提高实体识别的效率和准确率。  相似文献   

18.
从氨基酸的物化特性出发,利用物理学中“粗粒化”思想,提出了一种蛋白质序列的分组重量编码方法(Encoding Basedon Grouped Weight,简记为EBGW),并结合组分耦联算法进行结构型预测的研究。对标准集T359中359个蛋白质的Resubstitution检验和Jack-knife检验预测准确性分别达到99.72%和91.09%,其中Jack-knife检验总体预测精度比相同条件下采用氨基酸组成编码的方法提高了约7%,特别是α+β类的预测精度提高了15%。实验结果表明蛋白质序列的EBGW编码方法能够有效地提取字母序列中蕴含的结构信息。  相似文献   

19.
Wu  Cathy  Berry  Michael  Shivakumar  Sailaja  McLarty  Jerry 《Machine Learning》1995,21(1-2):177-193
A neural network classification method has been developed as an alternative approach to the search/organization problem of protein sequence databases. The neural networks used are three-layered, feed-forward, back-propagation networks. The protein sequences are encoded into neural input vectors by a hashing method that counts occurrences ofn-gram words. A new SVD (singular value decomposition) method, which compresses the long and sparsen-gram input vectors and captures semantics ofn-gram words, has improved the generalization capability of the network. A full-scale protein classification system has been implemented on a Cray supercomputer to classify unknown sequences into 3311 PIR (Protein Identification Resource) superfamilies/families at a speed of less than 0.05 CPU second per sequence. The sensitivity is close to 90% overall, and approaches 100% for large superfamilies. The system could be used to reduce the database search time and is being used to help organize the PIR protein sequence database.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号