首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 875 毫秒
1.
基于隐马尔科夫模型的DNA序列分类方法   总被引:1,自引:0,他引:1  
DNA序列分类是生物信息学的一项基础任务,目的是根据结构或功能的相似性预测DNA序列所属的类别。为进行有效分类,如何将序列映射到特征向量空间并最大程度地保留序列中蕴含的碱基间顺序关系是一项困难的任务。为克服现有方法容易导致因DNA序列碱基残缺而影响分类精度等问题,提出一种新的DNA序列特征表示方法。新方法首先为每条序列训练一个隐马尔科夫模型(HMM),然后将DNA序列投影到由HMM状态转移概率矩阵的特征向量构成的向量空间中。基于这种新的特征表示法,构造了一种 K-NN分类器对DNA序列进行分类。实验结果表明,新型特征表示方法可以较为完整地保留 DNA 序列中不同碱基间的关系,充分反映序列的结构信息,从而有效提高了序列的分类精度。  相似文献   

2.
随着人类和其它一些模式生物基因组计划的实施与完成,DNA序列的数量呈指数方式增长,这使得序列分析成为生物信息学的核心问题之一。众所周知,序列之所以称为"序列",自然而然地包含了2个重要因素:元素及其之间的序关系。本文介绍一种全新的考虑元素之间序关系的方法,首先将传统集合上的排列的逆序数推广到多重集上,从而提出带有重复元素的排列的逆序数的概念;在此基础上通过将数字1、2、3、4分别赋值给4个碱基,将DNA原始序列转化为多重集上的数字排列,进而借助逆序数构造出DNA序列的24维向量表示;基于3个数据集的系统发生分析,证实了该方法的有效性。  相似文献   

3.
启动子是DNA序列中的关键元件,直接影响生物的转录与表达,启动子的研究对转录机制的阐明以及整个基因组功能的注释都具有重要作用。然而,用实验方法对启动子进行检测费时费力,发展启动子预测的方法具有十分重要的意义。本文基于离散小波变换建立伪三碱基组成表征DNA序列,支持向量机建模,预测大肠杆菌启动子的启动强度。首先采用二维映射法对DNA序列进行映射,得到二维离散的数字序列,并将之合并为一维数字序列;采用离散小波变换对数字映射序列进行转换,将得到的小波变换结果与三碱基组成结合构建伪三碱基组成,离散小波变换中小波函数与小波分解尺度的优化通过5-折交叉验证选取;构建得到的伪三碱基组成作为支持向量机的输入参数,建模进行预测。训练集得到的预测相关系数R为0.9830,RMSE为0.0907;测试集得到的预测相关系数R为0.8606,RMSE为0.1014。结果表明,模型的预测效果良好,说明基于离散小波变换的伪三碱基组成能够有效地反映DNA序列中碱基的顺序信息,本文方法不仅能够有效地实现大肠杆菌启动子启动强度的预测,也为DNA其他生物功能的预测提供了参考。  相似文献   

4.
左敏  王虹  颜文婧  张青川 《计算机应用》2023,(10):3309-3314
随着高通量测序技术的发展,海量的基因组序列数据为了解基因组的结构提供了数据基础。剪接位点识别是基因组学研究的重要环节,在基因发现和确定基因结构方面发挥着重要作用,且有利于理解基因性状的表达。针对现有模型对脱氧核糖核酸(DNA)序列高维特征提取能力不足的问题,构建了由BERT(Bidirectional Encoder Representations from Transformer)和平行的卷积神经网络(CNN)组合而成的剪接位点预测模型——BERT-splice。首先,采用BERT预训练方法训练DNA语言模型,从而提取DNA序列的上下文动态关联特征,并且使用高维矩阵映射DNA序列特征;其次,采用人类参考基因组序列hg19数据,使用DNA语言模型将该数据映射为高维矩阵后作为平行CNN分类器的输入进行再训练;最后,在上述基础上构建了剪接位点预测模型。实验结果表明,BERT-splice模型在DNA剪接位点供体集上的预测准确率为96.55%,在受体集上的准确率为95.80%,相较于BERT与循环卷积神经网络(RCNN)构建的预测模型BERT-RCNN分别提高了1.55%和1.72%;同时,...  相似文献   

5.
模糊聚类分析方法在DNA序列分类中的应用   总被引:3,自引:0,他引:3  
该文采用模糊聚类分析的方法对DNA序列进行分类.首先从DNA序列中单个碱基分布的“密度”角度出发,提取出DNA序列的特征,然后用模糊聚类分析中常用的方法对DNA序列进行分类.该文运用自行研制开发的集成11种模糊聚类分析算法的模糊聚类分析运算工具,首先对已知的1-20个DNA序列进行模糊聚类分析,根据分类结果的精度,找出了较优的6种聚类分析算法,然后用余下的21-40个DNA序列进行分类;最后,本文一次对所有的1-40个DNA序列进行归类,并综合了所有的分类结果,将难以归类的DNA序列进行了归类.分析结果表明,模糊聚类分析算法具有分类简单且分类结果精度较高的优点.  相似文献   

6.
隐马尔可夫模型是对DNA序列建模的一种简单且有效的模型, 实际应用中通常采用一阶隐马尔可夫模型. 然而, 由于其一阶无后效性的特点, 一阶隐马尔科夫模型无法表示非相邻碱基间的依赖关系, 从而导致序列中一些有用统计特征的丢失. 本文在分析DNA序列特有的生物学构造的基础上, 提出一种用于DNA序列分类的二阶隐马尔可夫模型, 该模型继承了一阶隐马尔可夫模型的优点, 充分表达了蕴涵在DNA序列中的生物学统计特征, 使得新模型具有明确的生物学意义. 基于新模型, 提出一种DNA序列的贝叶斯分类新方法, 并在实际DNA序列上进行了实验验证. 实验结果表明, 由于二阶隐马尔可夫模型充分反映了DNA序列碱基间的结构信息, 新方法有效地提高了序列的分类精度.  相似文献   

7.
基于SVM的混沌时间序列分析   总被引:1,自引:0,他引:1  
支持向量机是一种基于统计学习理论的新的机器学习方法,该方法已用于解决模式分类问题.本文将支持向量机(SVM)用于混沌时间序列分析,实验数据采用典型地Mackey-Glass混沌时间序列,先对混沌时间序列进行支持向量回归实验;然后采用局域法多步预报模型,利用支持向量机对混沌时间序列进行预测.仿真实验表明,利用支持向量机可以较准确地预测混沌时间序列的变化趋势.  相似文献   

8.
基于粗糙集与支持向量机的故障智能分类方法   总被引:5,自引:0,他引:5  
结合粗糙集的属性约简与支持向量机的分类功能,提出一种应用粗糙集与支持向量机的故障分类方法。该方法应用粗糙集理论属性约简作为诊断数据预处理器,可将冗余属性从诊断决策表中删除,而不损失有效信息,然后基于支持向量机进行故障分类建模和预测。谊方法可降低故障诊断数据维数及支持向量机在故障分类过程中的复杂度,但不会降低分类性能。将方法应用于某柴油机故障诊断数据的测试分类,结果表明该方法可快速正确的从数据获得故障类剐。  相似文献   

9.
针对入侵检测系统存在的对入侵事件高漏报率和误报率问题,提出利用粗糙集理论对数据集中的实值属性进行属性约简,然后把得到的特征向量送入分类器融合的Robust Online-SVM分类器,分类器对这些数字向量进行分类,处理结果送检测模块。检测模块按照报警关联分析策略,对报警序列进行基于规则关联分析。通过实验和比较发现,该融合算法可以实现在线训练,而且使用更少的支持向量,训练时间也大为缩短,在噪声数据存在的情况下检测正确率和虚警率比未改进前有一定程度的提升。  相似文献   

10.
目前已有的脑网络分类方法大多是通过处理收集的信号来构建脑网络,并根据一个或多个脑区之间的脑网络特征属性来进行分类。该分类方法只考虑一个特征属性,忽略了脑网络的其他特征属性,而被忽略的特征属性很可能会对实验结果产生较大的影响。为了克服已有分类方法的缺陷,文中考虑多种特征属性提出了一种基于多形式特征向量的脑网络分类方法并使用了新型图核,该分类方法由4步构成:将原始实验数据经过预处理后完成脑网络构建;根据不同的阈值来提取脑网络中多种脑网络属性值;利用支持向量机训练所有数据,根据训练结果的优劣,在每种网络属性值里挑选分类效果最优的阈值参数,并将它们进行特征融合;使用支持向量机训练融合后的特征向量。通过实验数据分析并与已有分类方法进行了对比,验证该方法在轻度认知障碍数据集上脑网络分类的有效性。  相似文献   

11.
剪接是基因表达过程中连接转录和翻译的中枢步骤,是一个高度调控的过程。剪接位点是基因剪接过程中的核心调控元件。本文通过挖掘剪接位点序列中蕴含的序列特征,提出了一个基于序列模式挖掘的基因剪接位点序列打分模型。通过该模型,实现对剪接位点序列信号强度的定量度量。实验结果表明,该模型可有效分类真假剪接位点序列,分类效果优于最大信息熵模型,模型具有良好的鲁棒性,并且可有效识别致病剪接位 点序列突变。  相似文献   

12.
支持向量机是一种比较新的机器学习方法,它满足结构风险最小的要求,并且能够适用于高维的特征空间,因此在生物序列分析中得到了广泛地应用。结合基因序列的特点,提出了一种新的核函数--位置权重子序列核函数。这个核函数融合了基因序列中子序列的组成特征和位置信息,能够比较充分地体现序列特征。将这个核函数用于基因剪接位点的识别分析,得到的结果表明,采用了位置权重子序列核函数的支持向量机能够很好的识别剪接位点,与其它方法相比,取得了更高的识别精度。  相似文献   

13.
One of the most important tasks in correctly annotating genes in higher organisms is to accurately locate the DNA splice sites. Although relatively high accuracy has been achieved by existing methods, most of these prediction methods are computationally extensive. Due to the enormous amount of DNA sequences to be processed, the computational speed is an important issue to consider. In this paper, we present a new machine learning method for predicting DNA splice sites, which first applies a Bayes feature mapping (kernel) to project the data into a new feature space and then uses a linear Support Vector Machine (SVM) as a classifier to recognize the true splice sites. The computation time is linear to the number of sequences tested, while the performance is notably improved compared with the Naive Bayes classifier in terms of classification accuracy, precision, and recall. Our classification results are also comparable to the solution quality obtained by the SVMs with polynomial kernels, while the speed of our proposed method is significantly faster. This is a notable improvement in computational modeling considering the huge amount of DNA sequences to be processed.  相似文献   

14.
依据剪接位点附近存在的序列保守性出现了多种机器学习识别方法,如基于统计概率的方法、基于隐马尔可夫模型(Hidden Markov Model,HMM)的方法和基于支持向量机(Support Vector Machines,SVM)的方法等,这些方法识别精度较高,但算法过程复杂。基于剪接位点附近碱基之间的相关性和统计特征,构造了一种固定位点上碱基间的网络结构图,并在此网络结构图的基础上提出了基于概率统计特征的剪接位点识别计算公式,利用N269数据库对识别方法和其他传统方法的性能进行了比较。实验结果表明,基于概率统计特征的方法预测人类的剪接位点,有较好的预测效果,与其他的一些算法相比,表现出参数少,精度高等优点。  相似文献   

15.
精确预测剪接位点是真核基因系统研究的第一步。为了取得更加精确的预测结果,本文采用了一个新的标识序列识别方法HM-SVM对剪接位点进行识别。依据剪接位点附近存在的序列保守性,将联合核函数学习融入最大边缘分类器,结合HM-SVM工作集最优化算法,构建并生成了健壮分类器。实验结果表明,该方法在对于剪接位点的识别中,较目前常用的机器学习方法,获得了更高识别率。  相似文献   

16.
The signals which direct excision of introns from mRNA precursors in higher eukaryotes' genes are not well understood. Although a consensus sequence, CAAG/GTAGAGT, has been proposed with the 5' splice site, actual 5' splice site sequences differ from it to a greater or lesser degree. In order to study such a signal more quantitatively, nucleotide sequences were transformed into categorical data, and multivariate statistical analysis was applied to such a system. Categorical weights on the variables were estimated in such a way that the two classes of 5' splice site sequences and sequences other than 5' splice site might be discriminated most distinctly. The 5' splice site signals were then characterized in terms of those statistical results.  相似文献   

17.
在基因选择性剪接调控过程中,有各种剪接信号参与其中,如剪接位点、剪接调控元件等。如何识别这些剪接信号、研究其在基因组中的分布规律是一个有趣的问题。设计了一个基于序列特征的剪接信号打分算法,该算法可赋予每个信号一个分值,表示其信号强度。基于该打分算法所构建的分类器可用于预测识别新的剪接信号。应用该打分算法研究剪接位点和剪接调控元件在基因组中的分布,发现这两类信号具有互补特性。该研究提供了一种可用于分析生物序列数据的新方法,给出了一个从生物信息学角度来研究基因调控问题的新途径。  相似文献   

18.
《Computers & chemistry》1997,21(4):215-222
As the Human Genome Project enters the large-scale sequencing phase, computational gene identification methods are becoming essential for the automatic analysis and annotation of large uncharacterized genomic sequences. Currently available computer programs relying mainly on sequence coding statistics are of great use in pin-pointing regions in genomic sequences containing exons. Such programs perform rather poorly, however, when the problem is to fully elucidate gene structure. For this problem, the DNA sequence signals involved in the specification of the genes—start sites and splice sites—carry a lot of information, and simple methods relying on such information can predict gene structure with an accuracy to some extent comparable to that of other more sophisticated computational methods.  相似文献   

19.
随着基因组计划的完成,人们需要尽快从这些海量数据中了解基因组的结构,揭示生命的奥秘,剪接位点识别是其中的一个重要环节,然而到目前为止该问题仍未能得到很好的解决。在分析此问题时引入了第三代遗传标记单核苷酸多态性(SNP),以期探索变异对剪接机制的影响;其次,对DNA序列的数字化进行了探讨。通过实验表明,单核苷酸多态性的引入对于剪接位点识别算法的性能有着一定的影响,此外文中提出的编码方法对预测精度的提升亦有正面作用,整体效果比目前常用方法有了大幅提升。  相似文献   

20.
周雄 《计算机工程与应用》2014,(10):120-123,187
为了提高剪接位点的识别精度,提出一种多尺度组分和位点关联特征相融合的剪接位点识别模型(MSC-APR)。确定剪接位点序列保守性的窗口长度,分别提取序列的多尺度组分和位点关联特征,然后将两类特征组合输入最小二乘支持向量机构建剪接位点分类器,采用数据集HS3D和NN269进行仿真实验。结果表明, MSC-APR的剪接位点识别精度明显优于对比模型的识别精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号