关于基因预测结果的整合与否
答案:1 悬赏:80 手机版
解决时间 2021-03-28 13:10
- 提问者网友:回忆在搜索
- 2021-03-28 06:07
关于基因预测结果的整合与否
最佳答案
- 五星知识达人网友:上分大魔王
- 2021-03-28 06:59
关于基因预测结果的整合与否
方法1:最长ORF法
将每条链按6个读码框全部翻译出来,然后找出所有可能的不间断开放阅读框(ORF),只要找出序列中最长的ORF,就能相当准确地预测出基因。最长ORF法发现基因的一般过程(包括基因区域预测和基因功能预测2个层次):
步骤1:获取DNA目标序列
① 如果已有目标序列,可直接进入步骤2;
② 可以通过PubMed查找感兴趣的资料,通过GenBank或EMBL等数据库查找目标序列。
步骤2:查找ORF并将目标序列翻译成蛋白质序列
利用相应工具,如ORF Finder、Gene feature (Baylor College of Medicine)、GenLang (University of Pennsylvania)等查找ORF并将DNA序列翻译成蛋白质序列。
步骤3:在数据库中进行序列搜索
利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索。
步骤4:进行目标序列与搜索得到的相似序列的全局比对(global alignment)
虽然步骤3已进行局部比对(local alignment)分析,但全局比对有助于进一步加深对目标序列的认识。
步骤5:查找基因家族
进行多序列比对(multiple sequence alignment),获得比对区段的基因家族信息。
步骤6:查找目标序列中的特定模序
分别在Prosite、BLOCK、Motif数据库中进行profile、模块(block)、模序(motif)检索。
步骤7:预测目标序列蛋白质结构
利用PredictProtein(EMBL)、NNPREDICT(University of California)等预测目标序列的蛋白质二级结构。
步骤8:获取相关蛋白质的功能信息
为了了解目标序列的功能,收集与目标序列和结构相似蛋白质的功能信息非常必要。可利用PubMed进行搜索。
方法2:利用编码区与非编码区密码子选用频率的差异进行基因预测
编码区的碱基组成不同于非编码区,这是由于蛋白质中20种氨基酸出现的概率、每种氨基酸的密码子兼并度和同一种氨基酸的兼并密码子使用频率不同(即密码子偏好)等原因造成的。该方法是目前各种预测程序中广泛应用的一种方法,如GCG(Genetic Computer Group研制的核酸、蛋白质分析软件包)的TestCode和Baylor Medcine College的BCM Gene Finder等程序均利用了这一方法。
方法3:利用ESTs预测基因
Expressed Sequence Tags (ESTs) 代表基因序列,若DNA序列和 EST严格匹配,这段DNA序列属于基因或假基因。此法对ESTs进行聚类和拼接,聚类和拼接的目的就是将来自同一个基因或同一个转录本的具有重叠部分(over-lapping)的ESTs整合到单一的簇(cluster)中。通过聚类可产生较长的一致性序列(consensus sequence),降低数据的冗余,纠正错误数据,并最终得到基因的全长序列。
随着信息学方法在基因预测中的进一步充分应用,一批新的基因预测方法被相继提出,如人工神经网络、隐马尔可夫模型(Hidden Markov Model, HMM)、动态规划法(dynamic programming)、法则系统(ruled-based system)、线性判别分析(Linear Discriminant Analysis, LDA)、决策树(decision tree)、傅立叶分析(Fourier analysis)等。这些方法是基于编码区所具有的独特信号,如剪接的供体和受体位点、起始和终止密码子、启动子特征、转录因子结合位点等进行预测。相关的基因预测软件包括:Procrustes、GeneID、GenScan、GRAIL等。
方法1:最长ORF法
将每条链按6个读码框全部翻译出来,然后找出所有可能的不间断开放阅读框(ORF),只要找出序列中最长的ORF,就能相当准确地预测出基因。最长ORF法发现基因的一般过程(包括基因区域预测和基因功能预测2个层次):
步骤1:获取DNA目标序列
① 如果已有目标序列,可直接进入步骤2;
② 可以通过PubMed查找感兴趣的资料,通过GenBank或EMBL等数据库查找目标序列。
步骤2:查找ORF并将目标序列翻译成蛋白质序列
利用相应工具,如ORF Finder、Gene feature (Baylor College of Medicine)、GenLang (University of Pennsylvania)等查找ORF并将DNA序列翻译成蛋白质序列。
步骤3:在数据库中进行序列搜索
利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索。
步骤4:进行目标序列与搜索得到的相似序列的全局比对(global alignment)
虽然步骤3已进行局部比对(local alignment)分析,但全局比对有助于进一步加深对目标序列的认识。
步骤5:查找基因家族
进行多序列比对(multiple sequence alignment),获得比对区段的基因家族信息。
步骤6:查找目标序列中的特定模序
分别在Prosite、BLOCK、Motif数据库中进行profile、模块(block)、模序(motif)检索。
步骤7:预测目标序列蛋白质结构
利用PredictProtein(EMBL)、NNPREDICT(University of California)等预测目标序列的蛋白质二级结构。
步骤8:获取相关蛋白质的功能信息
为了了解目标序列的功能,收集与目标序列和结构相似蛋白质的功能信息非常必要。可利用PubMed进行搜索。
方法2:利用编码区与非编码区密码子选用频率的差异进行基因预测
编码区的碱基组成不同于非编码区,这是由于蛋白质中20种氨基酸出现的概率、每种氨基酸的密码子兼并度和同一种氨基酸的兼并密码子使用频率不同(即密码子偏好)等原因造成的。该方法是目前各种预测程序中广泛应用的一种方法,如GCG(Genetic Computer Group研制的核酸、蛋白质分析软件包)的TestCode和Baylor Medcine College的BCM Gene Finder等程序均利用了这一方法。
方法3:利用ESTs预测基因
Expressed Sequence Tags (ESTs) 代表基因序列,若DNA序列和 EST严格匹配,这段DNA序列属于基因或假基因。此法对ESTs进行聚类和拼接,聚类和拼接的目的就是将来自同一个基因或同一个转录本的具有重叠部分(over-lapping)的ESTs整合到单一的簇(cluster)中。通过聚类可产生较长的一致性序列(consensus sequence),降低数据的冗余,纠正错误数据,并最终得到基因的全长序列。
随着信息学方法在基因预测中的进一步充分应用,一批新的基因预测方法被相继提出,如人工神经网络、隐马尔可夫模型(Hidden Markov Model, HMM)、动态规划法(dynamic programming)、法则系统(ruled-based system)、线性判别分析(Linear Discriminant Analysis, LDA)、决策树(decision tree)、傅立叶分析(Fourier analysis)等。这些方法是基于编码区所具有的独特信号,如剪接的供体和受体位点、起始和终止密码子、启动子特征、转录因子结合位点等进行预测。相关的基因预测软件包括:Procrustes、GeneID、GenScan、GRAIL等。
我要举报
如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
点此我要举报以上问答信息
大家都在看
推荐资讯