连锁群同一条融合基因的结果怎么看怎么看连锁还是独立

关注今日:3 | 主题:315740
微信扫一扫
【求助】通俗解释一下基因连锁不平衡
页码直达:
这个帖子发布于5年零255天前,其中的信息可能已发生改变或有所发展。
哪位高手能通俗解释一下“基因连锁不平衡”吗?教科书上的解释太书面化,较难理解。
不知道邀请谁?试试他们
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
收起全部有料回复
In short it happens as the results of evolution of life. At the very early stage of human's life, the genetic background should be quite same in a population. This genetic background varies as the many factors in the life changes in the population.
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
In the following web site, there is such description: &linkage disequilibrium is the non-random association of
at two or more , not necessarily on the same . & &It is not the same as , which is the association of two or more loci on a chromosome with limited
between them.& The butterfly Papilio memnon (pictured opposite) is an example of high linkage disequilibrium.Please download the attache and read more.
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
誰能解释一下为什么会有连锁不平衡的现象发生?
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
我晕,能通俗一点吗?最好能让八十岁的老太太一听也能明白。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
In short it happens as the results of evolution of life. At the very early stage of human's life, the genetic background should be quite same in a population. This genetic background varies as the many factors in the life changes in the population.
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
通俗的讲,基因连锁不平衡是生命进化的结果。在人类早期阶段,同一人群的遗传背景是相同的,但在进化过程中由于各种因素的影响,遗传背景会随之改变。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
楼上说的通俗易懂,连锁不平衡可以解释为两个不在同一个染色体组上的基因如果组成单倍型的话会导致胚胎致死或者成体不育,因此我们在所得到的样本中检测到的两个基因并不是遵循自由组合定律的。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
bigbang_0_0 楼上说的通俗易懂,连锁不平衡可以解释为两个不在同一个染色体组上的基因如果组成单倍型的话会导致胚胎致死或者成体不育,因此我们在所得到的样本中检测到的两个基因并不是遵循自由组合定律的。,楼上能再解释一下吗?连锁不平衡不是解释为来自同一人群的意思吗?
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
fpz0591 ,楼上能再解释一下吗?连锁不平衡不是解释为来自同一人群的意思吗?要检测的基因就是来自同一群体的。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
基因A与基因B位于同一条染色体上,在减数分裂时进入同一子细胞,通俗的说就是:“基因A与基因B总是在一起”,这种现象就称为连锁。 如果在减数分裂的联会时期,同源染色体非姐妹染色单体发生了交叉互换,使得产生的子细胞中不完全是“基因A与基因B在一起”,还有“基因A与基因b在一起”,这种现象称为不完全连锁,即连锁不平衡。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
挖坟。举例如下:由于 HLA 不同基因座位的某些基因经常连锁在一起遗传,而连锁的基因并非完全随机地组成单体型,有些基因总是较多地在一起出现,致使某些单体型在群体中呈现较高的频率,从而引起连锁不平衡。来源:/item/连锁不平衡/7212168?adapt=1&fr=aladdin
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
弱弱的问一下,连锁不平衡分析仅限于同一染色体上的基因型分布吗?大多文献仅看到同一基因的不同SNP位点进行LD分析
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
这上面很简单的概念被一帮“专家”说的神乎其乎!简言之:就是正常状态-平衡
非正常状态(基因变异)-不平衡晕死,难道吃个饭还要研究下吃饭的原理,你们啊!!!
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
关于丁香园【图文】染色体和连锁群_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
染色体和连锁群
&&遗传学内容,主要介绍连锁与互换定律的分析、计算。
大小:2.78MB
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢当前位置: >
摘要 : 芯片技术的发展为我们的基因序列分析工作提供了很大的便利,然而,当芯片所产生的数据如雪片般纷至沓来时,我们要怎样以最高效及时的方法将它们分门别类地统计处理好呢?这里总结了一些统计技术和数据库:
芯片技术的发展为我们的基因工作提供了很大的便利,然而,当芯片所产生的数据如雪片般纷至沓来时,我们要怎样以最高效及时的方法将它们分门别类地统计处理好呢?这里总结了一些统计技术和数据库:
芯片分析能够检测不同条件下的变化,能够显示反映特征组织类型、发育阶段、环境条件应答、遗传改变的基因谱。当芯片数据大量出现,产生了新的问题:如果将所有获得的数据集中起来,我们能否将未知功能的新基因归类到已知功能分类中?能否将基因表达与基因功能联系起来?能否发现新类型的共调控基因?能否从芯片表达数据中得出完整的基因调控网络?这些唯有通过计算的方法。基因制图及测序所面临的问题与大规模基因表达分析的数学问题相比要小的多。这种新类型的表达数据使我们直接面对生物系统和基因组水平功能的复杂性,从生物系统单个成分的定性发展到完整生物系统行为的描述上来,这方面困难很多,目前只有很少的分析工具。
1.聚类(clustering analysis)是大规模基因表达谱目前最广泛使用的统计技术,最近又发展了一种机器学习方法-支持向量机(support vector machines,SVMs)。这些分析方法均处在研究的初级阶段,随着大量数据及标准化数据库的出现,其它数据挖掘技术包括神经网络和遗传算法将在分析中得到应用。
聚类通过把目标数据放入少数相对同源的组或&类&(cluster)里。分析表达数据,(1)通过一系列的检测将待测的一组的变异标准化,然后成对比较线性协方差。(2)通过把用最紧密关联的谱来放基因进行样本聚类,例如用简单的层级聚类(hierarchical clustering)方法。这种聚类亦可扩展到每个实验样本,利用一组基因总的线性相关进行聚类。(3)多维等级分析(multidimensional scaling analysis,MDS)是一种在二维Euclidean &距离&中显示实验样本相关的大约程度。(4)K-means方法聚类,通过重复再分配类成员来使&类&内分散度最小化的方法。
聚类方法有两个显著的局限:首先,要聚类结果要明确就需分离度很好(well-separated)的数据。几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类。但是,如果类是扩散且互相渗透,那么每种算法的的结果将有点不同。结果,每种算法界定的边界不清,每种聚类算法得到各自的最适结果,每个数据部分将产生单一的信息。为解释因不同算法使同样数据产生不同结果,必须注意判断不同的方式。对家来说,正确解释来自任一算法的聚类内容的实际结果是困难的(特别是边界)。最终,将需要经验可信度通过序列比较来指导聚类解释。
第二个局限由线性相关产生。上述的所有聚类方法分析的仅是简单的一对一的关系。因为只是成对的线性比较,大大减少发现表达类型关系的计算量,但忽视了生物系统多因素和非线性的特点。
斯坦福大学的Michael Eisen开发的Windows平台免费芯片数据分析软件CLUSTER和TREEW,采用配对平均连锁(pairwise average-linkage)聚类分析。这种方法中,每个不同的基因与其它的基因比较,鉴定最相关的基因对。这种基因对的数据用平均数替代,再重新计算关系矩阵,不断重复这个过程。TREEVIEW对CLUSTER计算结果进行图形输出,将芯片中的每个基因的表达比值用彩色方块表示。
尽管CLUSTER软件易于使用且直观,但其算法仍有缺陷之处:实际数据由每次重复的平均数据替代;相似性测定的选择(相关性/Eluclidean距离);将等级模型用于非等级过程;成对比较矩阵的计算负担。因此,出现了其它方法,包括自组织图(self organizing maps,SOMs),二进制决定-退火算法(binary deterministic-annealing algorithm),k-means聚类等。Tamayo等提供Windows平台的SOMs软件包。
CLUSTER和TREEVIE下载网址:
2.基于知识挖掘的机器学习方法
最近发展了一种有监督的机器学习方法-支持向量机(support vector machines,SVMs)来分析表达数据,它通过训练一种&分类器&来辨识与已知的共调控基因表达类型相似的的新基因。与经典的无监督聚类方法(unsupervised clustering)和自组织图(self-organizing maps)不同,该方法建立在已有的知识上并有改进现有知识的潜力。
无监督的聚类方法,例如层级(hierarchical)和K-means聚类,假设每个基因仅属于一&类&(cluster)。这在生物学意义上当然不是真实的。而且,事实上同一类基因不是必然意味着有相似的表达类型。比如,k-means聚类方法事先指定产生的&类&的数量及并将每个基因放在其最优&类&,并不总是有意义。需要对类(cluster)进行质量评价,&类&的&严谨性&和外围基因的存在(如果存在,它们与下一类的接近度)以及一组核心特征基因应在质量上保证。最重要的是应考虑&类&是否有生物学意义。
与无监督的方法产生基因的&类&相比,有监督的学习方法是向已知的&类&学习。训练者必须提供SVMs以每个&类&正反两方面的例子。SVMs提供一种层级的方法来分析芯片数据。首先,对每个基因,应询问最近的邻居是否它与它们的关系是有生物学意义的。其次,对已知共调控基因,应该询问它们的表达类型是否相似,如果是这样,还有哪些其它的基因有相同类型。这些在监督阶段可通过SVMs或优化的SOMs来判断。第三,应该通过无监督的学习方法进行基因分类并询问是否聚类有生物学意义并且包括外围基因。最后,&类&可通过每个无监督的&类&的核心基因训练SVMs的方法来检测和优化。
大规模基因表达数据挖掘另一重要方面是发展有力的数据可视化方法和工具。已经发展了用简单图形显示提供聚类结果的途径,如上述的TREEVIEW软件。对大规模基因表达原始数据的进行不失真的可视化并链接的标注过的序列数据库,可为基因表达分析提供非常有价值的工具,有助于从新的视角看待基因组水平的转录调控并建立模型。
基因组水平蛋白质功能综合预测
蛋白质之间的功能联系
基因组测序计划在产生完全的组成多个亚单位装配和信号通路的蛋白质列表方面取得里程碑式的业绩。这些装配和通路现在必然被制图,Marcotte等和Enright等在此方面走了显著一步。这两个研究小组发展了不是通过氨基酸序列相似性比较的其他特性联系起蛋白质的计算方法。通过比较系统发育(进化)谱和表达类型,以及通过分析结构域融合(domain fusions)新方法识别在代谢通路、信号通路或结构复合体上功能相关的蛋白质。酵母未定性蛋白大约一半�总蛋白数约四分之一可用此方法进行功能注释。因为不依赖于直接的序列相似性,这种方法可预测与已知功能蛋白质缺乏同源性的蛋白质功能。将会发现它们在基因组学中的许多应用,与大规模蛋白质功能实验互为补充。
构建通路和专配有用模型的信息来自实验,最重要的通过蛋白质组学和结构基因组学。蛋白质组学的目标是对所有的蛋白质和蛋白相互作用进行鉴定和定性。它包括采用大规模实验方法如双杂交系统(two-hybrid system)、质谱法(mass spectrometry,MS)、二维凝胶电泳(2D PAGE)和DNA芯片杂交(DNA microarray hybridization)。任务大小和复杂性可由下面的假定理解:每个蛋白质有5-50个功能连锁,结果在一个酵母细胞中就有30,000-300,000个连锁。虽然实验已确定了约30%的酵母的功能,但是它们有时不是迅速廉价的,且不完全。因此需要用计算的方法来预测功能。
计算方法传统上预测功能是通过与性质明确蛋白质的序列相似性比较。这样标注的可行性是因为进化产生享有共同祖先的的同源性蛋白家族,因此有相似的序列、结构,经常还有功能。蛋白质比较允许对酵母另30%的蛋白质功能进行研究。但是,通过同源性进行功能预测受两方面的因素制约。首先,它只能用于与已知功能蛋白质有同源性的未知蛋白质的功能预测。其次,不是总清楚匹配的蛋白质何种功能特性为其共享,尤其对那些距离较远的匹配。
Marcotte等和Enright等并未受此限制,因为他们不依赖与未知蛋白质与已知功能蛋白质的序列相似性。而代替的是,将同样通路和装配的蛋白质分组,定义为&功能连锁&(functionally linked).Marcotte等针对出芽酵亩基因组蛋白质采用了三种不同的方法:系统发育谱(phylogenetic profiles),结构域融合(domain-fusion analysis)和相关mRNA表达类型(correlated messenger RNA expression patterns)。Enright等独立发展了结构域融合分析,采用新的聚类算法用于三个原核基因组分析。
系统发育谱依赖于蛋白质相关进化。两个蛋白质是进化相关的当它们共有一个系统发育谱,定义为蛋白质在一组基因组中的发生率类型。仅当几个完整的基因组比较时系统发育表达谱才能精确计算。两个蛋白质享有相似的系统发育谱被认为是功能连锁(functionally linked)。因此,根据系统发育谱进行的蛋白质聚类,当未知蛋白质与一个或更多的功能已知的蛋白质归为一组时能够提供未知蛋白质的功能信息。
结构域融合的方法鉴定含有两个分别在其它基因组的非同源性成分蛋白(component proteins)组成的融合蛋白(fusion proteins)。这样的成分蛋白被认为彼此物理上有相互作用。在两个相互作用成分蛋白之间的界面(interface)更有可能进化当两个蛋白融合为一条单一链。著名的例子是,从细菌到真菌的色氨酸合成酶的&和&亚单位。在一些方面,结构域融合分析与从基因邻近效应(gene proximity)推测功能连锁相似。
Marcotte等也通过关联它们的mRNA表达类型来对酵母蛋白质进行分类。这些类型来自97组公共DNA芯片数据,显示了大多数酵母蛋白质在正常生长、葡萄糖缺乏孢子形成和突变基因表达的条件下的表达变化。分析建立在认为在一系列相同条件下表达水平相互关联的蛋白质是功能连锁的。
新的功能注释经常是广义的,限制蛋白质的功能为,&代谢&或&转录&。即使随机的一对蛋白质也有50%的相似机率在这样广义的水平上。但是因为注释一般来自许多连锁,比随机连锁信息量大3-8倍,在一些例子中与蛋白-蛋白相互作用的实验决定相比。 例如,Marcotte等建立了新的MSH6的连锁,在某些结肠癌中的DNA错配修复蛋白,属于PMS1错配修复家族,其中的突变也与人结肠癌、嘌呤生物合成途径、RNA修饰酶和一个未知的蛋白质家族相关,这样它们可以通过核酸修复或修饰来研究。
这样的注释精确度如何?能覆盖多少比例的蛋白质?这些问题只能部分提出,因为参考的功能连锁蛋白质不是很容易得到。Marcotte和同事给酵母2,557个未知蛋白的一半预测了一般功能。他们估计成对预测来确定功能的近30%是错误的,虽然两到三种方法联合应用使错误率降到15%。
Enright等通过结构域融合在三个原核基因组中仅功能连锁215个蛋白,但是非常少的估计假阳性。较少的功能连锁率可能由于没有系统发育谱和mRNA表达方法丢失了连锁(作者没有做这两种方法),融合事件更严格的定义以及用较少的蛋白检测融合。尽管假阳性和显得粗糙的功能注释,计算方法使得实验者将注意力集中在有希望的相互作用上。当得到更多的基因组数据,结构域融合和系统发育谱的方法的预测数和精度将增加。
下一步将是提高方法预测蛋白质功能的范围、准确度和精确性。这可能在理论上,通过考虑三维结构来做,因为蛋白质的功能更多直接由它的结构和动力学而不是它的序列来决定。那么为什么在基因组学上结构没有序列用的广泛呢?至少有两个原因。首先,只有一部分蛋白质有三维结构数据。这种限制在几年内随着结构基因组学(structural genomics)的进展而减少。结构基因组学的目标是确定大约10,000经仔细挑选的蛋白质结构域的结构,以便所有其它的蛋白质序列能够有很好的精确性建模。其次,能够从结构而不是从序列提取的功能细节依赖于细胞环境下的那种结构的细节,同样也依赖于它的动力学和能量,所有这些在现有的实验和理论技术下难以获得。
当前人类基因组研究已进入一个重要时期,2000年将获得人类基因组的全部序列,这是基因组研究的转折点和关键时刻,意味着人类基因组的研究将全面进入信息提取和数据分析阶段,即生物信息学发挥重要作用的阶段。到日发布的第115版为止,GenBank中的DNA碱基数目已达46亿5千万,DNA序列数目达到535万;其中EST序列超过339万条; UniGene的数目已达到7万个;已有25个模式生物的完整基因组被测序完成,另外的70个模式生物基因组正在测序当中;到日为止,人类基因组已有16%的序列完成测定,另外37.7%的序列已经初步完成;同时功能基因组和蛋白质组的大量数据已开始涌现。如何分析这些数据,从中获得生物结构、功能的相关信息是基因组研究取得成果的决定性步骤。
生物信息学是在此背景下发展起来的综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取、处理、存储、分配和解释。基因组信息学的关键是&读懂&基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断、治疗内在规律。它的研究目标是揭示&基因组信息结构的复杂性及遗传语言的根本规律&,解释生命的遗传语言。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。
近来的研究表明,基因组不仅是基因的简单排列,它有其特有的组织结构和信息结构,这种结构是在长期的演化过程中产生的,也是基因发挥其功能所必须的。弄清楚生物体基因组特有的组织结构和信息结构,解译生命的遗传语言的关键。
目前在数据库中已经有越来越多的模式生物全基因组序列,第一个人类染色体全序列--第22号染色体的测序工作已经在1999年12月完成,整个人类基因组计划工作草图将在最近完成。这无疑给基因组组织结构和信息结构的研究工作提供了大量的第一手材料,同时也为基因组研究取得突破性进展提供了可能。人类对基因的认识,将从以往的对单个基因的了解,上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置、结构和功能上的相互关系。
从目前生物信息学的研究情况来看,国际上公认的生物信息学的研究内容,大致包括以下几个方面:
1. 生物信息的收集、存储、管理与提供。包括建立国际基本生物信息库和生物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系统;生物信息的在线服务;生物信息可视化和专家系统。
基因组序列信息的提取和分析。包括基因的发现与鉴定,如利用国际EST 数据库 (dbEST) 和各自实验室测定的相应数据,经过大规模 并行计算发现新基因和新SNPs以及各种功能位点;基因组中非编码区的信息结构分析,提出理论模型,阐明该区域的重要生物学功能;进行模式生物完整基因组的信息结构分析和比较研究;利用生物信息研究遗传密码起源、基因组结构的演化、基因组空间结构与DNA折叠的关系以及基因组信息与生物进化关系等生物学的重大问题。
功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、软件研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结构的预测和模拟,以及蛋白质功能预测的研究。
生物大分子结构模拟和药物设计。包括RNA(核糖核酸)的结构模拟和反义RNA的分子设计;蛋白质空间结构模拟和分子设计;具有不同功能域的复合蛋白质以及连接肽的设计;生物活性分子的电子结构计算和设计;纳米生物材料的模拟与设计;基于酶和功能蛋白质结构、细胞表面受体结构的药物设计;基于DNA结构的药物设计等。
生物信息分析的技术与方法研究。包括发展有效的能支持大尺度作图与测序需要的软件、数据库以及若干数据库工具,诸如电子网络等远程通讯工具;改进现有的理论分析方法,如统计方法、模式识别方法、隐马尔科夫过程方法、分维方法、神经网络方法、复杂性分析方法、密码学方法、多序列比较方法等;创建一切适用于基因组信息分析的新方法、新技术。包括引入复杂系统分析技术、信息系统分析技术等;建立严格的多序列比较方法;发展与应用密码学方法以及其他算法和分析技术,用于解释基因组的信息,探索DNA序列及其空间结构信息的新表征;发展研究基因组完整信息结构和信息网络的研究方法等;发展生物大分子空间结构模拟、电子结构模拟和药物设计的新方法与新技术。
应用与发展研究。汇集与疾病相关的人类基因信息,发展患者样品序列信息检测技术和基于序列信息选择表达载体、引物的技术,建立与动植物良种繁育相关的数据库以及与大分子设计和药物设计相关的数据库。
利用生物信息学方法进行结构功能预测要注意的是同一问题采用不同算法,可能产生相同或不同的结果。因此,必要弄清楚某种方法的基本原理,而不是仅把算法当作一个&黑箱&。因为一种方法可能对特定实例很合适,而对另一个则完全不对。因此,本章采用原理和实用方法并重的原则进行介绍。因生物信息学覆盖面广,限于篇幅,本章并未将生物信息学的全部内容详细加以讲述,仅针对与目前分子生物学实验数据分析密切相关的生物信息学策略及实用工具进行扼要介绍,文中涉及问题的更详细信息可参考相关网站。生物信息学是新兴发展中的学科,该领域的研究日新月异,书中的描述可能滞后于生物信息学的最新发展为在所难免,作者期望本章的介绍对读者的研究工作有所助益。
2 生物信息数据库与查询
近年来大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理的服务。随着因特网的普及,这些数据库大多可以通过网络来访问,或者通过网络下载。
一般而言,这些生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。
下面将顺序简要介绍一些著名和有特色的生物信息数据库。
2.1 基因和基因组数据库
1. Genbank
Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。它的数据直接来源于测序工作者提交的序列;由测序中心提交的大量EST序列和其它测序数据;以及与其它数据机构协作交换数据而来。Genbank每天都会与欧洲分子生物学实验室(EMBL)的数据库,和日本的DNA数据库(DDBJ)交换数据,使这三个数据库的数据同步。到1999年8月,Genbank中收集的序列数量达到460万条,34亿个碱基,而且数据增长的速度还在不断加快。Genbank的数据可以从NCBI的FTP服务器上免费下载完整的库,或下载积累的新数据。NCBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从NCBI的主页上找到这些服务。
Genbank库里的数据按来源于约55,000个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列)。每条Genbank数据记录包含了对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,以及序列本身。序列特征表里包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个文件。
(1)Genbank数据检索
NCBI的数据库检索查询系统是Entrez。Entrez是基于Web界面的综合生物信息数据库检索系统。利用Entrez系统,用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。
Entrez提供了方便实用的检索服务,所有操作都可以在网络浏览器上完成。用户可以利用Entrez界面上提供的限制条件(Limits)、索引(Index)、检索历史(History)和剪贴板(Clipboard)等功能来实现复杂的检索查询工作。对于检索获得的记录,用户可以选择需要显示的数据,保存查询结果,甚至以图形方式观看检索获得的序列。更详细的Entrez使用说明可以在该主页上获得。
(2)向Genbank提交序列数据
测序工作者可以把自己工作中获得的新序列提交给NCBI,添加到Genbank数据库。这个任务可以由基于Web界面的BankIt或独立程序Sequin来完成。
BankIt是一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。用户提交序列后,会从电子邮件收到自动生成的数据条目,Genbank的新序列编号,以及完成注释后的完整的数据记录。用户还可以在BankIt页面下修改已经发布序列的信息。BankIt适合于独立测序工作者提交少量序列,而不适合大量序列的提交,也不适合提交很长的序列,EST序列和GSS序列也不应用BankIt提交。BankIt使用说明和对序列的要求可详见其主页面。
大量的序列提交可以由Sequin程序完成。Sequin程序能方便的编辑和处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证。它还被设计用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数据。Sequin除了用于编辑和修改序列数据记录,还可以用于序列的分析,任何以FASTA或ASN.1格式序列为输入数据的序列分析程序都可以整合到Sequin程序下。在不同操作系统下运行的Sequin程序都可以在下找到,Sequin的使用说明可详见其网页。
NCBI的网址是:。
Entrez的网址是:。
BankIt的网址是:。
Sequin的相关网址是:。
2. EMBL核酸序列数据库
EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与Genbank和DDBJ的数据合作交换,它也是一个全面的核酸序列数据库。该数据库由Oracal数据库系统管理维护,查询检索可以通过通过因特网上的序列提取系统(SRS)服务完成。向EMBL核酸序列数据库提交序列可以通过基于Web的WEBIN工具,也可以用Sequin软件来完成。
数据库网址是:。
SRS的网址是:。
WEBIN的网址是:。
3. DDBJ数据库
日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库,与Genbank和EMBL核酸库合作交换数据。可以使用其主页上提供的SRS工具进行数据检索和序列分析。可以用Sequin软件向该数据库提交序列。
DDBJ的网址是:。
基因组数据库(GDB)为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的目标是构建关于人类基因组的百科全书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和其它对功能和表型的描述。目前GDB中有:人类基因组区域(包括基因、克隆、amplimers PCR 标记、断点breakpoints、细胞遗传标记cytogenetic markers、易碎位点fragile sites、EST序列、综合区域syndromic regions、contigs和重复序列);人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、content contig图谱和综合图谱等);人类基因组内的变异(包括突变和多态性,加上等位基因频率数据)。GDB数据库以对象模型来保存数据,提供基于Web的数据对象检索服务,用户可以搜索各种类型的对象,并以图形方式观看基因组图谱。
GDB的网址是:。
GDB的国内镜像是:。
2.2 蛋白质数据库
1. PIR和PSD
PIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,包含超过142,000条蛋白质序列(至99年9月),其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。
PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA 等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。
PIR和PSD的网址是:。
数据库下载地址是:。
2. SWISS-PROT
SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。
利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。
SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。
SWISS-PROT的网址是:。
3. PROSITE
PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,PROSITE还包括由多序列比对构建的profile,能更敏感地发现序列与profile的相似性。PROSITE的主页上提供各种相关检索服务。
PROSITE的网址是:。
蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库,由美国Brookhaven国家实验室建立。PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据,经过整理和确认后存档而成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于PDB数据文件格式和其它文档的说明,PDB数据还可以从发行的光盘获得。使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。
RCSB的PDB数据库网址是:。
蛋白质结构分类(SCOP)数据库详细描述了已知的蛋白质结构之间的关系。分类基于若干层次:家族,描述相近的进化关系;超家族,描述远源的进化关系;折叠子(fold),描述空间几何结构的关系;折叠类,所有折叠子被归于全&、全&、&/&、&+&和多结构域等几个大类。SCOP还提供一个非冗余的ASTRAIL序列库,这个库通常被用来评估各种序列比对算法。此外,SCOP还提供一个PDB-ISL中介序列库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的已知结构序列。
SCOP的网址是:。
蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成。COG库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用COGNITOR程序,可以把某个蛋白质与所有COGs中的蛋白质进行比对,并把它归入适当的COG簇。COG库提供了对COG分类数据的检索和查询,基于Web的COGNITOR服务,系统进化模式的查询服务等。
COG库的网址是:。
下载COG库和COGNITOR程序在:。
2.3 功能数据库
京都基因和基因组百科全书(KEGG)是系统分析基因功能,联系基因组信息和功能信息的知识库。基因组信息存储在GENES数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;KEGG的另一个数据库是LIGAND,包含关于化学物质、酶分子、酶反应等信息。KEGG提供了Java的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。
KEGG的网址是:http。
相互作用的蛋白质数据库(DIP)收集了由实验验证的蛋白质-蛋白质相互作用。数据库包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术三个部分。用户可以根据蛋白质、生物物种、蛋白质超家族、关键词、实验技术或引用文献来查询DIP数据库。
DIP的网址是:。
可变剪接数据库(ASDB)包括蛋白质库和核酸库两部分。ASDB(蛋白质)部分来源于SWISS-PROT蛋白质序列库,通过选取有可变剪接注释的序列,搜索相关可变剪接的序列,经过序列比对、筛选和分类构建而成。ASDB(核酸)部分来自Genbank中提及和注释的可变剪接的完整基因构成。数据库提供了方便的搜索服务。
ASDB的网址是:。
转录调控区数据库(TRRD)是在不断积累的真核生物基因调控区结构-功能特性信息基础上构建的。每一个TRRD的条目里包含特定基因各种结构-功能特性:转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等。TRRD包括五个相关的数据表:TRRDGENES(包含所有TRRD库基因的基本信息和调控单元信息);TRRDSITES(包括调控因子结合位点的具体信息);TRRDFACTORS(包括TRRD中与各个位点结合的调控因子的具体信息);TRRDEXP(包括对基因表达模式的具体描述);TRRDBIB(包括所有注释涉及的参考文献)。TRRD主页提供了对这几个数据表的检索服务。
TRRD的网址是:。
5. TRANSFAC
TRANSFAC数据库是关于转录因子、它们在基因组上的结合位点和与DNA结合的profiles的数据库。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等数据表构成。此外,还有几个与TRANSFAC密切相关的扩展库:PATHODB库收集了可能导致病态的突变的转录因子和结合位点;S/MART DB收集了与染色体结构变化相关的蛋白因子和位点的信息;TRANSPATH库用于描述与转录因子调控相关的信号传递的网络;CYTOMER库表现了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。TRANSFAC及其相关数据库可以免费下载,也可以通过Web进行检索和查询。
TRANSFAC的网址是:。
2.4 其它数据库资源
DBCat是生物信息数据库的目录数据库,它收集了500多个生物信息学数据库的信息,并根据它们的应用领域进行了分类。包括DNA、RNA、蛋白质、基因组、图谱、蛋白质结构、文献著作等基本类型。数据库可以免费下载或在网络上检索查询。
DBCat的网址是:。
下载DBCat在:。
PubMed是NCBI维护的文献引用数据库,提供对MEDLINE、Pre-MEDLINE等文献数据库的引用查询和对大量网络科学类电子期刊的链接。利用Entrez系统可以对PubMed进行方便的查询检索。
PubMed的网址是:。
除了以上提及的数据之外,还有许许多多的专门生物信息数据库,涉及了目前生物学研究的各个层面和领域,由于篇幅所限无法一一详述。国内也有一些大数据库的镜像站点和自己开发的有特色的数据库,如欧洲分子生物学网络组织EMBNet中国节点北京大学分子生物信息镜像系统,上海博容基因公司与上海嘉瑞软件公司合作开发的国产汉化基因数据库及分析管理系统,同时国家级的生物信息学中心也在筹建之中。我们期待国内能有更多高质量和使用便利的数据库资源,推动我国生物信息学和整个生命科学的发展。
清华大学生物信息学研究所网址:
北京大学生物信息镜像系统网址:
3 序列比对和数据库搜索
比较是科学研究中最常见的方法,通过将研究对象相互比较来寻找对象可能具备的特性。在生物信息学研究中,比对是最常用和最经典的研究手段。
最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和profile,从而探索导致它们产生共同功能的序列模式。此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。
比对还是数据库搜索算法的基础,将查询序列与整个数据库]的所有序列进行比对,从数据库中获得与其最相似序列的已有的数据,能最快速的获得有关查询序列的大量有价值的参考信息,对于进一步分析其结构和功能都会有很大的帮助。近年来随着生物信息学数据大量积累和生物学知识的整理,通过比对方法可以有效地分析和预测一些新发现基因的功能。
3.1 序列两两比对
序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。在残基-残基比对中,可以明显看到序列中某些氨基酸残基比其它位置上的残基更保守,这些信息揭示了这些保守位点上的残基对蛋白质的结构和功能是至关重要的,例如它们可能是酶的活性位点残基,形成二硫键的半胱氨酸残基,与配体结合部位的残基,与金属离子结合的残基,形成特定结构motif的残基等等。但并不是所有保守的残基都一定是结构功能重要的,可能它们只是由于历史的原因被保留下来,而不是由于进化压力而保留下来。因此,如果两个序列有显著的保守性,要确定二者具有共同的进化历史,进而认为二者有近似的结构和功能还需要更多实验和信息的支持。通过大量实验和序列比对的分析,一般认为蛋白质的结构和功能比序列具有更大的保守性,因此粗略的说,如果序列之间的相似性超过30%,它们就很可能是同源的。
早期的序列比对是全局的序列比较,但由于蛋白质具有的模块性质,可能由于外显子的交换而产生新蛋白质,因此局部比对会更加合理。通常用打分矩阵描述序列两两比对,两条序列分别作为矩阵的两维,矩阵点是两维上对应两个残基的相似性分数,分数越高则说明两个残基越相似。因此,序列比对问题变成在矩阵里寻找最佳比对路径,目前最有效的方法是Needleman-Wunsch动态规划算法,在此基础上又改良产生了Smith-Waterman算法和SIM算法。在FASTA程序包中可以找到用动态规划算法进行序列比对的工具LALIGN,它能给出多个不相互交叉的最佳比对结果。
在进行序列两两比对时,有两方面问题直接影响相似性分值:取代矩阵和空位罚分。粗糙的比对方法仅仅用相同/不同来描述两个残基的关系,显然这种方法无法描述残基取代对结构和功能的不同影响效果,缬氨酸对异亮氨酸的取代与谷氨酸对异亮氨酸的取代应该给予不同的打分。因此如果用一个取代矩阵来描述氨基酸残基两两取代的分值会大大提高比对的敏感性和生物学意义。虽然针对不同的研究目标和对象应该构建适宜的取代矩阵,但国际上常用的取代矩阵有PAM和BLOSUM等,它们来源于不同的构建方法和不同的参数选择,包括PAM250、BLOSUM62、BLOSUM90、BLOSUM30等。对于不同的对象可以采用不同的取代矩阵以获得更多信息,例如对同源性较高的序列可以采用BLOSUM90矩阵,而对同源性较低的序列可采用BLOSUM30矩阵。
空位罚分是为了补偿插入和缺失对序列相似性的影响,由于没有什么合适的理论模型能很好地描述空位问题,因此空位罚分缺乏理论依据而更多的带有主观特色。一般的处理方法是用两个罚分值,一个对插入的第一个空位罚分,如10-15;另一个对空位的延伸罚分,如1-2。对于具体的比对问题,采用不同的罚分方法会取得不同的效果。
对于比对计算产生的分值,到底多大才能说明两个序列是同源的,对此有统计学方法加以说明,主要的思想是把具有相同长度的随机序列进行比对,把分值与最初的比对分值相比,看看比对结果是否具有显著性。相关的参数E代表随机比对分值不低于实际比对分值的概率。对于严格的比对,必须E值低于一定阈值才能说明比对的结果具有足够的统计学显著性,这样就排除了由于偶然的因素产生高比对得分的可能。
Genbank、SWISS-PROT等序列数据库提供的序列搜索服务都是以序列两两比对为基础的。不同之处在于为了提高搜索的速度和效率,通常的序列搜索算法都进行了一定程度的优化,如最常见的FASTA工具和BLAST工具。FASTA是第一个被广泛应用的序列比对和搜索工具包,包含若干个独立的程序。FASTA为了提供序列搜索的速度,会先建立序列片段的&字典&,查询序列先会在字典里搜索可能的匹配序列,字典中的序列长度由ktup参数控制,缺省的ktup=2。FASTA的结果报告中会给出每个搜索到的序列与查询序列的最佳比对结果,以及这个比对的统计学显著性评估E值。FASTA工具包可以在大多提供下载服务的生物信息学站点上找到。
BLAST是现在应用最广泛的序列相似性搜索工具,相比FASTA有更多改进,速度更快,并建立在严格的统计学基础之上。NCBI提供了基于Web的BLAST服务,用户可以把序列填入网页上的表单里,选择相应的参数后提交到数据服务器上进行搜索,从电子邮件中获得序列搜索的结果。BLAST包含五个程序和若干个相应的数据库,分别针对不同的查询序列和要搜索的数据库类型。其中翻译的核酸库指搜索比对时会把核酸数据按密码子按所有可能的阅读框架转换成蛋白质序列。
表1. BLAST程序:
核苷酸(翻译)
核酸(翻译)
核酸(翻译)
核酸(翻译)
可能找到具有远源进化关系的匹配序列
适合寻找分值较高的匹配,不适合远源关系
适合新DNA序列和EST序列的分析
适合寻找数据库中尚未标注的编码区
适合分析EST序列
表2. BLAST的蛋白质数据库:
汇集了SWISS-PROT,PIR,PRF以及从GenBank序列编码区中得到的
蛋白质和PDB中拥有原子坐标的蛋白质,并去除了冗余的序列
nr中过去30天内的最新序列
SWISS-PROT数据库
PDB结构数据库中的蛋白质序列
酵母基因组中编码的全部蛋白质
大肠杆菌基因组中编码的全部蛋白质
Kabat的免疫学相关蛋白质序列
由REPBASE中的Alu重复序列翻译而来,用来遮蔽查询序列中的
表3. BLAST的核酸数据库:
非冗余的GenBank+EMBL+DDBJ+PDB序列,除了EST、STS、
GSS和0,1,2阶段的HTGS序列
nr中过去30天的最新序列
非冗余的Genbank+EMBL+DDBJ+PDB的EST部分
非冗余的Genbank+EMBL+DDBJ+PDB的STS部分
0,1,2阶段的高产量基因组序列(3阶段完成的HTG序列在nr库里)
酵母的全基因组序列
大肠杆菌的全基因组序列
由三维结构库来的核酸序列
Kabat的免疫学相关序列库
Genbank的载体子集
线粒体核酸序列
REPBASE中Alu重复序列翻译而来,用来遮蔽查询序列中的重复片段
基因组勘测序列(Genome Survey Sequence)
BLAST对序列格式的要求是常见的FASTA格式。FASTA格式第一行是描述行,第一个字符必须是&&&字符;随后的行是序列本身,一般每行序列不要超过80个字符,回车符不会影响程序对序列连续性的看法。序列由标准的IUB/IUPAC氨基酸和核酸代码代表;小写字符会全部转换成大写;单个&-&号代表不明长度的空位;在氨基酸序列里允许出现&U&和&*&号;任何数字都应该被去掉或换成字母(如,不明核酸用&N&,不明氨基酸用&X&)。此外,对于核酸序列,除了A、C、G、T、U分别代表各种核酸之外,R代表G或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(带酮基);M代表A或C(带氨基);S代表G或C(强);W代表A或T(弱);B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、G、C、T中任意一种。对于氨基酸序列,除了20种常见氨基酸的标准单字符标识之外,B代表Asp或AU代表硒代半胱氨酸;Z代表Glu或GX代表任意氨基酸;&*&代表翻译结束标志。
BLAST的当前版本是2.0,它的新发展是位点特异性反复BLAST(PSI-BLAST)。PSI-BLAST的特色是每次用profile搜索数据库后再利用搜索的结果重新构建profile,然后用新的profile再次搜索数据库,如此反复直至没有新的结果产生为止。PSI-BLAST先用带空位的BLAST搜索数据库,将获得的序列通过多序列比对来构建第一个profile。PSI-BLAST自然地拓展了BLAST方法,能寻找蛋白质序列中的隐含模式,有研究表明这种方法可以有效的找到很多序列差异较大而结构功能相似的相关蛋白,甚至可以与一些结构比对方法,如threading相媲美。PSI-BLAST服务可以在NCBI的BLAST主页上找到,还可以从NCBI的FTP服务器上下载PSI-BLAST的独立程序。
NCBI的BLUST网址是:。
下载BLUST的网址是:。
下载FASTA的网址是:。
3.2 多序列比对
顾名思义,多序列比对就是把两条以上可能有系统进化关系的序列进行比对的方法。目前对多序列比对的研究还在不断前进中,现有的大多数算法都基于渐进的比对的思想,在序列两两比对的基础上逐步优化多序列比对的结果。进行多序列比对后可以对比对结果进行进一步处理,例如构建序列模式的profile,将序列聚类构建分子进化树等等。
目前使用最广泛的多序列比对程序是CLUSTALW(它的PC版本是CLUSTALX)。CLUSTALW是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。
CLUSTALW的程序可以自由使用,在NCBI的FTP服务器上可以找到下载的软件包。CLUSTALW程序用选项单逐步指导用户进行操作,用户可根据需要选择打分矩阵、设置空位罚分等。EBI的主页还提供了基于Web的CLUSTALW服务,用户可以把序列和各种要求通过表单提交到服务器上,服务器把计算的结果用Email返回用户。
CLUSTALW对输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。输出格式也可以选择,有ALN、GCG、PHYLIP和GDE等,用户可以根据自己的需要选择合适的输出格式。
用CLUSTALW得到的多序列比对结果中,所有序列排列在一起,并以特定的符号代表各个位点上残基的保守性,&*&号表示保守性极高的残基位点;&.&号代表保守性略低的残基位点。
EBI的CLUSTALW网址是:。
下载CLUSTALW的网址是:。
4 核酸与蛋白质结构和功能的预测分析
人们获得各种核酸和蛋白质序列的目的是了解这个序列在生物体中充当了怎样的角色。例如,DNA序列中重复片段、编码区、启动子、内含子/外显子、转录调控因子结合位点等信息;蛋白质的分子量、等电点、二级结构、三级结构、四级结构、膜蛋白的跨膜区段、酶的活性位点、以及蛋白质之间相互作用等结构和功能信息。虽然用实验的方法是多年以来解决这类问题的主要途径,但新的思路是利用已有的对生物大分子结构和功能特性的认识,用生物信息学的方法通过计算机模拟和计算来&预测&出这些信息或提供与之相关的辅助信息。由于生物信息学的特点,可以用较低的成本和较快的时间就能获得可靠的结果。近10年来生物学序列信息的爆炸性增长大大促进了各种序列分析和预测技术的发展,目前已经可以用理论预测的方法获得大量的结构和功能信息。要注意的是,尽管各种预测方法都基于现有的生物学数据和已有的生物学知识,但在不同模型或算法基础上建立的不同分析程序有其一定的适用范围和相应的限制条件,因此最好对同一个生物学问题尽量多用几种分析程序,综合分析各种方法得到的结果和结果的可靠性。此外,生物信息学的分析只是为生物学研究提供参考,这些信息能提高研究的效率或提供研究的思路,但很多问题还需要通过实验的方法得到验证。
4.1 针对核酸序列的预测方法
针对核酸序列的预测就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话,那么这个DNA片段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的&密码子偏好性&,也是说明这段DNA是蛋白质编码区的有力证据;其它的证据包括与&模板&序列的模式相匹配、简单序列模式如TATA Box等相匹配等。一般而言,确定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则:对于真核生物序列,在进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;选用预测程序时要注意程序的物种特异性;要弄清程序适用的是基因组序列还是cDNA序列;很多程序对序列长度也有要求,有的程序只适用于长序列,而对EST这类残缺的序列则不适用。
1. 重复序列分析
对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜索的程序。常见的重复序列分析程序有CENSOR和RepeatMasker等,可以在Web界面上使用这些程序,或者用Email来进行。如果有大量序列需要处理,可以使用XBLAST程序,它可以从Internet上下载得到。XBLAST中以及包含了由程序作者收集整理的一些重复序列,此外还可以从Repbase中找到更多的重复序列。还可以把克隆载体也加入重复序列中,这样就可以在处理重复序列时顺便把克隆载体也一同除去。经处理的序列中重复序列所在位置会一律由&X&代替。
CENSOR和Repbase的网址是:。
RepeatMasker的网址是:。
2. 数据库搜索
把未知核酸序列作为查询序列,在数据库里搜索与之相似的已有序列是序列分析预测的有效手段,在上一节中已经专门介绍了序列比对和搜索的原理和技术。但值得注意的是,由相似性分析作出的结论可能导致错误的流传;有一定比例的序列很难在数据库里找到合适的同源伙伴。对于EST序列而言,序列搜索将是非常有效的预测手段。
3. 编码区统计特性分析
统计获得的经验说明,DNA中密码子的使用频率不是平均分布的,某些密码子会以较高的频率使用而另一些则较少出现。这样就使得编码区的序列呈现出可察觉的统计特异性,即所谓的&密码子偏好性&。利用这一特性对未知序列进行统计学分析可以发现编码区的粗略位置。这一类技术包括:双密码子计数(统计连续两个密码子的出现频率);核苷酸周期性分析(分析同一个核苷酸在3,6,9,...位置上周期性出现的规律);均一/复杂性分析(长同聚物的统计计数);开放可读框架分析等。
常见的编码区统计特性分析工具将多种统计分析技术组合起来,给出对编码区的综合判别。著名的程序有GRAIL和GenMark等,GRAIL提供了基于Web的服务。
GRAIL的网址是:。
4. 启动子分析
启动子是基因表达所必需的重要序列信号,识别出启动子对于基因辨识十分重要。有一些程序根据实验获得的转录因子结合特性来描述启动子的序列特征,并依次作为启动子预测的依据,但实际的效果并不十分理想,遗漏和假阳性都比较严重。总的来说,启动子仍是值得继续研究探索的难题。
5. 内含子/外显子剪接位点
剪接位点一般具有较明显的序列特征,但是要注意可变剪接的问题。由于可变剪接在数据库里的注释非常不完整,因此很难评估剪接位点识别程序预测剪接位点的敏感性和精度。如果把剪接位点和两侧的编码特性结合起来分析则有助于提供剪接位点的识别效果。
常见的基因识别工具很多都包含了剪接位点识别功能,独立的剪接位点识别工具有NetGene等。
NetGene服务的Email地址是:。
6. 翻译起始位点
对于真核生物,如果已知转录起始点,并且没有内含子打断5'非翻译区的话,&Kozak规则&可以在大多数情况下定位起始密码子。原核生物一般没有剪接过程,但在开放阅读框中找正确的起始密码子仍很困难。这时由于多顺反操纵子的存在,启动子定位不象在真核生物中起关键作用。对于原核生物,关键是核糖体结合点的定位,可以由多个程序提供解决方案,可以参考下面的综述。
Gelfand, M. S. (1995). Prediction of function in DNA sequence analyis. J. Comput. Biol. 2, 87-115.
7. 翻译终止信号
PolyA和翻译终止信号不象起始信号那么重要,但也可以辅助划分基因的范围。
8. 其它综合基因预测工具
除了上面提到的程序之外,还有许多用于基因预测的工具,它们大多把各个方面的分析综合起来,对基因进行整体的分析和预测。多种信息的综合分析有助于提高预测的可靠性,但也有一些局限:物种适用范围的局限;对多基因或部分基因,有的预测出的基因结构不可靠;预测的精度对许多新发现基因比较低;对序列中的错误很敏感;对可变剪接、重叠基因和启动子等复杂基因语法效果不佳。
相对不错的工具有GENSCAN,可以通过Web页面或Email获得GENSCAN服务。
GENSCAN的网址是:。
9. tRNA基因识别
tRNA基因识别比编码蛋白质的基因识别简单,目前基本已经解决了用理论方法预测tRNA基因的问题。tRNAscan-SE工具中综合了多个识别和分析程序,通过分析启动子元件的保守序列模式、tRNA二级结构的分析、转录控制元件分析和除去绝大多数假阳性的筛选过程,据称能识别99%的真tRNA基因。可以在Web上使用这个工具,也可以下载这个程序。
tRNAscan-SE的网址是:。
4.2 针对蛋白质的预测方法
传统的生物学认为,蛋白质的序列决定了它的三维结构,也就决定了它的功能。由于用X光晶体衍射和NMR核磁共振技术测定蛋白质的三维结构,以及用生化方法研究蛋白质的功能效率不高,无法适应蛋白质序列数量飞速增长的需要,因此近几十年来许多科学家致力于研究用理论计算的方法预测蛋白质的三维结构和功能,经过多年努力取得了一定的成果。
1. 从氨基酸组成辨识蛋白质
根据组成蛋白质的20种氨基酸的物理和化学性质可以分析电泳等实验中的未知蛋白质,也可以分析已知蛋白质的物化性质。ExPASy工具包中提供了一系列相应程序:
AACompIdent:根据氨基酸组成辨识蛋白质。这个程序需要的信息包括:氨基酸组成、蛋白质的名称(在结果中有用)、pI和Mw(如果已知)以及它们的估算误差、所属物种或物种种类或&全部(ALL)&、标准蛋白的氨基酸组成、标准蛋白的SWISS-PROT编号、用户的Email地址等,其中一些信息可以没有。这个程序在SWISS-PROT和(或)TrEMBL数据库中搜索组成相似蛋白。
AACompSim:与前者类似,但比较在SWISS-PROT条目之间进行。这个程序可以用于发现蛋白质之间较弱的相似关系。
除了ExPASy中的工具外,PROPSEARCH也提供基于氨基酸组成的蛋白质辨识功能。程序作者用144种不同的物化性质来分析蛋白质,包括分子量、巨大残基的含量、平均疏水性、平均电荷等,把查询序列的这些属性构成的&查询向量&与SWISS-PROT和PIR中预先计算好的各个已知蛋白质的属性向量进行比较。这个工具能有效的发现同一蛋白质家族的成员。可以通过Web使用这个工具,用户只需输入查询序列本身。
ExPASy的网址是:。
PROSEARCH的网址是:。
2. 预测蛋白质的物理性质
从蛋白质序列出发,可以预测出蛋白质的许多物理性质,包括等电点、分子量、酶切特性、疏水性、电荷分布等。相关工具有:
Compute pI/MW:是ExPASy工具包中的程序,计算蛋白质的等电点和分子量。对于碱性蛋白质,计算出的等电点可能不准确。
PeptideMass:是ExPASy工具包中的程序,分析蛋白质在各种蛋白酶和化学试剂处理后的内切产物。蛋白酶和化学试剂包括胰蛋白酶、糜蛋白酶、LysC、溴化氰、ArgC、AspN和GluC等。
TGREASE:是FASTA工具包中的程序,分析蛋白质序列的疏水性。这个程序延序列计算每个残基位点的移动平均疏水性,并给出疏水性-序列曲线,用这个程序可以发现膜蛋白的跨膜区和高疏水性区的明显相关性。
SAPS:蛋白质序列统计分析,对提交的序列给出大量全面的分析数据,包括氨基酸组成统计、电荷分布分析、电荷聚集区域、高度疏水区域、跨膜区段等等。
ExPASy的网址是:。
SAPS的网址是:。
3. 蛋白质二级结构预测
二级结构是指&螺旋和&折叠等规则的蛋白质局部结构元件。不同的氨基酸残基对于形成不同的二级结构元件具有不同的倾向性。按蛋白质中二级结构的成分可以把球形蛋白分为全&蛋白、全&蛋白、&+&蛋白和&/&蛋白等四个折叠类型。预测蛋白质二级结构的算法大多以已知三维结构和二级结构的蛋白质为依据,用过人工神经网络、遗传算法等技术构建预测方法。还有将多种预测方法结合起来,获得&一致序列&。总的来说,二级结构预测仍是未能完全解决的问题,一般对于&螺旋预测精度较好,对&折叠差些,而对除&螺旋和&折叠等之外的无规则二级结构则效果很差。
nnPredict:用神经网络方法预测二级结构,蛋白质结构类型分为全&蛋白、全&蛋白和&/&蛋白,输出结果包括&H&(螺旋)、&E&(折叠)和&-&(转角)。这个方法对全&蛋白能达到79%的准确率。
PredictProtein:提供了序列搜索和结构预测服务。它先在SWISS-PROT中搜索相似序列,用MaxHom算法构建多序列比对的profile,再在数据库中搜索相似的profile,然后用一套PHD程序来预测相应的结构特征,包括二级结构。返回的结果包含大量预测过程中产生的信息,还包含每个残基位点的预测可信度。这个方法的平均预测准确率达到72%。
SOPMA:带比对的自优化预测方法,将几种独立二级结构预测方法汇集成&一致预测结果&,采用的二级结构预测方法包括GOR方法、Levin同源预测方法、双重预测方法、PHD方法和SOPMA方法。多种方法的综合应用平均效果比单个方法更好。
nnPredict的网址是:。
PredictProtein的网址是:。
PredictProtein的国内镜像在:。
SOPMA的网址是:。
4. 其它特殊局部结构
其它特殊局部结构包括膜蛋白的跨膜螺旋、信号肽、卷曲螺旋(Coiled Coils)等,具有明显的序列特征和结构特征,也可以用计算方法加以预测。
COILS:卷曲螺旋预测方法,将序列与已知的平行双链卷曲螺旋数据库进行比较,得到相似性得分,并据此算出序列形成卷曲螺旋的概率。
TMpred:预测蛋白质的跨膜区段和在膜上的取向,它根据来自SWISS-PROT的跨膜蛋白数据库Tmbase,利用跨膜结构区段的数量、位置以及侧翼信息,通过加权打分进行预测。
SignalP:预测蛋白质序列中信号肽的剪切位点。
COILS的网址是:。
TMpred的网址是:。
SignalP的网址是:。
5. 蛋白质的三维结构
蛋白质三维结构预测时最复杂和最困难的预测技术。研究发现,序列差异较大的蛋白质序列也可能折叠成类似的三维构象,自然界里的蛋白质结构骨架的多样性远少于蛋白质序列的多样性。由于蛋白质的折叠过程仍然不十分明了,从理论上解决蛋白质折叠的问题还有待进一步的科学发展,但也有了一些有一定作用的三维结构预测方法。最常见的是&同源模建&和&Threading&方法。前者先在蛋白质结构数据库中寻找未知结构蛋白的同源伙伴,再利用一定计算方法把同源蛋白的结构优化构建出预测的结果。后者将序列&穿&入已知的各种蛋白质的折叠子骨架内,计算出未知结构序列折叠成各种已知折叠子的可能性,由此为预测序列分配最合适的折叠子结构。除了&Threading&方法之外,用PSI-BLAST方法也可以把查询序列分配到合适的蛋白质折叠家族,实际应用中发现这个方法的效果也不错。
SWISS-MODEL:自动蛋白质同源模建服务器,有两个工作模式:第一步模式(First Approach mode)和优化模式(Optimise mode)。程序先把提交的序列在ExPdb晶体图像数据库中搜索相似性足够高的同源序列,建立最初的原子模型,再对这个模型进行优化产生预测的结构模型。
CPHmodels:也是利用神经网络进行同源模建预测蛋白质结构的方法。
SWISS-MODEL的网址是:。
CPHmodels的网址是:。
5 分子进化
分子进化钟的发现与中性理论的提出,极大地推动了进化尤其是分子进化研究,填补了人们对分子进化即微观进化认识上的空白,推动进化论的研究进入分子水平,并建立了一套依赖于核酸、蛋白质序列信息的理论方法。分子进化研究有助于进一步阐明物种进化的分子基础,探索基因起源机制,从基因进化的角度研究基因序列与功能的关系。
5.1 分子进化钟与中性理论
60年代早期&分子进化钟&的发现与60年代末期&中性理论&的提出是本世纪进化学的重大事件,是古老的进化学与新生的分子生物学两者&杂交&的产物。它们的相继问世极大地推动了进化尤其是分子进化研究,填补了人们对分子进化即微观进化认识上的空白,并在生物医学等领域产生了广泛影响。
随着不同生物来源的大量蛋白质序列的确定,Zucherkandl等发现:某一蛋白在不同物种间的取代数与所研究物种间的分歧时间接近正线性关系,进而将分子水平的这种恒速变异称为&分子钟&。
支持进化钟存在的证据来自哺乳动物与其它脊椎动物诸如血清白蛋与转铁蛋白等的免疫学(如微量补体固定)定量比较。人们发现多肽间的免疫距离(如抗原性)与其氨基酸取代百分数成良好的线性相关,如鸟溶菌酶、哺乳动物RNase、细胞色素C与白蛋白、大肠杆菌色氨酸合成酶等。虽然这种相关性的分子基础尚不清楚,但这种客观存在经过反复验证后是不容置疑的。免抗血清由此成为初步估算球形单体蛋白间序列差异的有效工具,但其适用范围0-30%的氨基酸差异。
自从进化钟假设提出之后,存在许多反驳它的相反事实与异议。这些异议主要针对序列进化的恒速。分子进化钟的最明显的例外之一是分子序列证据与化石证据在人类起源时间上的差异。60年代中期,许多人类学家认为人类在3000年前与我们最近的亲属-- 非洲猿分歧。根据分子钟假设,分歧3000万年的物种氨基酸序列差异的应达4-5%、非重复序列DNA差异应约为8%,但实测值分别为0.8%与1.1%。对这种6倍左右的差别有两种解释。许多人类学家倾向于怀疑钟的存在,并认为在高等灵长类中分子进化速率下降。总之,虽然大部分分子进化学家同意序列进化与分歧时间密相关,但进化是以年限还是以代限为刻度则仍有分歧与争议;而且因为纵多因素的影响,与进化钟相左的数据,无论是用氨基酸、核苷酸序列差异、免疫学距离,还是用DNA杂交复性等参数,均不断有所报道,其论争预计将继续下去。
. 自从60年代初发现分子进化钟--&分子进化速率在不同种系中恒定&以来,人们又陆续发现蛋白质中氨基酸的置换是随机而非模式性的;DNA在哺乳动物种系的总变异速率远远高于形态上的变异速率并远远超出人们的预期的大于0.5核苷酸/ 基因组/ 年;蛋白质电泳表明物种内存在大量的变异即广泛的种内多态性,且这些多态性并无可见的表型效应,与环境条件亦无明显相关。以上这些都是新达尔文主义与综合进化理论所难以解释的。
面对上述问题,日本群体遗传学家木村资生(Motoo Kimura)提出:(1) 进化过程中的核苷酸置换其绝大部分是中性或近似中性的突变随机固定的结果而不是正向达尔文选择的结果:(2) 许多蛋白质多态性必须在选择上为中性或近中性,并在群体中由突变引入与随机灭绝间两者的平衡维持。
上述论著问世遭遇到经典进化学家的强烈批判。他们认为新的分子生物学数据完全可以用新达尔文主义的原理来解释。直至现在,选择论者与中性论者的议争仍在继续。这两大学派的本质区别可通过它们各自对突变基因如何在物种内置换老基因这一进化过程的不同解释来洞悉。每一置换刚出现时在群体内均为稀有的突变等位基因,随后扩散至个群体并被固定,即频率达100%。选择论者认为:一个突变的等位基因在物种内扩散,就必需具有某些选择上的优势,如在选择上为中性,就必需与一选择上具优势的基因紧密连锁,通过&搭车&而达到较高频率。与此相反,中性论者认为:一些突变在没有任何选择优势的情况下也能自身在群体中扩散。如果一突变体在选择上等同于已存在的等位基因,其命运将取决于机会-随机,其频率存在上下起伏,因为在每代每一雌、雄个体所生的大量配子中只有很少数配子最终被&采用&以形成合子以及相应的个体,并出现在下一代中。在这种随机漂变(random drift)中,绝大部分突变等位基因随机丢失,但有一少部分在群体中被固定下来。如果中性突变在分子水平上普遍存在,且随机漂变在很长时间(如百万年)一直延续,群体的遗传组成将发生显著性改变。群体中出现的任何中性突变其最终固定的概率都等于其原始频率,其固定的平均时间四倍于有效群体的大小(它近似等于每一代参与繁殖的个体数,通常远小于物种的个体总数)。中性理论并非认为中性基因无功能,而仅是认为不同的等位基因在促进个体的生存与生殖方面是有等同的效果。此外,还需强调个体基因突变与群体基因置换的差别,因为只有后者才与分子进化相关。
自Zuckerkandl与Pauling的早期工作以来,已经知道在蛋白质进化中结构和化学性质上相似的氨基酸间的替换比不相似间的替换更为频繁。他们认为,这种&保守的&的替换看来只造成分子功能的微小改变,因而更容易&被自然选择接受&。同时他们指出,关于氨基酸残基的最重要性质是什么,&化学家和生物学家间显然没有同样的见解&。从中性学说的立场看,保守替换的性质,只需注意到两种氨基酸间的差异越小,它们等于选择等价而不是突变有害的概率就越大,就很容易加以解释。因此,选择上呈中性的替换在得类似的氨基酸间则概率越高,而这类氨基酸的进化替换由于随机遗传漂变则出现得更为频繁。
在阐明分子进化中突变型替换的保守性的同时,有越来越多的证据表明,功能上较不重要的分子或某一分子较不重要的部分,其进化(以突变型替换表示)比那些较重要的要快些。中性论和选择论间的差别,在它们对快速进化的分子(如血纤蛋白肽)或分子的某部分(如胰岛素原的C肽)进行解释时,可以最清楚地看出,按中性学说解释,它们在功能上不重要,因而大多数突变是中性的,突变通过随机漂变而迅速积累。另一方,选择论的解释是,快速进化的分子或分子的某部分或许有某些尚不知道的功能,并且通过积累许多由正达尔文选择产生的较微有利的突变,而经历了迅速的适应性方面的改善。这两种解释那一种更为恰当还有待积累更多数据以后才能判定。为了加深我们对分子进化机制的理解,很有必要研究突变型替换的模式与分子的三级结构和功能的相互关系。
综上,中性学说(或者更确切地说是中性突变-随机漂变假说)是分子生物学与群体遗传学交融的产物。它不象传统的综合理论(或新达尔文派的观点),它明确主张:进化中大多数突变型的置换,不是由于正达尔文选择,而是由选择上呈中性或近中性的突变型的随机固定所致。它还断言,分子水平上大多数种内遗传多态性,象以蛋白质多态性形式展现出来的那样,是选择上呈中性或近中性的,并靠着突变输入和等位基因的随机清除或固定这两者之间的平衡而在物种中维持。应该说,这一理论对于人们所认识的分子进化众多现象与规律的阐释比新达尔文更为科学,且提出的多项预测被随后的实验研究所证实。问题是,它作为一种更基本层次-分子水平的进化理论未能给更高层次的进化提供理性阐释与描写。中性论者过多地注目于与功能无关的分子进化,而忽视了与功能相关的分子进化现象与规律的探索,这恐怕是中性理论之所以能问世,但同时又先天性地带上无视宏观进化,对宏观进化束手无策这一天然缺陷的症结所在。
5.2 进化树
分子钟的发现对于进化研究具有十分重要的意义。它不仅能用于粗略估计不同类群生物间的进化时间,亦可用于构建进化树。实际上,分子钟发现不久,蛋白质序列分析即被广泛用于生物的长时进化研究。
根据蛋白质的序列或结构差异关系可构建分子进化树(evolutionary tree)或种系发生树(phylogenetic tree)。进化树给出分支层次或拓扑图形,它是产生新的基因复制或享有共同祖先的生物体的歧异点的一种反映,树枝的长度反映当这些事件发生时就存在的蛋白质与现在的蛋白质之间的进化距离。根据进化树不仅可以研究从单细胞有机体到多细胞有机体的生物进化过程,而且可以粗略估计现存的各类种属生物的分歧时间。通过蛋白质的分子进化树分析,为从分子水平研究物种进化提供了新的手段,可以比较精确的确定某物种的进化地位。对于物种分类问题,蛋白质的分子进化树亦可作为一个重要的依据。
构建进化树的方法包括两种:一类是序列类似性比较,主要是基于氨基酸相对突变率矩阵(常用PAM250)计算不同序列差异性积分作为它们的差异性量度(序列进化树);另一类在难以通过序列比较构建序列进化树的情况下,通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树。
序列进化树
构建序列进化树的主要步骤是比对,建立取代模型,建立进化树以及进化树评估。
1.建立数据模型(比对)
建立一个比对模型的基本步骤包括:选择合适的比对程序;然后从比对结果中提取系统发育的数据集,至于如何提取有效数据,取决于所选择的建树程序如何处理容易引起歧义的比对区域和插入/删除序列(即所谓的indel状态或者空位状态)。
一个典型的比对过程包括:首先应用CLUSTALW程序,然后进行手工比对,最后提交给一个建树程序。这个过程有如下特征选项:(1)部分依赖于计算机(也就是说,需要手工调整);(2)需要一个先验的系统发育标准(即需要一个前导树);(3)使用先验评估方法和动态评估方法(推荐)对比对参数进行评估;(4)对基本结构(序列)进行比对(对于亲水氨基酸,推荐引入部分二级结构特征);(5)应用非统计数学优化。这些特征选项的取舍依赖于系统发育分析方法。
2.决定取代模型
取代模型既影响比对,也影响建树;因此需要采用递归方法。对于核酸数据而言,可以通过取代模型中的两个要素进行计算机评估,但是对于氨基酸和密码子数据而言,没有什么评估方案。其中一个要素是碱基之间相互取代的模型;另外一个要素是序列中不同位点的所有取代的相对速率。还没有一种简单的计算机程序可以对较复杂的变量(比如,位点特异性或者系统特异性取代模型)进行评估,同样,现有的建树软件也不可能理解这些复杂变量。
3.建树方法
三种主要的建树方法分别是距离、最大节约(maximum parsimony, MP)和最大似然(maximum likelihood,ML)。最大似然方法考察数据组中序列的多重比对结果,优化出拥有一定拓扑结构和树枝长度的进化树,这个进化树能够以最大的概率导致考察的多重比对结果。距离树考察数据组中所有序列的两两比对结果,通过序列两两之间的差异决定进化树的拓扑结构和树枝长度。最大节约方法考察数据组中序列的多重比对结果,优化出的进化树能够利用最少的离散步骤去解释多重比对中的碱基差异。
距离方阵方法简单的计算两个序列的差异数量。这个数量被看作进化距离,而其准确大小依赖于进化模型的选择。然后运行一个聚类算法,从最相似(也就是说,两者之间的距离最短)的序列开始,通过距离值方阵计算出实际的进化树,或者通过将总的树枝长度最小化而优化出进化树。用最大节约方法搜索进化树的原理是要求用最小的改变来解释所要研究的分类群之间的观察到的差异。最大似然方法评估所选定的进化模型能够产生实际观察到的数据的可能性。进化模型可能只是简单地假定所有核苷酸(或者氨基酸)之间相互转变的概率一样。程序会把所有可能的核苷酸轮流置于进化树的内部节点上,并且计算每一个这样的序列产生实际数据的可能性(如果两个姐妹分类群都有核苷酸&A&,那么,如果假定原先的核苷酸是&C&,得到现在的&A&的可能性比起假定原先就是&A&的可能性要小得多)。所有可能的再现(不仅仅是比较可能的再现)的几率被加总,产生一个特定位点的似然值,然后这个数据集的所有比对位点的似然值的加和就是整个进化树的似然值。
4.进化树搜索
单一的进化树的数量会随着分类群数量的增长而呈指数增长,从而变为一个天文数字。由于计算能力的限制,现在一般只允许对很小一部分的可能的进化树进行搜索。具体的数目主要依赖于分类群的数量、优化标准、参数设定、数据结构、计算机硬件以及计算机软件。
有两种搜索方法保证可以找到最优化的进化树:穷举法和树枝�跳跃法(BB)。对于一个很大的数据集,这两种方法都很不实用。对分类群数量的限制主要取决于数据结构和计算机速度,但是对于超过20个分类群的数据集,BB方法很少会得到应用。穷举法要根据优化标准,对每一个可能的进化树进行评估。BB方法提供一个逻辑方法,以确定那些进化树值得评估,而另一些进化树可被简单屏蔽。因此BB方法通常要比穷举法快得多。
绝大多数分析方法都使用&启发式&的搜索。启发式现搜索出相近的次优化的进化树家族(&岛屿&),然后从中得到优化解(&山顶&)。不同的算法用不同程度的精确性搜索这些岛屿和山顶。最彻底也是最慢的程序(TBR,tree bisection-reconnection,进化树对分重接)先把进化树在每一个内部树枝处劈开,然后以任意方式将劈开的碎片重新组合起来。最快的算法只是检查一下相邻终端的不太重要的重新组合,因此倾向于找到最近的岛屿的山顶。
降低搜索代价的最好方法是对数据集进行剪除。影响优化搜索策略选择的因素(数据量,数据结构,时间量,硬件,分析目的)太复杂,无法推荐一个简单可行的处方。因此进行搜索的用户必须对数据非常熟悉且有明确的目标,了解各种各样的搜索程序及自己硬件设备和软件的能力。
除上述当前应用最广的方法外,还有大量的建立和搜索进化树的其它方法。这些方法包括Wagner距离方法和亲近方法(距离转化方法);Lake的不变式方法(一个基于特征符的方法,它选择的拓扑结构包含一个意义重大的正数以支持颠换);Hadamard结合方法(一个精细的代数方阵方法,对距离数据或者观察到的特征符进行修正);裂解方法(这个方法决定在数据中应该支持哪一个基于距离的可选的拓扑结构);四重奏迷惑(Quartet puzzling)方法可以为ML建树方法所应用,这个算法相对而言是个较快的进化树搜索算法。
5.确定树根
上述的建树方法所产生的都是无根树(进化树没有进化的极性)。为了评估进化假说,通常必须要确定进化树的树根。确定系统发育进化树的树根并不简单问题。一种确定树根的好方法就是分析时加入一个复制的基因。如果来自绝大多数物种或者所有物种的所有的平行基因在分析时都被包含进去,那么从逻辑上我们就可以把进化树的树根定位于平行基因进化树的交汇处,当然要假定在所有进化树中都没有长树枝问题。
6.评估进化树和数据
现在已经有一些程序可以用来评估数据中的系统发育信号和进化树的健壮性。对于前者,最流行的方法是用数据信号和随机数据作对比实验(偏斜和排列实验);对于后者,可以对观察到的数据重新取样,进行进化树的支持实验(非参数自引导和对折方法)。似然比例实验可以对取代模型和进化树都进行评估。
5.3结构进化树
随着X-ray、NMR等实验技术的的进步,蛋白质结构数据的数量日益增多,结构精度也越来越高,使得结构比较更为可行。目前已经发现许多蛋白的一级序列差异很大,难以通过序列比对进行分子进化的研究,但它们的空间拓扑结构仍然很相似,可以进行结构叠合比较、分析它们之间的进化关系,这表明结构比较可以比序列比较获得更多更精确的结构信息。研究发现蛋白质结构比序列的保守性更强,进化过程中蛋白质序列可能发生变化,但它的折叠模式更为保守,即使是70%的序列发生变化,它的折叠模式也不会有很大的改变[1]。蛋白质分子的结构比较与蛋白质一级序列比较法相比,具有更高的优越性。
目前有关蛋白质结构比较的研究方法很多,主要有刚体结构叠合比较、多特征的结构比较等方法。前者用比较后确定的拓扑等价位点的个数或等价位点C&原子距离的均方根值作为不同结构间差异性的量度(结构进化树);后者用蛋白质结构的多项特征如残基的物理特性、残基的空间倾向性、主侧链的方向、主链的二面角、二级结构类型和主侧链的可接近性等综合指标作为结构的差异性量度,有时称此类方法构建的结构进化树为&类结构&进化树。
刚体叠合所构建的进化树适用于同源蛋白质结构预测的骨架结构的选择,基于序列的进化树便于描述类似性较大的蛋白质的进化关系,而结构的多特征比较则适用于分析分歧较大的蛋白质结构。
1.刚体结构叠合比较
当已知2个以上同源蛋白质的晶体结构时,可将每两套结构的原子坐标进行最佳叠合,确定类似结构中完整的一套残基等价位点,并使等价位点间的距离平方和最小,这样便得到各结构的拓扑等价区。通常将结构简化为一系列C&位置,等价位点被定义为在重叠结构中位于某个特定距离范围(不大于3埃)之内的C&原子。通过计算不同结构等价位点的个数或计算多个结构的等价位点C&距离的均方根值作为不同结构间差异性的度量。再根据一般的建树方法,给出几个结构的进化关系。
刚体结构叠合方法需要蛋白质的晶体结构数据的质量要高。事实上,相对于序列而言,已测定的蛋白质晶体结构很少,许多同源蛋白质的结构并不知道。其次,尽管同源蛋白质具有相同的折叠结构,它们的二级结构成分则经历形变、相对平移和旋转使侧链达到优化的包装以适应进化的压力。对于序列相同率为30%的两个蛋白质,由刚体叠合所确定的拓扑等残基的均方根差大约为1.5埃,而且残基数可能只占全部残基数的1/3。它可能不足以进行结构比较。因此需要发展一种更灵活的确定拓扑等价位点的方法,并且要把二级结构成分的相对运动和变形也考虑进去。
2.多特征结构比较
多特征结构比较以及构建&类结构&进化树的原理与基于残基匹配记分方法(常用PAM250矩阵)进行多序列比较和构建序列进化树的原理相同。包括以下步骤:(1)动态规划配准和结构匹配;(2)多个结构的多特征比较;(3)多特征结构比较的距离量度;(4)绘制进化树图。
PHYLIP是一个包含了大约30个程序的软件包,这些程序基本上囊括了系统发育的所有方面。PHYLIP是免费软件,并且可以在很多平台上运行(Mac, DOS, Unix, VAX/VMS, 及其它)。PHYLIP目前已经是最广泛使用的系统发育程序。
开发PAUP的目的是为系统发育分析提供一个简单的,带有菜单界面的,与平台无关的,拥有多种功能(包括进化树图)的程序。PAUP 3.0只建立于MP相关的进化树及其分析功能;而PAUP 4.0已经可以针对核苷酸数据进行与距离方法和ML方法相关的分析功能,以及其它一些特色。
除了PAUP和PHYLIP以外,还有其它一些系统发育程序,这些程序包括FastDNAml, MACCLADE, MEGA plus METREE, MOLPHY和PAML。
PHYLOGENETIC RESOURCES
PHYLOGENY PROGRAMS
PHYLOGENETIC ANALYSIS COMPUTER PROGRAMS
BIOCATALOG MOLECULAR EVOLUTION http://www.ebi.ac.uk:/biocat/phylogeny.html
6 基因组序列信息分析
DNA序列自身编码特征的分析是基因组信息学研究的基础,特别是随着大规模测序的日益增加,它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系在一起。
基因组不仅是基因的简单排列,更重要的是它有其特有的组织结构和信息结构,这种结构是在长期的演化过程中产生的,也是基因发挥其功能所必须的。利用国际EST 数据库 (dbEST) 和各实验室测定的相应数据,经过大规模并行计算识别并预测新基因,新SNPs以及各种功能位点,如剪接与可变剪接位点等。
到1998年底在人类的约10万个基因中有3万多个已被发现,尚有约7万个未被发现。由于新基因带来的显著经济效益和社会效益,它们成为了各国科学家当前争夺的热点。EST序列 (Expressed Sequence Tags) 到1999年12月已搜集了约200万条,它大约覆盖了人类基因的 90%,因此如何利用这些信息发现新基因成了近几年的重要研究课题。同时1998年国际上又开展了以EST为主发现新SNPs的研究。因此利用EST数据库发现新基因、新SNPs以及各种功能位点是近几年的重要研究方向。
虽然对约占人类基因组 95%的非编码区的作用人们还不清楚,但从生物进化的观点看来,这部分序列必定具有重要的生物功能。普遍的认识是,它们与基因在四维时空的表达调控有关。寻找这些区域的编码特征,信息调节与表达规律是未来相当长时间内的热点,是取得重要成果的源泉。
在不同物种、不同进化水平的生物的相关基因之间进行比较分析,是基因研究的重要手段。目前,模式生物全基因组序列数据越来越多,因此,基因的比较研究,也必须从基因的比较,上升到对不同进化水平的生物在全基因组水平上的比较研究。这样的研究将更有效地揭示基因在生命系统中的地位和作用,解释整个生命系统的组成和作用方式。
6.1 基因组序列分析工具
1. Wisconsin软件包(GCG)
Genetics Computer Group公司开发的Wisconsin软件包,是一组综合性的序列分析程序,使用公用的核酸和蛋白质数据库。SeqLab是其图形用户界面(GUI),通过它可以使用所有Wisconsin软件包中的程序及其支持的数据库。此外,它还提供了一个环境用于创建、显示、编辑和注释序列。SeqLab也可以被扩展使其可以包括其它公用或非公用的程序和数据库。
Wisconsin软件包由120多个独立的程序组成,每个程序进行一项单一的分析任务。包括所有程序的完整目录以及详细的描述可以在Wisconsin软件包的程序使用文档中找到。GCG支持两种核酸数据库(GenBank数据库, 简化}

我要回帖

更多关于 基因 独立分配 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信