蛋白质结构预测及方法介绍2

2011/11/14 15:38:57

7.2.7 综合方法

在实际进行蛋白质二级结构预测时,往往会综合应用各种分析方法和相关数据。综合方法不仅包括各种预测方法的综合,而且也包括结构实验结果、序列对比结果、蛋白质结构分类预测结果等信息的综合。

实际应用中最常见的综合方法是同时使用多个软件进行预测,通过分析各个软件的特点以及各个软件预测结果,最终形成二级结构一致性的预测结果。将序列比对与二级结构预测相结合也是一种常见的综合方法。

双重预测是另一类综合方法,该方法首先预测蛋白质的结构类型,然后根据不同结构类型蛋白质的二级结构形成规律预测新蛋白质的二级结构,并根据结构类型解释预测结果。

就像a 螺旋和b折叠片的位置可以预测出来一样,其它特定的结构或结构特征,如卷曲螺旋和跨膜区也可以预测出来。但这类预测的方法没有二级结构预测方法多,主要是由于这些结构或结构特征的折叠规律尚不十分清楚。尽管如此,若待预测序列在已知结构数据库中能搜索到相似蛋白,则可以提高预测的准确性。

早期人们建立的多种二级结构的预测方法,都是建立在假定蛋白质的二级结构主要是由局部氨基酸所决定,准确率都不超过65%。随着蛋白质进化信息、长程相互作用信息及全局信息的加入,蛋白质二级结构预测的准确率有了较大的提高。由于序列信息和结构信息的不断增长,通过统计得到的蛋白质序列与二级结构关系及规律更加全面,同时也由于预测方法的不断改进,使得蛋白质二级结构预测的准确率也在不断地提高,预测二级结构的准确率已经可以达到80%以上。一般认为,如果蛋白质二级结构预测准确率足够高的话,就可以基本准确地预测一个蛋白质分子的三维空间结构。但目前所取得的成果还难以达到这一目标。虽然二级结构的预测准确率还不能满足准确推测蛋白质分子三维空间结构的要求,但其预测结果仍能提供许多有用的结构信息,尤其当蛋白质的结构尚未解出时更是如此。通过对多种预测结果的综合分析,再结合光谱实验数据,往往可以提高预测的准确度。由于二级结构预测很好地反映了局域序列片段的结构倾向性,因此在进行全新蛋白质设计时,常根据二级结构预测结果来设计二级结构单元。

7.2.8 氨基酸残基之间的距离

只要给出所有残基之间的距离,就可以利用距离几何或分子动力学方法构建蛋白质的三维结构,这是核磁共振NMR测定分子三维结构的一般方法。那么,就蛋白质结构而言,是否能够得到残基之间的距离呢?显然,根据残基间氢键模式可以确定一部分螺旋和折叠的距离。因此成功的二级结构预测预示着可以得到一部分残基间的距离。然而需要注意的是这些距离仅仅是短程距离,是关于序列中相邻残基间的距离。若用距离几何的方法推测三维结构,还进一步得到关于长程距离的信息。目前预测长程距离的方法还比较少,有两个问题是这类方法所关心的重点,一是这些方法平均预测准确率是多少,二是是否所有主要的距离都被预测出来了。

7.3 RNA二级结构的预测

就核酸分子结构而言,DNA具有双螺旋结构,而RNA是单链结构。单链RNA的三维结构是由它的核苷酸序列决定的,这与蛋白质的结构由蛋白质的序列决定相类似。但是,RNA的结构并没有蛋白质的结构那么复杂。

RNA的结构可以分为三个层次,即一级结构、二级结构和空间结构。一级结构就是RNA的序列。二级结构是通过碱基互补配对而形成的,碱基对之间的氢键以及它们形成的螺旋堆积力起着稳定结构的作用,降低自由能。RNA的二级结构单元与蛋白质的二级结构单元很不一样。但在单链RNA中,由于配对的碱基出现在单个RNA分子中,因此就会形成碱基配对的茎区(stem region)。在RNA链中,为了形成这种碱基配对,需要反转链的方向,于是在反转处就会形成一个发夹环。如果RNA链上有很少的碱基没有相对应的互补碱基,那么就会形成一个小的突出部分或者形成一个较大的环状区(loop),即内环或者膨胀环。发夹环一般位于茎的末端,而内环或膨胀环使茎中断。图7.6是一个RNA的二级结构示意图,其中包括茎、发夹环、内环、膨胀环连续碱基配对等。

当RNA分子折叠时,有些碱基相互配对,形成螺旋区域或茎,这部分碱基具有负的自由能;而其它非互补的碱基处于自由态,形成单链或环,这部分碱基的自由能为正值。环区的存在使RNA分子的自由能升高,结构的稳定性减弱。因此,预测RNA二级结构的一种直接的方法是寻找最大数目的碱基配对。

通过确定常见RNA二级结构单元的位置,我们能够比较好地预测出RNA的结构。但是,伪结(pseudo knot)是RNA二级结构预测中最难预测的一种二级结构。在形成伪结的地方,环状区域内的碱基与环状区域外的碱基相互配对。由于伪结的预测比较困难,因此,许多早期的二级结构预测算法完全不考虑伪结,这些算法是在忽略伪结区域存在的前提下预测其它二级结构单元的。

20111114-153857-0001

可以用点矩阵作图的方法来寻找最大配对。将RNA的碱基序列顺序地排布在X轴上,对于配对的碱基在Y轴相同的位置打上点标记。设RNA序列的长度为n,根据序列建立一个n×n的矩阵R,如果第i个碱基与第j个碱基配对(如AÛU、GÛC),则 R[i,j]=1,否则为0。根据所得到的点矩阵图,可以找出最大配对。当然,这是一种非常简单粗糙的方法。

目前RNA二级结构预测有两种主要的方法,一是基于序列比较的方法,另一种方法是能量最小化方法。基于序列比较的方法主要是通过多重序列比对,根据相似序列具有相似结构的原理进行二级结构预测。

能量最小化方法在预测RNA分子二级结构时,试图对RNA折叠的自由能进行最小化,进而搜索最稳定的结构。该方法通过各种能量优化方法或者分子动力学计算评价所有可能配对的能量,进而发现具有最小能量的结构。Zuker的Mfold程序是使用较多的程序包之一,它就是通过一系列的最近邻能量规则(nearest neighbor energy rules)来计算一个结构的能量。由于在这种方法中RNA结构被分成了许多相互作用的区域来进行评估,而能量计算时仅仅计算那些被认为有可能产生相互作用的“邻居”碱基对之间的能量,因此这些规则被称为“最近邻”规则。最近邻能量规则认为:在标为环区的区域内的所有碱基都有相互作用的可能,因此在计算这个结构的能量时就必须考虑这一环区内的所有的碱基对的能量。但在不考虑会出现伪结时,由于环区外的碱基与环区内的任一碱基都不会构成碱基对,因此在最近邻规则下就不考虑外区内的碱基和环区内的碱基之间的碱基对作用。由于不需要考虑位于不同区的碱基间的相互作用,计算的速度就得到了比较大的提高。

由于不考虑伪结,可以假设RNA二级结构总的自由能是所有结构元素(配对碱基、环)的自由能的总和,并且各个结构元素的自由能相互独立。这意味着在计算RNA二级结构自由能的时候,只要分别计算各个结构元素的自由能,然后加和,形成总的自由能。通过实验可以确定各结构元素的自由能函数。典型的自由能函数包括两个连续碱基对si与sj、si+1与sj-1所形成的自由能,由碱基si和sj界定的发夹环的自由能,由两对碱基si与sj、si’与sj’所界定内环的自由能。

基于自由能的二级结构预测的目标就是搜索一个合适的构象,使得在这种构象下总的自由能最小。这是一个优化问题,对于这个问题可用动态规划技术解决。

RNA是一种重要的生物大分子。RNA是DNA和蛋白质之间的一个中间语言,因此RNA二级结构的准确预测对于了解基因调控和蛋白质产物的表达具有重要的作用。另外,已经发现许多RNA本身具有酶的催化特性。现在,这些具有酶的催化特性的RNA被称为核酶(ribozyme),它们在tRNA分子的剪接、核糖体的活性以及真核生物hnRNA的处理中具有一定的作用。同时,它们还具有其它一些功能。总而言之,认识RNA的结构对于了解RNA的功能及其作用机制是非常重要的。

7.4 蛋白质空间结构预测

生物信息学研究的一个主要目标是了解蛋白质序列与三维结构的关系,但是序列与结构之间的关系是非常复杂的。人们已经掌握了一些蛋白质序列与二级结构之间的关系,但是对于蛋白质序列与空间结构之间的关系了解得比较少。预测蛋白质的二级结构只是预测折叠蛋白的三维形状的第一步。一些结构不是很规则的环状区域与蛋白质的二级结构单元共同堆砌成一个紧密的球状天然结构。生物化学研究中一个活跃领域就是了解引起蛋白折叠的各种力。在蛋白质折叠过程中一系列不同的力都起到了重要作用,包括疏水作用、静电力、氢键和范德华力。疏水作用是影响蛋白质结构的重要因素。半胱氨酸之间共价键的形成在决定蛋白构象中也起了决定性的作用。在一类称为伴侣蛋白的特殊蛋白质作用的情况下,蛋白折叠问题变得更复杂。伴侣蛋白通过一些未知的方式改变蛋白质的结构,但这些改变方式是很重要的。

7.4.1 同源模型化方法

同源模型化方法是蛋白质三维结构预测的主要方法。对蛋白质数据库PDB分析可以得到这样的结论:任何一对蛋白质,如果两者的序列等同部分超过30%(序列比对长度大于80),则它们具有相似的三维结构,即两个蛋白质的基本折叠相同,只是在非螺旋和非折叠片层区域的一些细节部分有所不同。蛋白质的结构比蛋白质的序列更保守,如果两个蛋白质的氨基酸序列有50%相同,那么约有90%的a碳原子的位置偏差不超过3 Å。这是同源模型化方法在结构预测方面成功的保证。同源模型化方法的主要思想是:对于一个未知结构的蛋白质,首先通过序列同源分析找到一个已知结构的同源蛋白质,然后,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。这里的前提是必须要有一个已知结构的同源蛋白质。这个工作可以通过搜索蛋白质结构数据库来完成,如搜索PDB。同源模型化方法是目前一种比较成功的蛋白质三维结构预测方法。从上述方法介绍也可以看出,预测新结构是借助于已知结构的模板而进行的,选择不同的同源的蛋白质,则可能得到不同的模板,因此最终得到的预测结果并不唯一。假设待预测三维结构的目标蛋白质为U(Unknown),利用同源模型化方法建立结构模型的过程包括下述6个步骤:

(1) 搜索结构模型的模板(T)。同源模型化方法假设两个同源的蛋白质具有相同的骨架。为待预测的蛋白质建立模型时,首先按照同源蛋白质的结构建立模板T。所谓模板是一个已知结构的蛋白质,该蛋白质与目标蛋白质U的序列非常相似。如果找不到这样的模板,则无法运用同源模型法。 (2) 序列比对。将目标蛋白质U的序列与模板蛋白质T的序列进行比对,使U的氨基酸残基与模板蛋白质的残基匹配。比对中允许插入和删除操作。 (3) 建立骨架。将模板结构的坐标拷贝到目标U,仅拷贝匹配残基的坐标。在一般情况下,通过这一步建立目标蛋白质U的骨架。 (4) 构建目标蛋白质的侧链。可以将模板相同残基的坐标直接作为目标蛋白质的残基坐标,但是对于不完全匹配的残基,其侧链构象是不同的,需要进一步预测。侧链坐标的预测通常采用已知结构的经验数据,如ROTAMERS 数据库的经验结构数据。ROTAMERS含有所有已知结构蛋白质中的侧链取向,按下述过程来使用ROTAMER:从数据库中提取ROTAMER分布信息,取一定长度的氨基酸片段(对于螺旋和折叠取7个残基,其它取5个残基);在U的骨架上平移等长的片段,从ROTAMER库中找出那些中心氨基酸与平移片段中心相同的片段,并且两者的局部骨架要求尽可能相同,在此基础上从数据库中取局部结构数据。 (5) 构建目标蛋白质的环区。在第2步的序列比对中,可能加入空位,这些区域常常对应于二级结构元素之间的环区,对于环区需要另外建立模型。一般也是采用经验性方法,从已知结构的蛋白质中寻找一个最优的环区,拷贝其结构数据。如果找不到相应的环区,则需要用其它方法。 (6) 优化模型。通过上述过程为目标蛋白质U建立了一个初步的结构模型,在这个模型中可能存在一些不相容的空间坐标,因此需要进行改进和优化,如利用分子力学、分子动力学、模拟退火等方法进行结构优化。

当然,如果能够找到一系列与目标蛋白相近的蛋白质的结构,得到更多的结构模板,则能够提高预测的准确性。通过多重序列比对,发现目标序列中与所有模板结构高度保守的区域,同时也能发现保守性不高的区域。将模板结构叠加起来,找到结构上保守的区域,为要建立的模型形成一个核心,然后再按照上述方法构建目标蛋白质的结构模型。对于具有60%等同部分的序列,用上述方法建立的三维模型非常准确。若序列的等同部分超过60%,则预测结果将接近于实验得到的测试结果。一般,如果序列的等同部分大于30%,则可以期望得到比较好的预测结果。当然,这种计算方法要占用大量的计算时间,主要是由于第4步的数据库搜索过程耗时较多。如果序列的等同部分小于30%或更少,那么预测结果的准确性如何呢?随着U和T的相似度降低,比对这两个蛋白质序列所需插入的环区增多。为环区建立精确的三维模型意味着解决结构预测的基本问题。有许多具体的方法可用于为环区建立三维模型,其中最好的方法在一些情况下能够得到环区正确的取向。为环区建立三维模型的一种方法是分子动力学模拟。由于环区一般来说相对比较短,可以用分子动力学方法来模拟,但在动态模拟过程所需要的计算时间随着环区多肽链的残基数指数增长。然而,即使序列等同部分下降到25%-30%,同源模型化方法也能产生出未知结构蛋白质整体折叠的粗糙模型。对于这样初始模型可以进行优化,以得到较好的结果。

也可以用人工神经网络(如BP网)来预测同源蛋白质的空间结构。Bohr等人曾利用BP网预测同源蛋白质的折叠模式,该方法应用距离点矩阵表示蛋白质的结构,同源蛋白质的距离矩阵相似。沿水平轴和垂直轴画出蛋白质序列,如果两个氨基酸Ca原子之间的距离小于指定的距离,则在矩阵对应位置打上点标记。与二级结构预测的神经网络方法相似,将一个窗口在蛋白质序列上移动,利用窗口内蛋白质序列、二级结构类型、反映空间结构信息的点距离矩阵作为神经网络的输入输出数据。其中在网络的输入层输入一个窗口内氨基酸序列信息,于中心氨基酸两侧分别取30 个氨基酸,窗口大小为61。网络的输出层有33个节点,其中30个节点对应于中心氨基酸前30 个氨基酸,其值为“0”或者“1”,这取决于该氨基酸与中心氨基酸的距离是否小于给定的值(如8Å),这与点距离矩阵相对应。另外3个输出节点用于表示二级结构类型(螺旋、折叠、卷曲)。利用已知结构的同源蛋白质训练该网络,然后用训练好的网络对属于同一家族的蛋白质结构进行预测。该模型可以同时进行二级结构和空间结构的预测。

在实际研究中,对于蛋白质结构的分析和预测往往着眼于某些关键部位,或者功能区域。通过对蛋白质序列的分析可以发现,在一个蛋白质家族中,存在着保守的氨基酸序列片段,这些保守的序列片段称为氨基酸序列模式。在蛋白质家族进化的过程中,序列模式的变化被强制约束,以保证蛋白质的主要结构和功能不变。一个序列模式与蛋白质特定的局部空间结构相对应,分析序列模式与局部空间结构之间的关系有助于了解蛋白质的功能区域的结构,而详细地分析这些关键的结构部分,有助于我们认识蛋白质作用的机理,了解蛋白质与其它生物分子之间的相互作用,甚至为新药设计提供依据。

7.4.2 线索化方法(折叠识别方法)

20111114-153857-0002

在前一节已经提到,两个自然进化的蛋白质如果具有30%的等同序列,则它们是同源的蛋白质,具有基本相同的三维结构。那么,其余的是否就不是同源的呢?实际并非如此。在最新的蛋白质数据库PDB中,有上千对蛋白质具有同源的空间结构,但它们的序列等同部分小于25%,即远程同源。许多结构相似的蛋白质都是远程同源的。对于这类蛋白质,很难通过序列比对找出它们之间的关系,必须设计新的分析方法。对于一个未知结构的蛋白质(U),如果找到一个已知结构的远程同源蛋白质(T),那么可以根据T的结构模板通过远程同源模型化方法建立U的三维结构模型。一个成功的远程同源模型化方法要解决三个问题:(1)检测远程同源蛋白质(T);(2)U和T的序列必须被正确地比对或对比排列;(3)修改一般的同源模型化过程,以应用于相似度非常低的情况,即处理更多的环区,建立合理的三维结构模型。检测远程同源蛋白质是一个基本问题,而正确比对U和T的氨基酸序列则是更为复杂的问题。目前有许多方法声称能够解决第一个和第二个问题,其基本思想是:建立一个从U到已知结构T的线索,并通过一些基于环境或基于知识的势,评价序列与结构的适应性。至于最后建立三维结构模型则是非常困难的,这是因为建立模型的过程不能校正在序列比对阶段出现的错误。clip_image004现在,线索技术已成为蛋白质结构预测领域中最活跃的一块。在20世纪90年代发表的第一篇关于线索化方法的文章推动了线索化方法的深入研究。线索化的主要思想是利用氨基酸的结构倾向(如形成二级结构的倾向、疏水性、极性等),评价一个序列所对应的结构是否能够适配到一个给定的结构环境中。不久提出另一种不同的方法,即利用蛋白质数据库中丰富的信息,通过提取平均势场取出结构知识。 由于不同平均势场刻画蛋白质不同的结构特征,正确的远程同源蛋白质很可能是所得到的查找结果之一。然而,目前还没有一个单独方法能够在一半以上的情况下检测到正确远程同源蛋白质。凡是经过大量测试、严格评估的方法,得到正确的远程同源蛋白质的几率小于40%。即使这样,其性能也远远好于传统的序列比对方法(在序列等同部分小于25%的情况下)。另外,各种结构预测实验的成功表明,在专家仔细筛选各种选择后,检测到远程同源蛋白质的可能性将会得到进一步地提高。下面讨论从蛋白质序列到蛋白质结构的线索化方法。建立序列到结构的线索的过程称为线索化,线索技术又称折叠识别技术。线索化或者折叠识别的目标是为目标蛋白质U寻找合适的蛋白质模板T,这些模板蛋白质与U没有显著的序列相似性,但却是远程同源的。如果找到这样的模板,则将U的序列与模板T的结构进行比对(sequence-structure alignment),即建立线索。在此基础上利用模板结构为蛋白质U建立结构模型。线索化是一个比预测三维结构更复杂的问题,是NP完全问题,需要采用近似求解方法或启发式求解方法。解决该问题的回报是非常高的,如果能够解决线索化问题,那么预测更多的蛋白质结构将成为可能。对应于不同的序列-结构匹配程度度量方法,有不同的线索化方法,但是线索化方法一般有5个基本组成部分:(1)已知三维折叠结构的数据库;(2)一种适合于进行序列-结构比对的三维折叠信息的表示方法;(3)一个序列-结构匹配函数,该函数对匹配程度进行打分;(4)建立最优线索的策略,或者是进行序列-结构比对的策略;(5)一种评价序列-结构比对显著性的方法。在线索技术中,假设存在有限数目的核心折叠(core folds)。核心折叠实际上是构成蛋白质空间形状的基本模式。线索技术的首要任务是建立核心折叠数据库,在预测蛋白质空间结构时将一个待预测结构的蛋白质序列与数据库中核心折叠进行比对,找出比对结果最好的核心折叠,作为构造待预测蛋白质结构模型的根据。

20111114-153857-0003

这里介绍一种基于序列与结构比对的最优线索化算法。令s1, s2,…, sn为蛋白质序列S的n个元素,C1, C2,…, Cm为数据库中核心折叠C的m个核心区域。每一个核心区域由若干个氨基酸残基构成。令Cij为第i个核心区域第j个氨基酸位置。假设核心折叠C中所有重要的相互作用都体现在各个Cij之间的两两作用,利用图这样的数据结构来表示这些相互作用。用图中的顶点表示Cij,如果Cij和Ci’j’之间存在相互作用,则在图中画一条从Cij所在顶点到Ci’j’所在顶点的边。设t是一个从序列到核心折叠的线索,那么t说明了序列S的哪些元素si,sj,sk,…代表核心区域C1, C2,C3,…的起始位置。这实际上是一种从序列S到核心折叠C的比对,但是在这样的比对中序列元素内部没有空位,但是序列元素之间存在空位,这些空位将序列元素分割开来。令l代表核心折叠C中的环到序列S中空位的映射,显然l是通过线索化而确定的。令f(t)是进行序列与结构比对的得分函数,其形式定义如下:

20111114-153857-0004

其中g1 (v,t) 评价各个氨基酸残基v所处的位置;g2 (u,v,t) 评价各残基对u和v的相对位置,如果u和v 键合,则得分高;g3 (l,t)评价环区,根据环区的大小进行打分。

完成上述概念定义之后,可以非常简单地描述线索化问题:对于给定的序列S和核心折叠C,选择一个线索t,使得f(t)的值最小,即寻找一从S到C的最佳映射。虽然问题的描述非常简单,但是要解决这个问题却非常复杂,这是一个NP-完全问题。准确地求解需要巨大的运算量,在实际应用中,需要采用分支约束方法压缩搜索空间,或采用近似或启发式的方法进行求解,以提高算法的执行效率。

7.4.3 从头预测方法

在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,上述两种蛋白质结构预测的方法都不能用,这时只能采用从头预测方法(Ab initio),即直接根据序列本身来预测其结构。在1994年之前,还没有一个从头算方法能够预测蛋白质的空间结构。从那以后,人们陆续提出一些方法,表明了今后进一步研究可能的方向。有些研究小组运用距离几何方法得到了非常有希望的结果。将简化的力场与动态优化策略相结合,虽然得到的结果不算太精确,但很有意义,表明这样的工作非常有希望突破。从头预测方法一般由下列3个部分组成:(1)一种蛋白质几何的表示方法。由于表示和处理所有原子和溶剂环境的计算开销非常大,因此需要对蛋白质和溶剂的表示形式作近似处理,例如,使用一个或少数几个原子代表一个氨基酸残基。(2)一种能量函数及其参数,或者一个合理的构象得分函数,以便计算各种构象的能量。通过对已知结构的蛋白质进行统计分析,可以确定蛋白质构象能量函数中的各个参数或者得分函数。(3)一种构象空间搜索技术。必须选择一个优化方法,以便对构象空间进行快速搜索,迅速找到与某一全局最小能量相对应的构象。其中,构象空间搜索和能量函数的建立是从头预测方法的关键。

7.4.3.1 蛋白质折叠的网格模型

限制蛋白骨架构象中可采取的自由度是在模拟过程中简化蛋白质的一种方法,其中一种限制是α碳原子只允许位于二维或三维格子(网格)的位置上。这种简化方法大大减少了一个蛋白质可以采取的构象数目。于是,对于一个中等大小的多肽链,我们可以对它的构象空间进行穷举搜索,直到找到能量全局最小的构象。而对于比较长的多肽链,简化的格子模型可以使非穷尽的搜索方法对所有可能的构象进行较大比例的取样,因此,可以比较准确地估计出能量全局最小的构象。H-P[疏水(hydrophobic)-极性(polar)] 模型是研究得最成熟的一种简单网格模型。H-P模型用一个固定半径的原子来表示蛋白质中每个氨基酸残基,从而进一步简化蛋白质结构。在这种表示方法中,原子被分为两种类型:疏水原子(H)和极性原子(P)。图7.7显示了一段较短的用二维和三维H-P模型表示的多肽链,其中,疏水残基表示为黑色,极性残基表示为白色。按照惯例,N端的氨基酸位于坐标系统的原点,第二个氨基酸残基就位于坐标的(1,0)或(1,0,0)处。通常我们认为疏水作用力是使蛋白质折叠成一个紧密球状结构的几种基础力之一。大多数蛋白质的天然结构都有一个疏水核心和一个与溶液相接触的表面,疏水核心中掩藏了疏水残基,使得它们与溶液相隔离,而与溶液相接触的表面大多或者全部由极性残基和带电残基组成。将蛋白质折叠成一个紧密结构以帮助疏水残基与溶液相分离的过程通常称为疏水折叠。膜蛋白却明显不同,这种蛋白具有一个或多个嵌入细胞膜的跨膜区,这些跨膜区的结构主要是螺旋结构。由于细胞膜大多由疏水的碳原子和氢原子组成,因此这些“表面”的螺旋结构实际上是与水分子分离的,它们大多由疏水氨基酸组成。

20111114-153857-0005

H-P模型是根据疏水残基之间的接触来进行打分的。为了评价H-P模型中一个特定的构象,我们要计算出网格中疏水残基H和H接触的数目。在这里,除了多肽链一级结构中相邻的H和H接触外(由于多肽链一级结构中相邻的H和H接触在每一个可能的构象中都存在,因此,为了简单起见,这些H和H接触就被去除),其它每一个H和H的接触对能量的贡献都设为-1。最优的构象就是所有可能的构象中具有最多H和H接触的那个构象。一般来说,要获得最大的H和H接触的数目通常需要先形成一个疏水核心,这个疏水核心必须含有尽可能多的H残基,同时要将P残基转移至多肽链的表面。图7.7中的二维和三维构象的得分都是-3。有了网格模型及构象能量计算方法,下一个任务就是搜索能量全局最小的构象。在设计搜索算法时,一个主要问题就是如何表示一个特定的构象。一个最简单的方法就是将第一个残基放在网格的(0,0)或(0,0,0)格点上,然后描述前面一个残基到下一个残基的移动方向。二维模型运用这种绝对方向表示法时,每一个位置上可选择的方向包括上、右、左和下(U、R、L、D);而对于三维模型,每一个位置上可选择的方向包括上、右、左、下、后和前(U、R、L、D、B、F)。通过这种绝对方向表示法,可以将图7.7中的二维构象表示成(R,R,D,L,D,L,U,L,U,U,R),而图7.7中的三维构象可以表示成(R,B,U,F,L,U,R,B,L,L,F)。相对方向表示法则利用每个氨基酸残基主链的转动方向来表示每个位置上的残基的方向,这种表示方法能够减少每个位置上可选择的方向数。这种情况下,对一个二维正方形的网格模型,第二个残基以后的每个残基位置上可选择的方向有三个,左、右和前(通常表示为L、R和F);对一个三维正方体的网格模型,每个残基位置上可选择的方向有左、右、前、上和下(L、R、F、U、D)。在这种表示方法中,我们不但要清楚当前的位置,同时还要清楚当前残基“面对”的方向。对于二维模型,第一个残基位于网格的(0,0)位上,它所面对的方向为右。也就是说,如果第一个移动方向是F,那么第二个残基就应该位于网格的(1,0)位上。因此,图7.7中的二维构象用相对方向表示法可表示为(F,F,R,R,L,R,R,L,R,F,R)。对于三维模型,第一个残基位于网格的(0,0,0)位上,它所面对的方向为右。当我们沿着多肽链移动时,我们不但必须清楚当前残基面对的方向,同时还要清楚当前哪个方向应该看作是“上”。利用这种表示方法,图7.7中的三维构象可以表示为(F,L,U,U,R,U,U,L,L,F,L)。使用上面两种基于方向的表示方法时,我们会遇到的一个关键问题就是一些构象中两个残基会出现在同一个位置上。比如,一个二维构象用相对(基于主链的转动)表示法表示时,如果它的起始四个残基表示为(L,L,L,L),那么,这个构象就会有两个残基位于原点(0,0)上,从而导致残基碰撞,或者说原子空间碰撞。在构象搜索时,如果出现这种空间碰撞,我们可以采用多种方法来处理。最简单的一种方法就是为每一个具有碰撞的构象设置一个非常高的能量值。由于搜索算法是寻找低能量构象的,因此,具有碰撞的构象在搜索时会被很快地剔除。不过,有些构象如果能够解决碰撞问题,它的能量就会比较小,因此,这些构象可能会是有效构象。但是,如果采用上面的方法解决碰撞问题的话,搜索过程中就会把这些有效构象去除掉。其它处理碰撞的方法包括在为构象打分之前先利用局部优化方法来解决碰撞,另外也可以使用其它在构象搜索过程中不会产生碰撞的表示法。优先排序表示法就是一种在构象搜索过程中不会产生碰撞的表示法。在优先排序法中,每个残基对应的方向并不是某一个方向,而是所有可能的方向的排列。比如,在二维模型中,某一个残基对应的方向可能会是{L,F,R}。{L,F,R}表示这个残基最可能对应的方向是左;但是,如果残基移向左侧构象中会出现碰撞,这时我们就会为这个残基选择下一个比较有可能的方向,即向前;最后一个可选择的方向为向右。使用这种表示法来表示构象,在有些构象中仍然会出现碰撞(当向所有方向的移动都会导致碰撞时),但这种表示方法中出现碰撞的频率比用绝对方向表示法时出现碰撞的频率要小很多。将优先排序表示法和局部构象搜索方法结合起来,我们就可以设计出构象中绝对不会出现碰撞情况的表示法。H-P模型是基于三种简化的,即蛋白质中各个氨基酸残基的α碳原子都位于二维网格或三维网格的格点上,疏水作用是蛋白折叠中唯一的重要因素,同时通过计算疏水残基接触的数目代替构象的能量计算。虽然这样的处理非常简单,但是,通过H-P 模型的计算分析,能够发现蛋白质折叠的一些机制。如果在蛋白质模型中取消氨基酸定位于网格点的限制(去网格模型),那么蛋白质模型就可以更真实地模拟出蛋白质的实际构象。去网格模型的误差通常用预测构象和实际构象中α碳原子的均方根偏差(RMSD)来计算。α碳原子的RMSD是指当预测构象和实际构象重叠在一起时,两种构象中每个α碳原子位置的Euclidean平方根距离的总和。随着蛋白模型与实际情况越来越相符,模型的复杂性也越来越大。去网格蛋白质折叠模型可以只考虑α碳原子,也可以考虑所有的骨架原子,甚至可以考虑所有的骨架原子和侧链原子。假如在模型中考虑侧链的话,那么侧链可以表示成刚性侧链、半柔性侧链和完全柔性侧链。对于刚性侧链,我们已经在X射线结晶结构中得到了这些侧链的构象,X射线结晶结构中每种氨基酸出现最多的构象就被看作这种氨基酸的刚性侧链采取的构象。对于半柔性侧链,我们也是利用类似的经验性方法得到它的构象。从一系列X射线结构中可以得到侧链的多种构象,对这些构象进行分组,形状类似的为一组,这种方法中排除了那些不经常出现的构象,也减少了搜索的复杂度。

7.4.3.2 能量函数和优化

除了要考虑疏水作用,在蛋白质折叠的能量函数中还要考虑到氢键、二硫键的形成,考虑静电作用、范德华力以及溶剂作用。由于这些力中每一个力的相对作用还很难通过实验来计算,因此寻找一个合适的蛋白折叠复合能量函数仍然是一个研究热点。我们可以通过理论方法,针对范德华力、氢键、溶剂、静电和其它力对一个折叠蛋白总体稳定性的相对作用来建立能量函数。它的目标是得到一个近似的能量函数或者力场,那些已知结构的蛋白质结晶构象在这个能量函数中处于一个最小能量的状态。如何寻找一些可行的能量函数,本质上是分子力学的问题。而且,科学家确实已经设计出了许多有效的能量函数。分子力学方法假设正确的蛋白质折叠对应于最低能量的构象。分子力学势能是原子坐标的函数,其极小值对应于原子体系的局部能量最小点。势能函数由多项组成,包括成键作用和非成键作用。成键作用项分为化学键的伸缩能(键长)、弯曲能(键角)和扭转能(二面角),非成键作用包括范德华力、静电力、氢键等。分子力学中的势能参数有各种来源,包括从头算和半经验量子化学计算结果、氨基酸和小分子的实验观察结果等。 对于能量的优化有多种方法。常用的方法是梯度下降法,其中最陡下降法是一种简单的优化算法。在最低能量搜索过程中,最陡下降法反复对能量函数进行微分,计算梯度,每次沿能量下降最多的方向前进。当搜索位置离能量极小点比较远时,用这种方法可以迅速向极小点靠近,但接近极小点时,会产生振荡,收敛速度慢。另一种基于梯度的方法是共轭梯度法,其计算与最陡下降法一样,但是在选择搜索方向时,不仅考虑当前的梯度,还要考虑原来的搜索方向,经过综合决定下一步搜索方向。共轭梯度法收敛的速度快,但是更容易陷入能量局部极小点。牛顿-拉普森方法是另一类能量优化方法。梯度方法在计算时使用的是一阶微分,而牛顿-拉普森方法除使用一阶微分外,还计算二阶微分,利用一阶微分确定搜索方向,用二阶微分确定沿梯度在什么地方改变方向。运用该方法能够迅速收敛,但是计算量非常大。也可以通过分子动力学来寻找具有局部最低能量的构象。分子动力学利用牛顿力学的基本原理,通过求解运动方程得到所有原子的运动轨迹,并根据轨迹计算各种性质。分子动力学的优势在于能够跨过较大的势垒,获得低能量的构象。在蒙特卡罗和其它理论、实验方法的支持下,分子动力学技术作为改进的模型,在搜索过程中能够避免陷入局部能量极小点。分子动力学另外一个特点是可以模拟蛋白质折叠的过程,从而深入了解蛋白质折叠的规律。蒙特卡罗是一种随机采样的方法,通过该方法可以期望找到非常接近于全局能量最优的构象。 也有用模拟退火方法、遗传算法等进行蛋白质构象搜索和结构预测。然而,要确保找到全局最低能量的构象,必须进行全面搜索,以一定步长搜索整个构象空间,从而寻找能量最低点。由于搜索的是整个构象空间,所以最终找到的是全局最小点。但是,对于生物大分子来讲,搜索空间太大,在实际应用中不可行,只能处理很小的蛋白质。即使对搜索空间进行约束,如只允许我们感兴趣的氨基酸和连接两个残基的二面角发生变化,计算量仍然是个问题。对构象空间的进一步简化也只能处理比较小的蛋白质。 虽然利用引起蛋白质折叠的物理力学以及能量函数对蛋白质进行建模有一定实际意义,但是这种从头开始预测蛋白质结构的方法由于种种原因往往得不到令人满意的结果。首先,到目前为止,我们还没有完全了解究竟是哪些力决定了蛋白质的折叠过程,同时这些力之间又是如何相互作用的。即使有了一些力场,但是,力场参数不够精确。其次,这种方法需要考虑蛋白质中所有原子之间以及所有原子与周围溶剂之间的相互作用。对于实际大小的多肽,由于计算量太大,这种方法其实并不可行。实际上,也没有对溶剂处理的好方法。再一方面,构象搜索过程容易陷入局部能量极小点,而且自然折叠的蛋白质结构与一般蛋白质构象之间的能量差值比较小,因此,通过计算发现蛋白质的自然折叠结构非常困难。对于从头开始的方法,另外一种变通方法就是根据一些已知结构的蛋白质构象为一个未知结构的蛋白质设计一个经验性的伪能量函数。通常,为得到这种经验性的能量函数表达式,我们首先要选择一系列已知结构的蛋白质,然后对于每一个氨基酸,分析在三维空间上与其相邻的氨基酸。于是,我们可以根据不同氨基酸的相对位置得到一个得分矩阵。例如,得分矩阵中会记录所有丝氨酸残基和苏氨酸残基的距离小于3.6Å的数目。对一个假定的蛋白质构象,为了估计出它的经验性能量,必须考虑这个蛋白中每个残基的相邻残基。对于那些在样本库中经常出现的局部构象,它们的能量得分会比较小,而对于那些在样本库中不经常出现的局部构象,它们的得分则比较高。如果一个构象的得分比较高的话,这个构象就不太稳定。例如,假如一个特定的丝氨酸残基在6Å的距离内有三个相邻的残基,即天冬氨酸、组氨酸和谷氨酸,并且得分矩阵显示天冬氨酸、组氨酸和谷氨酸在蛋白结构样本库中经常与丝氨酸相邻,那么这个丝氨酸残基的能量得分就比较低。但是,假如得分矩阵显示丝氨酸和谷氨酸很少相邻,那么这个丝氨酸残基的经验性能量值就比较高。将蛋白质中所有残基的局部能量值累加,就得到这个蛋白质基于经验的全局能量值。实际上,这种经验性能量函数只对那些与已知蛋白质的结构相似的构象赋予比较低的能量值,而对那些新出现的构象或者不经常出现的构象,这种能量函数给出的能量值则比较高。

7.4.4 预测方法评价

对各种方法所得到的蛋白质结构预测结果需要进行验证,以确定预测方法是否可行,确定其适用面。验证的一种方法是取已知结构的蛋白质,对这些蛋白质进行模拟结构预测,并将预测结构与真实结构进行比较,分析两者之间的差距。为了客观地评价各种预测方法,需要建立权威的评判机构,建立公共认可的蛋白质结构测试数据集。设立在马里兰生物技术研究中心的CASP就是这样一个系统(http://predictioncenter.llnl.gov/casp4/)。对蛋白质结构预测的同源模型化方法、线索化方法和从头预测方法进行实验测试和评价,结果表明:(1)在同源模型化方法中,得到一个好的序列比对是该方法的关键。当目标蛋白质与模板等同部分超过60%时,完全可以找到正确的比对。然而,如果序列相似程度只有20-25%,则很难找到正确的比对。如果相似程度低于20%,则同源模型化方法几乎无能为力,因为在这种情况下,很难或无法找到合适的模板。(2)对于线索化方法,如果能够找到同一家族远程同源蛋白质,则可以获得比较好的预测结果。如果找到的模板属于不同的家族,则预测准确性难以保证。(3)对于从头预测方法,还难以产生准确的预测结构。在三维结构预测方面,目前有待深入研究预测方法。根据同源性所得到的结构模型一般精度达到原子分辨率,对于SWISS-PROT数据库中的序列,大约三分之一能够得到粗糙的结构模型。不幸的是,许多模型在环区的位置标定方面存在着较大的误差。线索化技术通过搜索远程同源蛋白质能够大大地提高这个比例,但是,对于大规模的序列分析,线索化技术还仍然不是太可靠。对于一个未知结构的蛋白质,若没有其同源蛋白质的结构,则该蛋白质结构信息的唯一来源就是实验,或者通过从头算方法进行结构预测。即使在不远的将来我们会通过实验得到更多的蛋白质结构,但有一类蛋白质仍然对实验测定方法提出挑战,这就是膜蛋白。其中最大的障碍是这类蛋白质不能结晶,并且,即使用核磁共振NMR技术也难以测定其结构。因此,对于这类蛋白质,结构预测方法就显得格外重要。 7.5 蛋白质空间结构比较

对蛋白质的比较可以在序列水平上进行,也可以在结构水平上进行。前面已经介绍过在序列水平上的比较,通过序列比较,发现相似的蛋白质,发现氨基酸序列的保守模式。蛋白质的结构比序列更加保守,通过比较蛋白质的空间结构,可以发现蛋白质的结构共性,发现属于同一家族蛋白质的保守结构,发现与蛋白质功能密切相关的结构域,发现特定的空间结构模式,而这种模式在进行序列分析时无法发现。这些模式由多个不相邻的序列片段组成,经过蛋白质折叠以后,这些一维不相邻的元素在三维空间中结合到一起,形成特定的功能位点,如酶的活性部位,蛋白质结合部位等。同时,通过比较蛋白质的结构,可以对蛋白质进行结构分类。

只要蛋白质序列足够相似,那么蛋白质结构也是相似的。但是,这并不意味着具有相似结构蛋白质一定具有相似的序列。实际上存在这样的情况,即两个蛋白质的序列完全不同,但是它们却具有相似的结构。两个从不同进化源点出发的蛋白质,由于趋同进化的作用,可能会折叠成相似的空间结构。因此,为了发现具有相似结构的蛋白质,需要在结构水平上比较蛋白质。

许多蛋白质不仅含有活性位点(比如酶)、结合位点(如凝集素),而且,可以跟其它蛋白质相互作用。通过相互作用,形成多个不同蛋白质的复合体。蛋白质同样可以与小分子结合,蛋白质的活性受到小分子的调节,这样的蛋白质称为受体。但是,蛋白质与其它分子的结合位置并非是随机的,而是发生在具有特殊三维结构的特殊部位。这些特殊的结构是针对特定的结合分子,限制其它分子结合在这个部位。这些部分又称为结构域。一个蛋白质可能有多个结构域,分别与不同的分子作用。通过比较同类蛋白质,我们可以发现这些结构域。对于蛋白质的结构域,通过序列比较,我们只能得到一部分信息。然而,如果在结构这个层次上进行比较,则可以发现更多的信息。

蛋白质结构比较的一个基本任务是在已知两个蛋白质对应结构特征的条件下,寻找将两个蛋白质空间结构重叠的几何变换,从而进行三维结构的比对(structural alignment)。在比对两条蛋白质序列时,一条序列平行地排在另外一条序列的上方,通过插入或删除操作,使得每一列对应的氨基酸尽可能地相同;而在结构比对中,一个蛋白质结构叠放在另外一个结构之上,通过结构的空间变换,使得两个结构中各个对应的原子空间位置尽可能地重叠。序列比对的目的是为了发现序列之间的相似性,而结构比对的目的则是为了发现结构之间的相似性。

比较蛋白质结构实际上是比较两个蛋白质中各个原子的空间位置。基本的方法是首先针对蛋白质中各个二级结构,检查它们出现的次数、类型及相对位置是否相似,然后再详细检查Ca原子之间的距离,分析这两个结构能以多大的程度重叠在一起。重叠的部分越多,则两个结构就越相似。如果大部分二级结构能够重叠在一起,并且具有相似的环区排布,那么这两个蛋白质就具有共同折叠模式。在许多结构比较方法中,Ca之间的距离是一个重要的参数。更细致的结构比较需要考虑侧链的信息。

与序列比对一样,蛋白质结构比对本质上也是一个优化问题,因此,可以通过动态规划算法进行求解。另一种针对结构问题特点的方法是距离矩阵(Distance matrix)方法,该方法借助于图形学技术找出三维结构中非常接近的原子,比较两个结构的几何关系。距离矩阵中每个元素代表Ca之间的距离。

在三维结构中,原子的坐标分别用x、y、z 表示,多肽链中氨基酸之间的相对位置用向量表示。同样,也可以用向量表示二级结构,一个向量从二级结构的起点出发,到二级结构的终点结束,向量长度为二级结构的长度。借助于这样的表示方法,可以通过空间几何变换将一个蛋白质结构与另一个蛋白质结构最大程度地重叠在一起。

常用几何变换主要是平移和旋转。对于蛋白质空间坐标点的重叠问题,如果用数学语言来描述,就是给定两个三维坐标点集合 P={pi} 和 Q={qi} (i=1,2,…,n),寻找一个合适的空间变换矩阵T,使得

20111114-153857-0006

最小,即:

20111114-153857-0007

这个问题可以用最小二乘法解决。

假设蛋白质的结构是刚性的,并以一系列的空间点三元组作为重叠的对象,它们代表蛋白质的特征,如图7.8所示。我们的目标是寻找两个蛋白质空间点三元组重叠最多的几何变换。解决这个问题的直接算法如下:

20111114-153857-0008

(1) 对于每一对空间点三元组(分别来自不同的蛋白质),计算能使这两个对象重叠的几何变换;

(2) 统计在各种变换中,能够同时重叠、或者基本重叠的空间点三元组个数,并作为对应变换的得分;

(3) 选择得分比较高的变换,改进这些变换,使其得分进一步提高。

下面介绍一种基于几何哈希(geometric hashing)技术的三维结构数据库搜索方法。

定义:一个三维参考框架是正交向量的三元组,可以用三角形的有序顶点唯一地确定三维参考框架。如图7.9所示,选择三角形顶点p1作为参考框架的原点,以向量p2-p1作为x轴的方向,y轴的方向处于三角形所在的平面但与x轴垂直,z轴垂直于三角形所在的平面,其方向按照右手螺旋原则确定。设ex、ey、ez分别为各个轴向的单位向量,则三维空间中的每一个点v可以表示为v=aex+bey+cez+p1。三角形各条边的长度在平移和旋转过程中保持不变,并且各条边的相对取向不变,所以非常适合作为参考框架。在实际处理时,按一定顺序取三个原子对应的空间点代表参考框架。

20111114-153857-0009

下面介绍的哈希技术是一种将目标分子与数据库中模型分子匹配的技术,数据库中的模型分子是预先建立的。对于每个模型分子,按照下述步骤进行预处理:

(1) 挑选参考框架,即挑选模型分子中非共线的三个点;

(2) 计算参考框架的三维正交基及其形状特征(例如,三角形边的长度);

(3) 计算参考框架一定范围内所有其它点的坐标;

(4) 以每个坐标作为哈希查找表的地址,在哈希表相应的位置存贮蛋白质的有关信息,如蛋白质的标识符,参考文献、形状特征等;

(5) 对于每个参考框架(模型分子中非共线的三个点)重复上述过程。

在算法的识别阶段,利用前面预处理所得到的哈希表进行识别。具体过程如下:对于每个目标分子的参考框架,计算参考框架的三维正交基及其形状特征,计算参考框架内其它点的坐标,将每个坐标作为哈希查找表的地址,在哈希表相应的位置取出有关的信息,找出形状特征匹配的记录,然后针对那些匹配好的记录计算相应的空间变换,保存匹配的点。计算不同空间变换下匹配点对的个数,形成匹配表。选择匹配点对多的匹配表作为进一步匹配的出发点,这样的匹配表中所包含的匹配又称为“种子匹配”。其基本思路与序列快速比较算法BLAST相似。

利用哈希技术进行蛋白质三维结构比对时,首先需要定义氨基酸残基的邻域。如果用所有的原子产生所有可能的三元组,则每个原子将会在不同三元组中出现。实际上,我们对非常近或非常远的其它原子往往不感兴趣,所以一般取一个圆环(由最小半径和最大半径定义)的其它原子,作为空间的相邻点。然后应用哈希技术,使用相邻点寻找种子匹配。许多匹配可能是在相同几何变换下的匹配,即不同的匹配表可能具有相同的几何变换,因此可以归并匹配表。算法的最后一步是扩展种子匹配,使得种子匹配包含更多的匹配对,从而找到最佳的几何变换。往往应用启发式方法进行扩展,并使新加入的匹配对的距离和最小。

上面讨论空间结构比对时,假设蛋白质的结构是刚性的,因此所采用的几何变换只涉及平移和旋转。然而蛋白质的空间结构是柔性的,可以改进上述基于哈希技术的结构比对方法,使其能够处理柔性变换的问题。

问题与练习

(1)• 利用 Chou-Fasman 算法和 氨基酸的 Chou-Fasman 参数 ,预测下面序列中的 α 螺旋区域和 β 折叠区域。

      CAENKLDHVADCCILFMTWYNDGPCIFIYDNGP

(2)• GOR 方法的数学基础是什么?简述 GOR 方法的基本思路。

(3)• 简述蛋白质二级结构预测最近邻方法的基本思想和算法的执行过程。

(4)• 基于人工神经网络的二级结构预测方法与其它二级结构预测方法有什么异同点?人工神经网络方法有什么特长?

(5)• 为什么要将多重序列比对引入蛋白质二级结构预测?这样做会带来什么好处?你觉得应该如何进一步提高蛋白质二级结构预测的准确性?

(6)• 请从蛋白质序列数据库中取出一条蛋白质序列,并登录到网上蛋白质二级结构预测服务器,利用服务器提供的软件预测该蛋白质的二级结构。分析预测结果,并简述实际进行二级结构预测的体会。

(7)• 假设在能量计算中不考虑相邻的 H-H 接触,每一个非相邻的 H-H 接触的疏水作用贡献为 -1 ,请计算下面的二维 H-P 模型表示的构象的能量值。

20111114-153857-0010

(8)• 用二维 H-P 模型表示一个蛋白质的构象,使得这个构象的能量值为 -7 。

(9)• 假设给你一条蛋白质序列,要求预测该蛋白质的结构。你计划采用什么策略来预测该蛋白质的结构?

(10)• 请总结序列比对与结构比对的异同。