拟南芥基因图位克隆
拟南芥基因图位克隆
2010/08/17 12:46:34
拟南芥基因图位克隆技术
拟南芥(Arabidopsis thaliana)是一种模式植物,具有基因组小(125 Mbp)、生长周期短等特点,而且基因组测序已经完成(The Arabidopsis Genomic Initiative,2000)。同时,拟南芥属十字花科(Cruciferae),具有高等植物的一般特点,拟南芥研究中所取得成果很容易用于其它高等植物包括农作物的研究,产生重大的经济效益,特别是十字花科中还有许多重要的经济作物,与人类的生产生活密切相关,因此目前拟南芥的研究越来越多地受到国际植物学及各国政府的重视。
从遗传学的观点来看,基因克隆的途径可概括为正向遗传学和反向遗传学两种。正向遗传学途径指的是通过被克隆基因的产物或表现型突变去进行;反向遗传学途径则指的是依据被克隆基因在染色体上的位置来实现。虽然一些模式生物(如拟南芥)的基因组测序已经完成,但还有40%的基因(在拟南芥中)的功能还是未知的。
一、图位克隆概述
图位克隆(map-based cloning)又称定位克隆(positional cloning),1986年首先由剑桥大学的Alan Coulson提出(Coulson等,1986),用该方法分离基因是根据目的基因在染色体上的位置进行的,无需预先知道基因的DNA序列,也无需预先知道其表达产物的有关信息。它是通过分析突变位点与已知分子标记的连锁关系来确定突变表型的遗传基础。近几年来随着拟南芥基因组测序工作的完成,各种分子标记的日趋丰富和各种数据库的完善,在拟南芥中克隆一个基因所需要的努力已经大大减少了。
目前完成整个拟南芥的图位克隆过程大约需要一年时间。在这个过程中,我们从筛选突变体开始,逐渐找到和表型相关的基因。这和反向遗传学的方法正好相反。图位克隆能实现,关键在于全基因组测序计划的完成和各种分子标记的发现。这些数据被储存在专门的数据库中(表1)(Lukowitz等,2000)。在拟南芥中的图位克隆,在很大程度上得益于对Col-0生态型测序的完成,因为它是在研究拟南芥时最常用的生态型。
表1 拟南芥网络资源
网站 | 网址 |
| —- | —- |
Supplemental material for this paper | http://carnegiedpb.stanford.edu/methods/ppsuppl.html |
Nottingham Stock Centre(U.K.) | http://nasc.nott.ac.uk/ |
Recombinant Inbred map | http://nasc.nott.ac.uk/new_ri_map.html |
Ohio Stock Center(U.S.A.) | http://aims.cps.msu.edu/aims/ |
TAIR database | http://www.arabidopsis.org |
Recombinant Inbred map(mirror site) | http://www.arabidopsis.org/cgi-bin/maps/Riintromap |
CAPS markers | http://www.arabidopsis.org/aboutcaps.html |
Sequence table | http://www.arabidopsis.org/cgi-bin/maps/Seqtable.pl |
SNP collection | http://www.arabidopsis.org/SNPs.html |
CEREON collection of polymorphisms | http://www.arabidopsis.org/cereon |
SSLP markers | http://genome.bio.upenn.edu/SSLP_info/SSLP.html |
TIGR, genome annotations | http://www.tigr.org/tdb/athl/htmls/index.html |
Database of Ler sequences | http://www.tigr.org/tdb/atgenome/Ler.html |
Kasuza DNA Research Institute, genome annotations | http://www.kazusa.or.jp/kaos/ |
MIPS genome annotations | http://websvr.mips.biochem.mpg.de/proj/thal/ |
SINS database of transposon insertions | http://www.jic.bbsrc.ac.uk/sainsbury-lab/jonathan-jones/jjhome.htm |
*注:The Arabidopsis Information Resource (TAIR)
实现基因图位克隆的关键是筛选与目标基因连锁的分子标记。实质上,分子标记是一个特异的 DNA片段或能够检出的等位基因,对其有效地利用即可达到图位克隆基因之目的。迄今为止,已有几十种技术可用于分子标记的筛选。其中最为常用的是简单序列长度多态性(SSLPs)和单核苷酸多态性(SNPs)。SSLP是基于PCR的分子标记,在拟南芥基因组中有较多分布,而且是共显性的,它的检测非常直接,但是我们需要设计引物来检测假定的SSLP标记;对SNPs标记的检测也比较直接,它是拟南芥不同生态型之间基因组中的单个核苷酸的差别,这些差别的核苷酸通常位于不编码区域。最常见的用于检测SNPs标记的方法主要是剪切扩增多态性序列(CAPS),它也是基于PCR的。另外,一种更为有效的方法衍生的CAPS(dCAPS)可把任何已知的点突变作为分子标记,只要在PCR是引入不配对的引物,使扩增的序列在一个生态型中具有限制性酶切位点,而在另一生态型中没有,以形成多态性。
二、图位克隆的一般过程
图位克隆法随着相关配套技术(序列数据库、分子标记等)的日渐成熟,许多拟南芥及一些农作物的基因已被成功的克隆。因为有了拟南芥的基因组序列和高密度的遗传标记,图位克隆过程就变得相对直接。用一种高效的拟南芥图位克隆方法,从基于Col-0 和Ler遗传背景的突变体出发,我们有可能在大约一年时间内找出与这个突变相关的基因,这其中主要耗时间的是五个植物(拟南芥)的生长周期(我们假定每个周期为两个月)。图位克隆的一般过程如下。
第一步,将突变体植株和另外一个生态型(Col-0或者Ler)的植株杂交。在大多数情况下,用于杂交的突变体植株是作为父本还是母本是没有关系的。然后播种F1代种子。在F1代植物的生长过程中,我们就有可能来对其表现型和基因型进行分析。 F1代植物的表型的出现或者消失将显示着我们所研究的突变是显性的还是隐性的。最好通过对一些标记的分析来确认F1代植物是杂合体,而且在杂交过程中我们没有犯错误。当然也有必要确认原来的生态型背景。
第二步,F1代植物自交得到F2代种子,大约播种600个个体以进行突变基因的粗定位(first-pass mapping)。在其生长过程中,我们可确定其表型,大约有150个个体被认为是纯合体(在隐性突变的情况下是纯合突变体,在显性突变的情况下是纯合野生型)。然后从这150个个体的叶子或者其它组织中制备DNA用于基因型分析。起先用分布于拟南芥五条染色体上的25个标记(相邻的两个标记之间大约相距 20 cM)进行分析,确定突变基因是和哪个或者哪几个标记是连锁的,然后用三点测交的方法来定义一个包含突变基因的大约20 cM的遗传间隔。一旦这样的一个遗传间隔被定义之后,接下来的工作就是引入新的标记把这个间隔缩小到大约4 cM。一般来说,利用150个F2代个体是在很大程度上能找到这样一个遗传间隔的,距离突变基因最近的两个分子标记将作为侧面标记而用于下面的进一步分析。
第三步,将播种一个更大的F2代群体用于突变基因的精细定位(fine- resolution mapping)。最终目标是将包含突变基因的遗传间隔缩小到40 kb甚至更小(这在拟南芥中大约是0.16 cM)。显然用于作图的F2代植物越多,就越能精确地定位突变基因。一般需要3000~4000个F2代植物个体(包括粗定位时的600个F2代植物个体)来精确地定位突变基因。但是也有很多图位克隆过程用了少于3000个F2代植物个体就成功地定位了突变基因。但是这往往要冒因为作图群体不够大再一次种植F2代植物而延长整个作图过程的时间的风险。在大约4 cM的遗传间隔内找到与突变更紧密连锁的分子标记,一般情况下能在突变两侧找到相距小于40 kb的两个分子标记。一旦这样的两个分子标记被找到之后,就可以通过测序来找到突变基因。一种有效的方法是设计PCR引物来扩增覆盖这40 kb的多个重叠的500 bp的片段。将这些片段测序后拼接起来以得到整个40 kb的序列,然后将它与野生型植物(Col-0或者Ler)的序列进行比对,这就可以找到这个区域中的多个基因。
第四步,从一系列侯选基因中鉴定基因。这是定位克隆技术的最后一个关键环节。现在最常用的方法是用含有目标基因的大片段克隆如BAC克隆或YAC克隆去筛选cDNA文库,并查询生物数据信息库,待找出侯选基因后,把这些侯选基因进行下列分析以确定目标基因:①精确定位法检查cDNA是否与目标基因共分离;②检查cDNA时空表达特点是否与表型一致;③测定cDNA序列,查询数据库,以了解该基因的功能;④筛选突变体文库,找出DNA序列上的变化及与功能的关系;⑤进行功能互补实验,通过转化突变体观察突变体表型是否恢复正常或发生预期的表型变化。功能互补实验是最直接、最终鉴定基因的方法。利用新兴的RNA干扰(RNAi)也可有效地确定目的基因。
三、存在的问题
图位克隆也有其自身的局限性,在某些情况下,就很难或者不能通过图位克隆技术来定位基因。
在分析自然发生的变异的时候,我们最有可能遇到的复杂情况是一个给定的性状是由不止一个的基因位点控制的。例如,在Kashmir-1(有抗性的)和Columbia(敏感的)株系之间的杂交实验中,我们发现粉状霉菌抗性基因至少涉及三个遗传位点,它们是以附加的方式起作用的。对这些抗性基因中的任何一个作精细定位都要求降低作图群体的遗传复杂性,例如通过创造只有一个位点保持多态性的重组近交系。在拟南芥的株系之间杂交时,很多种性状是由一个或多个遗传位点控制的,其中包括开花时间,种子大小,冬眠,生理节律,次生代谢以及表皮毛的密度。无论何时,当影响这些性状的自然或者诱导的突变被定位的时候,第二位点修饰成分会干扰这些分析。
表观(上位)遗传突变这个术语是描述一个基因在表达和功能上的可遗传改变,而不涉及DNA序列的改变,这是图位克隆工程中又一个可能的复杂情况。已有文献很好地证明的是花发育基因_SUPERMAN_的后生_clark kant_等位基因。这些等位基因是可遗传的,但它们不稳定有一个小的回复率。它们在_SUPERMAN_基因的DNA序列中都具有相似的胞嘧啶甲基化现象,结果,有可能减少了_SUPERMAN_基因转录子的表达。它们中没有一个是和_SUPERMAN_的DNA序列改变联系在一起的;尽管如此,它们能被带有_SUPERMAN_基因的转基因所补充。目前,对于这种表观遗传突变是怎么产生的以及它们出现的频率知道的不多。
关于染色体上位点的物理和遗传距离的比值是变化的。通常这种变化是比较小的,对作图的分辨率也只有较小的影响。但是,有证据表明有些染色体区域是例外的。例如,对_GURKE_基因的图位克隆就非常困难,这个基因的定位接近于第一条染色体的着丝粒;在着丝粒附近重组是严格限制的,使得对它精细定位的努力无效。而且,在这个区域中重复DNA单元的广泛分布使我们辨认出散布的单拷贝序列,这些单拷贝序列能产生有疑问的遗传标记。这个发现是经过对第二条染色体上的物理和遗传距离之间的比值的系统地分析之后确认的。对这条染色体的几乎全序列,1%重组的遗传距离相当于100-400 kb的物理距离,平均是250 kb。然而着丝粒区域是一个显著的例外,在这里1%重组的遗传距离相当于1000-2500 kb。看来值得指出的是在现存的物理图谱中,拟南芥的五个着丝粒是没有一个被完全覆盖的。最近对着丝粒区域的分析显示这些区域通常包含重复的DNA和几乎不含表达的基因。因此,由于接近着丝粒,应该没有拟南芥基因是不服从图位克隆策略的。
除了着丝粒,第二条染色体上也有一个小片段上1%重组的遗传距离相当于1000 kb甚至更多。根据推测,观察到的低重组率现象可能是由于被用于作图分析的株系的DNA序列的重排。第二和第四条染色体的DNA序列的比较显示有些基因片段是在这两条染色体之间被复制的(其中一个片段的大小是4.6 mb),还有一个从线粒体基因组向第二条染色体转移的DNA片段。这些发现清楚地证明了拟南芥基因组的结构是可以不断改变的。因此,不同株系之间的遗传变异可能不仅仅是由点突变和DNA重排导致的,这就从根本上给图位克隆工程造成了严重的问题。举例来说,如果在两个株系之间发生倒转的一个大约500 kb的序列被用于形成的一个作图群体,所有发生在这个倒转内的重组事件将产生不育的减数分裂产物。因此,不可能在这个倒转序列内对突变进行作图。到目前为止,发生在常见株系之间的这样的DNA重排还没有被报道过,确实应该是这样,因为它们很难被检测到。在一个作图实验中,它们的出现将很有可能被忽视直到最后一步。
有时候,T-DNA插入和辐射也被观察到能导致DNA的重排。因此,当被作图的突变是由这些方法产生的时候,类似的困难也有可能产生。但在这些情况下,至少有一定的可能性突变是和重排的一个或两个断裂点有关。
四、前景展望
目前,在拟南芥中的图位克隆已经不仅仅是一些专注的(和持久的)专家的工作了,而是每个人都能完成的工作。在过去的几年中,产生了很多便宜但功能强大的工具,同时也有大量的信息被收集在免费的数据库中。利用这些资源,目前大部分的图位克隆工程应该是可以肯定的,直接的,也是简单的。随着我们对拟南芥基因组结构和变化的认识的增长,情况将进一步改善,因为这将有助于我们消除部分上面提到的仍然存在的复杂情况,或者至少使得它们可被控制。
拟南芥定位克隆中的几个问题
在过去十多年里,拟南芥(Arabidopsis thaliana)遗传学在植物生物化学、生理学、病理学和发育生物学研究中发挥着越来越重要的作用。许多研究者想知道某种性状是由那个基因改变产生的。如果突变是由T-DNA或转座子插入引起,插入序列会提供一个直接指向基因的标签。但是绝大多数遗传变异不属于这种情形。由于多种原因,化学诱变剂和辐射广泛用于诱导突变,以 EMS为例,它比其他诱变剂更简单易行、效率更高,且能引起单碱基对替换,更有可能产生诸如弱的、显性的或条件等位基因等特殊性质突变。除此之外,还有大量的自然突变,并可能反映其DNA序列的微小变化。在上述情形之下,除定位克隆(positional cloning)外,另无它法选择。但定位克隆一直被认为是一种耗时、费钱的过程。基因组测序计划的完成使这种情况发生极大变化,以前染色体步移(chromosome walking)认为是最单调辛苦、技术难度大的过程,现在也已不再如此。利用已知的序列信息可极大地提高分子绘图的效率;几乎可用一些分子生物学常规方法,就可在几个月内分离任何突变基因。
一、作图精度(mapping resolution)
与基因标签法(gene tagging)相反,图位克隆(map-based cloning)或定位克隆(positional cloning)本质上是一种间接克隆基因的手段。通过渐进排除基因组的其他无关部分,来逐步缩小(narrow down)包含突变基因的染色体或DNA片段。一旦明确了包含突变基因的染色体或DNA片段,就可用其他手段来找出这个区域的那个基因发生了突变。显然包含突变基因的染色体或DNA片段间距越小,作图精度越高,基因克隆就越容易。
在拟南芥上,1%的重组率对应的遗传距离平均相当于250 kb的物理距离。但遗传距离与物理距离的比率并不稳定,随基因所在染色体的位置及不同作图群体而异。
作图精度主要取决于作图群体的大小。在约1000株拟南芥(约2000个染色体)的作图群体中常规可达到10-40 kb的作图精度。这样长的典型的DNA片段包含2-10个基因。
如果包含突变基因的染色体或DNA片段足够短,这个片段的注释在大多数情况下就可提供足够的信息来选择候选基因并确定突变等位基因的DNA序列。另外,也可用分子互补(molecular complementation)的方法,通过将野生型DNA的重叠片段转化到突变体中去,以确定那个序列可将突变体恢复到野生型。这种方法对隐性突变体是相当直接的方法,但对于显性或半显性遗传的获得功能突变体(gain-of-function mutant)却存在问题。后者可将显性突变体等位基因转移到野生型,来产生突变体表型以确定。通常是通过与突变体等位基因相关的RFLP来加以鉴定。也可通过扫描完整DNA片段内由酶解或化学裂解错配碱基(enzymatic or chemical cleavage of mismatched bases)、分析单链构象多态性(single-strand conformational polymorphism,SSCP)、异源双链分析(heteroduplex analysis)或变性HPLC等产生的变异。
二、分子作图的资源与手段
高精度作图需要高密度的遗传标记。若干拟南芥品系(accession)或生态型(ecotype)足以用来设计高密度分子标记。收集T-DNA系的Wassilewskija(Ws)及收集有多样不同种系的Niederzenz已成功地用于定位克隆项目。
用于作图最常用的组合是Landsberg erecta × Cloumbia(Ler × Col),这两个品系估计每1000 kb内在4-11个位置存在差异。在Ler × Col作图群体方面已经积累了许多宝贵的资源。对Cloumbia品系的基因组测序已经完成(The Arabidopsis Genomic Initiative,2000)。在拟南芥种质资源中心(Arabidopsis stock center)贮存有包括基因组的和cDNA噬菌体文库、BAC文库、YAC文库,及用于分子互补的可转化人工染色体(transformation- competent artificial chromosomes)文库等。Landsberg erecta品系的序列信息有利于设计新的分子标记。在Cloumbia或Landsberg erecta品系中已诱导出的绝大多数突变(包括表型可见的突变)也可用作分子标记。Landsberg erecta × Cloumbia杂交已经产生重组体近亲系(recombinant-inbred line),并用来确定约1200个分子标记,其中超过80个分子标记是基于PCR的。
目前广泛用于作图实验的分子标记是简单序列长度多态性(SSLPs)、酶切扩增多态性序列(CAPS)及衍生型CAPS(dCAPS)。这些标记有两个共同特征:①它们都是共显性的,这意味着植株的两套染色体都可分型,并能从作图群体中的搜集最大量的信息;②它们都是以PCR为基础的,并且可在琼脂糖凝胶上分析,这使得这些方法简单易行,且价格便宜。
三、精密作图试验步骤
精密作图试验包括以下几个顺序的步骤:①产生F2作图群体(约4个月);②用分离群体分组混合分析法(bulked segregant analysis,BSA)或混合分群分析法、分离集团混合分析法建立连锁(少于1周);③鉴定牢靠的侧翼PCR标记(少于1个月);④用侧翼标记对大量作图群体(约1000株)进行PCR分析,搜集重组体(少于2个月);⑤精密作图,用已知的、自做的或新PCR标记缩短包含突变基因DNA片段(少于2个月)。
首先突变应与一个或若干个不同的品系杂交,以产生作图群体。建议准备多个作图杂交,这样在第一群体中遇到第二位置修饰子的稀有情况可能会用到。一旦得到作图杂交的F2群体,就可以通过鉴定连锁的遗传标记弄清突变的大致位置。下一步找到相距约5% 重组率的两个标记,并加以确定包含突变基因DNA片段。利用这些侧翼标记,对大的作图群体进行检测,以寻找突变附近的重组体。最后,通过产生和分析新的标记,尽可能将包含突变基因DNA片段缩短。最理想的是鉴定出除突变外的唯一标记。
四、用BSA法检测连锁
BSA法是从近等基因系(近等基因系或NIL,一组遗传背景相同或相近,只在个别染色体区段上存在差异的株系。如果一对近等基因系在目标性状上表现差异,那么,凡是能在这对近等基因系间揭示多态性的分子标记,就可能位于目标基因的附近。因此,利用近等基因系材料,可以寻找与目标基因紧密连锁的分子标记)分析法演化而来的,它克服了许多作物没有或难以创建相应的NIL的限制,在自交和异交物种中均有广泛的应用前景。对于尚无连锁图或连锁图饱和程度较低的植物,利用BSA法也是进行快速获得与目标基因连锁的分子标记的有效方法。BSA法根据分组混合的方法不同可分为基于性状表现型和基于标记基因型二种:①基于性状表现型的BSA法。根据目标性状的表现型对分离群体进行分组混合,其基本思想是在作图群体中,依据目标性状表型的相对差异(如抗病与感病),将个体或株系分成两组,然后分别将两组中的个体或株系的DNA混合,形成相对的DNA池。显然可以推测这两个DNA池之间除了在目标基因座所在的染色体区域的DNA组成上存在差异之外,来自基因组其它部分的DNA组成是完全相同的,都是该作图群体基因库的一个随机样本。换句话说,两DNA池间差异相当于两近等基因系基因组之间的差异,仅在目标区域上不同,而整个遗传背景是相同的,亦即这是一对近等基因 DNA池。因此,在这两个DNA池间表现出多态性的DNA标记,就有可能与目标基因连锁。在检测两DNA池之间的多态性时,通常应以双亲的DNA作对照,以利于对实验结果的正确分析和判断。为了可靠起见,在用BSA法获得连锁标记后,最好再回到群体上根据分离比例进行验证,同时也可估算出标记与目标基因间的图距。②基于标记基因型的BSA法。是根据目标基因两侧的分子标记的基因型对分离群体进行分组混合的。这种方法适合于目标基因已定位在分子连锁图上,但其两侧标记与目标基因之间相距还较远,需要进一步寻找更为紧密连锁的标记的情况。假设已知目标基因座位于两标记座位A和B之间,记来自亲本1的标记等位基因为A1和B1,来自亲本2的为A2和B2。那么,在某个分离群体(如F2)中,标记基因型为A1B1/A1B1的个体中,目标区段(即标记座位A和B之间的染色体区段)将基本来自亲本1,而A2B2/A2B2个体中的则基本来自亲本2,除非在该区段上发生了双交换,而双交换发生的概率是很小的。因此,可以将群体中具有A1B1/A1B1和A2B2/A2B2基因型的个体的DNA分别混合,构成一对近等基因DNA池,它们只在目标区段上存在差异,而在目标区段之外的整个遗传背景是相同的。这样就为在目标区段上检测多态性的分子标记提供了基础。用两个DNA池分别作为PCR扩增的模板,利用电泳分析比较扩增产物,寻找两DNA池之间的多态性,就可能在目标区段上找到与目标基因紧密连锁的DNA标记。与前面所说的一样,获得连锁标记后,还可以进一步分析它在群体中的分离情况,进行验证,并确定它在目标区段中的位置。Goivannoni等(1991)以番茄第10染色体上一个15 cM的区间和第11染色体上一个6.5 cM的区间作为目标区段,对这一方法进行了验证。这两个区段上存在着控制番茄落果和成熟性的基因。针对每一区段,用7-14个F2个体构成混合DNA池,用200个随机引物进行筛选。结果发现了三个多态性的标记,其中两个被证明与所选择的区段是紧密连锁的。Goivannoni等还讨论了目标区段的两连锁标记间的最佳的区间长度和混合个体数。研究表明,随着混合体所含个体数的增加,在混合体中,个体在目标区间内发生双交换的概率也将增加。在F2群体中,对于5 cM的区间,当混合体所含个体数不超过40时,双交换概率小于10%。当目标区间增大到10 cM时,混合个体数必须小于10,才能保持10%的双交换概率。但是随着样本数的减少,两类混合体间在除目标区段以外的区域出现差异的机会就会大大增加,从而导致PCR检测时假阳性的增加。因此,Goivannoni等建议混合体所含个体数应大于5,目标区间的长度应小于15 cM。近等基因系分析法和分离体分组混合分析法只能对目标基因进行分子标记(molecular tagging),但还不能确定目标基因与分子标记间连锁的紧密程度及其在遗传连锁图上位置,而这些信息对于估价该连锁标记在标记辅助选择和图位克隆中的应用价值是十分必需的。因此,在获得与目标基因连锁的分子标记后,还必须进一步利用作图群体将目标基因定位分子连锁图上。
BSA法是对DNA池进行检查,而不是对许多单个样本进行检查,这样就极大地减少了建立连锁所需要的PCR反应次数,因此是一种鉴定与突变遗传连锁的标记的有效方法。当不可能或难以从突变体中提取DNA时,如突变体在胚胎发生早期停止生长,BSA法也可适用。在这种情况下,从纯合的野生型个体中提取DNA池可用于野生型等位基因作图,而不是对突变体等位基因作图。
用于Ler × Col群体的BSA分析的SSLP标记的详细信息(如引物序列,PCR条件,Columbia、Landsberg erecta、Ws品系产生的PCR片段大小)可在拟南芥信息资源(Arabidopsis Information Resource,TAIR)中找到。由于可用同样的PCR方案去扩增全部标记,而且可用同样凝胶分离产物,因此可在数小时内完成BSA分析。
另外一种用最小数目PCR反应建立连锁的方法是, Ponce等(1999)提出的用21个SSLP标记同时分析F2单株的方法。该法用荧光标记引物进行PCR,用自动测序仪分离/检测产物。
五、在突变基因附近搜集重组体
如果已知两个标记紧密连锁,并且在突变基因的两侧,那么就可有效地在大量的作图群体中寻找与突变基因附近重组的染色体。在一个大的F2代群体内,大多数植株在突变基因两侧的标记位点都具有相同的基因型。比如两个标记之间相距5%重组率,1000 株中约有900株(或2000套个染色体中有1800套)预期在两个标记上表现相同的基因型。这些植株既可能在两个标记基因之间没有发生重组,也可能在少数情况下进行了双交换。这些植株对突变基因的作图没有任何意义,可以摒弃而不用进一步分析。这样大量的作图群体只是分析这两个侧翼标记而不作进一步分析,只有少数F2植株显示这两个侧翼标记的不同基因型。显然只有这些植株可能具有突变基因附近重组的染色体,有必要进一步作图使用。
尽管BSA法检测连锁十分有效,但它不能确定染色体上紧密连锁位点之间的顺序。这就要用到三点测验资料。为了找到可用于选择(如上所述)重组染色体的侧翼标记,有必要用这个区域的标记检查单个F2植株。约50-100个F2植株群体可进行大约 1%重组率的精度作图。为了有效选择重组染色体,应鉴定两个在技术上稳定,并且相距不到10%的重组率的标记来确定包含突变基因的区段。现存的SSLP和 CAPS数据库中可找到适当的标记。
用微孔板或微量滴定盘(96-well microtiter plate)与植株一一对应提取DNA样本,及碱法裂解法提取DNA可使得侧翼标记连锁分析变得更为高效。
六、采用可见或可选择性标记
上述方法是用分子标记进行的。但有时也可用可见的遗传标记作图,另外,如T-DNA或转座子上存在的抗性基因等显性可选择标记也可用来作图。
七、创造新的分子标记
为了充分利用重组染色体进行精密作图,有必要创造新的分子标记来逼近突变基因。一种方法是采用SSLP标记,因为平均每10或20 kb长的DNA序列内就存在20 bp或更长的单-、双-或三核苷酸重复,这些都是SSLP标记的靶序列。另一种更大的多态性来源是核苷酸交换(nucleotide exchange)提供。对于Ler × Col组合而言,不同数据库贮存的序列信息都可用来寻找这样的多态性。斯坦福DNA序列和技术中心(The Stanford DNA Sequence and Technology Center)搜集了Landsberg erecta和Columbia之间的412份简单核苷酸多态性(simple nucleotide polymorphisms,SNPs)(见Arabidopsis Information Resource,TAIR)。这些多态性全部都经过验证,并曾用于作图。洛克菲勒基因组研究所(the Institute for Genomic Research)也搜集了15000个长度大约500 bp的Landsberg erecta品系的随机序列,这些序列可通过BLAST工具搜索到。