5SrRNA基因在基因组中亦呈串联重复排列成基因簇。其结构在非洲爪蟾中研究得最为清楚。在爪蟾体细胞中5SrRNA基因约有500拷贝,而在卵细胞中5S基因可重复20000多次。这大概是为了和卵细胞中大量扩增的28S和18S基因相统一。在爪蟾中发现有几种5SrRNA基因。最主要的一种其结构形式与18S、28S基因相似,即5S基因与非转录间隔区相间排列,组成一个重复单位。每个重复单位的5'端是含有A-T丰富区的一段49bp长的G-C丰富区;下面跟是120bp的5SrRNA基因;后面又是一段 并不转录的序列,而且与前面的5S基因比较有9个点突变,因此称为这段基因为假基因(pseudo gene)。尽管假基因不被转录,但在5S基因簇中总是有等量的5S基因和它的假基因。
在卵细胞中还有一个次要的5SrRNA基因,与主要的5S基因在序列上有一定和差异,在结构上与主要的5S基因相似,但整个重复单位长只有350bp,而且间隔区与主要的5S基因完全不一样。
人类的rRNA基因位于13,14,15,21和22号染色体的核仁组织区,每个核仁组织区平均含有50个rRNA基因的重复单位。5SrRNA基因似乎全部位于1号染色体(1q42-43)上,每单倍体基因组约有1000个5SrRNA基因。tRNA基因的清确重复次数比较难以估计。在非洲爪蟾中约有300个拷贝由tRNAmet,tRNAphe,tRNATrp及其它tRNA基因组成的3.18kb的串联重复单位。而在人体单倍基因组中约有1000-2000个tRNA基因,为50-60种rRNA编码,每种平均重复20-30次。
组蛋白基因:组蛋白基因在各种生物体内重复的次数不一样,但都在中度重复的范围内。通常每种组蛋白的基因在同一种生物中拷贝数是相同的。鸡的基因组中组蛋白基因有10个拷贝,在哺乳动物中为20拷贝,非洲爪蟾为40拷贝,而海胆的每种组蛋白的基因达300-600拷贝。不同生物中组蛋白基因在基因组中的排列不一样,组蛋白基因没有一定的排列方式,而在拷贝数高的基因组中(>100拷贝),大部份组蛋白基因串联重复形成基因簇。
海胆发育早期五种组蛋白基形成一个重复单位,每种组蛋白基因之间是非转录间隔区,5个间隔区均不相同。这样的重复单位在整个基因组中重复300次以上,而且这些重复单位基本上是相同的。在海胆中,5种组蛋白基因的转录方向都是相同的,每种组蛋白基因独立的产生自己的mRNA。非洲爪蟾卵细胞5S基因重复单位包括一个基因和一个假基因。在三种不同的海胆中,其组蛋白基因重复单位中非转录间隔区在长度和序列上差异是很大的,尽管它们的组蛋白基因的长度和序列相差不多。实际上,在同一种海胆内不同的组蛋白基因重复单位之间,相应的非转录间隔区也不是完全相同的。另外,在海胆胚胎发育晚期,要由晚期组蛋白基因来编码组蛋白,该基因与上述的早期组蛋白基因有轻微的差异,但该组蛋白基因不成簇排列,整个基因组仅有10个拷贝,呈散在分布。
在果蝇和非洲爪蟾中,5种组蛋白也排成一个重复单位,也存在间隔区,而且组蛋白基因的转录方向不一样。多个重复单位也形成串联重复排列。进化到哺乳动物,组蛋白基因一般不再形成重复单位,而呈散在分布或集成一小群。尽管组蛋白基因在基因组中的排列和分布在不同生物之间相差甚大,但是所有组蛋白基因都不含内含子,而且在序列上相应的组蛋白基因都很相似,从而编码的组蛋白在结构上和功能上也极为相似。
基因组中存在大量重复序列用以编码组蛋白是有其重要意义的。DNA复制时,组蛋白也要成倍增加,而且往往在DNA合成一小段后,组蛋白马上就要与其相结合,这要求在较短的时间内合成大量的组蛋白,因而需要有大量的组蛋白基因存在。人体基因组中还有几个大的基因簇,也属于中度重复顺序长的分散片段型。在一个基因簇内含有几百个功能相关的基因,这些基因簇又称为超基因(Super gene),如人类主要组织相容性抗原复合体HLA和免疫球蛋白重链及轻链基因都属于超基因。超基因可能是由于基因扩增后又经过功能和结构上的轻微改变而产生的,但仍保留了原始基因的结构及功能的完整性。
单拷贝顺序(低度重复顺序)
单拷贝顺序在单倍体基因组中只出现一次或数次,因而复性速度很慢。单拷贝顺序在基因组中占50-80%,如人基因组中,大约有60-65%的顺序属于这一类。单拷贝顺序中储存了巨大的遗传信息,编码各种不同功能的蛋白质。目前尚不清楚单拷贝基因的确切数字,但是是有其在单拷贝顺序中只有一小部份用来编码各种蛋白质,其他部份的功能尚不清楚。
在基因组中,单拷贝顺序的两侧往往为散在分布的重复顺序。由于某些单拷贝顺序编码蛋白质,体现了生物的各种功能,因此对这些序列的研究对医学实践有特别重要的意义。但由于其拷贝数少,在DNA重组技术出现以前,要分离和分析其结构和顺序几乎是不可能的,现在人们通过基因重组技术可以获得大量欲研究的基因,并对许多结构基因进行了较为细致的研究。现在已经知道,真核生物的结构基因不仅在两侧有非编码区,而且在基因内部也有许多不编码蛋白质的间隔序列(intervening sequences),称为内含子(intron),而编码区则称为外显子(exon)。内含子与外显子相间排列,转录时一起被转录下来,然后RNA中的内含子被切掉,外显子连接在一起成为成熟的mRNA作为指导蛋白质合成的模板)断裂基因含有外显子和内含子,转录成R