驱动科学发展的原动力是无知。——马特
牛津英语词典将“基因组”一词归功于德国生物学家温克勒。1920年,他的著作《植物和动物群落中孤雌生殖的分布和原因》出版。书中提出:对单倍体染色体组用“基因组”来表述,因为它与相关的原生质一起构成物种的物质基础……
健客:什么是单倍体?
云飞:染色体倍性是指细胞内同源染色体的数目,其中只有一组的称为“单套”或“单倍体”。
健客:单倍体是不是就是细胞内含一个染色体组?
云飞:不是,一组和一个还是有区别的,有的单倍体生物的细胞中不只含有一个染色体组。绝大多数生物为双倍体生物,其单倍体的细胞中只含一个染色体组,如果原物种本身为多倍体,那么它的单倍体细胞中含有的染色体组数一定多于一个。如四倍体水稻的单倍体含两个染色体组,六倍体小麦的单倍体含三个染色体组。
在人类中,只有精子和卵子是单倍体,其他细胞都是双倍体细胞。如果一个人类胚胎部分染色体为多倍体,多数不能正常发育,但如果是性染色体是多倍体(XXX或XYY)、三套第21对染色体(唐氏综合症)、三套第18对染色体(爱德华氏症)、三套第13对染色体(巴陶氏症),则有机会长大成人,不应歧视。
1986年,美籍医学家诺贝尔奖得主杜尔贝科在《科学》杂志撰文回顾肿瘤研究的进展,指出要么依旧采用“零敲碎打”的策略,要么从整体上研究和分析人类基因组。文中指出:如果我们想更多地了解肿瘤,我们必须关注细胞的基因组。
1990年,人类基因组计划正式启动。美国、英国、法国、德国、日本和中国科学家共同参与了这一规模宏大,跨国跨学科的科学探索工程。其宗旨在于测定组成人类染色体(指单倍体)中所包含的约30亿个碱基对组成的核苷酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。“人类基因组计划”在研究人类过程中建立起来的策略、思想与技术,构成了生命科学领域新的学科——基因组学,可以用于研究微生物、植物及其它动物。人类基因组计划与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,是人类科学史上的又一个伟大工程,被誉为生命科学的“登月计划”。“基因组”一词也从鲜为人知,到炙手可热。
健客:在《细菌传》中讲过人类基因组计划,其中还包括若干模式生物体基因组计划。
云飞:嗯,第一个被测序的细菌基因组是流感嗜血杆菌,于1995年完成。
1996年6月,在国际互联网的公共数据库中公布了酿酒酵母的完整基因组顺序,被称为遗传学上的里程碑。因为这是人们第一次获得真核生物基因组的完整核苷酸序列。实际上,在酿酒酵母基因组测序前,人们通过传统的遗传学方法已明确酿酒酵母中编码RNA或蛋白质的基因约2600个。不过,它们只是酿酒酵母基因组的一部分。
健客:等等,编码RNA是什么意思?
云飞:编码RNA就是编码蛋白质的RNA。上篇说过,rRNA是一种非编码RNA,也就是说不会被翻译为蛋白质。生物体中的RNA种类繁多,功能复杂,一般按照是否编码蛋白质将其分为编码RNA和非编码RNA两大类,同理,DNA可分为编码DNA和非编码DNA。
在分子生物学和遗传学领域,基因组是指生物体所有遗传物质的总和。这些遗传物质包括DNA或RNA(病毒RNA)。基因组包括编码DNA和非编码DNA、线粒体DNA和叶绿体DNA。研究基因组的科学称为基因组学。通过对酿酒酵母的完整基因组测序,发现在12068kb的全基因组序列中有5885个编码专一性蛋白质的开放阅读框。这意味着在酵母基因组中平均每隔2kb就存在一个编码蛋白质的基因,即整个基因组有72%的核苷酸顺序由开放阅读框组成。这说明酵母基因比其它高等真核生物基因排列紧密。如在线虫基因组中,平均每隔6kb存在一个编码蛋白质的基因;在人类基因组中,平均每隔30kb或更多的碱基才能发现一个编码蛋白质的基因。酵母基因组的紧密性是因为基因间隔区较短与基因中内含子稀少。
健客:再打断一下,kb是基因组碱基序列的长度单位,在《细菌传》中讲过,可是,开放阅读框是什么意思?
云飞:在分子生物学中,开放阅读框是开始于起始密码子,结束于终止密码子,连续的碱基序列,是DNA序列中具有编码蛋白质潜能的序列。
健客:内含子是什么意思?
云飞:内含子是基因中在编码RNA剪切后切除的部分。与之对应的是外显子,是基因中在编码RNA剪切后保留的部分,绝大部分的外显子为编码序列。
健客:今天太难啦!
云飞:哈哈,专业名词了解一下。
酿酒酵母基因组的开放阅读框平均长度为1450bp。遗传信息分布在16个染色体中。其中有大约三分之一的编码基因被认为是没有家族谱系的“孤儿基因”,它们没有任何明显的“祖先”,就好像是凭空出现一样。科学家正在全力以赴、追踪着它们的来龙去脉。当然,这一数据仍在不断修正中。
健客:等等,孤儿基因,挺形象嘛。
云飞:嗯,一些孩子在很小的时候便成孤儿,没有家庭挡风遮雨,他们要付出千百倍于常人的努力与命运抗争,迎难而上去激发自己的潜能。而这些孤儿中的佼佼者,比如亚里士多德和史蒂夫乔布斯,有时竟能改变这个世界。孤儿基因有相似的情形,而且并非酿酒酵母独有。在人体基因片断中,有超过三分之一的部分既找不到与它们同源的基因,也没有发现它们的演化史——看上去既没有“父母”,也没有任何“亲属”,就像是不知道从哪里冒出来的“孤儿”。但是千万不要小看它们,要知道在这些“孤儿基因”中,有一部分在人类大脑的进化过程中,扮演了相当重要的角色。
酿酒酵母染色体是由高、低G-C含量DNA结构域交替组成的,这和基因密度在染色体中的变化是呈相关性的。比如富含G-C区的波峰总与每一个染色体臂中的高度重组区相重合,而富含A-T区的波谷总与低度重组的着丝点和端粒序列相重合。也有实验证实,在酵母中与遗传重组起始有关的基因双链分离现象,与此染色体中富含G-C的区域直接相关。
健客:还好,在《细菌传》中讲过碱基互补配对、基因重组、着丝点和端粒。别太难了,好吗?
云飞:再介绍最后一点,留个念想。
酿酒酵母基因组另一个特征是含有许多DNA重复序列。在开放阅读框或者基因的间隔区包含大量的三核苷酸重复,引起了人们的高度重视。因为一部分人类遗传疾病是由三核苷酸重复数目的变化所引起的。还有更多的DNA序列彼此间具有较高的同源性,这些DNA序列被称为遗传冗余。酵母多条染色体末端具有长度超过几十个kb的高度同源区,它们是遗传丰余的主要区域,这些区域至今仍然在发生着频繁的DNA重组过程。遗传冗余的另一种形式是单个基因重复,其中以分散类型最为典型,另外还有一种较为少见的类型是成簇分布的基因家族。成簇同源区是酵母基因组测序揭示的一些位于多条染色体的同源大片段,各片段含有相互对应的多个同源基因,介于染色体大片段重复与完全分化之间的中间产物,因此是研究基因组进化的良好材料,被称为基因重复的化石。染色体末端重复、单个基因重复与成簇同源区组成了酵母基因组遗传丰余的大致结构。研究表明,遗传冗余中的一组基因往往具有相同或相似的生理功能,因而它们中单个或少数几个基因的突变并不能表现出可以辨别的表型。
健客:核苷酸,在《细菌传》中讲过,可是表型是什么意思?
云飞:表型,又称表现型,有机体可被观察到的结构和功能方面的特性,如一个人是单眼皮还是双眼皮。表型是基因型和环境交互作用的产物,即特定的基因型在一定环境条件下的表现形式。因此,表型=基因型+环境条件。基因型控制着生物个体的表现型,是表型的决定性因素,但不是唯一的决定性因素,它与生物个体所处的特定的环境条件同时发挥作用,使得表型呈现出多样性。
健客:讲完了吧。如果这本书一定要有一个主角的话,那么非酵母莫属,绝对的高频词,大概20篇左右都有其身影吧,而且承载的知识密度太大了。我有点头晕。
云飞:哈哈,知道你吃不消了,咱们换个话题。
1998年,汉德尔斯曼想出了一个名字:宏基因组学,旨在研究一个群落的基因组。显然,佩斯是该学科的开创者。汉德尔斯曼曾说过,“自显微镜问世以来,宏基因组学可能是微生物研究中最重要的事件”。她开始研究生活在各种环境中的微生物:阿拉斯加的土壤、威斯康星州的草原、从加利福尼亚州矿山上冲下来的酸性物质,还有马尾藻海的海水、深海蠕虫的尸体、昆虫的内脏等等。当然,也有微生物学家像列文虎克一样,把研究对象转向了自己。
健客:宏基因组学,果然是一个霸气的名字,研究对象从一个物种,到相同时间聚集在同一区域或环境内各种微生物。还算容易理解,在《细菌传》中介绍过,不陌生。佩斯是上篇的主角,汉德尔斯曼好像之前没出现过。
云飞:汉德尔斯曼是一个奇女子。1959年生于纽约,1979年获康奈尔大学农学学士学位,1984年获威斯康星大学麦迪逊分校分子生物学博士学位。她主要研究土壤和昆虫肠道中的微生物,其中她对宏基因组学有深入研究,并开创性地运用宏基因组学的方法研究抗生素耐药性的产生,取得了突破性进展。她负责编写“宏基因组学”这一术语的具体解释。此外,她还支持女性投身科研,她的一项研究发现,科研人员简历上的性别影响了教授聘用、科研经费申请、奖学金申请等方面。2015年,她走进白宫,成为奥巴马总统的科学顾问。
健客:兴趣来了,怎样才能成为美国总统的科学顾问呢?
云飞:这可难住我了。汉德尔斯曼是接到了时任奥巴马总统的最高科学顾问、科技政策办公室主任约翰的电话,问她是否愿意加入白宫,管理科技政策办公室。起初,她没有答应,因为她不愿意离开耶鲁大学,那里的实验室是她和她 的本科生、研究生和博士后探讨昆虫内脏、土壤以及植物中的微生物群落的地方。后来,她同意加入白宫,因为约翰的才智和总统对科学的强烈的使命感打动了她。在经过美国联邦调查局(FBI)标准化但让人疲惫不堪的背景审查、关于如何回答参议院问题的速成班,以及参议院商业、科学和交通委员会让人惊讶的有趣的确认听证会之后,再加上长达9个月的等待遴选的时间,她最终被参议院确认并宣誓担任白宫科技办公室副主任。扯远了,马上拉回来。
1998年,俄勒冈州森林的树木出现大片死亡。美国林业局的科学家从112棵死亡和正在枯萎的树上取了样本,发现除了4棵树以外,其余都感染了同一种蜜环菌。进一步的研究,让他们惊奇地发现,其中61棵树上感染的蜜环菌的基因是完全相同的,也就是说,它们是从同一个生物中延伸出来的。受其感染的树木之间的最远距离为4公里。据估计,这个蜜环菌占地9.6平方公里,约有2400岁(有科学家认为它已经8650岁了)。至于质量,根据检测蜜环菌在土壤中的生物量来估算,菌体总重估计超过600吨,一举成为迄今世界上最重的、最古老的、占地面积最大的生命个体。
健客:判定采样蜜环菌基因是否相同是不是要进行基因组测序呢?
云飞:当然不用那么麻烦。只要对若干等位基因进行测序、对比就可以了,跟亲子鉴定一个道理。
健客:不行了,头晕,想吃小鸡炖蘑菇,补补脑。
云飞:哈哈,李玉院士说的“世界最大的生物是在美国发现的榛蘑”,指的就是1998年在俄勒冈州发现的奥氏蜜环菌。2017年,安德森在接受《大西洋月刊》采访时说,他正在对那株高卢蜜环菌的不同部分进行DNA测序,希望理解经历了1500年,它是如何变异的。后来,他在论文中修正当年的数据——这是一个存活了2500年之久,重达440吨的高卢蜜环菌。你看,一个是奥氏蜜环菌,一个是高卢蜜环菌,它们同属不同种。
健客:为什么要研究蘑菇变异呢?
云飞:随着生长,一个细胞分裂成两个,产生新的子细胞。随着时间的推移,细胞中的DNA会被破坏,导致错误,即突变,并潜入遗传密码。这被认为是导致衰老的关键机制之一。但高卢蜜环菌对这种DNA损伤有一些内在的抵抗力。“突变频率比我们想象的要低得多,”安德森说,“为了实现这种低水平的突变,我们预计细胞每生长一米平均分裂一次。但令人惊讶的是,这些细胞非常微小,只有几微米大小,所以每一米的生长需要数百万个细胞。”安德森和他的团队认为,这种真菌有一种机制,可以帮助保护其DNA免受损害,使其成为自然界中最稳定的基因组之一。虽然科学家们还没有弄清楚这到底是什么,但高卢蜜环菌基因组的稳定性可以为人类健康提供新的见解。
健客:我还是对谁是最大生物比较感兴趣。
云飞:猎奇嘛,正常。蓝鲸是地球上依然活着的最大动物,其体型最长可达33米以上,体重可以超过180吨,但绝对不是地球上最大的生物,其实一些植物也很大。例如地球上最高的树木,例如澳洲的杏仁桉树以及美国的被命名为亥伯龙神树的巨型红杉,它们的高度都超过百米。除此之外最常被提及的还有位于美国犹他州中南部鱼湖国家森林公园的潘多林,占地几十公顷,数万棵白杨都拥有相同的基因,它们都是从最初的一棵白杨无性繁殖而来。从某种意义上来说潘多林就是一个整体,但是令人比较担忧的是这个巨大的生命正在走向死亡,它的面积连年在缩减,主要是受到病虫的灾害,究其根本原因就是基因上没有什么多样性,一损俱损。
极具竞争力的是位于澳大利亚西海岸的波西多尼亚海草,寿命超过10万年的无性繁殖海草。通过测量发现这片海草覆盖了大约180平方公里的浅水区,并且年龄已经超过了4500岁。今后,地球最大生物或许不再是美国榛蘑而是澳大利亚海草。
健客:不得不说,植物或真菌,这种巨大体型有种作弊的感觉,动物很难复制。特别是蘑菇属于真菌,被归为微生物,似乎有背常识,后来居然还成了最大生物,感觉怪怪的。
云飞:这笔账要算在科学头上。看上去,蘑菇似乎跟微小生物、巨大生物都扯不上关系,但是科学把三者联系起来。人类基因组计划的主要负责人之一兰德指出,基因组提出的问题比其回答的还要多。就像阿拉伯故事一千零一夜一样,你可以躺在床上翻阅基因组,而每天它都会带给你一个新故事。套用一下这句话。科学提出的问题比其回答的还要多。你看,一样适用。正如英国科普作家马特在《基因组》一书中说的,“驱动科学发展的原动力是无知”。据说,密歇根州推出蜜环菌旅游。每年秋天举办“蜜环菌节”,游行、比赛和大餐。科学有新发现,旅游有新项目,经济有新发展,皆大欢喜。
欲知后事如何,且听下回分解。