薛开先_好大夫在线
微信扫码

微信扫码关注医生

有问题随时问

收藏收藏

学术前沿

肿瘤表遗传学(epigenetics) 概论

发表者:薛开先 人已读

本文为薛开先主编:肿瘤表遗传学(科学出版社 2011年3月 已出版)中的第一章.

(因总字数的限制,文章不全.图未能正确复制.)

明了基因对发育中个体如何发生影响,毫无疑义地将使我们对于遗传的观点进一步扩大,对于目前还不了解的许多现象也多半会有所阐明

摩尔根 基因论

从1900年孟德尔揭示遗传规律论文的重新发现,至2000年前人类基因组计划的基本完成,20世纪的遗传学经历了传奇、曲折和富有成果的发展;同时也积累了许多传统遗传学不能解释的遗传现象,提示需要新的理论突破。随着1990年代表遗传学(epigenetics)研究取得一系列重大进展,和近年来的深入研究,这一新的遗传学分支日益受到关注,目前已成为主流生物学重要研究领域[1-5]

人类基因组测序工作的基本完成,进入了功能基因学时代后,深入研究在各种生命过程中基因表达的调控及其在疾病发生中的异常,已成为这一领域的关键课题之一。正是在这一背景下,近10多年来表遗传学异军突起,已成为许多研究领域的前沿,这些包括基因转录调控、染色质结构、基因组完整性、分化与发育、肿瘤发生与防治,以及生殖技术安全性等,还在农业实践中有重要的意义,1-7;不同于传统遗传学,以DNA甲基化、组蛋白修饰为复合码的表遗传学系统已初现端倪,同时引发了对基因为中心的一些基本理论如基因的概念、转录调节、发育和进化等的讨论。鉴于表遗传学研究在这些研究领域中的重大意义,欧美和日本诸国近几年来纷纷成立相应研究机构和研究协会,出版专业学术期刊,学术会议不断,已成为生命科学中的研究热点之一;同时近年来表基因组学(epigenomics)的研究亦取得了重大进展[1,3-8]

肿瘤是21世纪严重危害人类健康的主要疾病之一,近年来的研究表明,肿瘤是遗传病,同样也是表遗传病,癌变过程中的表遗传学改变和遗传学改变一样,可引起原癌基因的活化和肿瘤抑制基因的灭活,对肿瘤的发生、演进和转移具有重要作用;表遗传学改变可作为肿瘤早期诊断、分子分类和预后的生物学标志,表遗传学改变过程中关键调控分子已成为肿瘤靶向治疗的新的靶的,从而为肿瘤防治研究的突破提供了新的契机[5,8,8-12]。本章将概述和讨论表遗传学的历史渊源、发展和中译名问题、以及表遗传学基本分子机制及其在肿瘤研究中的应用和尚待解决的问题。

第一节 表遗传学的发展

一、 传统遗传学的发展和存在的问题

20世纪遗传学取得了一系列重大成果,首先证实和发现了分离、自由组合和连锁与互换三大遗传规律,证明基因在染色体上线形排列;世纪中叶发现DNA双螺旋结构,并实验证明DNA是遗传信息的载体并可进行遗传操作;世纪末至21世纪初人类基因组计划和后续计划的实施和相继完成,意义重大,一方面大大地促进了遗传学和整个生命科学的发展,为医学和农业等实践应用提供了新的发展空间;另一方面新的发展并未能解决传统遗传学现已存在的一些重大问题,又提出了新问题,它们结合起来对基因中心论提出挑战,提示传统遗传学理论需要修正与突破。在这一背景下,半个多世纪来表遗传学不断发展、提升,成为研究没有DNA序列变化的、可遗传表达改变的一门新兴遗传学分支,阐明包括“基因对发育中个体如何发生影响”等广泛的问题,补充了传统遗传学研究不足 [12410-12]

长期来传统遗传学积累的许多不能解释的遗传现象,部分在表遗传学研究后得到阐明,这些成为表遗传学发展的助力,例如基因论认为,来自双亲的所有等位基因对遗传贡献是同等的,共同决定了遗传性状的形成;而在印记基因决定性状的遗传中,不符合孟德尔规律,表现的性状取决于亲本的来源,如在小鼠胰岛素生长因子2(insulin-like growth factor 2, Igf2)基因只表达父源等位基因,而母源等位基因被印记不予表达;相反,在胰岛素生长因子2受体(insulin-like growth factor 2 receptor, Igf2r)基因只表达母源而不表达父源的等位基因;另一个熟知的例子是在驴马交配中,母马与公驴生成马骡,而母驴与公马生成驴骡,两者在毛色、体形和劳动能力等方面都有明显差异,虽可有不同解释,但一般认为主要还是驴、马两性间全基因组印记不同的结果[2,13]

应用成体组织细胞核移植所形成的克隆胚胎具有全套基因,根据基因论应能正常发育,但实际上在胚胎发育过程常会出现各种异常,多数在出生前夭亡,少数生存的个体也可有多方面的改变,如克隆羊的体型可比正常羊大得多,还有诸多健康问题。表遗传学研究表明,这是由于未经配子发生、受精和重编程等正常生物学过程,克隆胚胎存在基因组印记等一系列表遗传学异常的结果[2,14]

正常的基因印记丢失并没有DNA序列的变化,亦引起遗传性状的改变,如在小鼠失去Mest基因印记后,母小鼠就失去了对新生小鼠抱窝、照顾的能力。目前已明确,基因组印记性状的遗传不遵循孟德尔规律,是由于特定亲本等位基因差异甲基化区(differential methylation region DMR)高甲基化后不表达的结果[2,14]

同卵双生子具有完全相同的基因组,根据基因论应发育成完全相似的两个个体,然而其中约1/3的同卵双生子,20岁后可出现了个性和疾病易感性等的差异,并且年龄、医疗和环境因素会影响这些差异。表遗传学研究表明,这些有差异的同卵双生子,他们之间的基因组甲基化类型存在不同,测序发现52%的差别发生在重复区域,余下的多发生在基因启动子区,提示会对基因的表达有影响。进一步芯片分析还表明,3岁的双生子间基因表达的特征基本保持一致,但在50岁的双生子间差别已很显著。看来同卵双生子之间的差异,是在生长发育和生活过程中,随体内外环境的不同,表遗传学修饰差异积累的结果[15,16]

研究表明一些肿瘤抑制基因被灭活,增加了对某些遗传性肿瘤的易感性,但在部分这类肿瘤不能发现相关基因的任何遗传学改变,根据癌变的体细胞突变理论很难解释。表遗传学研究表明,这一部分肿瘤的肿瘤抑制基因启动子区因高基化而被灭活;进一步研究还表明,通常原癌基因启动子区高甲基化,此时基因无活性,如在体内外一些因素影响下发生脱甲基化,则成为活化的癌基因。这样看来,表遗传学改变与基因突变和染色体畸变一样,可引发原癌基因的活化和肿瘤抑制基因的灭活,而这是癌变的中心生物学过程,故有作者认为,癌症是遗传学疾病,也是表遗传学疾病[11,17]

在多细胞生物由各种组织类型的细胞组成,它们具有相同的基因组,每种类型的细胞仅有数千个基因有功能,它们活动所产生的特殊细胞类型的特征能在体细胞间遗传,对此传统遗传学不能提供令人信服的说明;而近年来阐明的表遗传学机制,能根据细胞所处的特定的时、空条件,选择一组基因获能、另一组基因失能,参与细胞分化的调控;还是表遗传学机制产生的细胞记忆,保证了分化细胞特征的体细胞遗传。此时表遗传学机制成为基因活性调控过程的关键,没有活性的基因只是一段DNA序列而已。因此,有人把表遗传学调控机制与受控基因的关系,比喻成牵线人与木偶的关系,看来基因不都是处在中心支配地位,对基因中心认提出了挑战[2,4]

人类对客观世界的认识是无穹尽的,包括对人类自身的认识。根据人类基因组计划的最新资料[18],在人类基因组约含30亿碱基对中,仅1%序列编码了20,000-25,000基因,人们自然会疑问,例如 ①原估计人类基因组有10万基因,实际只测出不足25,000,约是果蝇的2倍,很难想象这样一小部分DNA序列含有充分的遗传信息,能调控人类这样复杂有机体的生长发育和生命的全过程;②人与猿的基因型编码基因仅差1%,同样难以想象仅是如此少量编码DNA的差异,决定了人猿之间许多精巧和本质的差异。染色质是基因组活动的平台,因此构成染色质的、占基因组绝大部分是非编码DNA,以及染色质组成的RNA和蛋白质在基因组功能中的作用应进行深入研究,而这些正是表遗传学研究的重要内容,现已取得突破性进展;③人类基因组约有3百万单核苷酸多态(single nucleotide polymorphisms SNPs),曾有学者寄希望于通过SNPs的研究,确定一些常见病的个体易感性,但迄今虽取得一些成果,但总体上不如预期那样好的关联性 [1,2,4,7,18]

还有到目前为止一直被大部分学者所忽视一个重要问题,就是生物界种属以上差异性状的遗传基础是什么,例如牛耳不同于马耳,这种性状差异的遗传是客观存在的,但目前传统遗传学的杂交和分子生物学技术都无法进行研究,然而这一问题的阐明,无疑会使对基因组的结构、功能及其调控的认识有很大的提升,可能涉及到更高层次的表遗传学系统等问题。

从上述可见,传统遗传学发展积累了许多问题,表遗传学发展在解决其中一些问题中起了很重要的作用。表遗传学发展尚处于初期,随着研究深入,必将促进整个遗传学科乃至生物学的发展。

二、表遗传学的发展

1.表遗传学的历史渊源

遗传学的历史与发育和进化的探讨相关,尤其与胚胎发育研究的关系更为密切,这在历史上可追溯到2000多年前古希腊的伟大哲学家(包括自然科学)亚里斯多德(Aristotle,公元前384-322年),他对生物学也有许多深刻的观察与见解,在《论动物的发生》(On the generation of animals)一书中提出了epigenesis一词来表达他对发育的观点,后人相对于先成论(preformation),将epigenesis中译成为后成论,认为机体发育起源于未分化的块团,成体的各种组织结构是逐渐形成的。这就是后来构成表遗传学(epigenetics)根词之一epigenesis的最初来源,两者关于发育的基本思想是一脉相承的;而先成论则认为,在卵或精子内有与成体完全一样的雏形,发育仅是简单放大[4,19,20]

长期来在学术界存在这两种发育见解的争论,即使在17世纪和18世纪,科学之风已兴起的西欧,由于宗教神创论思想的长期影响,学术界主流仍持先成论的观点。直到19世纪发现,生物(包括胚胎)都是由细胞组成后,绝大多数胚胎学家才开始接受后成论的观点。

20世纪基因中心论传统遗传学的迅速发展,近些年来一些作者对此提出异议,认为传统遗传学忽视了基因在复杂的细胞分化和形态发生中作用的研究,基因除非发生突变,实际上是世代相传不变的种系,因此认为传统遗传学与先成论相似,或是20世纪新形式、较精确的先决论(predeterminism)[20-22]。有作者在人类精神疾病进一步从基因与疾病(性状)相关的特异性、强度等5个方面,分析研究了特定基因与复杂精神病间的关系,结果认为个别基因对精神疾病的影响是小而非特异性的,进而认为,“基因决定性状”这一先成论的概念对精神疾病并不适合的[23]。看来传统遗传学与先成论间的关系,已成为讨论的话题。

2. 表遗传学发展简史

十九世纪主流生物学家认为遗传与发育是同一个问题,1865年孟德尔(Mendel)发现了遗传规律,还表明遗传和发育可分开研究,这一超前的工作并不能被同时代的科学家所理解而被忽视;20世纪上半叶,遗传学和胚胎学分开发展,很少考虑和应用对方的成果和方法;至20世纪中叶,一些重要生物学家认识到,遗传学和发育生物学的确相关,应彼此结合起来进行研究,其中卓有成就的、通晓发育生物学和遗传学的Waddington,1939年他首先在“现代遗传学导论”一书中提出“发育是表遗传学的(epigenetic)过程”;1942年在一篇论文中引入epigenetics这一术语,认为表遗传学是生物学的一个分支,是研究基因与其形成表型的产物间的因果互作;而当时另一些胚胎学家认为,在发育中细胞分化、器官形成是不需要基因丢失的结果,而Waddington主张,在分化过程中整套基因保持不变,而是不同组合的基因被开关即表达调控的结果,换言之只有表达/关闭基因种类和数量上的差异 [2,4,24]

Holliday是一位很执着的科学家,从1975年直至退休后的2006年,不断对表遗传学进行研究、探讨,早期他认为高等生物基因的本质可从两个方面进行研究,一是基因在生物世代间的传递机制,这方面的研究已有相当多;二是在从受精卵至成体发育过程中基因的作用方式,这方面研究尚少。他还首先提出,表遗传不仅在发育过程中、而且应在成体阶段研究可遗传的基因表达改变,这些信息能经有丝分裂和减数分裂在细胞和个体世代间传递,而不借助于DNA序列的改变,也就是说表遗传是非DNA序列差异的核遗传[2,4,]

表遗传学的发展需要进一步阐明基因表达调控和表遗传的机制,这首先在DNA甲基化研究中取得了进展。1975年Riggs和Holliday分别在两篇论文中提出,DNA甲基化在基因表达中有重要作用,并认为是发育中基因活性调节的开关;还推测存在一种维持型甲基化酶,仅识别复制的不久的半甲基化DNA,这样就解释了甲基化(甲基化/未甲基化)模式(pattern)的遗传问题;但由于在此后的10多年间既没有发现这种甲基化酶,也没有实验进一步支持甲基化的重要性,所以上述思想在这一段时间内并未受到应有的重视[25-27]

1990年代表遗传学研究取得了一系列重大突破,在DNA甲基化研究方面包括 ① 小鼠的基因剔除实验表明,失去DNA甲基化酶小鼠发育异常,提示甲基化酶在正常发育中起重要作用;② 在各种人类肿瘤发现,肿瘤抑制基因p16增加了甲基化,并可用脱甲基化制剂使p16基因复活,提示甲基化能使肿瘤抑制基因灭活。据前几年统计在癌症已发现600多种基因,由于DNA异常甲基化而表达失常;③ 发现了多种与DNA修饰相关的甲基化酶,以及检测DNA甲基化状态的简便、敏感的技术等[2]

与此同时,另一些表遗传学机制的研究亦取得重大进展。日益增多证据表明,染色质及其组成成分:组蛋白和非编码RNA在基因调控具有重要作用。例如 ① 首先发现染色质组蛋白的乙酰化可影响其他蛋白与DNA的接触通路,从而可能影响基因表达;② 随后发现了乙酰化酶和脱乙酰化酶,它们可与其他调节蛋白结合形成复合物,打开或关闭基因,组蛋白乙酰化使染色质呈开放构型,DNA能与转录因子接触;③ 组蛋白的甲基化可使基因沉默,其中H3组蛋白的甲基化构建了与转录抑制蛋白HP1结合的平台;④ 组蛋白各种修饰如乙酰化、甲基化和磷酸化等,不同修饰组合构成的“组蛋白密码”,提供了效应蛋白的结合点,进而在基因调控中发挥作用;⑤非编码RNA参与基因转录和转录后调节。至此,表遗传学机制的框架已初步阐明,并在动物、植物和微生物等研究中得到证实,还在肿瘤研究中取得重要进展。2001年国际权威性学术杂志“Science”专辑发表一组评论和综述,系统而全面地介绍了表遗传学研究领域和进展,显示表遗传学已进入主流生物学。此后,表遗传学和表基因组的研究受到广泛的关注,研究不断深入,基础和应用研究尤其在肿瘤理论和临床应用研究取得令人瞩目的进展[21128],这些内容将在本书以下各章中详细介绍。

第二节 表遗传学定义、基本概念和中译名问题

一、表遗传学定义

表遗传学的定义反映了该学科研究的内涵。近60多年来随着对表遗传机制的研究深入,其定义的内容也日益深刻和专业化。1940年代初Waddington提出表遗传学这一术语,是为了提倡遗传学与发育生物学应结合起来研究,其定义可简述为“是研究基因型产生表型的机制”;随着DNA甲基化在基因表达调控中作用的研究深入,至1980年代中期Holliday已认识到,存在不依赖DNA序列改变的、新的遗传方式,他重新审视了Waddington提出的这一术语,并把它用于因DNA甲基化改变而基因活性改变的情况;他还提出某些孟德尔遗传学不易解释的跨代遗传效应,有时可能是由于甲基化异常改变通过生殖系传递的结果。1994年他从不同的角度给出表遗传学的两种定义:① 研究在已分化的成体细胞,基因表达改变模式的有丝分裂遗传;② 不基于DNA序列变化的核遗传。这两种定义概括了大部分表遗传学现象,但并不完全[27]。1996年Riggs提出了他的定义,表遗传学是“研究不能用DNA序列变化解释的、能通过有丝分裂或减数分裂遗传的基因功能改变。”至今仍被一些学者所应用[19]

1990年代表遗传学研究全面取得突破,其中Wolffe等系列研究了组蛋白修饰,确立了染色质在基因表达调控中的重要作用,1999年他总结了当时的研究成果,提出“表遗传学是研究没有DNA序列变化的、可遗传的表达改变。”[2,28]在各种定义中这一定义最为简明,根据初步分析,也是目前被其他学者尤其是在实验研究论文中应用最多的定义。

进入21世纪,表遗传学迅速发展,提出了各种定义,真可谓百家争鸣。2005年作者曾分析收集到的16种表遗传学定义,可归纳出3个要点或核心内容:① 可遗传的,即这类改变通过有丝分裂或减数分裂,能在细胞或个体世代间遗传;② 是基因表达的改变,也有部分作者描述为基因功能或活性的改变,但在定义中用“表达”更为准确;③ 没有DNA序列的变化,或不能用DNA序列变化来解释。通过比较分析,正如一些作者所推荐的那样,以Wollfe(1999)的定义更为精确[4],不仅可反映表遗传学研究的3个核心内容,同时该定义的包容性较大,不仅包括常见的细胞核表遗传,还可包括已有报告的细胞质表遗传现象[27]

二、 表遗传学的基本概念

表遗传学是研究没有DNA序列变化的可遗传的表达改变,也可以说是研究有机体或细胞表遗传和变异的科学。近年来表遗传学的迅速发展,提出了一系列的表遗传学概念和术语,初步构建该学科的理论体系。现在对一些重要基本概念的要义予以简介,将有助于在总体上认识表遗传学研究的内涵和加深对本书的理解。

1. 表遗传和表遗传系统

1961年Jacob 和 Monod 在研究蛋白质合成的遗传学调节机制时,提出了操纵子理论,并预测“基因组不仅含有合成蛋白质的蓝本,而且有相应的程序及调控其执行的机制。”[30]表遗传学研究的进展在部分地证实了这一预见。

genetic information 遗传(学)信息 基因组含有两类遗传信息,传统遗传信息提供了合成生命所必需蛋白质的模板;表遗传信息提供了何时、何地和以何种方式应用遗传学信息的指令,后者是更高层次、更特化的遗传信息,它在与遗传信息和环境的相互作用中,适应性遗传性状(表型)形成。

epigenetic inheritance 表(遗传学)遗传 细胞和多细胞有机体将染色质水平编码的表遗传学信息传递给子代的过程。在个体发育中,表遗传维持了系谱内分裂细胞的同一性;也可表现为世代间性状或疾病易感性等的表遗传学传递。参见epimutation。

epigenetic inheritance systems(EIS) 表遗传(学遗传)系统 表遗传系统使具有相同基因型的细胞,能将不同的表型传递给后代,即使诱发不同表型的因素已不存在。已初步阐明的有四种类型的表遗传系统:① 染色质标记系统:染色质是核内一切遗传过程的物质基础,染色质标记是DNA和组蛋白与化学基团结合并修饰其活性;如真核细胞的DNA甲基化,所形成的5-甲基胞嘧啶的数量和分布方式影响基因的功能状态;当DNA复制后这些特定的甲基化模式,通过维持型DNA甲基转移酶在DNA子链上得以很好的保存;②稳定态系统:某些代谢类型能自我延续,此时基因一旦激活,其直接或间接的产物能维持基因的活性,并能遗传这一活性状态;③ 结构遗传系统:如在四膜虫和草履虫的纤毛排列的结构模式,可作为新结构形成的模板,尽管这一遗传方式的机制尚还清楚,据推测这一现象亦可能存在于多细胞生物;④ RNA干扰:允许具有抑制基因活性的小分子RNA扩增并在细胞之间转移[31]

Epigenetic alleles or epiallele 表(遗传)等位基因 在特定的基因序列、甲基化核苷酸的数量和分布彼此间不同的等位基因,可在基因型相同的个体产生表型的变异,如在植物自然发生的、有不同甲基化程度的表遗传等位基因,可产生新的表型,并遗传给下一代[32]

Epigenotype 表基因型 表遗传学是研究调控发育遗传程序实施的机制,以及决定各类分化细胞的表型。从受精卵发育而来的成体,具有各种类型的组织器官和分化细胞,它们具有相同的基因型,但有各别的细胞表型,每一种分化细胞的基因表达模式称之为表基因型,这种模式是由表遗传学机制所决定,确保了特殊一组基因活化,而另一组基因被灭活。这样在复杂的生物有许多的细胞表基因型,它们通过有丝分裂可在本谱系细胞间遗传。癌症改变的正常细胞表型,是在癌变过程中表基因型逐渐变化中形成[33]

Epigenome 表基因组 表基因组是一种细胞的表遗传学状态总和,是由调控基因表达相关的DNA和组蛋白等表遗传学修饰组成,并随细胞类型和对内外信号的反应而改变。在胚胎发育、分化过程中,表基因组呈现多样性;因此当分化逆转或横向分化时;就需要其表基因组的重编程。鉴于表基因组的天然可塑性,通过营养、理化因子能使其重编程,从而使通过表遗传学途径干预健康和疾病成为可能[34]

2.表遗传信息及其机制
以下章节将有详述的一些概念未加介绍。

epigenetic code 表遗传密码 是真核细胞中由特定表遗传修饰所组成的密码,其中包括DNA甲基化和染色质/组蛋白修饰(组蛋白密码)等。遗传密码在个体的每个细胞都相同,而表遗传密码是组织和细胞特异性的,后者决定了在发育中不同类型细胞基因表达的模式,即各种组织、细胞类型有自己特异性的活性-沉默基因的组合[35]

epigeneticmodifications表遗传修饰表遗传修饰是稳定的、但潜在可逆的基因表达的改变,此时并没有DNA序列的改变。表遗传修饰可通过有丝分裂传递给子细胞,在一些生物可传递给下一代。尽管表遗传学修饰的细节分子机制尚未完全阐明,然而可以认为包括了DNA甲基化、组蛋白与染色质修饰、RNA干扰等之间的复杂相互作用。

epigenetic molecular mechanisms 表遗传学分子机制 表遗传学机制是基因表达调控的核心,细胞借以调节包装DNA的可及性、细胞的可塑性和再生时所需的重编程。这些途径包括DNA甲基化、组蛋白修饰、染色体重塑和RNA干扰等,它们介导的表遗传系统在基因与环境间建立了连接,确保了个体发育的遗传稳定性和对环境的适应性[36]

epigeneticadaptors表遗传接头介导不同表遗传学修饰间的相互作用,它们包括甲基化DNA结合蛋白、染色质重塑酶和小干扰RNA(siRNA)。表遗传学修饰因子与接头间的复杂相互作用是表遗传稳定性的分子基础。

epigenetic regulation protein 遗传调节蛋白质 包括DNA甲基转移酶,甲基CpG结合蛋白、组蛋白修饰酶、染色质重塑因子及它们的多分子复合物。

3. 表遗传现象(epigenetic phenomena)

表遗传现象的基本特征是一种基因型可产生多种表型,并以非孟德尔方式遗传。这是由于基因组内一个或多个基因表遗传状态改变的结果。目前研究较多的表遗传现象有基因组印记、X-染色体灭活、位置效应斑、副突变(paramutation)和转基因沉默等。

genomic imprinting基因组印记;gene imprinting 基因印记;gamete imprinting 配子印记;parental imprinting 亲本印记 在有性繁殖的生物,父母本各提供一个同源等位基因给后代,亲本印记是取决于亲本来源的、等位基因差异表达的现象。这是由于在配子发生过程中,其中一个特定亲本等位基因在启动子差异甲基化区(DMR)高甲基化后沉默,而另一个未甲基化则表达的结果。例如哺乳动物细胞胰岛素样生长因子2基因(Igf2)只表达父源等位基因,而胰岛素生长因子2受体基因(Igf2r)就只表达母源等位基因等

paramutation 副突变 是一个基因两个等位基因间的相互作用,其中一个等位基因可使另一等位基因的表达状态发生可遗传的改变,不遵循孟德尔遗传法则。副突变的分子基础可能是表遗传学机制。

position-effect variegation 位置效应斑 由于基因周边基因组环境的改变,引发基因可逆的灭活,通常是由于处于有转录活性常染色质区的基因,移近至无转录活性异染色质区的结果。这样因基因位置改变引发的基因失活,在相同遗传背景的细胞群体中产生不同的表型,状如花斑。如在白眼果蝇纯合子,因位置效应斑的作用,可呈现红白相间的花斑眼。

transgene silencing 转基因沉默 在原代转化株及其后代中,转基因的表达被阻断,在转基因植物是常见的现象,可发生在转录或转录后水平。在植物转基因实验已发现转录后基因沉默,是由RNA干扰途径介导的。

X-chromosome inactivation X-染色体失活 在雌性哺乳动物细胞有两条X染色体,而雄性仅有一条,为保持两性间性染色体的平衡,在胚胎发育的早期,雌性两条X染色体中的一条,随机地被通过表遗传学机制使大部分基因永久地灭活,这就产生了“剂量补偿”效应(dosage compensation)。

4.表遗传学与发育和疾病起源
具有相同基因组在受精卵分裂、分化的胚胎发育过程中,形成不同组织结构与功能的器官,主要是由不同的表遗传学机制对相同基因组编程的结果;在表遗传学编程的早期发育阶段,对种环境因素十分敏感,不良的因素对表遗传编程的影响可改变一些成年人易发疾病的危险性。

Epigenetics in development 发育表遗传学从受精卵开始的个体发育,需要遗传和表遗传程序的密切协同,由于DNA序列除个别例外一般为不变的,是表遗传学机制编排了各种细胞类型特有的基因表达程序,从而使分化形成的各类细胞获得了不同的结构与功能,并能应答内外环境的改变和细胞间的信号。同时这些编程可通过细胞记忆在各谱系细胞世代间维持[37]

Epigeneticprogramming表遗传编程表遗传编程是机体基因型与与环境相互作用产生表型的过程,并可用以说明相同基因型个体间的差异,以及组织器官的唯一性等的原因。表遗传编程限定了基因表达状态,介导这一过程的表遗传学机制主要是DNA甲基化、组蛋白修饰、染色质重塑的非编码RNA[38,39]。

epigenetic reprogramming 表遗传重编程 是指原有表遗传修饰的消除和和重新建立不同基因表达编程的过程。在成体哺乳动物每一种类型的细胞,都有自己的表遗传学标志,它反映基因型、发育过程和环境的影响,最终产生一定的表型。这些表遗传学标志在大多数分化细胞已被固定下来,然而在正常发育的某些阶段或疾病的情况下,细胞就会发生表遗传学重编程,首先需要消除原有的表遗传学标志,随后建立不同的表遗传学标志,例如,当原始生殖细胞进入发育中的生殖脊并开始分化、扩增时,其高度甲基化的基因组迅速脱甲基化,失去大部分的DNA甲基化,重编程时再建亲源特异性标志,包括印记基因差别甲基化区的甲基化。生殖细胞发生中的表遗传重编程,是它们获得全能性所必需的[40,41]

cellularmemory细胞记忆是细胞活性和沉默基因表达模式的表遗传调节与遗传。在发育过程中通过DNA甲基化和组蛋白修饰对高层次染色质结构的修饰是基因组重编程的关键,决定了特定一组基因的活化或沉默;而PcG和trxG两组基因产物,能差别地识别基因活性与沉默的染色质特点,构成对特定基因表达状态的维持系统,结果形成了对细胞分化状态的细胞记忆[42,43]。
developmentaloriginsofdisease疾病的发育起源在生命早期阶段特别是发育中的胚胎对环境因素的作用最为敏感,因为此期DNA合成速度最快,并在精确构建对正常发育所必需的甲基化模式和染色质构型,不良的环境因素如母体营养状况、环境毒物的暴露和心理压力等,可通过表遗传学机制改变细胞的表基因型,并通过细胞记忆得以维持,进而影响成年后一些慢性病如Ⅱ型糖尿病冠心病等的发病及其病情。因此一些作者认为,许多慢性病起源于生命发育的早期阶段,与表基因型异常改变密切相关;这一疾病发育起源说不仅揭示了复杂、非孟德尔疾病的病因和病理机制,而且为这类疾病的预防和开发高效、低毒的表遗传学药物提供了理论基础[44,45]。
Epigenetictherapy表遗传学治疗用以校正表遗传学缺陷的药物,是一新的、迅速发展的药学领域。相对于遗传学缺陷,表遗传学缺陷是可逆的,用药物干预似易逆转,故表遗传学治疗应是很有效的治疗方式。

CpG island DNA methylator phenotype(CIMP) 增(促)CpG岛DNA甲基化表型 指大肠癌的多个基因启动子区协同、频发CpG岛的甲基化,是大肠癌发生的机制之一,引发微卫星不稳定性,并可用于临床疾病分类。近年来在一些常见肿瘤如肺癌、膀胱癌等也观察到CIMP现象[46,47]

5.表遗传变异与进化

表遗传学机制介导基因与环境间的相互作用,所产生的表遗传变异,和遗传变异如基因突变、染色体畸变等一起参与生物的进化过程。

Phenotype表型个体的表型是基因型、表基因型与现在、过去导致表基因组终生重塑的环境因素间复杂相互作用的结果[48]。

Metastable epiallele 亚稳态表等位基因 在基因型相同的个体中,因发育早期建立的表遗传修饰易发生表达改变的等位基因,不同于表遗传学标志有传代趋势的表等位基因(epiallele),亚稳态表等位基因表达式易受到环境因素的影响、“亚稳态”反映了这类表等位基因的表遗传学状态易发生改变的本质[49,50]

Epimutation 表突变 用以描述没有DNA序列变化的可遗传的基因改变,是一类表遗传学修饰。表突变可产生重要的表型变化,甚至当引发的环境因素已不存在时仍可维持[27,51]

epigenetic variation 表遗传变异 表遗传学信息改变所引起的表型变异,以往认为表遗传学变异是短暂的,不太可能是稳定地遗传,因而忽视其在人工和自然选择中的作用。近年来增多的证据表明,表遗传学改变特别是DNA甲基化改变能与突变一样通过减数分裂遗传,可传递数代;有些表遗传变异的后代在配子形成时亲本的甲基化改变可被消除[5253]

neo-Lamarckism 新拉马克主义机体对环境影响的反应能被遗传,通过自然选择的作用传递给下一代。近年来特别是植物的研究表明,环境引起的表遗传修饰如DNA甲基化、所产生的表遗传变异能传递给下一代[56]

三、 Epigenetics的中译名问题

目前国内对epigenetics有不同的中译名,由于学科译名影响范围广、时间久远,而且译名是否确切,影响对学科内涵的理解,因此更应审慎严谨和精益求精。正基于此,本文从epigenetics在国内的学科发展、译名现状、研究内涵以及词源和构词法诸方面,对常用几种主要译名进行比较。

1. Epigenetics的中译名与应用现状

为系统了解表遗传学在我国发展和中译名演变的过程,我们对CHKD期刊全文数据库(清华同方光盘股份有限公司等)Google和Yahoo等网站进行搜索,并结合馆藏资料和作者积累资料的查证与分析,基本摸清了学科发展和译名之现状。

1990年代初我国已开始介绍和研究DNA甲基化状态改变与肿瘤发生的关系[57,58]。1996年“人类遗传学概论”一书首次将Epigenetic译成“表遗传”,并介绍了DNA甲基化在基因表达调节中的重要意义;进入21世纪,随着 ‘Science’ 对表遗传学研究的系统评介,国内对这方面介绍和研究增多,据不完全统计,Epigenetics的中译名除表遗传学外还有10余种,如表观遗传学、表型遗传修饰、外因遗传学、基因外、发育遗传学和拟遗传学等(表1-1)

blob.png

但根据我们的调研,应用较多的译名是表遗传学和表观遗传学,其他译名多数为个别作者采用。分析这些译名在文献中应用情况,明显以2006年国家名词委在《遗传学名词》中采用“表观遗传学”译名为界,在CHKD期刊全文库2003年至2005年间检索到的24篇相关文献中,应用表遗传学译名的为16篇,应用表观遗传学译名的为9篇;然而在遗传学名词公布的2006年后,采用表观遗传学的逐渐增多。

在Google和Yahoo等网站搜索也获得类似的结果,例如2006年4月29日在中文Google网站搜索表遗传学和表观遗传学,结果分别是1,970,000和567,000,网上查到表遗传学的结果远多于表观遗传学;但在2007年7月8日检索结果逆转为2,120和313,000,可见国家名词委的强势影响及其对出版界的要求,以及部分作者名正言顺的心理综合作用的结果。然而对一个有争议的学术译名哪一种较为确切,最终应取决于译名本身能否更好地反映其学术内涵,而不应是简单的行政规定。

2. Epigenetics的内涵

要深入理解epigenetics的内涵,就必需分析研究该学科的发展和认识深化的过程。已如上述,1940年代初Waddington提出表遗传学这一术语,认为是研究基因型产生表型的过程或机制。1980年代中期Holliday重新审视了Waddington提出的这一术语,并把它用于因DNA甲基化改变而基因活性改变的情况;1990年代表遗传学研究全面取得突破,确立了染色质在基因表达调控中的重要作用,Wollfe(1999)提出“表遗传学是研究没有DNA序列变化的、可遗传的表达改变。”[27,29] Gottschling (2007)提出“表遗传学现象是可遗传的表型改变,但不涉及到基因的突变。这种表型的改变是基因表达开关的改变。它必需是可遗传的,甚至是在引发开关改变的最初条件消失之后[59]。”从上述代表性定义可规纳出表遗传学或表遗传学现象的最本质的内涵是:可遗传的表型表达的改变,而没有基因或DNA序列的变化。

近10多年来,深入探讨epigenetic调控的分子机制,逐渐认识到,表遗传学是以DNA和组蛋白修饰后形成的复合码为基础的另一类遗传现象,作为epigenetic信息遗传物质基础的各种epigenetic修饰和连接分子,其存在、改变和作用平台均位于原始基因组结构的表面。这样如果把epigenetics译成表遗传学,这里的“表” 就意含该学科研究内涵中的3个关键词:表型、表达和表面,并与传统遗传学区别开来;如译成表观遗传学因过于直白,难以很好地与该学科内涵联系起来。

3. 词源和词法的分析

Waddington新创词epigenetics是由epigenesis和genetics缩合而成,根词epigenesis可回溯到2000年前亚里斯多德时代,但作为现代遗传学术语的epigenetics已超出了后成论的原义,表示不仅在胚胎发育而且在成体阶段,没有DNA序列改变的,能通过有丝分裂、减数分裂遗传的基因表达或表型的改变,因此不能将两者理解成同义而译为发育遗传学和表型遗传修饰等相关的词,因为它已是遗传学的一个分支,两者研究的内涵不同。

希腊词前缀“epi-”在英文中有6种以上的解释,因对基因与周围成份关系认识的不同,在国外学者中对epigenetics的理解也有所差异,其中之一表现在对前缀“epi”含义强调不同,有的作者较强调意为“besides”或“beyond”,表示这类改变在基因之外,所以国内有人将其中文译成‘基因外’或‘外遗传学’,但易被误解与遗传无关,但目前仍有人采用;而另一些作者则偏重于“upon”、“over” 或”“in addition to”,表示这类改变发生在基因组原始结构的表面上,所以较多的人将其译成表遗传学或表观遗传学等。

中文“表”构成复合词时,其义含有“外面、外表、外貌等”与英文前缀“epi-”相关的含义接近,常见的相关复合词如表层、表皮以及构成epigenetics定义中相关的3个关键词:表达、表型和表面等(辞海 02年版);同时根据汉语共(同词)素式缩略构词法,可将上述三个汉语关键词缩略为“表”,再与遗传学合成就构成了中译名“表遗传学”,从而意含了表遗传学研究的三个重要方面;而“表观”含义又不甚明确,在常用中文词典和“辞海”匀未能查及。这样从上述比较可见,中译名表遗传学较表观遗传学更能反映该学科的研究内涵;可能正因为如此,在自由学术环境下即国家名词委公布表遗传学译名前,较多作者选用表遗传学这个译名[60]

最后也应指出,表观遗传学译读起来比较上口,并可给读者对学科内容有个初步的想象;然而从深入理解学科的研究内涵来看,表遗传学的“表”不仅可有“表观”的含义,已如上述,更重要的是涵盖了能反映该学科研究内涵,另外更符合构词法。

目前表遗传学在我国的发展尚属初期,对其译名尚有不同意见,是很正常的事,此时不宜过早定下来,应采取审慎的态度,在充分讨论后最终确定,这样才符合百家争鸣的大政方针,更有利于学术的健康发展。

第三节 表遗传学促进遗传学的发展

遗传是基本生命现象,一种遗传性状或表型的形成,除需要决定蛋白质模板和程序的遗传学信息外,还需要表遗传学信息正确调控实施这些信息,在与环境的相互作用中,这两类遗传信息协同才可能形成遗传性状。老子说“万物负阴而抱阳”,遗传学信息和表遗传学信息有如一个事物的阴阳两个方面,它们既相互区别、彼此制约,又相互渗透、相辅相成,合二为一实现机体的遗传过程。

一、 遗传学信息与表遗传学信息

遗传学信息(genetic information)和表遗传学信息(epigenetic information)的物质基础、编码和遗传方式不同。传统遗传学认为,DNA是遗传学信息的物质载体,遗传学信息以“三联码”的形式、贮存于由四个碱基组成的DNA的序列之中,通过半保留复制准确地传递给后代,因此除非偶发突变事件,通常遗传性状不受亲本行为和所处环境的影响,在世代间稳定传递。这种不易改变的遗传方式,被称之为刚性遗传(hard inheritance)[61]

表遗传学信息贮存在DNA和与组蛋白等表遗传学修饰的组合之中,具体细节尚待进一步阐明,它提供了高层次、更特化的遗传信息,参与基因表达的调节。表遗传学信息每次细胞分裂中也能复制,但保真度不如DNA复制可靠;它们易受到环境压力、营养和亲本行为等因素的影响,其中一部分修饰的表基因型可传递给后代,引起表遗传性状的改变。鉴于表基因组的可塑性,相对于基因组的“刚性”,故表遗传被称之为“柔性”遗传(softinheritance)[61]。

遗传学信息和表遗传学信息虽相区别,但又相互联系、密不可分,例如,形成表遗传学编码所必需的DNA、组蛋白修饰,是在由蛋白质构成的各种酶如DNA甲基转移酶、去甲基化酶,组蛋白乙酰化酶和去乙酰化酶等的催化下产生;还有参与表遗传学调节所必需的表遗传学接头(epigenetic adaptors )如甲基化DNA结合蛋白、染色质重塑酶、非编码RNA以及组蛋白本身都是由DNA所编码,因此没有遗传学信息就没有表遗传学信息;同样在遗传学信息实施过程中,只有在表遗传学信息适当调控下,一组基因活化另一组基因沉默才能完成细胞的分化或执行特定的功能,进而形成由各种组织器官组成、功能协调的整体;而被表遗传学机制沉默的DNA没有任何生物学功能,仅是一种化学物质而已[4,27,34]

在生物个体发育和生存的整个过程中,只有遗传学信息和表遗传学信息彼此协同才能正常发育和健康生存,否则就会出现发育异常和多种疾病,同时也显示出彼此间的影响和协同:编码表遗传学修饰各类相关蛋白的基因突变,使就会因表遗传学修饰异常而患相关疾病,例如,① DNA甲基转移转移酶Dnnt3b参与DNA的重新甲基化和复制后甲基化的维持,如发生基因突变,异常甲基化影响染色体的结构,产生ICF(immunodeficiency,centromeric region instability and facial anomalies)综合征 ,患者有免疫缺陷、着丝粒区不稳定和面部异常; ② 与DNA修复相关基因如hMLH1启动子区高甲基化灭活后,可引发遗传性非息肉型结肠癌,微呈现卫星不稳定性 (Microsatellite instability MSI); ③表遗传学改变引发或协同遗传学突变参与癌变过程,如基因组整体低甲基化引发癌基因活化与染色体畸变,亦可通过个别基因启动子区的高甲基化,分别或同时作为“两次击中”的事件,使肿瘤抑制基因失能而促进肿瘤的发生[4,11,34 ,62,63]

综上所述可见,遗传学信息和表遗传学信息是遗传、发育和疾病发生过程中不可或缺的两个方面,目前迅速发展的表遗传学研究,必将弥补过往传统遗传学研究之不足,推动新一轮遗传学乃至整个生命科学的发展,并有重要的实践意义[42734]

二、 基因是什么

科学发展史表明,任何有生命力的科学概念,随着科学研究的深入不断更新其形式和内涵,基因概念的演变也证实了这一点,当然这一演变不会终止于今天,目前基因和基因组的概念正经历着更全面的认知过程[58]

1.基因概念的演变

1865年孟德尔报告了性状遗传的分离律和自由组合律,为解释这些遗传现象,也提出了决定性状遗传的遗传因子说。遗传因子在体细胞中成双,形成生殖细胞时彼此分离而成单,雌雄配子间自由组合形成合子又成双,在这里遗传因子是根据科学实验推测的、决定遗传性状的功能单位;1909年约翰逊把遗传因子称为基因,并区分基因型和表型。摩尔根等发现了伴性遗传和连锁现象,第一次证明基因在染色体上呈线性排列,彼此间有连锁遗传的倾向,并可发生交换;而不同染色体间基因的遗传则遵循孟德尔规律。可见摩尔根的基因论丰富和发展孟德尔的遗传因子说,基因是在染色体上占有一定的位置的遗传功能单位;然而他们提出的基因同时是遗传、突变和重组最小单位的观点,则被后人的研究工作所否定[7, 64]

1940年代后分子遗传学兴起,细菌转化和噬菌体转染试验、DNA双螺旋结构和遗传密码的发现,和随后遗传工程技术发展与应用,学术界基本接受了如下的定义:基因是编码一条多肽链的DNA片段;1961年Jacob操纵子的研究,将表达调控序列亦列为基因;这样在基因概念中不仅有合成蛋白质的蓝图,而且有执行的程序,显然对基因的认识前进了一步;这一位分子遗传学大家还认为,基因组还应包括调控它们实施的方法或机制。然而传统遗传学家对这一富有预见的思想未予重视。

人类基因组计划的完成和后续计划的实施,使基因DNA序列研究取得很大的进展,然而以三大遗传规律和DNA中心法则(DNA→RNA→蛋白质)为基础的现代基因理论,面对一些常见的遗传现象成为无法解释之谜,例如 ① 印记基因决定的性状表现为亲本依赖性遗传;② 同卵双生子生活在相似的环境下,20岁后可出现了个性和疾病易感性等的差异;③ 一些肿瘤抑制基因被灭活,增加了对癌症的易感性,但不能发现任何遗传学改变;④ 在个体发育过程中,具有相同基因组的胚胎细胞,什么机制调控基因表达使之分化,并能通过细胞分裂遗传;⑤人类基因组只确定了不足2万5千基因,约是果蝇的2倍,很难想象占基因组不足1%的DNA序列,能调控人类这样复杂有机体的发育和生命的全过程,等等[265];上述遗传学发展现状提示我们,基因概念需要新的突破。

回顾遗传学发展史,遗传因子说后约四、五十年产生了基因染色体说,过了三、四十年产生基因DNA序列说;现在又过了四、五十年,近10多年来表遗传学快速发展,其核心内容正是研究Jacob提出的、调控实现遗传学密码和程序的机制,因此重新审视基因的概念正当其时。

2. 基因是遗传的功能单位

表遗传学是研究没有DNA序列变化的、可遗传的表达改变,也是细胞的特殊结构和功能状态在细胞世代间遗传的机制。表遗传学信息是DNA甲基化和组蛋白尾共价修饰所编码,它们与表遗传学衔接分子间的复杂相互作用,提供了表遗传学遗传的稳定性,以及表遗传学机制的长效性[66-68]。表遗传学进展正在逐步解开上述传统遗传学之醚,例如基因组印记性状的遗传不遵循孟德尔规律,是由于特定亲本等位基因差异甲基化区(DMR)高甲基化的结果;表遗传学芯片研究表明,同卵双生子间甲基化型式的不同产生了表型的差异;启动子区的高甲基化参与肿瘤抑制基因的灭活,甚至“两次击中”均为表遗传学事件[24]

在胚胎发育过程中,表遗传学机制新编就的程序作为细胞记忆通过细胞分裂稳定遗传,主要机制是DNA甲基化和Pc-G/ trx蛋白复合物,这确保了分化细胞的同一性;这些研究还密切关系到克隆技术和干细胞治疗的改进[377172]。其实摩尔根本人很重视对发育的研究,在1926年出版的《基因论》一书中指出,“明了基因对发育中个体如何发生影响,毫无疑义地将使我们对于遗传的观点进一步扩大,对于目前还不了解的许多现象也多半会有所阐明”[64],这一经典遗传学家的预见,也正在表遗传学研究中逐渐得到验证。

基因概念的最基本内涵是一个遗传的功能单位[4,64],DNA序列提供合成蛋白质的密码,如不能通过表遗传学机制地被选择性表达,此时的基因只是一段DNA分子,并没有遗传的功能;基因表达的调控是多层次的,但最重要和最关键的还在转录水平,此时表遗传学机制根据时、空条件提供了精确的调控,使基因得以表达,才能合成蛋白产物,进而在基因与环境的复杂相互作用中形成遗传性状;由于表遗传学信息也能通过有丝分裂和减数分裂在细胞和个体世代间遗传,故有作者建议把基因或遗传物质从一定的DNA序列扩延至相应染色质部分的表遗传学修饰。这样基因的概念在更丰富内涵下又回归到基因染色质说,但也不是所有的成份、只有在性状遗传中起作用的那些成份可作为遗传物质,目前多数作者把它限定在DNA及其包装蛋白(组蛋白)水平,因为它们是遗传学和表遗传学信息贮存、恢复和传递的物质基础[1,4,69,70]

3. 基因组和表基因组

基因组(genome)一词最早是见于1922年的遗传学文献,是指单倍体细胞中所含有的全套染色体,故这一词曾被中译为染色体组;随着基因DNA序列说的兴起,genome定义为全套染色体所含有的全部基因;近年来的深入研究发现,基因组除编码序列外,还含有非编码RNA基因(non-coding RNA gene)、表达调控序列和大量功能尚未被阐明的DNA序列,因此genome被定义为全套染色体包含的DNA分子,以及DNA分子所携带的全部遗传学指令[4,64,73]

人类基因组计划的完成后,应用高通量的方法在基因组范围内研究表遗传学机制,就成为表基因组学(epigenomics)。表基因组是由调控基因表达的DNA甲基化和组蛋白修饰组成,它们能在有丝分裂分裂中忠实地复制,并能遗传给下一代;鉴于表基因组天然的可塑性,特别是在发育的早期阶段能被营养、理化因子和亲代行为等重编程[74]

综观以染色质为物质基础的遗传学信息和表遗传学信息,既相区别又彼此依存,其中遗传学信息提供了合成生命所必需蛋白质的模板及实施程序,而表遗传学的信息提供了何时、何地和如何样地应用遗传学信息的指令;整个基因组通过DNA精确的复制,保证了遗传学信息稳定性和连续性,使蛋白质结构和功能维持相对稳定;同时又通过表遗传学机制,使基因组能根据机体自身的信息、程序以及内外环境和时、空条件适当地表达,这样在两类遗传信息的协同作用下,实现基因的遗传功能,此时这两类遗传信息又合二为一[4]

在整个生命过程中,表基因组的可塑性能对激素、生长因子等调节分子传递的环境信息,在不改变DNA序列的情况下作出反应。表基因组把基因和和环境联系起来,使基因组这样复杂的生物学系统不仅具有稳定性,而且具有了可塑性。其实,阴与阳、刚与柔、稳定与可塑,本来就是一个事物的两个方面[474-76]

4. 表遗传学与进化

表遗传学调节机制有着广泛的生物学效应,在生物界它是作为宿主抗病毒和寄生序列的防御机制的一部分而进化,例如在植物和真菌,DNA甲基化主要局限于转座子和重复序列;在酵母和低等无脊椎动物线虫和果蝇,几乎不存在DNA甲基化,在果蝇通过转座子的作用,自发突变率可高达50%至80%;在哺乳动物DNA甲基化的程度很高,并是表遗传学调节的主要机制。看来DNA甲基化程度调节基因的表达,是生物界进化到一定阶段发生的现象[4,77,78].

非DNA序列改变的表遗传学系统在细胞和个体世代间传递,拓宽了遗传、遗传信息和遗传物质基础的概念,挑战目前被接受的、基因中心论的新达尔文主义[67];进化是对变异表型自然选择的结果,而表型是由刚性的DNA碱基序列和较为可塑的基因表达模式(pattern)所决定。近年来的研究表明,在自然群体中存在不受遗传变异制约的表遗传变异,一些由环境诱发的表遗传变异可遗传给下一代;在细菌的研究进一步证明,变异的基因表达模式介导了抗菌素耐药性进化。这样,拉马克学说和获得性状遗传的可能性问题又重新提出,然而这是生物学史上争论数百年的老问题,目前的相关研究尚未属初步,但值得深入验证与探讨[54-56,67,79]

第四节 表遗传学调控的分子机制

在多细胞生物绝大多数体细胞具有相同的基因组,维持细胞正常功能仅需要数千个基因,它们只占基因组的一小部分,这样在胚胎发育、细胞周期和应答环境改变等生命活动中,根据一定的时、空条件,如何选择一组基因获能、另一组基因失能已成为这些过程的关键,而表遗传学调控提供了这一选择的机制,相对于传统遗传学信息,这是更高层次、更专化的遗传学信息。表遗传学调控的分子机制包括DNA甲基化、组蛋白修饰、染色质重塑和RNA干涉等,其中最重要是DNA甲基化和通过组蛋白修饰的染色质重塑(remodeling)[1,80,81],在以下各章节将有详述。

一、 DNA甲基化和转录调节

DNA甲基化是目前研究工作最多、并可能是哺乳动物最为关键的表遗传学调节因素,如调控基因表达、控制寄生序列的播散,在有大量重复序列存在情况下维持基因组的稳定性和X染色体灭活等,还是现已明确在细胞分裂中信息复制机制的一种表遗传学标志[11,82,83]。

DNA甲基化几乎都发生在 CpG二联体上,成簇的CpG称为CpG岛,超过70%人类基因的启动子区存在CpG岛,在正常细胞CpG岛如未被甲基化,反映对应基因有转录活性;在DNA甲基化过程中,胞嘧啶从DNA双螺旋突出,进入与酶结合部位的裂隙,通过胞嘧啶甲基转移酶,把活性甲基从S-腺苷甲硫氨酸(SAM)转移至胞嘧啶5位碳原子上,形成5-甲基胞嘧啶(5MeC或5MC),基因启动子区的甲基化可导致转录沉寂,近来一些研究认为,这是通过募集甲基-CpG结合区(methyl-CpG binding domain MBD)蛋白,后者作为甲基化DNA与含酶复合物间的接头而起作用;但在哺乳动物编码区的甲基化并不妨碍转录的延伸,所以CpG岛的重新甲基化并不必然引起基因的灭活[1183-86]

DNA甲基化是一个动态、又是受到严密调控的过程,CpG 的甲基化模式(pattern 反映5MeC在DNA序列中分布与密度) 不仅具有种的特异性,而且有组织特异性。哺乳动物细胞整体的DNA甲基化模式,至少有3种DNA甲基转移酶复杂地相互作用后形成。它们可分成两种类型:重新甲基化的DNA甲基转移酶DNMT3A和DNMT3B,在没有甲基化的DNA双链上进行甲基化,这主要发生在受精后去甲基化、至植入后需重新甲基化的胚胎细胞。它们也参预了肿瘤抑制基因等的启动子区的DNA异常甲基化[1187]

维持甲基化的DNA甲基转移酶DNMT1,主要与复制后形成的半甲基化DNA子链发生反应,根据亲本链的甲基位点,在复制链对称回文结构相应的胞嘧啶上进行甲基化,这样就获得了与亲本DNA完全相同的甲基化型式,这就构成了表遗传学信息在细胞和个体世代间传递的机制(图1-1)[11]

DNMT1 能与许多活性蛋白如组蛋白去乙酰化酶(HDAC)1和2、甲基CpG结合蛋白(MBD)1-3、以及RB蛋白等结合,积极参与转录控制和染色质的重塑;DNMT1与增殖细胞核抗原(PCNA)直接相互作用,形成酶复合物定位在复制叉,复苏DNA的复制机制。随着通过复制叉,DNMT1维持子链的甲基化型式[1126]。在小鼠完成的基因剔除实验表明,失去两个拷贝的DNMT1或DNMT3a的胚胎,在出生前死亡; DNMT3b的纯合缺失小鼠于出生后死亡,可见,DNA甲基化和甲基转移酶对正常细胞功能和胚胎发育是何等重要[29]

图1-2中新合成的DNA链未被甲基化,很快需SAMR的维持型甲基化酶,识别DNA链上的半甲基化(hemimethylated)部位,在5’回文对称的“C”上进行甲基化,结果重建了亲本DNA链的甲基化型式。如在细胞增殖时缺乏SAM,或维持型甲基化酶被抑制,不能重新甲基化,结果在子细胞就形成半甲基化部位,再次复制时就有了DNA低甲基化(hypomethylation)细胞,并能遗传。进一步还可以去甲基化,此时无需DNA复制和重新甲基化,亦不需要半甲基化信号。

二、组蛋白修饰和组蛋白变体

1. 组蛋白修饰

组蛋白是一种碱性蛋白,共有5种组蛋白构成染色质结构基本单位的核小体,其中组蛋白H2A、H2B、H3和H4各2个分子组成的核心颗粒,长147碱基对的DNA环绕四周,核小体间由间隔DNA相连接,组蛋白H1与间隔DNA连接,如此形成的核小体为构成染色质的基本单位(图1-2)。 这些核心组蛋白分子有保守的C-端折叠区,促成组蛋白之间和组蛋白与DNA 的相互作用;同时组蛋白含有似较柔性的N-端尾区,它们从表核小体面突出,可在特定氨基酸残基上进行各种酶促翻译后修饰包括赖氨酸的乙酰化、丝氨酸的磷酸化和赖氨酸、精氨酸的甲基化等。一些作者认为,这种组蛋白尾特殊的修饰模式,关系到染色质重塑的基因调节,称之为组蛋白密码 histone code。组蛋白密码提供了效应蛋白结合位点,后者能与核小体结合并能识别特定的组蛋白修饰模式,通过蛋白质结构域的相互作用并共价结合[89,90];另一些作者则因组蛋白修饰的模式随时空而动态改变,在不同物种间、尤其是高低等生物间差异相当大,而对组蛋白密码持保留态度[34].近有作者认为,复杂的组蛋白修饰不宜说成简单的密码,但更合理的模式是一种复杂、有细微差别的染色质“语言”,在这种语境下一定的组蛋白基本修饰组合产生动态的染色质功能[91]

组蛋白翻译后的共价修饰是染色质状态调节的关键因素,因此参与染色质相关的许多重要的生物学过程,如DNA复制、修复、转录和基因组的稳定性等。首先是发现转录活跃的染色质部分富含乙酰化的组蛋白,而后观察到,组蛋白H3和H4的低乙酰化与异染色质和转录不活跃的染色质部位相关。组蛋白N-端乙酰化时失去正电荷,使其与DNA的结合能力减弱,引起染色质结构变得比较开放,而有利于转录。组蛋白乙酰化和去乙酰化状态是受组蛋白乙酰转移酶(Histone acetyltransferase HAT )和组蛋白去乙酰酶(Histone deacetylase HDAC)所调节[9092]

在转录活性染色质H3-Lys9 被乙酰化,而在基因沉默区则是被甲基化;当H3-Lys4甲基化时,则与活跃的基因表达相关。H3-Lys9的甲基化还见于基因沉默的异染色质区。转录抑制因子HPI(异染色蛋白1)的溴化域能与甲基化H3-Lys9结合,并参与异染色质的组装。可见,组蛋白尾修饰的功能不仅取决于修饰的种类,还与被修饰的氨基酸残基和它在N-端多肽链上所处的位置密切相关[29,36,42]。近来发现组蛋白H3的第4、9、27、36、79位和H4第20位的赖氨酸的甲基化,在基因表达和染色质功能调节中起重要作用。另有资料表明,组蛋白甲基化与基因的长期沉默相关[11,93]

目前对染色质组蛋白的研究日益重视,一些作者认为,组蛋白一方面构建了DNA与细胞内其它生物活性成分相互作用的平台[31];另一方面在组蛋白N-端尾区发生的多种组合修饰,控制了DNA结合蛋白进入的通道,有效地调节着染色质转录活跃或沉默状态的动力学转换,这种组蛋白密码扩大了基因组信息的贮存[34];也许更重要是,它们还携带了对特定因子反应中转录能力的信息,换言之,核小体不仅是在DNA包装中发挥作用,而且在细胞世代间传递着有关转录能力的表遗传学信息[11,90]

2. 组蛋白变体

在多细胞生物从单个受精卵分化成各种类型的细胞,它们的基因表达模式和细胞同一性在细胞世代间得以维持,而各种细胞的基因型相同,故遗传学信息不可能有此功能。现已研究表明,与遗传学信息同时存在的表遗传学信息执行基因组的这一功能,这类信息贮存在组蛋白的共价修饰和有不同特性的组蛋白变体(varinat)之中;常见核心组蛋白组蛋白均有其变体(参见表2)[94]。
细胞内存在特异性组蛋白变体的置换途径,可根据细胞功能的变化,将更特化的组蛋白变体替代主要组蛋白,结果能改变核小体的稳定性、可移动性和组蛋白修饰模式,从而影响染色质的高层次结构的下游的事件,例如H3样变体CENP-A置换着丝粒核小体中的H3,以保持其独有结构,确保染色体的正确当的分离;又如在DNA转录时变体H3.3取代原有的H3,这已成为转录事件的标志。还有研究着重指出,组蛋白变体的生理相关性和在表遗传学调控中的意义[94-96]。

组蛋白变体与主要组蛋白亚型是由非等位基因决定的,变体有特殊的表达、定位和调节;组蛋白与其变体间氨基酸序列的相似性变化较大,从几乎完全相同到差异很大。变体在掺入核小体时需特化的复合物,不同的变体能区别地在着丝粒、哺乳动物灭活的X染色体和转录活性位点上替换。变体H2A.Z和H3.3参与不同和核小体组装途径, H2A.Z通过SWR1复合物置换,而H3.3是通过HIRA复合物,结果形成杂合二聚体的组装单位,这就意味着在转录中核小体的8聚体可逐步被取代,修饰组蛋白变体替换的结果消除了转录的障碍,从而稳定化活性染色质状态。这对组蛋白修饰模式在世代间的维持提供了启示[97]

blob.png

三、染色质重塑

人类基因组DNA约 2米长,通过与组蛋白组装成染色质,分布于直径6μ左右的细胞核中,在如此小的空间中2万多基因有条不紊地实现其功能,染色质的空间配置就成为基因调节的关键因素[14]。核小体是所有真核细胞染色质的基本单位,它是由8聚体组蛋白组成的核心颗粒,DNA环绕其上,并与核小体间的连接组蛋白(H1)结合。大部分情况下,多核小体纤丝进一步绕圈,染色质凝缩,组蛋白H1同时连接核小体和间隔DNA,形成稳定高层次的结构 [909498]

真核生物DNA以核小体形式包装构成染色质,这就必然阻碍了转录复合物与DNA的结合, 这样染色质结构的修饰成为基因表达调控的关键因素,因为它决定了靶DNA序列的可及性以及有序地募集调节因子。核小体是构成染色质的基本单位,核小体的组装、松动和解体,影响基因表达调控等与DNA相关生物学过程;核小体的稳定性是受核小体占位序列、组蛋白伴侣、ATP-依赖的重塑因子、翻译后组蛋白修饰和变体,其中核小体、染色质重塑是一个需要提供能量的生物学过程[9499-101]

染色质重塑是真核细胞核小体在DNA 上重新定位或排列的过程,这一过程由两类蛋白质复合物介导:① ATP依赖型核小体重塑复合物(ATP-dependent complex of remodeling factors) 这类复合物有多个亚单位组成部分,且多数具有ATP酶的活性,提供重塑过程所需之能量;② 组蛋白修饰复合体,它们对核心组蛋白N端尾部的共价修饰参与染色质结构重塑。目前对核小体重塑复合物的研究较多[102,103]

染色质重塑复合物通过酶促过程调节染色质的结构和功能,它们多含有ATP-依赖染色质重塑因子,后者参与许多重要过程,如转录、DNA修复、复制和染色体结构的维持,并起重要作用。复合物中的多种酶有活性受连接组蛋白、组蛋白变体、染色质非组蛋白成分和第二信使的影响;此外,组蛋白修饰及其与位点特异性的转录因子的相互作用确定这些活性的导向[103]。

近来研究表明,启动子区染色质的拆分能使基因转录激活,而染色质重新组装则抑制转录;组蛋白的移去和替换能打开或封闭转录的装置的至靶序列的通路,从而调节转录过程,如在转录单位中发生组蛋白丢失,能让RNA多聚酶通过,但空位很快被具有特殊特性的变体组蛋白替换,并作为转录能力的记忆[104]

总之,染色质或核小体重塑是一个复杂的、需能量的酶促过程,具体细节尚待进一步研究,推测在染色质重塑复合物作用下,核小体中核心组蛋白与DNA分离并沿DNA的“滑动”,而后与DNA重新组装,产生新的核小体定位和结构形式;同时整个过程又是可逆的,以适应染色质不同功能状态转换的需求。

四、小干扰RNA和微RNA

从上一个世纪的九十年代以来,相继发现了小干扰RNA(Small interfering RNA siRNA)和微RNA(microRNA miRNA )现象,可能的重要理论和实践意义,使之很快成为研究热点,已有的研究初步表明,RNA成为重要的遗传学信息的决定者和基因表达调控的管理者。本书第章将有详述。

RNA干扰(RNA interference RNAi)是由双链RNA(double-stranded RNA,dsRNA)使靶基因的mRNA降解或阻止其翻译,最终导致特异性靶基因表达阻断的现象。RNAi是从原核生物、酵母到人类都保守的一种基因表达调节途径。执行RNA干扰功能的两种最基本的分子是siRNA和miRNA,它们与argonaute酶结合,形成多亚单位的效应复合物:RNA诱发沉默复合物(RNA-induced silencing complex RISC)或RNA诱发转录沉默(RNA-induced transcriptional silencing RITS)复合物。RISC通过降解mRNA 阻断其翻译,而RITS则通过引发靶基因启动子区有组蛋白和DNA的甲基化,影响转录的速度,如此分别在转录或转录后水平,特异性地抑制基因表达[102-104]

siRNA通常来源于mRNA、转座子、病毒或异染色质DNA,直接转录长的dsRNA经过Dicer酶(RNAase Ⅲ家族中对双链RNA具有特异性的酶)切割形成很多长约20-25碱基对的小片段,称之为siRNA,然后双链RNA中的导向链,掺入RISC,并与靶基因mRNA互补链结合,argonaute是RISC中的催化成分 通过该酶导致mRNA降解,这就是转录后基因沉默post-transcriptional gene silencing PTGS); 导向链亦可掺入RITS复合物,通过引发组蛋白和DNA甲基化影响转录程度,产生转录基因沉默(transcriptional gene silencing TGS)[102-104]

微RNA(MicroRNA miRNA)是长21-23核苷酸(nt)、能调节基因有表达的小RNA分子,它是非编码RNA基因转录产生,最初为较长单链、具有发夹结构的pri-miRNA分子,在核内经Drosha(一种RNAse Ⅲ酶)加工成为~70nt的、仍是单链、发夹状的pre-miRNA,然后被运到细胞质中,经Dicer酶切环保茎,产生成熟的小的miRNA,进一步与argonaute酶结合, RNA诱发的沉默复合物(RNA-induced silencing comples RISC)。由于成熟的miRNA分子部分地与一种或多种mRNA分子互补,这样可通过与靶基因mRNA的特定位点结合,抑制该蛋白的合成或诱导该mRNA的降解,从而参与基因的表达调控。由于miRNA的主要调节作用涉及到个体发育的时序调控、细胞的增值、分化与凋亡、器官发育乃至肿瘤的发生,因此miRNA的研究具有重大的意义,但由于在基因组中存在较多的互补序列,不同生物体内作用方式复杂,可能与多种蛋白质相互作用等问题,使得实践应用尚需时间[102-104]

五、表遗传学分子机制的相互作用

近年来日益重视表遗传学调节机制机制相互作用或对话(croos-talk)研究,现已表明许多真核细胞的表型改变,是因染色质结构变化产生的基因表达改变所引起,参与染色质改变的表遗传学机制有翻译后组蛋白修饰、特异性组蛋白变体掺入、DNA甲基化和ATP-依赖的染色质重塑。连接这些过程的是染色质结构域和各种类型的非编码RNA。已有实验实验证据指出,这些过程的相互作用构成的表遗传学调节回路,对各种生物学功能有重要影响[105]。
表遗传学机制的相互作用参与基因的转录调节,以及包括肿瘤在内的各种疾病的发生。在基因沉默中各种表遗传学机制相互关系,大致可用图1-4说明。非编码调节RNA可通过与靶基因mRNA互补序列结合,直接降解mRAN而使基因沉默;亦可通过引发靶基因启动子区的DNA和组蛋白甲基化,进一步间接引起基因沉默[102,105]。

本文是薛开先版权所有,未经授权请勿转载。
本文仅供健康科普使用,不能做为诊断、治疗的依据,请谨慎参阅

收藏
举报
×
分享到微信
打开微信“扫一扫”,即可分享该文章

发表于:2010-02-24