转录因子和microRNA组成的基因调控网络的生物信息学分析_苏乃芳.docx

上传人:a**** 文档编号:6211 上传时间:2017-10-20 格式:DOCX 页数:89 大小:5.72MB
返回 下载 相关 举报
转录因子和microRNA组成的基因调控网络的生物信息学分析_苏乃芳.docx_第1页
第1页 / 共89页
转录因子和microRNA组成的基因调控网络的生物信息学分析_苏乃芳.docx_第2页
第2页 / 共89页
点击查看更多>>
资源描述

《转录因子和microRNA组成的基因调控网络的生物信息学分析_苏乃芳.docx》由会员分享,可在线阅读,更多相关《转录因子和microRNA组成的基因调控网络的生物信息学分析_苏乃芳.docx(89页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、 版权声明 任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不 得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否 则,引起有碍作者著作权之问题,将可能承担法律责任。 中 文 摘 要 转录因子和 microRNA组成的基因调控网络的生物 信息学分析 苏乃芳(概率论与数理统计 ) 导师姓名:邓明华教授 摘要 在生物学中,基因调控的研究是一个非常重要的课题。了解基因表达的调 控机制,对于我们认识生物学过程和疾病的发生机制都起到了重要的作用。 在真核生物中,有两类重要的调控因子:转录因子和 microRNA (miRNA)。 转录因子是一类具有特定功能的蛋白质,它通过结

2、合到基因的启动子区域来开 启基因的转录过程。与此同时,转录因子存在广泛的合作调控。它们对应的结 合位点组合在一起形成顺式调控模块,共同调控基因转录。 miRNA是近年来研 究发现的一种新的基因调控元件。它是长度约为 22个碱基的非编码 RNA, 通 过与 mRNA结合,抑制 mRNA的翻译或使 mRNA降解,从而实现基因的转录 后调控。转录因子、顺式调控模块以及 miRNA在基因表达调控中起到了重要的 作用,这种调控作用遍及各种生物活动以及疾病发生过程。 在此基础上,研究发现转录因子和 miRNA存在着广泛的相互作用和合作调 控,它们组成了一个复杂的 调控网络。在这个网络中,有一种重要的结构模

3、式 一一前馈环。这种结构在众多生物过程中都有至关重要的调控作用。因此,研 究这一调控网络的结构和功能是基因的调控机制研究中的重要问题。 传统的方法通过基因序列的分析来预测转录因子和 miRNA的下游靶基因, 从而构建基因调控网络。但是这些计算的方法具有比较高的假阳性。随着生物 技术的发展,实验研究产生了大量的基因和 miRNA表达的高通量数据,它们为 基因调控网络的研究提供了新的依据。在本文中,我们提出了 GALASSO方法 来构建转录因子和 miRNA的调控网络。 GALASSO基于带加权一阶惩罚的高斯 图模型,实现了序列分析与基因表达分析的整合。 我们利用 GALASSO分析乳腺癌基因表达

4、数据,构建由转录因子 、 miRNA 及其调控基因组成的调控网络。通过网络结构的分析,我们全面了解转录因子 和 miRNA的合作调控机制以及前馈环结构在基因调控中的作用,并深入认识它 们在癌症中的功能。 中 文 摘 要 另外,我们进一步讨论顺式调控模块和 miRNA的合作调控关系。我们构建 一种由顺式调控模块和 miRNA组成的新的合作调控模块。通过分析基 因表达模 式以及调控网络的结构,我们对于它们的共调控机理和在生物胚胎发育中的作 用都进行深入的阐释。 综上,我们对转录因子,顺式调控模块和 miRNA所构成的基因调控网络进 行全面而深入的分析。这一研究有助于我们了解基因的调控机制,认识生物

5、过 程及疾病发生背后的机理,对于揭开生命之谜以及疾病的诊断治疗具有重要的 帮助。 关键词 : 基因调控网络,转录因子, microRNA, 顺式调控模块,高斯图模 型 ,LASSO -VI- 英 文 摘 要 Bioinformatical analysis of gene regulatory network consisting of transcription factor and microRNA Naifang Su (Probability and Statistics) Directed by Professor Minghua Deng Abstract Gene regulat

6、ion is a key factor in gaining a full understanding of molecular biology. By studying gene regulation, we reveal the mechanisms underlying gene expression, and learn more about a variety of biological process as embryonic development and disease pathogenesis. There are two important class of regulat

7、ors in eukaryote, as transcription factor (TF) and microRNA (miRNA). TF regulates the transcription of their target genes by specifically binding to genes promoter region. TFs have widely co-operation in their regulation by forming cw-regulatory modules (CRM), which consist of multiple TF binding si

8、tes. miRNA is a novel class of gene regulator. miRNAs are 22nt small non-coding RNAs. They bind to the 39-untranslated region of target mRNA and facilitate mRNA9s degradation or inhibit translation to regulate gene expression at the post-transcriptional level. It has been established that TF, CRM an

9、d miRNA have a crucial function in a wide range of biological process. The interaction and combinatorial regulation of TFs and miRNAs have been widely identified. They form a complex regulatory network. There is a network motif termed as feed forward loop, which plays a crucial role in gene expressi

10、on stabilization. Therefore, systematically investigating the gene regulatory network of TFs and miRNAs and discovering their network motifs are essential to elucidate the gene regulatory mechanism. The regulatory network is typically constructed by computational approaches based on sequence analysi

11、s. However, it has been recognized that these computational approaches for TF and miRNA target prediction have high false-positive rate. With the development of high throughput technology, more and more expression profiles have been available to study gene regulation. Here we propose a novel approac

12、h named VII 英文摘要 as graphical adaptive LASSO (GALASSO). GALASSO incorporates adaptive LASSO penalties with Gaussian graphical model, and integrates the computational predictions with gene expression profiles to systematically study the gene regulatory network. We apply GALASSO to construct the regul

13、atory network of breast cancer. We reveal the structure of the regulatory network, and explore the role of feed forward loops in gene regulation. In addition, we discuss the combinatorial regulatory effect between TF and miRNA, and provide detail analysis of their role in cancer. Meanwhile, we devel

14、op a new combinatorial regulation paradigm which is formed by CRM and miRNA. We examine the expression pattern of its target genes, and investigate the regulatory network composed of CRM and miRNA to discover the mechanism underlying their co-regulation and interaction. Furthermore, we discuss miRNA

15、 and CRMs effect on embryonic development. Generally, we provide a comprehensive and detail analysis of gene regulatory network of TF, CRM and miRNA. This study helps us to gain further understanding of gene regulation, and facilitates us to explore the mysteries of life and provide valuable suggest

16、ions on clinical study. Key Words: Gene regulatory network, transcription factor, microRNA, c-regulatory module, Gaussian graphical model, LASSO -VIII - 目录 目录 m . v ABSTRACT (英文摘要) .VII 第一章绪论 . 1 1.1 弓 . 1 1.2基因表达过程 . 2 1.3转录因子及其调控作用 . 3 1.4 miRNA及其调控作用 . 5 1.4.1非编码 RNA简介 . 5 1.4.2 miRNA 概述 . 5 1.4.

17、3 miRNA 的发现 . 6 1.4.4 miRNA的生成机制 . 6 1.4.5 miRNA的调控机制 . 7 1.4.6 miRNA 的功能 . 7 1.4.7 数据库 miRBase . 8 1.5转录因子与 miRNA的共调控 . 9 1.6基因芯片技术和二代测序技术 . 10 1.7本文研究工作与安排 . 11 第二章转录因子和 miRNA的靶基因预测方法综述 . 13 2.1转录因子结合位点 . 13 2丄 1实验方法 . 13 2.1.2序列分析方法 . 13 2丄 3基于基因表达数据预测转录因子的靶基因 . 16 2.2 miRNA的靶基因预测 . 21 2.2.1实验方法和

18、序列分析方法预测靶基因 . 21 2.2.2整合序列分析与表达数据预测靶基因 . 23 g录 _ 2.3 . 28 第三章利用 GALASSO方法构建转录因子和 miRNA的调控网络 . 29 3.1高斯图模型 . 29 3.2 LASSO 方法 . 31 3.3 GALASSO 方法 . 32 3.4近似性质 . 33 3.5算法 . 33 3.5.1坐标下降法 . 33 3.5.2 GALASSO 算法 . 35 3.6模拟数据分析 . 40 3.7 . 41 第四章转录因子和 miRNA的共调控网络及其在乳腺癌中的作用 . 43 4.1网络的构建 . 43 4.1.1基因表达数据 . 4

19、3 4.1.2 TF和 miRNA的革巴基因预测 . 44 4.1.3构建调控网络 . 44 4.2稳健性和准确性的分析 . 45 4.2.1稳健性分析 . 45 4.2.2准确性分析 . 45 4.2.3基因共表达模式 . 46 4.3网络结构分析 . 46 4.3.1网络模式 . 46 4.3.2 TF和 miRNA的共调控作用 . 47 4.3.3前馈环的分析 . 51 4.4网络在癌症中的作用 . 53 4.4.1功能分析 . 53 4.4.2 例子: miR-155 . 54 4.5讨论 . 54 - X- 第五章 CRM和 miRNA的合作调控及其在胚胎发育中的作用 . 57 5.

20、1 翻 . 57 5.1.1构造调控网络 . 57 5丄 2基因表达数据 . 58 5.2 CRM和 miRNA的合作调控作用 . 58 5.2.1共表达的模式 . 58 5.2.2共表达的显著性 . 59 5.3调控网络分析 . 60 5.3.1 网络模式 . 60 5.3.2 miRNA及其宿主基因 . 62 5.4 CRM和 miRNA在胚胎发育中的功能 . 62 5.4.1 miR-154 . 62 5.4.2 Tcf3 分析 . 62 5.5 . 64 第六章总结与展望 . 65 P付录 . 67 参考文献 . 69 发表 /待发表论文目录 . 77 猶 . 79 _表格 表格 2.

21、1 miRNA的靶基因预测的整合分析方法 . 24 4.1 调控网络的模式 . 48 4.2 TR miRNA参与的前馈环类型 . 53 5.1 调控网络的模式 . 61 -XIII - 插图 插图 1.1基因表达的过程 . 3 1.2转录因子的调控作用 . 4 1.3 miRNA的生成机制和调控作用 . 7 1.4 前馈环 . 10 2.1 转录因子结合位点的表示 . 14 2.2 MOPAT算法示例 . 16 2.3贝叶斯网络示例 . 18 2.4 TargetScan 方法图示 . 22 3.1 四种方法的 ROC曲线 . 40 4.1序列预测方法和 GALASSO方法的精度比较 . 4

22、6 4.2基因表达相关系数的分布 . 47 4.3 基因调控网络 . 49 4.4网络中的前馈环 . 49 4.5 AJ的分布 . 50 4.6 子网络结构 . 50 4.7 两种前馈环 . 52 4.8 AiWT 的分布 . 52 5.1 相关系数的比较 . 59 5.2 致性的比较 . 60 5.3 miR-154的分析结果 . 63 XV 第一章绪论 第 一 章 绪 论 1.1 引言 二十一世纪是生命科学的时代,生物学在各个领域都取得了突破性进展, 而其中最为突出的是基因研究的飞速发展。 1865年奥地利传教士孟德尔通过 豌豆杂交试验提出 “ 遗传因子 ” 的概念,开创了基因遗传学研究的

23、先河。 1953 年沃森和克里克提出 DNA双螺旋结构模型,揭开了分子生物学的新篇章。而 2001年人类基因组草图的公布,标志着人类进入了后基因组时代。在将近一个 半世纪的时间里,人们通过基因的研究不断探索生命之谜,取得了突破性的成 就。 伴随着生命科学的迅速发展,生物技术也不断进步,从而极大丰富了生物 学相关数据。人类基因组计划的推进,更使生物序列数据以前所未有的速度递 增。要从这些海量的数据中发掘其蕴含的生物学规律,传统的分析方法已经远 远不够,人们需要借助数学、计算机科学等诸多学科的知识来开发新的研究工 具,这也成为生物学家所面临的严峻挑战。在这样的背景下,一门崭新的学科 生物信息学 (

24、bioinformatics)悄然兴起 1。 在 1995年人类基因组计划的第一个五年总结报告中,对生物信息学做出了 如下定义:生物信息学是一门交叉学科 ,它包含了生物信息的获取、加工、存 储、分配、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生 物学的各种工具来阐明和理解大量数据所包含的生物学意义。具体来说,生物 信息学是以生物数据为研究对象,结合多个学科的知识,开发新的研究工具, 对数据进行处理和深入挖掘,从中分析出生物学规律,探索生命内在机制。它 的研究范畴包括基因组学、转录组学、蛋白组学、功能基因组学、药物基因组 学和复杂疾病研究等。生物信息学的产生和发展,极大推动了生命科

25、学研究的 发展,目前已经成为生命科学的前沿领域之一。 在生物信息学 中,统计学起到了非常重要的作用。面对复杂的生物数据, 统计学模型为人们提供了新的工具来进行数据分析并挖掘生物学规律。例如通 过假设检验分析基因表达数据找出差异表达基因,利用参数估计分析序列数据 1.2.基因表达过程 进行序列比对分析物种同源性,采用回归分析找出疾病相关基因或位点等等。 统计学的应用推动了生物信息学的发展,同时生物信息学问题又为统计学提出 了新的挑战。 本文将介绍利用统计方法对基因调控网络进行生物信息学分析的相关研究 工作。在本章中,我们对基因的表达过程及其中的调控机制进行简要的介绍, 了解整体的研究背景。 1.

26、2 基因表达过程 基因研究的一个中心课题就是基因表达调控的分析。研究基因表达的调控 机制,对于我们了解细胞的生理过程,应激反应,以及生物生长发育,生物学 功能,疾病的发生机制等都起到了重要的作用,相当于一把掲示生命之谜的钥 匙。 基因表达,指基因经过一系列步骤将其存储的遗传信息表现为生物功能的 过程,即基因转录为有生物活性的 RNA并翻译为蛋白质,从而实现了遗传信息 传递的 “ 中心法则 ” 2。 基因表达主要分为两个步骤:转录和翻译(图 1.1)。转录是指 DNA携带的 遗传信息转移到信使 RNA (mRNA)的过程,而翻译指根据 mRNA合成蛋白质的 过程。 转录的过程主要包括起始、延伸、

27、终止三个步骤:首先, RNA聚合酶与启 动子结合。启动子是基因 5 端上游一段特定序列,含有转录起点,可以启动 基因转录。接下来 DNA分子的双链解开,底物核糖核苷酸与模板 DNA碱基配 对,形成新的 RNA链,转录由此开始。然后, RNA聚合酶沿 DNA链移动,使 新的 RNA链不断延伸。最后,当 RNA链延伸到转录终止位点时, RNA聚合酶 停止移动, RNA链从模板 DNA分离,经过加工成为成熟的 mRNA。 翻译的过程也包括起始、延伸、终止三个步骤。首先, mRNA从细胞核进 入细胞质后,与核糖体结合。核糖体是蛋白质合成的场所,由几十种蛋白质和 几种核糖体 RNA(rRNA)组成。同时

28、,转运 RNA (tRNA)将对应的氨基酸运载 到 mRNA相应的密码子位点上,在核糖体中生成起始复合物。然后,核糖体沿 mRNA移动,形成多肽链。最后,当终止密码子出现时,新生成的肽链从核糖 体上释放。多肽链再经过加工修饰成为有活性的蛋白质。 基因的表达受到严密的 调控。基因表达调控对于生物实现自我调节,适应 第一章绪论 环境变化起到了非常重要的作用。在真核生物中,基因表达调控是多层次的, 主要包括转录水平的调控和转录后水平的调控。 图 1.1 基因表达的过程 3 1.3 转录因子及其调控作用 真核生物转录水平的调控大多数是通过顺式调控元件和反式调控因子复杂 的相互作用实现的 4。 顺式调控

29、元件是调控的场所,包括启动子 ( promoter)、 増强子 ( enhancer)、 沉寂子 ( silencer)等。其中启动子是 RNA聚合酶的结合位点,是控制转录起始 的基因上游区域。増强子是能够増强转录的特定 DNA序列。沉寂子是阻遏蛋白 在DNA上的结合位点,是控制转录终止的特定区域。 与顺式调控元件相互作用作为调控工具的就是反式调控因子,它们是能直 接或间接识别顺式调控元件,参与调控转录的蛋白质。一般反式调控因子也 称为转录因子 ( Transcription Factor, TF)。 在广泛的意义下反式调控因子也包括 RNA聚合酶等其他蛋白。转录因子是一类具有特定功能的蛋白质

30、,它通过结合 到DNA分子上的特定区域,将 RNA聚合酶吸引到相应基因的启动子区域,从 而开启转录 (图 1.2)。 被转录因子识别的特定区域称为转录因子结合位点 ( transcription factor binding site, TFBS), 大多数位于基因上游的启动子区域内,其 DNA双链 与特定 1.3.转录因子及其调控作用 的转录因子的蛋白表面相吻合,具有序列特异性。一个转录因子可以调控多个 基因。研究发现,被同一个转录因子调控的基因显著的共表达,同时具有相似 的生物功能 5。 在真核生物中,转录因子存在广泛的合作调控。转录因子结合位点一 般不是单独存在,而是结合在一起,组成顺式

31、调控模块 ( ck-regulatory module CRM), 共同调控基因转录转录因子的合作可能有不同的逻辑结构 m。 对 于两个转录因子而言,这种逻辑结构包括 “ 与 ” ( AND), 即只有两个转录因子 都结合到启动子中才能开启基因转录; “ 或 ” ( 0R), 即两个转录因子中任意一 个都可以开启基因转录; “ 非 ” ( XOR), 即两个转录因子中任意一个都可以开 启基因转录,但是 a两个都结合时抑制转录。这样的合作调控机制使基因的表 达更加稳定。研究发现,大部分基因的表达受到 CRM的调控,同时被同一个 CRM所调控的多个基因在表达上有显著的相似性 8。因此, CRM是一

32、类重要 的合作调控元件。 转录因子以及顺式调控模块,对于转录的开启起到了关键的作用,是基因 表达调控中最重要的元件。研究发现转 录因子可以调控细胞生长、凋亡的各个 过程。例如 0ct4, Sox2, Nanog和 Tcf3这 4种转录因子在胚胎干细胞的发育 中起到了重要的调节作用,称为核心转录因子 9。同时,很多原癌基因和抑癌 基因都受到转录因子的调控。研究发现一些转录因子在癌症细胞中有很高的活 性,包括 E2F1, c-JUN, JUNB, JUND, MYC等 _。它们参与调控了 一些重 要的癌症相关基因。例如 CCNG1等转录因子会促进 p53这一调节细胞周期的 重要抑癌基因的转录 11

33、,而 8丁八 11也在乳腺癌的发生中起到了重要的信号转导 作用 12。 由此可见,转录因子及 CRM在细胞生长和癌症的发生转移过程中都起到 了重要的调节作用。因此,研究它们的调控机制,可以帮助我们认识生物的复 杂生理过程以及疾病的发生机理,具有重要的意义。 第一章绪论 1.4 miRNA及其调控作用 近年来,研究发现另一类重要的基因调控元件一一 microRNA (简写为 miRNA, 也称为微小 RNA), 它是一种非编码 RNA。 1.4.1非编码 RNA简介 人类基因组测序结果表明,整个人类基因组中只有不足 2%的序列用于 编码蛋白质,其他部分都是非编码区域。早期的观点认为这些区域是基因

34、组 的 “ 垃圾 ” 。但随着研究的深入,越来越多的证据表明这些非编码的区域同 样具有重要功能。研究发现,哺乳动物基因组中一半以上的 DNA有转录产 物 RNA,这些 RNA不参与编码蛋白质,称为非编码 RNA (non-coding RNA, ncRNA)13 非编码 RNA包括多种类型。干涉小 RNA (small interfering RNA, siRNA)是 一类外源性双链 RNA, 它在 RNA干扰途径中降解目标基因的 mRNA, 抑制基 因表达。核小 RNA (small nuclear RNA, snRNA)在初级 mRNA的拼接中起到 重要作用。核仁小 RNA (small

35、nllcleolar RNA jnoRNA)可以指导 rRNA、 tRNA 和其他 RNA特异位点的化学修饰 14。长非编码 RNA (long non-coding RNA, IncRNA)是长度在200个碱基以上的非编码 RNA的总称,它在染色质修饰、转 录调控、转录后调控等过程中都起到了重要的作用 15。总的来说,非编码 RNA 在生物过程中具有关键的功能,它帮助我们解释生命之谜以及了解疾病的发生 机制。因此 Science 杂志曾多次将非编码 RNA的研究选入年度十大科学进 展。 1.4.2 miRNA 概述 在非编码 RNA中,近年来生物学家尤为关注的热点是 miRNA。 miRNA是 一类长度约为 22个碱基的内源性非编码 RNAM。 研究发现,它参与了动植物 的转录后调控。它通过与 mRNA结合,抑制 mRNA的翻译或使 mRNA降解。 目前为止已经发现了多个物种中的数千个 miRNA。 在动物基因组中,大约三分 之一的基因都会受到 miRNA的调控。 miRNA在基因表达调控中起到了重要 的作用,这种调控作用遍及广泛的生物活动以

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 论证报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com