2022年高通量测序-名词解释 .pdf-得力文库

资源描述

《2022年高通量测序-名词解释 .pdf》由会员分享，可在线阅读，更多相关《2022年高通量测序-名词解释 .pdf（11页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、高通量测序基础知识汇总一代测序技术：即传统的 Sanger测序法， Sanger法是根据核苷酸在待定序列模板上的引物点开始，随机在某一个特定的碱基处终止，并且在每个碱基后面进行荧光标记，产生以 A、T、C、G 结束的四组不同长度的一系列核苷酸，每一次序列测定由一套四个单独的反应构成，每个反应含有所有四种脱氧核苷酸三磷酸(dNTP) ，并混入限量的一种不同的双脱氧核苷三磷酸 (ddNTP) 。由于 ddNTP缺乏延伸所需要的3-OH 基团，使延长的寡聚核苷酸选择性地在 G、A、T 或 C 处终止，使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点，但终止在不同的的核苷酸上，可通过

2、高分辨率变性凝胶电泳别离大小不同的片段，通过检测得到DNA 碱基序列。二代测序技术：next generation sequencingNGS 又称为高通量测序技术，与传统测序相比，二代测序技术可以一次对几十万到几百万条核酸分子同时进行序列测定，从而使得对一个物种的转录组和基因组进行细致全貌的分析成为可能，所以又被称为深度测序 Deep sequencing 。 NGS 主要的平台有Roche454 & 454+ ， Illumina HiSeq 2000/2500、GA IIx 、MiSeq ， ABI SOLiD等。基因： Gene ，是遗传的物质基础，是 DNA 或 RNA 分子

3、上具有遗传信息的特定核苷酸序列。基因通过复制把遗传信息传递给下一代，使后代出现与亲代相似的性状。DNA ：Deoxyribonucleic acid，脱氧核糖核酸，一个脱氧核苷酸分子由三部分组成：含氮碱基、脱氧核糖、磷酸。脱氧核糖核酸通过3,5- 磷酸二酯键按一定的顺序彼此相连构成长链，即 DNA链， DNA链上特定的核苷酸序列包含有生物的遗传信息，是绝大部分生物遗传信息的载体。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页，共 11 页RNA ：Ribonucleic Acid ，核糖核酸，一个核糖核苷酸分子由碱基，核糖和磷酸构成。核糖核

4、苷酸经磷酯键缩合而成长链状分子称之为RNA链。 RNA是存在于生物细胞以及部分病毒、类病毒中的遗传信息载体。不同种类的RNA 链长不同，行使各式各样的生物功能，如参与蛋白质生物合成的RNA 有信使 RNA 、转移 RNA 和核糖体RNA 等。16S rDNA ：S 是沉降系数，是反映生物大分子在离心场中向下沉降速度的一个指标，值越高，说明分子越大。 rDNA ribosome DNA指的是原核生物基因组中编码核糖体RNArRNA 分子对应的DNA 序列， 16S rDNA 是原核生物编码核糖体小亚基16S rRNA的基因。细菌rRNA 核糖体RNA 按沉降系数分为3 种，分别为5S、16S

5、和 23S rRNA 。16S rDNA是细菌染色体上编码16S rRNA相对应的DNA 序列，存在于所有细菌染色体基因中。 16S rRNA 普遍存在于原核生物中。16S rRNA 分子，其大小约1540bp ，既含有高度保守的序列区域，又有中度保守和高度变化的序列区域，其可变区序列因细菌不同而异，恒定区序列基本保守，所以可利用恒定区序列设计引物，将16S rDNA片段扩增出来，通过高通量测序利用可变区序列的差异来对不同菌属、菌种的细菌进行分类鉴定。cDNA ： complementary DNA，互补脱氧核糖核酸，与 RNA 链互补的单链DNA ，以 RNA为模板，在反转录酶的作用下所合

6、成的DNA 。Small RNA ：生物体内一类高度保守的重要的功能分子，其大小在18-30nt，包括microRNA、siRNA 、 snRNA 、snoRNA和 piRNA piwi-interacting RNA等，它的主要功能是诱导基因沉默，调控细胞生长、发育、基因转录和翻译等生物学过程。以miRNA为例介绍它们的功能： miRNA与 RNA 诱导沉默复合体 RNA induced silencing complex, 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 2 页，共 11 页RISC结合，并将此复合体与其互补的mRNA序列结合，

7、根据靶序列与miRNA的互补程度，从而导致靶序列降解或干扰靶序列蛋白质的翻译过程。SD 区域： Segmentduplication，串联重复是由序列相近的一些 DNA 片段串联组成。串联重复在人类基因多样性的灵长类基因中发挥重要作用。Genotypeand phenotype：基因型与表型，基因型是指某一生物个体全部基因组合的总称；表型，又称性状，是基因型和环境共同作用的结果。基因组：Genome ，单倍体细胞核、细胞器线粒体、叶绿体或病毒粒子所含的全部DNA分子或 RNA 分子。全基因组de novo测序：又称从头测序，它不依赖于任何现有的序列资料，而直接对某个物种的基因组进行测

8、序，然后利用生物信息学分析手段对序列进行拼接、组装，从而获得该物种的基因组序列图谱。全基因组重测序：对已有参考序列Reference Sequence物种的不同个体进行基因组测序，并以此为基础进行个体或群体水平的遗传差异性分析。全基因组重测序能够发现大量的单核苷酸多态性位点SNP 、拷贝数变异Copy Number Variation，CNV 、插入缺失 InDel ，Insertion/Deletion、结构变异Structure Variation，SV等变异类型，以准确快速的方法将单个参考基因组信息上升为群体遗传特征。转录组：Transcriptome，是指特定生长阶段某组织或细胞内

9、所有转录产物的集合；狭义上指所有 mRNA的集合。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 3 页，共 11 页转录组测序：对某组织在某一功能状态下所能转录出来的所有RNA 进行测序，获得特定状态下的该物种的几乎所有转录本序列信息。通常转录组测序是指对mRNA进行测序获得相关序列的过程。其根据所研究物种是否有参考基因组序列分为转录组de novo测序无参考基因组序列和转录组重测序有参考基因组序列。外显子组：Exome ，人类基因组全部外显子区域的集合称为外显子组，是基因中重要的编码蛋白的部分，并涵盖了与个体表型相关的大部分的功能性变异。外

10、显子组测序：是指利用序列捕获技术将全基因组外显子区域DNA 捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低，对研究已知基因的SNP 、InDel 等具有较大的优势。目标区域测序：应用相关试剂盒对基因组上感兴趣的目标区域进行捕获富集后进行大规模测序，一般需要根据目标区域专门定制捕获芯片。宏基因组： Metagenome，指特定生活环境中全部微小生物遗传物质的总和。它包含了可培养的和未可培养的微生物的基因。目前主要指环境样品中的细菌和真菌的基因组总和。宏基因组16S rRNA测序：可以对特定环境下的细菌和古细菌群体的微生物种类和风度进行有效的鉴定。对不同地点

11、、不同条件下的多个样本16S rRNA的 PCR 产物平行测序，可以比较不同样本间的微生物组成及成分差异，进而阐明物种丰度、种群结果等生态学信息。表观遗传学：Epigenetics，是指在基因组DNA序列没有改变的情况下，基因的表达调控和性状发生了可遗传的变化。表观遗传的现象很多，已知的有DNA甲基化DNA methylation，基因组印记genomic impriting，母体效应maternal effects ，精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 4 页，共 11 页基因沉默 gene silencing，核仁显性，休眠转座子

12、激活和RNA 编辑 RNA editing等。全基因组甲基化测序：DNA 甲基化是指在 DNA 甲基化转移酶的作用下，在基因组 CpG 二核苷酸的胞嘧啶5碳位共价键结合一个甲基基团。DNA 甲基化已经成为表观遗传学和表观基因组学的重要研究内容。甲基化是基因表达的主要调控方式之一，研究染色体DNA 甲基化情况是了解基因调控的重要手段。对已经有参考基因组的物种的基因组DNA 用标准亚硫酸氢盐 Bisulfite 处理后，未甲基化的胞嘧啶C 会脱氨基形成尿嘧啶U，经 PCR 扩增，U 替换为胸腺嘧啶T，而发生甲基化的胞嘧啶C 保持不变。将处理组与参考基因组序列进行比对，可发现甲基化位点并对甲基化情

13、况进行定量分析的方法叫做全基因组甲基化测序。ChIp-Seq：Chromatin Immunoprecipitation sequencing，即染色质免疫共沉淀-测序技术，即通过染色质免疫共沉淀技术特异性地富集目的蛋白结合的DNA 片段。对富集得到的 DNA 片段进行纯化与文库构建，然后进行高通量测序，从而得到全基因组范围内可以与目的蛋白相互作用的DNA 片段的方法叫做ChIP-Seq 。数字表达谱：Digital Gene Expression Profile，利用新一代高通量测序技术和高性能计算分析技术，能够全面、经济、快速地检测某一物种特定组织在特定状态下的基因表达情况，即运用特定

14、的酶对mRNA距 polyA tail 21-25nt的位置进行酶切，所获得的带polyA尾的序列 (Tag) 通过高通量测序，该 tag 被测得的次数即是对应基因的表达值。数字基因表达谱已被广泛应用于基础科学研究、医学研究和药物研发等领域。特点是经济，但获得的数据量有限。假设想获得转录本的更多信息的话，一般都采用转录组测序的方法来测序。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 5 页，共 11 页SBS： sequencing by synthesis ，边合成边测序反应，是指在DNA 聚合酶的作用下延伸碱基所进行的测序。Run ：指高通量

15、测序平台单次上机测序反应。Lane ：也叫 channel ，单泳道，每条泳道包含2 列 column ，每列分布有多个小区 tile ，如图 1。不同的测序平台Flow Cell中所含的 Lane 不一样，如 HiSeq 2000是 2 个 flow cell，每个 flow cell中含有 8 个 lane ；HiSeq 2500是包含 2 个 mini flow cell快速运行模式和 2 个 high output flow cell ，两个模式不能同时运行，其中每个mini flow cell 包含 2个 lane ，每个 high output flow cell中包含 8

16、个 lane ；Miseq系统的 flow cell仅含有 1个 lane 。Tile ：小区，每条Lane 中有 2 列 tile ，合计 120 个小区。每个小区上分布数目繁多的簇结合位点，如图1。Cluster ：簇，在 Illumina测序平台中会采用桥式PCR 方式生产DNA 簇，每个 DNA 簇才能产生亮度到达CCD 可以分辨的荧光点。Index ：标签，在 Illumina平台的多重测序 Multiplexed Sequencing 过程中会使用Index来区分样品，并在常规测序完成后，针对 Index 部分额外进行7 个循环的测序，通过 Index的识别，可以在1 条

17、 Lane 中区分 12 种不同的样品。Barcode：与 Index 同义，多指在Roche GS FLX 454测序平台的16S PCR 产物的测序过程中接头序列所包含的的用来区分不同样本的序列。PF% ：PF%是指符合测序质量标准的簇的百分比，与测序的通量相关联。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 6 页，共 11 页Fasta ：一种序列存储格式。一个序列文件假设以FASTA 格式存储，则每一条序列的第一行以“ ”开头，而跟随 “ ”的是序列的ID 号即唯一的标识符及对该序列的描述信息；第二行开始是序列内容，序列短于61nt的，

18、则一行排列完；序列长于61nt的，则每行存储 61nt ，最后剩下小于61nt的，在最后一行排列完；第二条序列另起一行，仍然由“ ”和序列的ID 号开始，以此类推。Fastq ： Fastq 是 Solexa测序技术中一种反映测序序列的碱基质量的文件格式。第一行以“ ”符号开头，后面紧跟一个序列的描述信息；第二行是该序列的内容；第三行以“+ ”符号开头，后面可以是该序列的描述信息，也可省略；而第四行是第二行中的序列内容每个碱基所对应的测序质量值。Read ：高通量测序平台产生的序列标签就称为 reads 。基因组组装：进行基因组或转录组de novo测序时，物种基因组经构建不同的文库测序

19、所得的片段需经过生物信息学手段对其进行整理拼接，并通过一定的标准如N50 对后续组装结果进行质量评估等，最终获得高准确度的基因组序列的过程。基因组测序深度：测序得到的总碱基数与待测基因组大小的比值。如测一个物种的全基因组的重测序，基因组大小约为5G，测序获得100G 的数据量，则测序深度为20 。基因组覆盖率：指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖有所的区域，这部分没有获得的区域就称为Gap 。例如一个细菌基因组测序，覆盖率是98% ，那么还有2% 的序列区域是没有通过测序获得的。精选学习资料 - - - -

20、 - - - - - 名师归纳总结 - - - - - - -第 7 页，共 11 页Contig：在de novo测序中拼接软件基于 reads 之间的 overlap 区，拼接获得的中间没有 gap 的序列称为 Contig 重叠群。Scaffold：基因组 de novo 测序，通过 reads 拼接获得 Contigs 后，往往还需要构建 454 Paired-end 库或 Illumina Mate-pair 库，以获得一定大小片段如 3Kb 、8Kb 、10Kb 、20Kb 两端的序列。基于这些序列，可以确定一些Contig 之间的顺序关系，这些先后顺序已知的 Contigs 组

21、成 Scaffold 。Contig N50： Reads 拼接后会获得一些不同长度的Contigs 。将所有的Contig长度相加，能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序，如获得 Contig 1，Contig 2，Contig 3 Contig 25。将 Contig按照这个顺序依次相加，当相加的长度到达 Contig总长度的一半时，最后一个加上的Contig长度即为Contig N50。举例：Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度 *1/2时，Contig 4的长度即为Contig N50

22、。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。Scaffold N50：Scaffold N50与 Contig N50的定义类似。 Contigs拼接组装获得一些不同长度的Scaffolds 。将所有的Scaffold长度相加，能获得一个Scaffold总长度。然后将所有的 Scaffolds按照从长到短进行排序，如获得Scaffold 1，Scaffold 2，Scaffold 3Scaffold 25 。将 Scaffold按照这个顺序依次相加，当相加的长度到达Scaffold总长度的一半时，最后一个加上的Scaffold长度即为 Scaffold N50。举例：

23、Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度 *1/2时， Scaffold 5 的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 8 页，共 11 页Isotig：指在转录组de novo测序时，用454 平台测序完成后组装出的结果，一个isotig可视为一个转录本。Isogroup：指转录组de novo测序中，用454 平台测序完成后组装出的结果获

24、得的可聚类到同一个基因的转录本群。GC% ：GC 含量，全基因组范围内或在特定基因组序列内的4 种碱基中，鸟嘌呤和胞嘧啶所占的比率。SNP ：single nucleotide polymorphism，单核苷酸多态性，个体间基因组DNA 序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性；不同物种个体基因组 DNA 序列同一位置上的单个核苷酸存在差异的现象。有这种差异的基因座、DNA序列等可作为基因组作图的标志。SNP 在 CG 序列上出现最为频繁，而且多是C 转换为 T ，原因是CG 中的 C 常为甲基化的，自发地脱氨后即成为胸腺嘧啶。一般而言， SNP 是指变异频率大于1

25、 %的单核苷酸变异，主要用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。InDel ：Insertion/Deletion，插入 /缺失，在基因组重测序进行mapping时，进行容 Gap的比对并检测可信的Short InDel，如基因组上小片段50bp的插入或缺失。在检测过程中， Gap 的长度为15个碱基。CNV ：copy number variation，基因组拷贝数变异，是基因组变异的一种形式，通常使基因组中大片段的DNA 形成非正常的拷贝数量。如人类正常染色体拷贝数是2，有些染色体区域拷贝数变成1 或 3，这样，该区域发生拷贝数缺失或增加，位于

26、该区域内的基因表达量也会受到影响。如果把一条染色体分成A-B-C-D四个区域，则精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 9 页，共 11 页A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D 分别发生了C 区域的扩增及缺失，扩增的位置可以是连续扩增如 A-B-C-C-D 也可以是在其他位置的扩增，如A-C-B-C-D。SV：structurevariation，基因组结构变异，染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失引起 CNV 的变

27、化，染色体内部的某块区域发生重复复制、翻转颠换、易位、两条染色体之间发生重组inter-chromosome trans-location等。基因表达差异：是指某一物种或特定细胞在特定时期/ 功能状态下，多样本间不同基因在mRNA 水平上表达量的差异，可通过RPKM/FPKM值来表达。RPKM ：Reads Per Kilobase per Million mapped reads Mortazavietal.,2008 ，是指每 1 百万个 map 上的 reads 中 map 到外显子的每1K 个碱基上的reads 个数。计算公式四 RPKM=106C/NL/103，其中 C 为唯一比对

28、到目的基因的reads 数； N 为唯一比对到参考基因的总reads 数，L 是目的基因编码区的碱基数。RPKM 法可以消除基因长度、数据量之间的差异进行计算基因表达量。可变剪切： alternative splicing大多数真核基因转录产生的mRNA前体是按一种方式剪接产生出一种mRNA ，因而只产生一种蛋白质。但有些基因产生的mRNA前体可按不同的方式剪接，产生出两种或更多种mRNA ，即可变剪接。基因融合： Gene fusion ，将基因组位置不同的两个或多个基因中的一部分或全部整合到一起，形成新的基因，称作融合基因或嵌合体基因，该基因有可能翻译出融合或嵌合体蛋白。精选学习资料

29、- - - - - - - - - 名师归纳总结 - - - - - - -第 10 页，共 11 页基因家族分析：通过进行 BLASTN/ HMM比对等查找基因归属的基因家族并添加相关功能注释。基因组注释： Genome annotation是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因确实切位置。常见的基因组注释有GO 注释、 pathway分析。GO 注释： gene ontology是指对基因功能的注解。GO 强调基因产物在细胞中的功能。GO 不能反映此基因的表达情况，即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关，但 GO 支持其他的OBO(open biology ontologies)成员成立其他类型的本体论数据库如发育本体学、蛋白组本体学、基因芯片本体学等精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 11 页，共 11 页

展开阅读全文