生物信息学的应用.ppt

上传人:得****1 文档编号:79210885 上传时间:2023-03-20 格式:PPT 页数:140 大小:8.29MB
返回 下载 相关 举报
生物信息学的应用.ppt_第1页
第1页 / 共140页
生物信息学的应用.ppt_第2页
第2页 / 共140页
点击查看更多>>
资源描述

《生物信息学的应用.ppt》由会员分享,可在线阅读,更多相关《生物信息学的应用.ppt(140页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、生物信息学的应用生物信息学的应用生物信息学生物信息学(Bioinformatics)生物分子生物分子数数 据据 计算机计算机计计 算算+概念(广义)概念(广义)生物体系和过程中信息生物体系和过程中信息的存贮、传递和表达的存贮、传递和表达细胞、组织、器官的生理、病理细胞、组织、器官的生理、病理药理过程的中各种生物信息药理过程的中各种生物信息信息科学信息科学生生命命科科学学中中的的信信息息科科学学概念(狭义)概念(狭义)生物生物分子数据分子数据深层次深层次生物学知识生物学知识分子生物信息学分子生物信息学MolecularBioinformatics挖掘挖掘获取获取生物分子信息的获取、存贮、分析和利

2、用生物分子信息的获取、存贮、分析和利用生物信息学主要研究两种信息载体生物信息学主要研究两种信息载体n nDNA分子分子n n蛋白质分子蛋白质分子生物分子至少携带着三种信息生物分子至少携带着三种信息n n遗传信息遗传信息遗传信息遗传信息n n与功能相关的结构信息与功能相关的结构信息与功能相关的结构信息与功能相关的结构信息n n进化信息进化信息进化信息进化信息第一节第一节生物信息学与基因组学生物信息学与基因组学一、生物信息学概述一、生物信息学概述一、生物信息学概述一、生物信息学概述(一)生物信息学发展简史一)生物信息学发展简史一)生物信息学发展简史一)生物信息学发展简史uu生物信息学发展的生物信息

3、学发展的生物信息学发展的生物信息学发展的3 3个阶段:个阶段:个阶段:个阶段:前基因组时代前基因组时代前基因组时代前基因组时代基因组时代基因组时代基因组时代基因组时代后基因组时代后基因组时代后基因组时代后基因组时代 uu生物信息学的发展脉络:生物信息学的发展脉络:生物信息学的发展脉络:生物信息学的发展脉络:19561956年,年,年,年,在美国田纳西州盖特林堡在美国田纳西州盖特林堡在美国田纳西州盖特林堡在美国田纳西州盖特林堡(GatlinburgGatlinburg)召开的首次)召开的首次)召开的首次)召开的首次“生物学中的信息理生物学中的信息理生物学中的信息理生物学中的信息理论研讨会论研讨会

4、论研讨会论研讨会”上,孕育了生物信息学的概念上,孕育了生物信息学的概念上,孕育了生物信息学的概念上,孕育了生物信息学的概念.19871987年,年,年,年,佛罗里达州立大学佛罗里达州立大学佛罗里达州立大学佛罗里达州立大学3232岁的林华安岁的林华安岁的林华安岁的林华安(Wa.A.LimWa.A.Lim)博士首创)博士首创)博士首创)博士首创“Bioinformatics”“Bioinformatics”一词,一词,一词,一词,被誉为被誉为被誉为被誉为“世界生物信息之父世界生物信息之父世界生物信息之父世界生物信息之父”。19901990年,林华安博士发起第一届国际年,林华安博士发起第一届国际年,

5、林华安博士发起第一届国际年,林华安博士发起第一届国际 BioinformaticsBioinformatics学术会议。学术会议。学术会议。学术会议。19901990年年年年1010月,被誉为生命科学月,被誉为生命科学月,被誉为生命科学月,被誉为生命科学“阿波罗登月计划阿波罗登月计划阿波罗登月计划阿波罗登月计划”的国际人类基因组计划(的国际人类基因组计划(的国际人类基因组计划(的国际人类基因组计划(HGPHGP)启动。)启动。)启动。)启动。19951995年,美国人类基因组计划第一个五年总结报年,美国人类基因组计划第一个五年总结报年,美国人类基因组计划第一个五年总结报年,美国人类基因组计划第

6、一个五年总结报告中给出生物信息学一个较为完整的定义。告中给出生物信息学一个较为完整的定义。告中给出生物信息学一个较为完整的定义。告中给出生物信息学一个较为完整的定义。20002000年年年年6 6月月月月2626日,美、英、日、德、法、中等六国日,美、英、日、德、法、中等六国日,美、英、日、德、法、中等六国日,美、英、日、德、法、中等六国科学家共同努力,完成人类基因组工作草图,这是人科学家共同努力,完成人类基因组工作草图,这是人科学家共同努力,完成人类基因组工作草图,这是人科学家共同努力,完成人类基因组工作草图,这是人类科学史上又一个里程碑式的事件。类科学史上又一个里程碑式的事件。类科学史上又

7、一个里程碑式的事件。类科学史上又一个里程碑式的事件。20032003年年年年4 4月月月月1414日,国际人类基因组测序组隆重宣布:日,国际人类基因组测序组隆重宣布:日,国际人类基因组测序组隆重宣布:日,国际人类基因组测序组隆重宣布:美、英、日、德、法和中国科学家历经美、英、日、德、法和中国科学家历经美、英、日、德、法和中国科学家历经美、英、日、德、法和中国科学家历经1313年共同努力,年共同努力,年共同努力,年共同努力,人类基因组序列图(人类基因组序列图(人类基因组序列图(人类基因组序列图(“完成图完成图完成图完成图”)提前绘制成功。人类)提前绘制成功。人类)提前绘制成功。人类)提前绘制成功

8、。人类迈入迈入迈入迈入“后基因组时代后基因组时代后基因组时代后基因组时代”(Post-genomicEra)(Post-genomicEra)。(二)生物信息学的主要研究内容(二)生物信息学的主要研究内容1 1生物信息的收集、存储、管理与提供生物信息的收集、存储、管理与提供生物信息的收集、存储、管理与提供生物信息的收集、存储、管理与提供2 2基因组序列信息的提取和分析基因组序列信息的提取和分析基因组序列信息的提取和分析基因组序列信息的提取和分析3 3功能基因组相关信息分析功能基因组相关信息分析功能基因组相关信息分析功能基因组相关信息分析4 4基因表达数据的分析与处理基因表达数据的分析与处理基因

9、表达数据的分析与处理基因表达数据的分析与处理5 5 蛋白质结构预测蛋白质结构预测蛋白质结构预测蛋白质结构预测 基因组基因组数据库数据库蛋白质蛋白质序列序列数据库数据库蛋白质蛋白质结构结构数据库数据库DDBJEMBLGenBankSWISS-PROTPDBPIR1、生物分子数据的收集与管理生物分子数据的收集与管理2、数据库搜索及序列比较数据库搜索及序列比较n n搜索同源序列在一定程度上就是通过序列比较寻找搜索同源序列在一定程度上就是通过序列比较寻找搜索同源序列在一定程度上就是通过序列比较寻找搜索同源序列在一定程度上就是通过序列比较寻找相似序列相似序列相似序列相似序列 n n序列比较的一个基本操作

10、就是序列比较的一个基本操作就是序列比较的一个基本操作就是序列比较的一个基本操作就是比对比对比对比对(AlignmentAlignment),),),),即将两个序列的各个字符(代表核苷酸或者氨基酸即将两个序列的各个字符(代表核苷酸或者氨基酸即将两个序列的各个字符(代表核苷酸或者氨基酸即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,残基)按照对应等同或者置换关系进行对比排列,残基)按照对应等同或者置换关系进行对比排列,残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似其结果是两个序列共有的排列顺序,这是序列相似其结果是

11、两个序列共有的排列顺序,这是序列相似其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述程度的一种定性描述程度的一种定性描述程度的一种定性描述n n多重序列比对多重序列比对多重序列比对多重序列比对研究的是多个序列的共性。序列的多研究的是多个序列的共性。序列的多研究的是多个序列的共性。序列的多研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用重比对可用来搜索基因组序列的功能区域,也可用重比对可用来搜索基因组序列的功能区域,也可用重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。于研究一组蛋白质之间的进化关系。于研究一组蛋白质之间的进化

12、关系。于研究一组蛋白质之间的进化关系。发现同源分子发现同源分子3、基因组序列分析基因组序列分析n n遗传语言分析遗传语言分析天书天书n n基因组结构分析基因组结构分析n n基因识别基因识别n n基因功能注释基因功能注释n n基因调控信息分析基因调控信息分析n n基因组比较基因组比较4、基因表达数据的分析与处理、基因表达数据的分析与处理n n基因表达数据分析是目前生物信息学研究的基因表达数据分析是目前生物信息学研究的热点和重点热点和重点n n目前对基因表达数据的处理主要是进行聚类目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在分析,将表达模式相似的基因聚为一类,在此基

13、础上寻找相关基因,分析基因的功能此基础上寻找相关基因,分析基因的功能 基因芯片基因芯片二二维维电电泳泳图图5、蛋白质结构预测、蛋白质结构预测n n蛋白质的生物功能由蛋白质的结构所决蛋白质的生物功能由蛋白质的结构所决定定,蛋白质结构预测成为了解蛋白质功,蛋白质结构预测成为了解蛋白质功能的重要途径能的重要途径n n蛋白质结构预测分为蛋白质结构预测分为:n n二级结构预测二级结构预测二级结构预测二级结构预测n n空间结构预测空间结构预测空间结构预测空间结构预测 蛋白质折叠蛋白质折叠二级结构预测二级结构预测n n在一定程度上二级结构的预测可以归结为模式识别问题在一定程度上二级结构的预测可以归结为模式识

14、别问题在一定程度上二级结构的预测可以归结为模式识别问题在一定程度上二级结构的预测可以归结为模式识别问题 n n在二级结构预测方面主要方法有:在二级结构预测方面主要方法有:在二级结构预测方面主要方法有:在二级结构预测方面主要方法有:n n立体化学方法立体化学方法立体化学方法立体化学方法n n图论方法图论方法图论方法图论方法n n统计方法统计方法统计方法统计方法n n最邻近决策方法最邻近决策方法最邻近决策方法最邻近决策方法n n基于规则的专家系统方法基于规则的专家系统方法基于规则的专家系统方法基于规则的专家系统方法n n分子动力学方法分子动力学方法分子动力学方法分子动力学方法n n人工神经网络方法

15、人工神经网络方法人工神经网络方法人工神经网络方法 n n预测准确率超过预测准确率超过预测准确率超过预测准确率超过70%70%的第一个软件是基于神经网络的的第一个软件是基于神经网络的的第一个软件是基于神经网络的的第一个软件是基于神经网络的PHDPHD系统系统系统系统空间结构预测空间结构预测n n在空间结构预测方面,比较成功的理论在空间结构预测方面,比较成功的理论方法是方法是同源模型法同源模型法n n该方法的依据是:相似序列的蛋白质倾该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构向于折叠成相似的三维空间结构n n运用同源模型方法可以完成所有蛋白质运用同源模型方法可以完成所有蛋白质1

16、0-30%的空间结构预测工作的空间结构预测工作(三)生物信息学研究现状与展望(三)生物信息学研究现状与展望1国外生物信息学研究现状国外生物信息学研究现状2我国生物信息学研究现状我国生物信息学研究现状3我国生物信息学研究目标我国生物信息学研究目标 实实实实现现现现基基基基因因因因组组组组数数数数据据据据、蛋蛋蛋蛋白白白白质质质质组组组组和和和和结结结结构构构构基基基基因因因因组组组组数数数数据据据据、天天天天然然然然及及及及合合合合成成成成化化化化合合合合物物物物数数数数据据据据的的的的计计计计算算算算机机机机处处处处理理理理、分分分分析析析析和和和和可可可可视视视视化化化化,以以以以及及及及生

17、生生生物物物物实实实实验验验验和和和和生生生生物物物物分分分分子子子子的的的的模模模模拟拟拟拟设设设设计计计计,解解解解析蛋白质三维结构和蛋白质组的时空表达关系等析蛋白质三维结构和蛋白质组的时空表达关系等析蛋白质三维结构和蛋白质组的时空表达关系等析蛋白质三维结构和蛋白质组的时空表达关系等n n蛋白质研究为生物信息学提供了极为蛋白质研究为生物信息学提供了极为丰富的研究数据,极大地推动了生物丰富的研究数据,极大地推动了生物信息学的发展。生物信息学在蛋白质信息学的发展。生物信息学在蛋白质的序列分析、结构预测、功能预测、的序列分析、结构预测、功能预测、分子设计等方面具有重要应用。分子设计等方面具有重要

18、应用。二、生物信息学与蛋白质二、生物信息学与蛋白质n n序列比对是生物信息学的基础,通过序列比对是生物信息学的基础,通过序列比对是生物信息学的基础,通过序列比对是生物信息学的基础,通过比较比较比较比较两个或两个或两个或两个或多个蛋白质序列的多个蛋白质序列的多个蛋白质序列的多个蛋白质序列的相似区域和保守性位点相似区域和保守性位点相似区域和保守性位点相似区域和保守性位点,确定,确定,确定,确定相互间具有共同功能的序列模式和分子进化关系,相互间具有共同功能的序列模式和分子进化关系,相互间具有共同功能的序列模式和分子进化关系,相互间具有共同功能的序列模式和分子进化关系,进一步分析其结构和功能。进一步分

19、析其结构和功能。进一步分析其结构和功能。进一步分析其结构和功能。n n把把把把未知结构未知结构未知结构未知结构的蛋白质序列与的蛋白质序列与的蛋白质序列与的蛋白质序列与已知具有三维结构已知具有三维结构已知具有三维结构已知具有三维结构的的的的蛋白质序列进行蛋白质序列进行蛋白质序列进行蛋白质序列进行序列比对序列比对序列比对序列比对,有助于进一步了解该,有助于进一步了解该,有助于进一步了解该,有助于进一步了解该未知结构蛋白质的空间折叠信息未知结构蛋白质的空间折叠信息未知结构蛋白质的空间折叠信息未知结构蛋白质的空间折叠信息(一)蛋白质序列分析(一)蛋白质序列分析(二)蛋白质结构预测(二)蛋白质结构预测n

20、 n蛋白质结构预测内容蛋白质结构预测内容蛋白质结构预测内容蛋白质结构预测内容二级结构预测二级结构预测二级结构预测二级结构预测三维结构预测三维结构预测三维结构预测三维结构预测n n蛋白质结构预测方法蛋白质结构预测方法蛋白质结构预测方法蛋白质结构预测方法理论分析方法:理论分析方法:理论分析方法:理论分析方法:是在理论计算的基础上进行结构预测。是在理论计算的基础上进行结构预测。是在理论计算的基础上进行结构预测。是在理论计算的基础上进行结构预测。统计分析方法:统计分析方法:统计分析方法:统计分析方法:是在对已知结构的蛋白质进行统计分析是在对已知结构的蛋白质进行统计分析是在对已知结构的蛋白质进行统计分析

21、是在对已知结构的蛋白质进行统计分析的基础上,建立由序列到结构的映射模型,对未知结构的的基础上,建立由序列到结构的映射模型,对未知结构的的基础上,建立由序列到结构的映射模型,对未知结构的的基础上,建立由序列到结构的映射模型,对未知结构的蛋白质直接从氨基酸序列预测其结构。蛋白质直接从氨基酸序列预测其结构。蛋白质直接从氨基酸序列预测其结构。蛋白质直接从氨基酸序列预测其结构。是否未知蛋白序列与已知功能的蛋白质相似是否未知蛋白序列与已知功能的蛋白质相似确定跨膜螺旋、卷曲螺旋和前导序列确定跨膜螺旋、卷曲螺旋和前导序列未知序列是否包含保守序列模体未知序列是否包含保守序列模体查对查对PROSITE数据库库数据

22、库库查对查对BLOCKS和和PRINTS数据库数据库整理所有肯定的结果并核对一致性整理所有肯定的结果并核对一致性预测蛋白质功能预测蛋白质功能蛋白质功能预测流程图蛋白质功能预测流程图(三)蛋白质功能预测(三)蛋白质功能预测(引自引自HPDB蛋白质数据库()蛋白质数据库()(四)蛋白质分子设计(四)蛋白质分子设计n n蛋白质分子设计类型:按照被改造部位的蛋白质分子设计类型:按照被改造部位的多少可以分为多少可以分为“小改小改”、“中改中改”和和“大改大改”三三种。种。“小改小改小改小改”:即通过对目标蛋白质进行即通过对目标蛋白质进行即通过对目标蛋白质进行即通过对目标蛋白质进行定位突变或化定位突变或化

23、定位突变或化定位突变或化学修饰学修饰学修饰学修饰改变其结构和功能。改变其结构和功能。改变其结构和功能。改变其结构和功能。“中改中改中改中改”:即通过对即通过对即通过对即通过对来源于不同来源于不同来源于不同来源于不同蛋白质的蛋白质的蛋白质的蛋白质的结构域进结构域进结构域进结构域进行拼接和组装行拼接和组装行拼接和组装行拼接和组装,从而较大程度的改变其结构和功,从而较大程度的改变其结构和功,从而较大程度的改变其结构和功,从而较大程度的改变其结构和功能。能。能。能。“大改大改大改大改”:即即即即完全从头设计完全从头设计完全从头设计完全从头设计出一种具有特异结构与出一种具有特异结构与出一种具有特异结构与

24、出一种具有特异结构与功能的全新蛋白质。功能的全新蛋白质。功能的全新蛋白质。功能的全新蛋白质。n常用的数据库有常用的数据库有常用的数据库有常用的数据库有:核酸序列数据库(核酸序列数据库(核酸序列数据库(核酸序列数据库(NucleotideSequenceDatabasesNucleotideSequenceDatabases)RNARNA序列数据库(序列数据库(序列数据库(序列数据库(RNAsequencedatabasesRNAsequencedatabases)蛋白质序列数据库(蛋白质序列数据库(蛋白质序列数据库(蛋白质序列数据库(ProteinsequencedatabasesProtei

25、nsequencedatabases)结构数据库(结构数据库(结构数据库(结构数据库(StructureDatabasesStructureDatabases)基因组数据库(基因组数据库(基因组数据库(基因组数据库(GenomicsDatabases(non-vertebrateGenomicsDatabases(non-vertebrate))代谢酶相关产物(代谢酶相关产物(代谢酶相关产物(代谢酶相关产物(MetabolicandSignalingPathwaysMetabolicandSignalingPathways)人类和其他脊椎动物基因组(人类和其他脊椎动物基因组(人类和其他脊椎动物

26、基因组(人类和其他脊椎动物基因组(HumanandotherVertebrateGenomesHumanandotherVertebrateGenomes)人类基因和疾病(人类基因和疾病(人类基因和疾病(人类基因和疾病(HumanGenesandDiseasesHumanGenesandDiseases)芯片和其他基因表达数据库芯片和其他基因表达数据库芯片和其他基因表达数据库芯片和其他基因表达数据库(MicroarrayDataandotherGeneExpressionDatabases)(MicroarrayDataandotherGeneExpressionDatabases);蛋白蛋白

27、蛋白蛋白组资源组资源组资源组资源(ProteomicsResourcesProteomicsResources);其他分子生物学数据库其他分子生物学数据库其他分子生物学数据库其他分子生物学数据库(OtherMolecularBiologyDatabases)(OtherMolecularBiologyDatabases)细胞器官数据库细胞器官数据库细胞器官数据库细胞器官数据库(Organelledatabases)(Organelledatabases);植物数据库植物数据库植物数据库植物数据库(Plantdatabases(Plantdatabases);免疫学数据库免疫学数据库免疫学数据库

28、免疫学数据库(Immunologicaldatabases)(Immunologicaldatabases)第二节第二节常用数据库常用数据库n生物信息学数据库类型生物信息学数据库类型一次数据库一次数据库一次数据库一次数据库:数据:数据:数据:数据直接来源于实验获得的原始数据,直接来源于实验获得的原始数据,直接来源于实验获得的原始数据,直接来源于实验获得的原始数据,仅对原始数据进行简单的归类整理和注释。仅对原始数据进行简单的归类整理和注释。仅对原始数据进行简单的归类整理和注释。仅对原始数据进行简单的归类整理和注释。如如如如GenbankGenbank、EMBLEMBL和和和和DDBJDDBJ等核

29、酸序列数据库;等核酸序列数据库;等核酸序列数据库;等核酸序列数据库;SWISS-PROTSWISS-PROT、PIRPIR等蛋白质序列数据库;等蛋白质序列数据库;等蛋白质序列数据库;等蛋白质序列数据库;PDBPDB等蛋等蛋等蛋等蛋白质结构数据库。白质结构数据库。白质结构数据库。白质结构数据库。二次数据库二次数据库二次数据库二次数据库:针对不同的研究内容和需要在一次数据:针对不同的研究内容和需要在一次数据:针对不同的研究内容和需要在一次数据:针对不同的研究内容和需要在一次数据库、实验数据和理论分析的基础上对相关生物学知识库、实验数据和理论分析的基础上对相关生物学知识库、实验数据和理论分析的基础上

30、对相关生物学知识库、实验数据和理论分析的基础上对相关生物学知识和信息进行进一步分析和整理。和信息进行进一步分析和整理。和信息进行进一步分析和整理。和信息进行进一步分析和整理。如人类基因组图谱库如人类基因组图谱库如人类基因组图谱库如人类基因组图谱库GDBGDB、转录因子和结合位点、转录因子和结合位点、转录因子和结合位点、转录因子和结合位点库库库库TRANSFACTRANSFAC、蛋白质结构家族分类库、蛋白质结构家族分类库、蛋白质结构家族分类库、蛋白质结构家族分类库SCOPSCOP等。等。等。等。图图6-2生物信息学数据库相互关系生物信息学数据库相互关系n生物信息学数据库相互关系生物信息学数据库相

31、互关系n常用数据库常用数据库类类类类型型型型名名名名 称称称称网网网网址址址址核核核核酸酸酸酸序序序序 列列列列一次数据库一次数据库一次数据库一次数据库GenebankGenebankEMBLEMBLDDBJDDBJ基因组基因组基因组基因组一次数据库一次数据库一次数据库一次数据库GDBGDB蛋蛋蛋蛋白白白白质质质质序序序序 列列列列一次数据库一次数据库一次数据库一次数据库SWISS-PROTSWISS-PROTPIRPIRTrEMBLTrEMBLUniProtUniProtMIPSMIPSGenPeptGenPeptNRL-3DNRL-3D复合数据库复合数据库复合数据库复合数据库NRDBNRD

32、BOWLOWLSWISS-PROTSWISS-PROTTrEMBLTrEMBL 二次数据库二次数据库二次数据库二次数据库PROSITEPROSITEPRINTSPRINTSBLOCKSBLOCKSPfamPfamIDENTIFYIDENTIFYCOGsCOGsProDomProDom结结结结 构构构构一次数据库一次数据库一次数据库一次数据库PDBPDBMMDBMMDB 二次数据库二次数据库二次数据库二次数据库DSSPDSSPHSSPHSSPFSSPFSSPPSdbPSdb 结构分类结构分类结构分类结构分类SCOPSCOPCATHCATHPDBsumPDBsum分类分类分类分类二次数据库二次数据

33、库二次数据库二次数据库ProtoMapProtoMap蛋白质组蛋白质组蛋白质组蛋白质组 蛋白质组蛋白质组蛋白质组蛋白质组 氨基酸索引氨基酸索引氨基酸索引氨基酸索引AAindexAAindex蛋白质间功能关蛋白质间功能关蛋白质间功能关蛋白质间功能关系系系系PredictomePredictome蛋白质组分析蛋白质组分析蛋白质组分析蛋白质组分析Proteome AnalysisProteome Analysis二维凝胶电泳二维凝胶电泳二维凝胶电泳二维凝胶电泳GELBANKGELBANKSWISS-2DPAGE SWISS-2DPAGE 酵母蛋白质定位酵母蛋白质定位酵母蛋白质定位酵母蛋白质定位YPL

34、.dbYPL.db模式生物蛋白质模式生物蛋白质模式生物蛋白质模式生物蛋白质组组组组Bioknowledge Bioknowledge LibrnaryLibrnary一、核酸数据库一、核酸数据库n(一)核酸序列数据库(一)核酸序列数据库目前,国际上主要有目前,国际上主要有目前,国际上主要有目前,国际上主要有GenbankGenbank、EMBLEMBL、DDBJDDBJ三大核酸序列数据库,三大核酸数据库之间三大核酸序列数据库,三大核酸数据库之间三大核酸序列数据库,三大核酸数据库之间三大核酸序列数据库,三大核酸数据库之间每天相互交换数据,保持数据同步更新。每天相互交换数据,保持数据同步更新。每天

35、相互交换数据,保持数据同步更新。每天相互交换数据,保持数据同步更新。1.Genbank1.GenbankGenbankGenbank由美国国立生物技术信息中心由美国国立生物技术信息中心由美国国立生物技术信息中心由美国国立生物技术信息中心(NCBI)(NCBI)建立维护,其主页如图建立维护,其主页如图建立维护,其主页如图建立维护,其主页如图6-36-3所示。所示。所示。所示。uGenbank数据直接来源数据直接来源测序工作者提交的序列、测序中心提交的大测序工作者提交的序列、测序中心提交的大量量EST序列、其它测序数据以及与其它数据机构序列、其它测序数据以及与其它数据机构协作交换的数据。协作交换的

36、数据。uGenbank内容内容所有已知的核酸序列和蛋白质序列,还包所有已知的核酸序列和蛋白质序列,还包括对序列的简要描述、科学命名、物种分类名称、括对序列的简要描述、科学命名、物种分类名称、参考文献、序列特征表等辅助信息。参考文献、序列特征表等辅助信息。uGenbank对数据记录的处理对数据记录的处理划分为划分为细菌类、病毒类、灵长类、啮齿类,细菌类、病毒类、灵长类、啮齿类,EST数据、基因组测序数据、大规模基因组序列数据、基因组测序数据、大规模基因组序列数据等数据等16类。类。()()Genbank数据检索数据检索通过通过通过通过NCBINCBI首页首页首页首页“Search”“Search

37、”选项中的选项中的选项中的选项中的“gene”“gene”或或或或“Nucleotide”“Nucleotide”等选项,在检索窗口输入检索词等选项,在检索窗口输入检索词等选项,在检索窗口输入检索词等选项,在检索窗口输入检索词进行直接检索;利用进行直接检索;利用进行直接检索;利用进行直接检索;利用NCBINCBI网站的综合生物信息数据库检索系统网站的综合生物信息数据库检索系统网站的综合生物信息数据库检索系统网站的综合生物信息数据库检索系统EntrezEntrez提供的限制条件提供的限制条件提供的限制条件提供的限制条件(Limits)(Limits)、索引、索引、索引、索引(Index)(Ind

38、ex)、检索历史、检索历史、检索历史、检索历史(History)(History)和剪贴板和剪贴板和剪贴板和剪贴板(Clipboard)(Clipboard)等功能进行精细检索等功能进行精细检索等功能进行精细检索等功能进行精细检索图图6-4NCBI-Entrzgene检索界面检索界面EntrezEntrez综合生物信息数据库检索系统将核酸序列、蛋白质序列、基因图谱、综合生物信息数据库检索系统将核酸序列、蛋白质序列、基因图谱、综合生物信息数据库检索系统将核酸序列、蛋白质序列、基因图谱、综合生物信息数据库检索系统将核酸序列、蛋白质序列、基因图谱、蛋白质结构等数据库整合在一起。而且可以通过其生物医学

39、文献摘要数据库蛋白质结构等数据库整合在一起。而且可以通过其生物医学文献摘要数据库蛋白质结构等数据库整合在一起。而且可以通过其生物医学文献摘要数据库蛋白质结构等数据库整合在一起。而且可以通过其生物医学文献摘要数据库(MEDLINEMEDLINE),获取序列相关的文献信息。可以利用),获取序列相关的文献信息。可以利用),获取序列相关的文献信息。可以利用),获取序列相关的文献信息。可以利用Entrezcross-databaseEntrezcross-database数数数数据库进行综合信息检索(图据库进行综合信息检索(图据库进行综合信息检索(图据库进行综合信息检索(图6-56-5)。)。)。)。图

40、图6-5NCBI-Entrezcross-database检索界面检索界面美国国家生物技术信息中心美国国家生物技术信息中心(NCBI)Entrez Entrez,The Life Sciences Search EnginePubMed:PubMed:biomedicalliteraturecitationsandabstractsbiomedicalliteraturecitationsandabstracts是一个医学文献网络搜索界面是一个医学文献网络搜索界面 BLAST(BasicLocalAlignmentsearchTool)是是 DNA DNA 或氨基酸序列比对分析的重要软件或氨基

41、酸序列比对分析的重要软件 OMIM:onlineMendelianInheritanceinMan人类孟德尔遗传数据库在线人类孟德尔遗传数据库在线 Books:onlinebooks TaxBrowser:Taxonomybrowser 分类浏览器Structure:该目录下最重要的资源是分子模型数据库 MMDB 及 Cn3D 生物大分子三维模型查看软件 uEMBL和和GenBank数据库识别标志数据库识别标志EMBLEMBL识别标识别标识别标识别标志志志志GenBankGenBank识别标识别标识别标识别标志志志志含含含含义义义义IDIDLOCUSLOCUS标识标识标识标识字符串及短描述字字

42、符串及短描述字字符串及短描述字字符串及短描述字XXXX为阅读为阅读为阅读为阅读清晰而加的空行清晰而加的空行清晰而加的空行清晰而加的空行ACACACCESSIONACCESSION唯一的提取号唯一的提取号唯一的提取号唯一的提取号SVSVVERSIONVERSION序列版本号序列版本号序列版本号序列版本号DTDTDATEDATE建立日期建立日期建立日期建立日期DEDEDEFINITIONDEFINITION简单简单简单简单的描述的描述的描述的描述KWKWKEYWORDSKEYWORDS关关关关键键键键字字字字OSOSSOURCESOURCE来源生物体来源生物体来源生物体来源生物体OCOCORGAN

43、ISMORGANISM生物体分生物体分生物体分生物体分类谱类谱类谱类谱系系系系RNRNREFERENCEREFERENCE引文引文引文引文编编编编号号号号RCRCREMARKREMARK引文注引文注引文注引文注释释释释RPRP其他注其他注其他注其他注释释释释RXRXMEDLINEMEDLINEMEDLINEMEDLINE引文代引文代引文代引文代码码码码RARAAUTHORSAUTHORS引文作者引文作者引文作者引文作者RTRTTITLETITLE引文引文引文引文题题题题目目目目RLRLJOURNALJOURNAL引文出引文出引文出引文出处处处处CCCCCOMMENTCOMMENT评评评评注注注

44、注DRDR相关数据相关数据相关数据相关数据库库库库交叉引用交叉引用交叉引用交叉引用号号号号FHFHFEATURESFEATURES特性表特性表特性表特性表头头头头FTFT特征表特征表特征表特征表SQSQEMBLEMBL序列开始,后序列开始,后序列开始,后序列开始,后跟跟跟跟长长长长度、字母数度、字母数度、字母数度、字母数BASECOUNTBASECOUNTGeneBankGeneBank碱基数碱基数碱基数碱基数ORIGINORIGINGeneBankGeneBank序列开始序列开始序列开始序列开始标标标标志,志,志,志,为为为为空行空行空行空行/序列序列序列序列结结结结束束束束标标标标志志志志

45、uGenBank核酸数据库实例核酸数据库实例以人畜共患的病源菌鼠伤寒沙门氏菌(以人畜共患的病源菌鼠伤寒沙门氏菌(Salmonella typhimurium)H1相抗原基因相抗原基因H-1-i为例,简要说明为例,简要说明GenBank核核酸数据库的数据格式。酸数据库的数据格式。LOCUSSTYFLGH1I1485bpDNAlinearBCT26-APR-1993DEFINITION Salmonella typhimurium H-1-igeneencodingphase1flagellarfilamentprotein(flagellin),completecds.ACCESSIONM113

46、32VERSIONM11332.1GI:153978KEYWORDSflagellin.SOURCE Salmonella typhimuriumORGANISMSalmonella typhimuriumBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;Salmonella.REFERENCE1(bases1to1485)AUTHORSJoys,T.M.TITLEThecovalentstructureofthephase-1flagellarfilamentproteinofSa

47、lmonellatyphimurium anditscomparisonwithotherflagellinsJOURNALJ.Biol.Chem.260(29),15758-15761(1985)PUBMED2999134序列标识序列标识简单描述简单描述序列编号序列编号版本号版本号关键词关键词物种来源物种来源物种分类物种分类引文编号引文编号引文作者引文作者引文标题引文标题引文出处引文出处COMMENTOriginalsourcetext:S.typhimurium SL877DNA.Draftentryandcleancopysequencefor1kindlyprovidedbyT.M.J

48、oyce,18-FEB-1986.IndividualSalmonella serotypesusuallyalternatebetweentheproductionoftwoantigenicformsofflagella,termedphase-1andphase-2,eachspecifiedbyseparatestructuralgenes.Bothendsoftheflagellingeneactintheregulationofflagellinsynthesis.FEATURESLocation/Qualifierssource1.1485/organism=Salmonella

49、typhimurium/mol_type=genomicDNA/db_xref=taxon:602CDS13.1485/note=phase-1flagellarfilamentprotein/codon_start=1/transl_table=11/protein_id=AAA27072.1/db_xref=GI:153979评注评注特征表特征表编码区编码区/translation=MAQVINTNSLSLLTQNNLNKSQSALGTAIERLSSGLRINSAKDDAAGQAIANRFTANIKGLTQASRNANDGISIAQTTEGALNEINNNLQRVRELAVQSANSTNS

50、QSDLDSIQAEITQRLNEIDRVNGQTQFSGVKVLAQDNTLTIQVGANDGETIDIDLKQINSQTLGLDTLNVQQKYKVSDTAATVTGYADTTIALDNSTFKASATGLGGTDEKIDGDLKFDDTTGKYYAKVTVTGGTGKDGYYEVSVDKTNGEVTLAAVTPATVTTATALSGKMYSANPDSDIAKAALTAAGVTGTASVVKMSYTDNNGKTIDGGLAVKVGDDYYSATQDKDGSISIDTTKYTADNGTSKTALNKLGGADGKTEVVTIDGKTYNASKAAGHDFKAEPELAEQAAKTTENPLQ

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com