BCC精品培训关联分析 .ppt

上传人:yl****t 文档编号:97436235 上传时间:2024-06-10 格式:PPT 页数:56 大小:4.09MB
返回 下载 相关 举报
BCC精品培训关联分析 .ppt_第1页
第1页 / 共56页
BCC精品培训关联分析 .ppt_第2页
第2页 / 共56页
点击查看更多>>
资源描述

《BCC精品培训关联分析 .ppt》由会员分享,可在线阅读,更多相关《BCC精品培训关联分析 .ppt(56页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、全基因组关联分析周家蓬博士QQ群:2598041811 1基本概念基本概念历史历史、现状和趋势、现状和趋势一般流程一般流程研究研究策略策略应用应用价值价值2 2全基因组关联研究Genome-wide association study(GWAS)检测全基因组范围的遗传变异与可观测性状间的遗传关联3 3遗传变异的检测SNP芯片 Affymetrix:500K chip(Randomly distributed)Illumina:550K chip(gene-based)高通量测序 Illumina/Solexa:DNA-seq,RNA-seq4 4遗传变异的数量“单倍型图谱计划 1”(Natur

2、e 2005)SNP:1M“单倍型图谱计划 2”(Nature 2007)SNP:4M“单倍型图谱计划 3”(Nature 2010)SNP:10M 5 5SNP和SNP基因型TTCAGTCAGATTCCAGCCCTTCAGTCAGATTCCAGCCC样本样本1样本样本2TTCAGTCAGATTCCAGCCCTTCAGTCAGAGTCCAGCCC6 6表型&模型和算法表型:质量性状和数量性状表型校正:去除outliers,取特征值,取剩余值模型:混合线性模型方程组算法:SNP,单倍型,CNV,Gene-set(SNPs)Add.,Dom.,Rec.,Int.Frequentist,Bayesi

3、an 方差/秩和,均值/中位数 打分值,似然比 Bonferroni,FDR,Permutation,Bootstrap7 7编码基因型For one marker with two alleles,there can be three possible genotypes:GenotypeCodingAA2Aa1aa08 8病例/对照设计的数据结构individualaffectiongenderSNP 1SNP 2SNP n11F21221M22130F12241F11250M0-91sample idcase/controlgenotypes9 9遗传假设和遗传模型Genotypic m

4、odelHypothesis:all 3 different genotypes have different effectsGenotypeGenotypic ValueAAAAAaAaaaaaAA vs.Aa vs.aa1010Dominant modelHypothesis:the genetic effects of AA and Aa are the sameGenotypeGenotypic ValueAAA-AaA-aaaaAA and Aa vs.aa遗传假设和遗传模型(续)1111Recessive modelHypothesis:the genetic effects of

5、 Aa and aa are the sameGenotypeGenotypic ValueAAA-Aaa-aaaaAA vs.Aa and aa1212遗传假设和遗传模型(续)Allelic modelHypothesis:the genetic effects of allele A and allele a are differentGenotypeGenotypic ValueAA2AAaA+aaa2aA vs.a1313遗传假设和遗传模型(续)卡方检验wGenotypic modelwNull hypothesis:Independence AAAaaacasesnAAnAanaac

6、ontrolsmAAmAamaadf=21414wChi-squared test statistic:wO is the observed cell countswE is the expected cell counts,under null hypothesis of independence 统计量1515R code Statistics hist(Statistics,prob=T)curve(dchisq(x,df=5),col=blue,add=TRUE)curve(dchisq(x,df=2),col=red,add=TRUE)P-1-pchisq(10,df=2);P1 0

7、.006737947 统计量统计量P 值值1616GWAS的历史2005年,Science杂志报道了第一篇GWAS研究:年龄相关性黄斑变性之后陆续出现了有关冠心病、肥胖、2型糖尿病、甘油三酯、精神分裂症以及相关表型的报道1717GWAS的现状1818GWAS的趋势1919探求因果关系逻辑推理:归纳法(从特殊到一般)、演绎法(从一般到特殊)“穆勒五法”:求同法、求异法、求同求异法、共变法、排除法全基因组关联研究主要基于共变法思想科学技术史之父萨顿认为科学是人类唯一具有累积性和继承性的活动2020一般流程A.使用SNP分型芯片获得高通量的基因型B.对基因型进行质量评估和控制C.若为质量性状,需进行

8、群体分层检测;如为数量性状,则对表型进行协变量校正D.采用若干遗传模型进行全基因组关联分析E.增加额外的数据进行结果验证2121AHMU案例A.Illumina Human 610Quad BeadChipB.Call rate 90%,MAF 1%,HWE P 0.8)对填充基因型进行筛选过滤4.进行关联分析常用软件 BEAGLE、IMPUTE、MACH和PLINK等2929通路分析定义 将SNPs按照生物学通路分组,比较各通路在病例/对照或连续性状数量上的差异成功案例 克隆病、I型糖尿病、类风湿性关节炎、精神分裂症、乳腺癌等3030通路分析分析步骤1.选择生物通路(KEGG)2.选择Tag

9、 SNPs(HapMap)3.多因素分析4.显著SNPs结果综合常用软件 GSEA、IPA等3131互作分析定义 研究基因-基因、基因-环境间交互作用成功案例 老年黄斑变性、帕金森病、直肠癌、膀胱癌,哮喘等3232互作分析分析步骤1.选择显著及近似显著SNPs2.选择风险环境因素3.构建互作模型4.多因素分析常用软件 PLINK、Random Jungle、BEAM等3333其他策略两阶段法精细定位/目标测序表型/性状联合单倍型分析3434遗传变异的检测SNP芯片 Affymetrix:500K chip(Randomly distributed)Illumina:550K chip(gene

10、-based)高通量测序 Illumina/Solexa:DNA-seq,RNA-seq3535高通量测序Next-generation sequencing(NGS)平行测序3636SNP分型:coverage&variant frequency3737参考基因组序列参考基因组序列个体正向序列个体正向序列个体反向序列个体反向序列遗传变异的种类单核苷酸多态性单核苷酸多态性Single nucleotide polymorphismSNP占总变异的占总变异的90%插入缺失插入缺失Insertion-deletionInDel1-50bp DNA片段片段结构变异结构变异Structural var

11、iationSV50bp DNA片段片段3838遗传变异的数量“千人基因组计划”(Nature 2012)SNP:38M InDel:1.4M SV:14K 3939效应大小 vs.变异频率40404040家系病例或极端性状个体 Nat Rev Genet.2010 Jun;11(6):415-25.4141外显子突变是孟德尔疾病主要病因;多向性效应影响复杂疾病价格相对低廉目前主要用于检测孟德尔疾病新的策略或方法:Lasso,折叠法,聚合法外显子组测序4242Lasso岭回归:|beta|2t Lasso回归:|beta|t贝叶斯:全概率&损失函数机器学习:SVM4343低覆盖度测序+缺失基因

12、型填充4444Pasaniuc et.al.,2012策略评估Pasaniuc等证实覆盖度低至0.1-0.5X依然可以通过后续的填充方法获得高密度芯片的效果4545策略评估(续)Howie等发明了一种pre-phasing的填充方法,该方法通过对GWAS样本个体进行连锁相构建,进而利用参考库的单倍型进行缺失基因型填充4646NGS-GWAS水稻农艺性状14种运用重测序技术对517个中国水稻地方品系进行进化及GWAS分析1X重测序KNN基因型填充算法MLM遗传模型 Nat Genet.2010 Oct;42:961967.4747高密度芯片低覆盖度测序基本特点芯片基于正常人群中的高频SNP标记设

13、计,没有与疾病相关的突变信息可以同时检测到人群中的高频SNP和未被发现的低频突变最高分辨率根据不同的芯片型号,一般在30-100bp精确到单个碱基覆盖范围只能局限于芯片内容,无法获得全部基因组信息仅受到能够定位到基因组的reads数据量影响,可获得全基因组的信息技术原理杂交原理,实验环境和样本对实验重复有很大影响合成测序,重复性好动态量程弱信号被舍弃,强信号会饱和 没有局限数据产出选择 不可以可以背景噪音高低数据延展性随着人类基因组的进一步完善,测序数据可以进一步深挖高密度芯片 vs.低覆盖度测序4848测序成本4949GWAS:Array-based vs.NGS-based5050基本流程

14、高通量测序基因分型:CLC Genomics Workbench&Server BWA/Bowtie+SAMtools/GATK+IGV全基因组关联分析:PLINK,TASSEL,QTDT/FBAT BEAGLE/IMPUTE+SNPTEST可视化和注释:IGV/gPlink+ANNOVAR/Annotation.pl5151GWAS模块5252植物育种植物育种动物育种物育种人人类疾病疾病TASSELQTDTFBATPBATPLINKSNPTESTMENDELBEAMIMPUTE BEAGLE METAL HAPLOVIEW FASTSNPLinux C/C+R Perl Python MyS

15、QL应用药物治疗 抗抑郁药、精神疾病药物、丙型肝炎治疗,肝损害等副作用,为个体化医疗奠定理论基础意义 中国每年因药物不良反应住院治疗的病人已逾250万人,其中约20万人因此死亡,个体化医疗势在必行5353丙型肝炎治疗丙肝 全球1.7亿人感染的病毒性疾病,无根治办法,治疗效果因人而异IL28B基因 TT基因型携带者痊愈率约1/4;CC基因型携带者痊愈率达4/5 09年GWAS最具价值成果 正在美国申请专利5454应用动植物育种 在牛猪鸡、玉米小麦等方面,欧美农业部等国家机构和Euribrid、Hubbard、Meta Moprhix等公司都已开展全基因组选择意义 在提高动植物产品的产量和质量的同时,还可以有效管理生物多样性,使得遗传增益不会破坏某些未来可能需要的性状5555全基因组选择Genomic Selection,GS 利用整个基因组的标记信息和各性状值来估计每个标记或染色体片段的效应值,然后将效应值加和即得到基因组育种值丹麦案例 2012年人均GDP达$59928,农业大国 2008年GS用于牛育种;2010年引入猪育种5656

展开阅读全文
相关资源
相关搜索

当前位置:首页 > pptx模板 > 静态模板

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com