基因芯片整合分析方法在癌症基因表达谱分析中的应用.pdf

上传人:赵** 文档编号:46680799 上传时间:2022-09-27 格式:PDF 页数:71 大小:3.01MB
返回 下载 相关 举报
基因芯片整合分析方法在癌症基因表达谱分析中的应用.pdf_第1页
第1页 / 共71页
基因芯片整合分析方法在癌症基因表达谱分析中的应用.pdf_第2页
第2页 / 共71页
点击查看更多>>
资源描述

《基因芯片整合分析方法在癌症基因表达谱分析中的应用.pdf》由会员分享,可在线阅读,更多相关《基因芯片整合分析方法在癌症基因表达谱分析中的应用.pdf(71页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、上海大学硕士学位论文基因芯片整合分析方法在癌症基因表达谱分析中的应用姓名:朱煜申请学位级别:硕士专业:生物化学与分子生物学指导教师:郭景康20080501上海人学硕上学位论文摘要基因芯片技术可以实现高通量的基因表达分析,随着基因芯片技术的发展,目前已经积累了海量的基因表达数据,如何对这些已有的数据进行更深层次的分析和挖掘,使得芯片数据从原本“产生假设 的工具逐步转变为“验证生物学假设 的信息库,是当前生物信息学研究的一项重要工作。将来自不同实验,具有相似研究目的的芯片数据作为一组对象进行二次分析研究,是实现这一转变的关键方法之一,即进行基因芯片整合分析,从而获得更具有普适意义的结果。目前,有多

2、种方法或策略可应用于芯片整合分析,其中一大类是应用统计学方法对具有相似研究目的的不同芯片实验结果进行荟萃分析(m e t a a n a l y s i s);另外一大类方法是专门针对芯片数据的特点设计的,首先通过一定数据转换的方法,将不同芯片实验的数据合并成一个表达矩阵(此类方法统称为基因芯片数据整合方法),再根据研究目的应用相应方法进行后续分析。研究表明,这两类方法在筛选特征基因方面都取得了较好的效果,而后者还适用于构建预报不同表型的分类模型。利用基因表达谱对癌症进行分类、分型或分期研究具有客观、快速、简便和高特异性等优点,其中一项重要问题就是要解决数据集“高维度,小样本 的问题,它是能否

3、建立有效分类模型的关键。本文第三章使用基因芯片数据整合方法,对具有相似研究目的的成人以及儿童急性髓性白血病芯片实验数据进行整合,以扩大样本容量降低维度与样本量的比值。利用实际表达芯片数据,发现中位值整合方法(M R S)是分析多源数据的有效方法,整合后的数据可以为数量较少的儿章样本构建具有较高准确率的分类预报模型。论文还通过有效聚类说明,3 个独立实验的白血病亚型间的信号差异强于芯片系统问信号的差异。癌症病患存活年限的长短和存活质量,是由多种因素决定的,除了进行的各种治疗外,据临床观察,还有多种因素影响着癌症的预后。最近,科研工作者开始利用基因芯片数据,研究特异组织癌细胞的预后特性,但关V上海

4、入学硕i:学位论文于普遍的肿瘤预后的分子生物学机制仍待研究。本文第四章在现有研究成果基础之上,应用荟萃分析(m e t a-a n a l y s i s)方法研究7 组不同表型癌症间的共差异表达基因,发现5 1 个基因在不同癌症病人的恶性治疗结果组中都显示了一致地差异表达。关键词:基因芯片、数据整合、荟萃分析、癌症分型、标记基因分析V IA BS T R A C TD N Am i c r o a r r a yt e c h n o l o g yp r o v i d e sh i g h t h r o u g h p u tg e n ee x p r e s s i o na n

5、a l y s i s A n di tp r o d u c e sag r e a ta m o u n to fg e n ee x p r e s s i o nd a t a I ti so fg r e a ti m p o r t a n c ei nt h eb i o i n f o r m a t i c sf i e l dt oa n a l y z ea n dm i n et h o s ep u b l i cd a t ar e p o s i t o r i e se f f i c i e n t l yf o rd i s c o v e r i n gi

6、 m p l i e di n f o r m a t i o na n dk n o w l e d g e,w h i c hw i l la l l o wm a c r o a r r a y st op r o g r e s sf r o mb e i n gah y p o t h e s i s g e n e r a t i n gt o o lt oap o w e r f u lr e s o u r c et h a tc a nb eu s e dt ot e s th y p o t h e s i sa b o u tb i o l o g y T oi m p

7、l e m e n tt h e s ec h a n g e s,i ti sr e q u i r e dt og r o u pt h o s em i c r o a r r a ye x p e r i m e n t sw h i c hh a v es i m i l a rr e s e a r c hg o a l sa ss i n g l eo b j e c t i v ea n dr e a n a l y s i st h e s eb ym i c r o a r r a yi n t e g r a t i o na n a l y s i s A tp r e

8、 s e n t,m a n yk i n d so fm e t h o d so rs t r a t e g i e sg a l lb eu s e di nm i c r o a r r a yi n t e g r a t i o na n a l y s i s O n ec a t e g o r yo ft h e mi sm e t a-a n a l y s i sb a s e do ns t a t i s t i c sm e t h o d s;t h eo t h e rc a t e g o r yi sd e s i g n e dt e c h n i c

9、 a l l ya c c o r d i n gt o t h ec h a r a c t e r i s t i co fg e n ec h i pd a t a F i r s tc o m b i n ea r r a yd a t af r o md i f f e r e n ts t u d i e st o g e t h e rw i t hs p e c i f i cd a t ai n t e g r a t i o nm e t h o d,t h e na n a l y s i st h ec o m b i n e dd a t a s e tw i t h

10、p r o p e ra n a l y t i c a lm e t h o d R e s e a r c hs h o w e dt h a tb o t ho ft h em e t h o d sp r o v i d ep r o m i s i n go u t c o m ei ns e l e c t i n gd i s c r i m i n a t i v eg e n e s,a n df u r t h e r t h el a t e rm e t h o dw a sa l s oa p p l i c a b l ei nb u i l d i n gh i

11、g ha c c u r a c ye l a s s i f i c a t i o nm o d e l s W i t ht h ea d v a n t a g eo ff a s t,c o n v e n i e n ta n dh i g h l ys p e c i f i c,G e n ee x p r e s s i o np r o f i l ei sw i d e l yu s e di nt u m o rc l a s s i f i c a t i o no rs t a g i n g O n eo ft h ek e yp r o b l e m si s

12、t h a tt h e v a r i a b l ev e r s u ss a m p l er a t i o i nd a t a s e ti st o ol a r g e,w h i c hw i l la f f e c tt h ea c c u r a c yo fc l a s s i f i c a t i o nm o d e l I nc h a p t e r3,w ea p p l i e dm i c r o a r r a yd a t ai n t e g r a t i o na n a l y s i so na d u l t sa n dp e

13、d i a t r i cA M Lg e n ee x p r e s s i o nd a t a R e s u l t ss h o w e dt h a tt h eM e d i a nR a n kS c o r e(M R S)m e t h o dh a dp r o v i d e dg o o do u t c o m e s(1 l i g hc l a s s i f i c a t i o na c c u r a c yW a so b t a i n e d)a n ds a m ee x p r e s s i o np a t t e r nW a sd i

14、 s c o v e r e dw i t h i nt h es a m es u b g r o u pa m o n gd i f f e r e n tv 1 I上海人学硕l:学位论文a g eg r o u p s,i n d i c a t i n gt h a tc l a s s i f i c a t i o nm o d e lw i t hh i【曲a c c u r a c yc a r lb es e tu pf o rP e d i a t r i cA M Ls a m p l e s B e s i d e sm e d i c a lt h e r a p i

15、 e st h e r ea r ea l s ov a r i o u sf a c t o r st h a tm a ya f f e c tc a n c e rp a t i e n t s p r o g n o s i s I th a sb e e nr e p o r t e dt h a ts o m es c i e n t i s t ss t a r t e dt oa n a l y s i ss p e c i f i cc a n c e rp r o g n o s i sc h a r a c t e r i s t i c sb ym i c r o a

16、r r a yt e c h n o l o g y,w h i l eu n i v e r s a lp r o g n o s t i cf e a t u r e sf o rc o m m o nc 锄c e r sh a sn o ty e tb e e na d d r e s s e d I nc h a p t e r4,i no r d e rt od i s c u s st h ee x i s t e n c eo fc o m m o np r o g n o s t i cm e c h a n i s mf o rm u l t i p l ek i n d s

17、o fc a l l c e r 8,w ea p p l i e dm e t a a n a l y s i sm e t h o dt oa n a l y z e7C a n C e rg e n ee x p r e s s i o nd a t a,a n dd i s c o v e r e d51m a r k e rg e n e s,w h i c ha r et h ec a n d i d a t e so fu n i v e r s a lp r o g n o s t i cm a r k e r s K e y w o r d s:D N AM i c r o

18、a r r a y,M i e r o a r r a yD a t aI n t e g r a t i o n,M e t aA n a l y s i s,T u m o rS t a g i n g,M a r k e rG e n eA n a l y s i sV I I I肺癌http:/ l肺癌http:/ 1 课题研究的目的和意义肿瘤是由环境因素与遗传因素相互作用导致的一类疾病,研究表明是多种基因突变累积的结果【l】,而在这个过程中最危险的变化就是肿瘤从局部生长型转变成致命的转移型,或从良性发展成恶性癌症 2】。而肿瘤的预后本身又受多因素影响。如何从整体水平认识肿瘤发生的可能

19、病因,寻找肿瘤早期诊断、监测、干预,以及治疗等新途径,是目前肿瘤学研究关注的热点和难点。采用基因芯片技术进行高通量的基因表达检测分析是从整体水平探讨有关肿瘤发生、转移、诊断及预后等方面研究的前沿技术之一【3】。基因芯片整合分析在生物检测芯片中的应用虽然刚刚起步,却引起人们的广泛关注,它将给传统医学带来一场新的革命。通过全球范围内的癌症基因组研究,将帮助我们掌握人类的全部基因图谱和所有异常突变的情况。在这种情况下,基因:占片更会发挥它强大的功能。从癌症的病因到使艾滋病病毒产生抗药性的基因变异,基因芯片不仅将用于许多创新性的研究,还将代替传统的体检和疾病诊断办法,尽早预知疾病。如何对这些已有的癌症

20、基因组表达数据进行更深层次的分析和挖掘,使得芯片数据从原本“产生假设”的工具逐步转变为“验证生物学假设”的信息库,是当前应用基因芯片技术进行肿瘤研究的一项重要工作。芯片整合分析就是验证、实现可重复性实验的重要统计学手段。本文第二章对基因芯片、肿瘤分析、预后以及本课题研究的一些生物信息学课题做了大致介绍。在第三章中,探讨了基因芯片数据整合方法在预报儿童急性髓性白血病亚型分类中的应用。论文第四章应用荟萃分析方法具体探讨癌症预后共同分子机制挖掘的过程和结果。论文的最后,我们对所做的工作做了总结,并且提出了一些进一步深入研究的思路。肺癌http:/ 2 国内外研究概况1 2 1 国外研究概况在芯片整合

21、分析方法方面,有多种方法或策略提出,其中一大类是应用统计学方法对不同芯片实验的结果进行荟萃分析(m a t a-a n a l y s i s),包括:p 值总结分析(p-v a l u es u m m a r y)D 、效应值模型(e f f e c ts i z em o d e l s)5 、探针水平效应模型(p r o b e=l e v e le f f e c ts i z em o d e l s)6 、积分模型(v o t i n gm o d e l)7 等。R h o d e s 等【4】应用p 值总结分析的荟萃分析方法探讨了多种临床表征癌症间是否存在共同分子机制的问题,

22、结果令人信服地提供了存在普遍的肿瘤变异(n e o p l a s t i ct r a n s f o r m a t i o n)的证据。另外一大类方法是专门针对芯片数据的特点设计的,首先通过一定数据转换的方法,将不同芯片实验的数据合并成一个表达矩阵(此类方法统称为基因芯片数据整合方法),包括:中位值排序转换(M e d i a nR a n kS c o r e)8 、相对排序转换(R e l a t i v eR a n k)9 等。然后再根据研究目的应用相应方法进行后续分析。研究显示,这两种方法在筛选特征基因(标记基因)方面都取得了较好的效果,而后者整合后的数据集配合分类研究的方法还

23、适用于不同表型的分类研究。可见合并多样化的已有研究数据可以扩展并改善生物信息学检测治病基因的能力。1 2 2 国内研究概况在我国,医学期刊近几年来开始有极少量的对荟萃分析介绍,王小利等 1 0】探讨了p 5 3 基因突变及P 5 3 蛋白表达改变对食管癌预后的影响。他们应用M e t a分析方法的D e r s i m o n i a n L a i r d 模型对有关p 5 3 改变与食管癌预后的文献进行定量综合分析,共入选2 7 篇文献,累计病例2 1 7 4 例p 5 3 阳性1 1 5 0 例,阳性率5 2 9。发现p 5 3 改变可能是食管癌患者不良预后的一个生物标志物,有利于食管癌

24、的治疗决策。杨锡南等 1 l】提出了新的荟萃分析方法:基于不同数据源的有序基因列表排序打分(R s)算法,结果说明R S 与“一对多(O V A)或“一对一一(o v o)比对结合,是分析多源数据的有效方法。并通过有效聚类说明,不同实2肺癌http:/ 3 论文的主要研究内容本论文是以作者攻读硕士学位期间承担课题的工作为基础,在第一章中阐述了课题研究的来源、目的、意义以及国内外研究的现状以及本文的主要工作和组织安排;第二章介绍了本论文需要的相关背景知识;第三、四章详述了两种主要的应用,内容包括应用的整个过程与结果;最后第五章总结全文。肺癌http:/ 1 基因芯片及其应用2 1 1 基因芯片简

25、介基因芯片技术融合了生命科学、化学、微电子技术、计算机科学、统计学和生物信息学等多种学科的最新技术 1 2,1 3】,是于9 0 年代中期发展起来的一项前沿生物技术,是高效地大规模获取相关生物信息的主要手段。基因是载有生物体遗传信息的基本单位,存在于细胞的染色体上。将大量的基因片段有序地、高密度地排列在硅片、玻璃片或纤维膜等载体上,称之为基因芯片 1 4,1 5】。技术上而言,基因芯片即脱氧核糖核酸(D N A)阵,由若干基因探针构成,每种基因探针包含着由若干个核苷酸对构成的D N A 片段。所谓“探针,就是利用碱基配对的原理检测基因的一种技术。基因芯片的基本运作过程是:将基因片段固定于载体上

26、制成基因芯片,然后将其与荧光标记产物一起放入自动杂交系统,让两者按碱基配对的原则进行固相杂交,然后通过激光共聚焦扫描仪对芯片上的荧光信号进行扫描,最后用计算机系统对每一探针上的荧光信号作比较和检测,并显示出有关的信息。基因芯片技术具有技术操作简单、自动化程度高、检测序列数量大、检测效率高、应用范围广和成本相对低等特点。因此可以通过分析基因芯片数据,找出被测患者基因结构与正常人基因结构上的细微差异,从而辅助诊疗疾病。基因芯片的应用领域主要有:基因表达谱测定、D N A 杂交测序、突变检测、多态性分析等。本文研究的出发点就是基因表达谱,它是指代表样本(组织或细胞)中全部待测基因表达水平的数据总体,

27、通常由成千上万的基因表达数据构成。2 1 2 基因芯片原理基因芯片的理论基础是D N A 的碱基配对原理,因此在理解基因芯片原理之前需要理解碱基配对原理。D N A q 口主要存在四种碱基:腺嘌呤(A)、鸟嘌呤(G)、4肺癌http:/ N A 分子都是由这四种碱基的不同组合构成的。在这四个碱基中,A 只能和T 相配对,形成两个氢键;G 与C 相配对,形成三个氢键。根据碱基配对原理,两条互补的D N A 单链就可以通过氢键结合,构成人们所熟知的双螺旋结构的双链D N A。利用这一原理,我们可以用一段特定的D N A 序列作为探针来检测与之配对的D N A 分子的存在及其丰度。基因芯片就是在一个

28、很小面积的芯片上固定大量的D N A 探针,将经过荧光标记等处理后的样品加入到芯片上,使样品中的核苷酸片断与相应的探针杂交,通过荧光成像获得每个探针上杂交的分子浓度,再通过后期的图像处理即可获得相应的基因表达量。由于芯片面积 l d,,基本上能够保证各个探针与样品发生杂交反应的条件是一致的,而且相对来讲用较少量的样品即可快速的实现基因表达量的检测。根据不同的分类方法我们可以将基因芯片分为不同的类型。目前比较常见的分类方法是根据制备方法的不同,将基因芯片分为用微量点样技术制作的c D N A芯片(p r i n t e dc D N Am i c r o a r r a y)和寡核苷酸芯片(O

29、l i g o-N u c l e o t i d eA r r a y)。下面就分别介绍两种芯片的原理以及实验流程:c D N A 芯片:c D N A 是从m R N A 通过反转录过程得到的D N A,c D N A 芯片就是以这种反转录的D N A 片断作为探针的基因芯片。制作c D N A 芯片时,首先需要构建c D N A 文库,即从实验材料中提取待研究基因的m R N A,将它们反转录成c D N A,然后酶切成不同片段并克隆到载体里,形成所研究的基因对应的c D N A 片断的一个分子库,即c D N A 文库。从文库中选取特定的c D N A 片断,利用P C R(P o l

30、 y m e r a s eC h a i nR e a c t i o n,聚合酶链式反应)技术进行扩增和纯化,得到所需要的各个基因的探针,最后通过机械手将含有大量c D N A 的探针以类似喷射打印的形式精确地按照特定排列滴加到经过衍生处理的基片上,从而完成芯片的制备。这一技术是由斯坦福大学的B r o w n 教授等人发明的【1 2】,其特点是成本相对低廉,而且芯片的探针可以根据生物学家的需要自行设计和提取,是一种可以实验室“自制的基因芯片。由于在c D N A 芯片制备时每个点上并不能精确的控制探针的数量,因此在采用c D N A 芯片检测样品中的基因表达量时,除了待测试的样品外还需要

31、准备用于比较的对照样品,比如当待测试样品是癌组织时,对照样品可以是癌组织旁的正肺癌http:/ R N A,经过反转录得翌J c D N A 并进行荧光标记,一般情况下对照样品和测试样品分别用绿色(C y 3)和红色(C y 5)进行标记,再等量混合后与e D N A 芯片上的探针进行竞争杂交,杂交后的芯片经过洗涤,用激光共聚焦显微镜扫描。显微镜通过分别发射两种不同波长的激光分别激发C y 3 和C y 5,从而扫描得到对应荧光强度的图像,两图像合成以后,探针对应的基因如果在测试样本中相对高表达,则显示为红色,相对低表达则显示为绿色,在两类样本中表达量相当则为黄色,而红绿颜色的相对强度则反映出

32、了基因在两种样品中表达的数量之比。寡核苷酸芯片:寡核苷酸芯片最早是由美N A f f y m e t r i x 公司研制开发的【1 6】。目前除T A f f y m e t r i x 公司外,A g i l e n t、G EH e a l t hC a r e、N i m b l e G e n 等公司也提供类似的芯片。由于这类芯片上的D N A 探针是利用化学方法按照指定的序列一位一位合成的,因此被称为寡核苷酸芯片。各公司产品之间的区别主要在于寡核苷酸序列合成技术的不同。在这罩以A f f y m e t r i x 公司的基因芯片(G e n e C h i p)为例介绍寡核苷酸芯

33、片的制作原理及特点。该芯片的探针是采用光引导聚合的原位合成技术合成在芯片上的,它的发明得益于照相平版印刷技术与D N A 固相合成技术的结合。在特定蔽光膜的作用下,通过对可活化的基片进行选择性的光照脱保护,可以在芯片不同位点合成需要的寡核苷酸序列。每个探针为一个含有2 5 个碱基的核苷酸片断,其中一部分探针可以与基因组上的某个基因唯一匹配,称为完全匹配探针(P Mp r o b e),每个P M 探针还对应着一个只有在序列中间一位与之不同的错配探针(M Mp r o b e),这两个探针构成P M M M 探针对(p r o b e-p a i r)。通常情况下1 1 个或者2 0 个探针对组

34、成一个探针组(p r o b e-s e t),一个基因对应一个或多个探针组。由于e D N A 芯片采用的是点样技术,各个实验室可以根据实际需要自行设计探针。在这一特点所带来灵活性的同时也意味着不同实验室甚至不同操作员所得到的数据的异质性比较大,数据的质量高度依赖于实验室的实验水平。而寡核苷酸芯片是由专门的公司以工业化的形式生产出来的,拥有统一的标准且可以较方便的进行质量控制,因此采用这类芯片可以有利于比较不同实验室之间产生的数6肺癌http:/ 1 学位论据。当然采用寡核昔酸芯片进行实验的成本也相对较高。另一方面由于c D N A芯片在同一张芯片上时两种样品进行竞争杂交,所以可以通过一张芯

35、片就能对两种样品进行比较,而寡核苷酸芯片则必须通过两张芯片才能完成一次两个样品问的比较。但是,由于e D N A 芯片输出的只能是同一个基因在两个样品I 色J 表达值的比值,在对多个样品进行比较时,如果每个样品选择不同的对照样品则会影响比较的结果。当然,由于两种芯片在原理和实验过程上的差异,在数据处理和分析t 除了一些共性的问题外也有很多各自的问题。嬲铡j 嬲_嬲测a 瓣)e D N A 甚HfbJ 靠梭悻醴苍J 图2 1c D N A;笛片_ l 寡拉茁酸芯片的制作及实验流挫213 基因表达数据的处理流程在一块基因芯片上往往含有成百上千个基因,一次可以同时检测这些基因的表达。利用同一种芯片在

36、不同条件下(不同时自,不同细胞,不同外界作用)进行基因表达实验,搜集表达数据,将原始数据放在一起,形成一个数据的矩阵。表格的每一行代表一个基因而每一列则代表在不同实验条件下所得到的表达强度。丧2】就表示某个芯片实验中n 个基因(G 1,G 2,G 3,G 4,G 5,G n)在血种试验条件下(E l,C 2,C 3,C 4,C 5)得到的数矩阵。从数学忙讲,表格的一行数据就是一个向量。邕。_上一。_ 尺一荤|;_-圆肺癌http:/ I 基因芯片的表达矩阵基因芯片试验是一个多步骤、复杂的任务,样品的准备、杂交条件、芯片空间效应、实验员等因素都有可能引入误差,这些误差很有可能掩盖我们研究对象的生

37、物学信号。因此在对基因表达数据进行数据分析或挖掘之前,往往需要进行预处理 1 7】,这也是数据挖掘中最关键并且最耗时的步骤。主要包括了数据归一化、缺失值处理等过程,具体介绍如下:数据归一化在芯片实验中,由于存在染色效率差异以及实验方法固有局限等因素的影响,我们需要对芯片数据进行归一化。芯片数据归一化是对消除芯片系统误差、实验平台偏差的一类问题的统称,包括单个芯片内的归一化和多个芯片问的归一化。对于c D N A 芯片,片内归一化的主要目的是减小由于两种颜色染色效率差异导致的系统误差。归一化采用的一个基本假设是:在测试样本与对照样本间大多数基因的表达值是没有显著差异的,而在有差异表达的基因中,在

38、测试样品中高表达的基因与低表达的基因在数量上也是大致相当的,因此芯片上所有基因的相对表达量应该是以0 为中心的分布。这里的相对表达量就是指两种颜色的表达量之比的对数。人们通常用两种颜色比的对数(M)和积的对数(A)来考察每一个基因,画出如图2 2 所示的M A 图。理想情况下,多数基因应该分布在图上水平的中心线附近,而在图中的例子里,由于染色效率的差异,该芯片数据的相对表达量分布有总体向上偏移的趋势,而归一化就是通过适当的运算将M 调整为以0 为中心的分布。最简单的方法可以是将所有的芯片数据减去数据的均值或者中值【1 8】;由于荧光染料的染色效率还受基因的实际表达量大d A 的影响,因此有必肺

39、癌http:/ 值的基因进行局部加权回归,s f e 币l o tS m 0 0 t l i n g)方法的出发点 19 1,这就是流行的L O W E S S(1 0 c a l l yw e i g h t e d还可以以芯片上局部网格为单位进行基于信号强度的局部加权回归。此外在基因组中有一些基因是与最基本的细胞活动有关的,这些基因的表达在不同组织罩和不同条件下通常变化不大或没有变化,被称作看家基I 天l(H o u s e k e e p i n gg e n e s),人们也研究了很多方法,以这些看家基因为基准来对两个颜色之问的差别进行归一化处理。051 0 5A图2 2e D N A

40、 芯片M A 图由于实验操作、样品准备等方面的差异,不同芯片间有时会存在系统的差别,需要进行片间归一化。这种归一化问题对于各种类型的基因芯片都存在。片间归一化的核心思想就是确定一个基准芯片,以芯片之间的一些不变量为依据,对其它芯片的数据进行整体的拉伸变换或者压缩变换。片间归一化方法的不同主要体现在归一化依据的不同,比如最简单情况下假设每一张芯片上基因表达的均值应该是相同的,这就是所谓的总体归一化方法;这种假设过于粗糙,后来便产生了基于看家基因等的归一化方法,即以这些特殊基因为基准对芯片间的表达值进行变换;进一步的研究又发现,看家基因有时不易得到,而且有些看家基因的表达在各个芯片中也不是恒定不变

41、的,因此又发展了以那些在多个芯片内排序比较固9肺癌http:/ f f y m e r i x 公司生产的寡核苷酸芯片,L i 和W o n g 提出了一种从探针对数据拟合基因表达值的模型(L i W o n g 模型)。该方法以某一用户选定的芯片为基准,通过从全部P M 探针中选择排序不变子集来在芯片问进行探针的归一化,再利用归一化后的探针数据估计基因表达值1 2 0,2 1 。缺失值处理在芯片数据的获取过程中,由于实验、扫描或前期处理中的缺陷,可能会在某些探针上得不到数据,即缺失值。由于很多数据处理的方法不适用于有缺失值的情形,因此需要对缺失值进行合理有效的处理。最简单的解决方式是直接去掉

42、含有缺失值的基因,这种方法保证了余下数据的准确性,但因为一个数据的缺失而放弃一个基因的全部数据,可能会导致关键数据的缺失而影响分析结果。另一个简单的方法是将缺失值置零,但是把所有缺失的基因表达值置零显然会带来比较大的噪声。目前比较完善的方法基本都采用最近邻法和最小二乘法的思想,利用与含有缺失值的基因表达模式相近的其它基因的表达值对缺失点的值进行插值估计。此外还有一类基于已有的生物知识来进行缺失值处理的方法【2 2】。基因表达数据在进行预处理后,便进入J 下式的数据分析或挖掘工作,目f i ,对基因表达数据的分析主要是在三个层次上进行【1 7】:1 分析单个基因的表达水平,根据在不同实验条件下基

43、因表达水平的变化,来判断它的功能,例如,可以根据表达差异的显著性来确定肿瘤分型相关的基因。采用的分析方法有统计学中的假设检验等。2 考虑基因组合,将基因分组,研究基因的共同功能、相互作用以及协同调控等。采用的分析方法有无监督的聚类方法和有监督的分类方法【2 3 等。3 尝试推断潜在的基因调控网络 2 4,2 5 ,从机理上解释观察到的基因表达数据。多采用反向工程【2 6 的方法,包括布尔网络【2 7】和贝叶斯网络 2 8,2 9】等。1 0肺癌http:/ 单基因分析 统计检验等因数铗表据失达归值数_ 处基因组合 聚类、分类分析据化理p 络调控 布尔贝叶斯网络=l2 1 4 基因芯片的应用图2

44、 _ t 基冈表达数据处理流程目前,基因芯片技术应用领域主要有疾病诊断和预测、新基因发现、基因突变及多态性分析、药物筛选等。九十年代初以美国为主丌始进行的各种生物芯片的研制,不到十年的时间,芯片技术得以迅速发展,并呈现发展高峰。疾病诊断和预测基因芯片辅助诊疗在癌症和一些遗传性疾病的研究方面,是任何传统的医学诊断方法所无法相比的。如假瘤性胰腺炎实质上是一种良性疾患,但由于它可在胰腺内形成肿块,用传统医学影像学方法进行诊断,常被误认为是胰腺癌。事实上,尽管假瘤性胰腺炎和胰腺癌两者的影像学改变十分相似,但各自病变组织细胞基因结构上的本质性差异却是存在的。胰腺癌普遍有一种或多种包括p 1 6、p 5

45、3和K 1 a s 等在内的致癌基因和抑癌基因结构异常改变,而假瘤性胰腺炎一般没有这些变化。用基因芯片诊断技术对患者进行采血化验,便可发现一些与癌相关基因有无突变或缺失,十分明确地将这两种疾病区分开来。又如用基因芯片监测胎儿发育,有助于产前发现遗传性疾病:用其检测癌相关基因,即可及时发现癌症;用其鉴定感染源,则能避免抗菌素的滥用。肺癌http:/ 学位论文癌症基因组剖析计划(T h eC a n c e rG e n o m eA n a t o m yP r o j e c t-C G A P)是由美国国立生物技术信息中心(N C B I)启动的研究项目,用于对与恶性转移有关的特定的染色体改

46、变进行方便的定义和详尽的描述。C G A P 被分为五个互补的部分,每一部分都有各自独立的目的,信息学工具和资源。人类肿瘤基因索弓l(T h eH u m a nT u m o rG e n eI n d e x h T G I)歹l J 举了在人类肿瘤发生过程中的基因表达。分子表达谱(M o l e c u l a rP r o f i l i n g M P)展示了从分子水平分析人类组织样品的概念。癌症染色体变异计划(T h eC a n c e rC h r o m o s o m eA b e r r a t i o nP r o j e c t C C A P)描述了与恶性转移相关的

47、染色体改变。遗传注解索弓l(T h eG e n e t i cA n n o t a t i o nI n d e x G A D 指明并描绘了同癌症相关的多态性。小鼠肿瘤基因索弓l(T h eM o 峭eT u m o rG e n eI n d e x m T G I)确定了在小鼠肿瘤发生过程中的基因表达。通过过去二十年的研究,已经了解到遗传学改变是所有癌症的根结所在。为此,C G A P 将统一最新的,以及那些又节约经费又有很高通量的生物芯片检测技术,来确定所有与癌症的产生和发展相关的基因。新基因发现通过定量监测大量基因的表达水平,可以为基因功能的分析、探索疾病原因及机理、发现治疗靶基

48、因等方面提供有价值的信息。例如在炎症性疾病类风湿性关节炎(R A)和炎症性肠病(I B D)的基因表达研究中,由R A 或I B D 组织制备探针,用C y 3 和C y 5 荧光素标记,然后与靶c D N A 微阵列杂交,可检测出炎症疾病诱导的基因如T N F a l L 或粒细胞集刺激因子,同时发现一些以前未发现的基因如H M E 基因和黑色素瘤生长刺激因子【3 0】。基因突变及多态性分析芯片技术中杂交测序(S e q u e n c i n gB yH y b r i d i z a t i o n S B H)技术可大规模地检测和分析D N A 的变异及多态性。G u o 等 3 1

49、利用结合在玻璃支持物上的等位基因特异性寡核昔酸(A S O s)微阵列建立了简单快速的基因多态性分析方法。将A S O s共价固定于玻璃载片上,采用P C R 扩增基因组D N A,其中一条引物用荧光素标记,另一条引物用生物素标记,分离两条互补的D N A 链,将荧光素标记D N A 链与微阵列杂交,通过荧光扫描检测杂交模式,即可测定P C R 产物存在的多种多态性,该方法成功地解决了单碱基错配与完全匹配的杂交模式区别问题从而可快速、定1 2肺癌http:/ j 学位论文量地获得基因信息。Q 地中海贫血中变异的检测也论证了该方法的有效性和可信性【3 2】。药物筛选L i v a c h e 3

50、 3 等应用特殊设计的基因芯片进行药物筛选,研制了在硅装置上的多聚毗咯D N A 芯片,用于血清样品中丙型肝炎病毒的基因分型,结果显示了良好的敏感性和高度的二维分辩能力。S a p o l s k y 等 3 4】采用高密度D N A 探针阵列和相应的生化与信息学方法进行基因组文库克隆排序,该方法涉及了一系列酶促反应步骤,以捕获散布于整个高分子量D N A 中分散的短序列标志物,通过此过程,在两个D N A 适配子之间,将与特定的限制位点相邻的所有模糊序列进行连接,通过P C R 扩增并标记。该方法可检测出一批特征性序列标志物,还可连续性地将文库排列成重叠群图谱。随着生物芯片在医学领域的广泛应

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高考资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com