单基因及复杂疾病致病或易感位点研究方案


1

研究背景

单基因遗传病,即孟德尔遗传疾病,是指受一对等位基因(主效基因)控制的遗传性疾病。孟德尔遗传病是新生儿出生缺陷的重要原因之一,目前全球已知的单基因遗传疾病大约多种,而且大部分的潜在疾病基因尚未研究清楚。复杂疾病,是由多个基因及环境因素相互作用所致的疾病,例如心血管疾病、二型糖尿病、原发性高血压、银屑病等。这类疾病发病率一般超过0.,在临床或流行病学方面具有一定程度的家族倾向,但又不表现典型的孟德尔遗传方式。一般认为微效作用模式在复杂疾病的发生机制中起主要作用,即来自多个位点的大多数风险基因在群体中的发生频率都很低,它们之间有相互作用,通过数量性状的剂量效应关系,达到疾病发生的临界阈值,而共同决定了复杂疾病的遗传易感性。

单核苷酸多态性,是指存在于基因组特定位置上的单个核苷酸的变异,即由单个核苷酸置换、颠换、插入或缺失所形成的遗传变异现象。一般来说,一个SNP位点只有两种等位基因,而检测这一对等位基因类型的技术则被称为基因分型(genotyping)。SNP作为第三代遗传诊断标记,在单基因疾病和复杂疾病基因组研究中具有重大意义。目前,高通量基因分型技术主要包括SNP基因分型芯片和高通量测序(具体检测平台详见附录)。

单基因遗传疾病的研究策略[1,2]

针对散发样本或小家系样本,可应用全外显子组测序或全基因组测序检测致病变异,并进行变异过滤分析,即通过样本间的比较和已知数据库的注释,筛选可能的致病变异。这种方式可能会找到目的致病变异,但缺点是无法提供统计意义上的致病性评估,可能会受到各种预料外的因素影响。要获得统计意义上的确认,那只能通过连锁分析。

针对中等、大家系样本,家系连锁分析则是研究单基因遗传疾病致病基因/位点的最有效方法。连锁分析是一种较为传统的遗传定位方法,主要观察发生在家系内的遗传重组。研究者已利用该方法发现了大量如囊性纤维化、亨廷顿病等单基因疾病的致病基因。此外,连锁分析还可以提供统计学上的致病性评估,且分析策略可根据疾病外显率和拟表型情况进行校正。连锁分析依赖家系中所有有信息价值成员的基因型数据。SNP芯片检测依旧是个不错的方式,同时也是比较方便地完成连锁定位的方式,还能避免过多的变异带来的干扰。研

究者可利用SNP基因分型芯片对家系中患病及正常对照样本进行基因分型,用基因分型数据进行连锁分析来定位候选区段,定位后要找到确切的致病变异就需要依赖测序了,后续可利用全外显子组测序或目标区域捕获测序检测候选区段内的致病变异。

复杂疾病的研究策略[3]

全基因组关联分析(Genome-wideassociationstudy,GWAS)被广泛应用于探索复杂疾病易感位点研究中,主要分为基于无关个体的方法和基于核心家系的方法。全基因组关联研究是应用基因组中数以百万计的单核苷酸多态性为分子遗传标记,检测全基因组范围的遗传变异与复杂疾病性状之间遗传关联的一种策略。其基本思想是基于连锁不平衡的原理,直接检测基因本身或基因附近的微小区域(0.1cM)的SNP标记与复杂性状表型信息的关联来实现致病位点的精细定位。GWAS研究需要注意,等位基因结构(数量、类型、作用大小和易感变异频率)在不同性状/疾病中可能具有不同特征。例如年龄依赖性黄斑变性由少数几个较大效应的常见遗传变异导致,而克罗恩病则发现数十个遗传变异与该疾病相关,且这些变异只能解释一小部分病例表型。另外,在一个群体中GWAS结果显著的SNP在其它群体中有时并不显著,这是由于不同群体可能具有不同的等位基因频率以及连锁不平衡区域,因此GWAS研究需要排除人群分层的影响。最后,GWAS是一种检测常见变异的方法,即一般最小等位基因频率(MinorAlleleFrequency,MAF)大于5%的变异,但不能有效检测低频(1%MAF5%)或罕见(MAF1%)的风险等位基因位点。

针对复杂疾病中的低频或罕见变异,由于其发生频率过低,导致差异性检验结果一般不显著而无法被发现。因此,需要对低频和罕见变异位点进行分组,提高低频和罕见变异集合整体的出现频率、减少多重检验次数,再利用差异性检验找出低频和罕见突变集合与疾病的关联性。

2

技术路线

3

分析筛选策略及结果展示

3.1单基因遗传疾病

策略一:SNP芯片家系连锁分析+个别家系成员全外显子组测序

若有中等大家系,可先利用SNP芯片进行家系连锁分析,找到与疾病或性状关联的连锁区段。通过连锁分析,我们会得到一个象征连锁关系显著度的值,即LOD值,根据LOD值来判断致病位点与分子标记之间的连锁情况。对分析所得LOD2或者LOD3的区段,利用软件Merlin(v1.1.2)和Haplopainter可进行单倍型的分析及图形的绘制,根据单倍型分析结果可查看所患病或同一表型的个体所携带的单倍型是否一致,而正常个体中是否携带不同的单倍型。

对已确定的连锁候选区段,选取家系中个别样本进行高通量测序,进行筛选,以期找到真正相关的致病或关联位点。值得注意的是,即便得到一个非常显著的LOD值,仍然存在假阳性的可能。也有可能在LOD非常显著的区域内,测序无法找到候选的致病位点。造成这种情况的原因很多,比如真正的致病位点没能捕获下来,致病位点测序深度太低,致病位点位于重复序列区域难以分析,致病位点在非编码区等等,当各种基因组序列的检测分析都做完后还没能找到致病位点的,可以考虑下区段内是否有CNV的情况。更进一步,在获得候选致病位点后,如果能提供一定的功能实验进行验证说明将是非常好的结果。

案例分享:全基因组连锁分析和外显子测序在非综合征耳聋家系中鉴定DMXL2基因变异

期刊:GenetMed

影响因子:7.

发表时间:

使用服务:IlluminaInfiniumHumanOminiZhongHua-8基因芯片和外显子组测序

研究背景

已知有超过多的基因,其所含的致病变异会对听觉系统造成不同的功能影响,并引起相应的听力损失,但对非综合征耳聋而言,依旧有超过50多相关位点的遗传致病机制还未详细阐明。本文利用全基因组SNP芯片及全外显子组测序技术对一非综合征耳聋家系中的21个样本进行全基因组连锁分析,并通过对个别家系样本进行全外显子组测序和对所有家系样本进行Sanger测序来鉴定候选的致病变异。

图1(a)患有常染色体显性的非综合征听力丧失家系图谱。箭头所指为先证者,星号标记的个体参与了SNP芯片连锁分析,三角标记个体(II-1,IV-1,IV-4,IV-6)则后续用来进行全外显子组测序,下划线标记个体II-2,则包含了一个关键的重组事件。(b)15号染色体连锁分析的LOD值,当把II-2个体包括后,其最大的LOD值达到了4.33。

研究结果

全基因组连锁分析在家系中的10个case及11个control中进行,分析得到9.68Mb的致病候选区段,LOD值为4.03。该区段中未发现与综合征或非综合征耳聋相关的已知致病基因,因此,该家系听力丧失的症状可能是由一个新基因变异造成。文章随后对家系中三个患病个体及一个正常对照个体进行了全外显组测序,分析得到3个候选致病变异,并结合对家系所有样本,尤其是对II-2样本进行sanger测序,最终鉴定出唯一一个在家系个体中呈现共分离的变异位点DMXL2:NM_174116:exon29:c.GA:p.ArgHis。结合后期的功能实验阐明了DMXL2基因在内耳功能中的重要作用。

参考文献

Chen,D.Y.,etal.,AdominantvariantinDMXL2islinkedtononsyndromichearingloss.GenetMed,.

策略二:全外显子组测序直接筛选

对于单基因疾病来说,可以假设真正的疾病基因对应的突变具有非常大的作用,因此应该具有以下特点:1)在人群中罕见,只出现在少数病人中;2)位于基因组蛋白编码区域;3)直接影响突变基因的蛋白功能。所以对于样本收集困难,或关键样本缺失的家系,利用遗传模式、变异人群频率、蛋白危害度预测及疾病数据库等信息可直接过滤筛选可能的致病变异。对于筛选得到的候选位点在致病性的判断方面可遵循ACMG(theAmericanCollegeofMedicalGeneticsandGenomics)于15年发布的序列变异分类解读指南[4]。

例如,针对一个显性遗传家系模型,过滤筛选方式如下:

图2基于显性遗传家系模型的样本选取和突变过滤筛选方法。

样本选取问题

无论是关联分析还是连锁分析都是依赖于染色体重组进行计算的。在人的染色体中,约1Mb长度的染色体发生重组的概率约为1%,于是就有了1Mb≈1cM(厘摩尔根)的概念。如果致病位点与所检测的marker之间的距离非常近,比如kb,那么重组率θ=0.,那意味着致病位点与marker之间几乎不可能发生重组,也就是紧密连锁。因此这个marker就可以作为致病变异的代表存在。致病区段的定位依赖于有效的重组信息,如在父母亲这一代的样本中,两个相近的杂合位点才可以对分析提供有价值的连锁信息,如果不是,它将无法提供重组的有效信息。在遗传模式不明的家系中,如果祖父母辈这一代的信息缺失,那么至少需要两个第三代的儿童才有可能提供足够的连锁信息。

当研究经费受限时,怎样的样本挑选策略才能既经济又能得到有指导意义的结果?对于常染色体显性遗传病家系模型,挑选亲缘关系较远的多数(两个以上)患者和一两个正常对照,检测的两个患者样本的亲缘关系越远越好。基于的原理则是亲缘关系越远,拥有相同遗传片段的概率越低,得到的LOD值越高。对于常染色体隐性遗传病家系模型,可选取患者及父母亲样本。对于Denovo突变模型,同样选取患者及父母亲样本,然而该策略需要选取多个患者样本,而针对每个患者需要做三个外显子组测序(患者和父母样本),样本量较大,一般只适用于其他策略不能使用且病人双亲样本可获得的情况。

案例分享:外显子组测序发现WDR35变异与颅骨外胚层发育不良有关

期刊:AmJHumGenet

影响因子:10.

发表时间:

使用服务:外显子组测序,Sanger测序

研究背景

颅骨外胚层发育不良(Sensenbrennersyndrome/cranioectodermaldysplasia,CED)是一种常染色体隐性疾病,表现为颅缝早闭、面部、外胚层和骨骼异常。研究人员曾用Affymetrixkarrays对2例散发样本进行检测并没有发现致病的拷贝数变异或大的纯合子区域。

研究结果

研究人员重新对两例散发的CED患者进行外显子组测序,平均在每个患者中检测到个非同义突变,通过对突变数据进行筛选,排除了dbSNP、0G以及已发表文献中的已知变异,保留了2%的非同义突变位点。研究人员考虑CED的致病基因可能含有复合杂合突变,从而在2位患者中找到一些含有至少2个突变位点的潜在致病基因,再用Sanger测序检测患者及其父母的这些基因,发现患者WDR35基因上的复合杂合突变分别遗传自父亲和母亲。1号患者WDR35exon2的剪切位点具有一个突变(c.25-2AG[p.I9TfsX7]),以及exon17上含有一个错意突变(c.AG[p.EG]),研究人员用RT-PCR证实了发生在WDR35的exon2的剪切位点上的突变可以导致转录提前终止;2号患者WDR35exon25上含有一个缺失突变(1:c.delC[p.PLfsX15])会导致移码突变以及转录提前终止,在exon23含有一个碱基置换(c.GA[p.AT])会导致一个高度保守的丙氨酸变为苏氨酸。研究人员又检测了8名CED患者,发现2名患者的WDR35同样携带复合杂合突变。

图3(A)WDR35的基因和蛋白结构域以及检测得到的突变位点。(B)IGV展示exon2的剪切位点附近的复合杂合突变。(C)Sanger测序验证1号患者的位于剪切位点附近的突变遗传自母亲。(D)lane1显示剪切位点的突变导致转录产生2种序列,lane2显示正常对照的RNA序列。(E)展示剪切位点突变与正常对照。

参考文献

Gilissen,C.,etal.,ExomesequencingidentifiesWDR35variantsinvolvedinSensenbrennersyndrome.AmJHumGenet,.87(3):p.-23.

3.2复杂疾病

3.2.1常见变异的关联研究

GWAS的统计分析依据研究设计不同可采用不同的分析方法:

针对无关个体质量性状的关联分析,最常采用病例-对照分析(Case-controlsStudy),比较病例组和对照组中标记位点的等位基因频率,通过卡方检验、Logistic回归等统计分析找到显著差异的位点,则认为此位点同疾病相关。针对无关个体数量性状的关联分析,数量性状是连续变异的性状,比如人的身高、血压等等,需收集患病散发人群样本,以数量性状为因变量,通过单因素方差分析、协方差分析或线性回归等统计分析找到显著差异的位点。

针对核心家系样本的关联分析,最常用的就是传递不平衡检验(transmissiondisequilibriumtest,TDT)。TDT的基本思想是分析等位基因从杂合子双亲传递到受累后代的概率,若概率偏离0.5,则发生了传递不平衡,即标记和疾病基因存在关联(假设群体中标记位点总体上不存在对孟德尔分离的偏离)。这种关联由以下两个原因引起:(1)标记本身就是疾病基因;(2)标记与疾病基因存在连锁不平衡;从而可以进行基因定位。TDT分析的优势在于可以排除人群分层对于关联分析的影响,不足之处在于(1)TDT要求对家系进行取样,当研究的疾病是中老年发病的话,收集父母双亲较为不易;(2)与case-control的关联设计类似,当疾病存在异质性时,将明显降低其检出力。这时可按疾病病理性状、种族特征等将患者区分为不同的亚组,可能有助于提升分析效力;(3)同样与case-control关联分析类似,如疾病存在外显不全而出现发病晚的特点时,将导致部分患病个体被当作正常个体对待,影响检出力。在这种情况下,可选择用高龄个体作为对照。

图4GWAS分析方法

在设计初始GWAS实验时,一般分两个阶段。初筛阶段,应用SNP基因分型芯片、全外显子组测序或全基因组测序对样本进行SNP分型和统计分析,筛选得到少量阳性SNPs;验证阶段,应用Fluidigm平台或Sanger测序等方法在大量样本,甚至多种人群样本中对这些阳性SNPs进行基因分型,最后整合两个阶段的结果进行分析。GWAS两阶段研究策略减少了工作量和成本,通过重复实验也减小了假阳性率。

主成分分析

主成分分析(PrincipalComponentAnalysis,PCA)的原理是找到数据方差最大的两个或者三个主成分(就是向量),将数据投影在这些主成分上,以达到降维的目的,通过图像上的点之间的相互距离来显示样品之间的相似度。考察样品的分布情况,验证实验设计的合理性,生物学重复样品的均一性(至少2组数据)。

将不同区域的样本进行PCA主成分分析,观察样本的聚类情况,探索地域差异与遗传差异对群体差异的影响。选择使用合适方法对关联分析的结果进行校正,减少人群分层带来的假阳性。

图5PCA分析示意图

全基因组关联分析

针对不同的疾病分型,采用Allelic、Genotypic、Dominant、Recessive等多种遗传模型进行基于case-control的关联分析,并绘制相关结果图形。

(1)曼哈顿图(ManhattanPlot)

图6曼哈顿图。X-轴为基因组坐标,Y-轴为每个单核苷酸多态性的关联p值的负对数。

(2)QQ图(Quantile-Quantile)

图7QQ图。X-轴为理论P值,Y轴为检测到的P值,可用来观测观察值是否显著偏离理论值。

(3)区域关联分析图

通过GWAS分析筛选出与疾病相关的显著性位点,再通过MACH1.0对客户数据中缺失的位点进行模拟填补,最后构建显著位点所在染色体区段的关联图谱。图中横坐标为染色体位置,纵坐标为各个位点的显著性,紫色菱形为







































北京中科医院是真是假
北京哪里白癜风病看的好



转载请注明出地址  http://www.mrtyyy.com/jbyf/8886.html
  • 上一篇文章:
  • 下一篇文章:
  • 首页 合作伙伴 网站简介 广告合作 发布优势 服务条款 隐私保护 网站地图 版权申明

    地址:河南省郑州市中原区

    医院地址:乘车路线:352(环形),750路到郑卞路口向东走300米即到。

    Copyright (c) @2012 - 2020 china 版权所有

    现在时间: