■ 摘要
多数患有罕见疾病的患者未接受过分子诊断,且过半数此类疾病的病因变异和致病基因仍有待发现。
对全基因组测序(WGS)测序的13037人中患有罕见疾病且详细表型的1138患者进行基因诊断。研究发现95个基因与疾病的关联符合孟德尔遗传学规律。其中UK Biobank的WGS测序数据可说明影响数量性状遗传的等位基因倾向于在基因的极性尾端中。
最后研究鉴定了四种新发非编码变异,其通过破坏ARPC1B,GATA1,LRBA和MPL的转录而引起疾病。WGS可诊断罕见病基因组的编码和非编码区域未知的病因变异,可在常规医疗保健的诊断和病因发现发挥协同作用。
研究人员按照临床标准,对13037名参与者进行了WGS测序,其中男女比例均衡,种族群体分布符合英国人口普查报告。
将参与者逐一分配到18个组别中,共有9802名个体(75%)患有罕见疾病或其数量性状的测量数据较为异常,其中9024名为原发病患,778名为确诊患者亲属。若患者表现出多种器官系统的病理,则使用人类表型本体(HPO)对所有罕见疾病域进行表型分析(图2a)。
研究首先确定了172005610种短变异,其中48.6%SNV和40.8%indel没有出现在公共变异数据库中(图1d),并且54.8%的突变次等位基因频率为1。在这些未知的单例变体中只有9.08%变异的次等位基因计数> 1。这些次等位基因通常仅由具有相似种群血统的个体携带(图1e)。表明罕见病患者中存在未知突变且主要为次等位基因的突变。
■ 临床报告
针对15个罕见疾病域,回顾科学文献建立了DGGs列表,并确定了相应的转录本。列表的长度从2个到1423个不等,其基因不互斥,对于不同疾病,基因作用不同(图2b)。
此外,由12个专业团队根据HPO相关的表型去进行相应的基因和变异的评分,分析变异是治病还是疑似致病变异,遵循标准指南并评估其等位基因对疾病的贡献度。对7065例(16.1%)患者中的1138例(16.1%)发布了临床报告,其中包含1103种不同的致病变异影响329个DGG。对其进行排置,其中前三位DGG(BMPR2、ABCA4和TNFRSF13B)占比报告的四分之一(图2c)。
■ 与罕见疾病的遗传关联
通常需要数个病因相似的病例得以在罕见病遗传学中进行新发现。研究应用BeviMed来识别在各种遗传模式下基因与罕见疾病之间的联系。
若个体表型为其共同的病因,则使用相同标签标记病例。独立分析了每个基因标签对,若相关联的后验概率大于0.75则为遗传病因的有力论据。
根据标签的基因因果关系,BeviMed报告了遗传模式的后验概率、即变异分子致使疾病风险级别。研究中记录了95个基因和29个标签之间关联的有力证据。其中68个基因建立了DGGs,11个在2015年已发现,仍有16个需在未来验证如(图2d)。
因此,在95个关联中有79个被证实,为83%的真实阳性预测值设定了下限,此79个被证实的基因中的稀有变异可说明其中611.3例病例,有115.6例是可由BMPR2与肺动脉高压的关系得以阐明。对于一个基因(GP1BB),BeviMedti推断出的遗传模式与文献的不同,质疑惯有假设。
这些结果和其他发现表明,对来自大型表型异质性罕见病队列中收集的遗传和表型数据进行统一分析是遗传学发现的有力途径。
■ 数量性状
对数量性状有较大影响的等位基因易使携带者位于极端尾部,从而导致负选择压力。研究中试图通过单变量数量表型的尾部,鉴定可能介导红细胞(RBC)相关病理的基因,并计算罕见变异的的遗传能力。
已知GWAS在较小等位基因频率<1%的变异和4个红细胞全血球计数性状之间的联合分布,得出单变量表型(图3a)。在测序的764人中均匀分布在表型的左尾右尾,对应的红细胞计数和平均细胞体积如图(图3b, c)。
从红细胞全血细胞计数GWAS衍生的表型的多基因预测因子的分布在各自尾部的人群分布中显示出左移和右移(图3d)。这种差异可能归结于罕见等位基因在尾端中密度。
BeviMed分析中将每个极性尾端作为一组病例进行处理,并鉴定出12个后验概率大于 0.4的基因(图3e), 其中HBB和TFRC已知的突变会导致微细胞贫血。其他基因都是可能的候选基因。对健康人群样本中的数量极端值进行分析可以确定医学相关基因座。
■ 调控元件
调控元件中罕见变异可通过干扰转录或翻译引发疾病。最近发现表明,少部分病例可归因于相关组织中活跃的调节元件中新发非编码SNV。较大的变异可能比snv对调控元件的破坏性更大。
在涉及隐性造血疾病的246个DGG的调控元件中寻找病因变异,通过redpop为六种血液细胞类型中分别定义了一组活性调节元件,并把活性调节元件与基因联系起来。并根据相应细胞类型与这些领域的相关性,将每一个调节因子分配到三个罕见疾病领域中的一个或多个。
最终发现一个罕见的纯合或半合子缺失的病例,这种缺失与相关细胞类型中的一个调控元件有关,并与该病例所属域的DGG有关。
研究发现一患有自闭症谱系障碍和血小板减少症的男孩携带了GATA1增强子的半合子缺失(图4)。采用此方法识别调控元件中致病性缺失,以识别非编码SNV,重点研究DGG中具有强影响编码变异的复合杂合度(CADD)分值大于20,又发现了两个潜在病因性SNV,其中MPL丢失可导致慢性巨核细胞血小板减少症。
■ 结论
通过全国范围内临床试验研究的标准一体化,可加快对未知罕见病病因的解决。研究机构已经启动了英国生物银参与者的WGS,以鉴定数量表型极端尾部与罕见变异关联。介导病因的表观遗传学数据与WGS结合可以鉴定出含有致病性非编码突变的调控元件,探索调控变异是未来研究和临床干预的一个有希望的焦点。
研究人员:Willem Ouwehand教授领导的NHS血液和移植(NHSBT)研究小组已嵌入剑桥大学血液学系,并与Wellcome Trust Sanger研究所(WTSI)和欧洲生物信息学研究所(EBI)合作。该小组的巨核细胞,血小板生物学和基因组学研究计划是欧洲最大的研究计划之一。