首页 >科研 >研究报告
NEJM发表首个WGS用于罕见病检测成果:UK 100K Pilot研究
发布时间:2021/11/12

背景


UK 100K基因组计划通过全基因组测序对常规流程未诊断的罕见病患者进行分析,在全国范围NHS体系中应用并同时开展相关科研工作。该项目的另一部分是针对癌症和感染性疾病患者。


方法


Pilot 研究覆盖最初入组的来自2183个家庭,涉及161种罕见病的4660名参与者,涉及多种罕见疾病。使用人类表型术语HPO收集临床特征数据,进行基因组测序,结合虚拟基因包和表型对变异进行自动化优先级排序,结合科研分析确定新的变异致病性。


结果


不同检测方案诊断率不同,Trio和更大家系的分析诊断率最高,单基因疾病的诊断率(35%)高于可能复杂疾病(11%)。智力低下、听力障碍和视力障碍的诊断率40%到55%不等。先证者的诊断率25%,通过科研与自动化分析相结合共计对额外14%的样本进行了诊断,这对于非编码区致病性变异、结构变异、线粒体基因组变异、外显子组测序覆盖率较低区域的变异相关的病例至关重要。发现了3个新的疾病基因和19个新的关联。经诊断的病例中,25%对患者及其亲属的临床决策产生了直接影响。


1636681578630083511.jpg


结论


全国范围内的医疗保障体系显示,基因组测序可提高罕见病的诊断率。



前言


罕见病在全球医疗保障体系中都面临着严峻的挑战,西方人口中约有10,000种疾病使受累人群达到6%。超过80%的罕见病与遗传相关,会导致残疾且治疗费用昂贵,1/3的罕见病患者可能在5岁前死亡。在过去十年中NGS提高了罕见病的诊断率。然而,实际上大多数罕见病患者经常规检测后依然无法确诊。为了解决该问题,英国政府于2013推出了十万人基因组计划UK 100K,将WGS整合至国家医疗保健体系中用于罕见病、癌症和感染性疾病的研究。


为了评估WGS对英国NHS罕见病诊断的影响,前期进行了试点研究,对罕见病家庭及详细的临床表型进行登记,收集所有入组病例的电子病例信息,并将其与基因组信息和临床数据进行存储分析。


方法


入组病例


经伦理委员会批准后,由医疗人员和研究人员确入组病例罹患罕见病,且经NHS常规流程(包括无诊断结果)后无法确诊(或者因为未进行检测而无结果)或经批准的检测不包含基因组测序等。由国家健康研究所(NIHR)罕见病生物资源获得入组病例的书面知情同意。


为了评估基因组测序是否适合广泛开展,针对可能由单基因或寡基因导致的,且未接受基因组诊断的罕见病患者入组。尽可能收集先证者先前的检测数据,包括单基因测试、核型分析、芯片、NGS基因包和外显子组测序等。先证者以及父母或其他家庭成员均由NHS的多学科团队招募,提取HPO,抽取外周血样本提取DNA,UK 100K项目通过电子病例(所有医院事件、登记条目和死亡原因)跟踪入组者整个生命周期。


Pilot研究与NIHR合作,作为转化医学研究的一部分,NHS信托基金会下的剑桥大学医院,大奥蒙德街儿童医院,曼彻斯特大学,莫尔菲尔德眼科医院,纽卡斯尔泰恩医院,牛津大学医院,伦敦大学学院医院等医院参与。


基因组测序


在HiSeq 2500测序仪上使用TruSeq  PCR-free进行,平均深度32×(范围27×至54×),95%的参考基因组深度大于15×。使用Isaac基因组比对软件与GRCh37进行比对,基于家系的分析使用Platypus variant caller对1至22号染色体、X染色体和线粒体基因组(平均覆盖率2814×)的SNV/Indel进行分析。


诊断流程


构建自动化分析流程,根据编码区中频率、家系共分离和有害性预测对变异进行过滤。为了避免过度诊断或诊断排序效率不足,起始阶段重点关注入组病例的临床症状以及HPO术语,结合虚拟基因包进行分析。为了明确哪些基因的致病原因证据充足并被纳入,使用PanelApp进行分析。PanelApp经专家审核、多层审查,为不同疾病种类提供诊断级证据的检阅清单(例如,提供至少三个无关联家族的病例证据)。功能丧失或de novo导致蛋白改变的变异相关基因在PanelApp中为Tier 1,其他变异类型如错义变异为Tier 2,所有其他变异为Tier 3(Fig S1)。为了进一步减少遗漏或避免排序不充分,同时通过Exomiser基于表型进行分析。Exomiser通过频率,共分离,致病性变异等结合参考基因组中已知的人类疾病相关变异或模式生物数据库对变异进行排序。表型匹配可识别具有非典型特征的患者,补充资料显示了Exomiser在诊断流程中的应用。


1636681651709016281.jpg


使用决策支持系统并在Congenica临床遗传团队协助下,对变异进行优先级排序,并将候选变异返回至13个NHS基因组医学中心(GMC)。NHS临床科学家和临床医生参考ACMG对变异进行审查并发放报告。最终的临床结果包括是否确诊,相关变异的鉴定,变异是否可解释全部或部分表型,是否进行了干预措施。


在2014年1月至2016年12月期间,Pilot研究进行了患者招募,完成了测序,建立了包括收集、质量控制、样本处理和数据返回的架构。2016年5月至2019年4月期间分析结果返回至个中心,目前所有流程均已经完善,获得样本后6周可收到结果。


新的致病性变异


研究人员在全基因组范围内分析与患者表型相匹配的新的诊断性变异,包括高度约束编码区的de novo变异。通过分析线粒体DNA的异质性,通过Genomiser分析非编码区的致病性变异,通过ExpansionHunter检测STR。最后用随机森林法则分析Canvas和Manta发现的变异,并识别潜在的致病性拷贝数变异和结构变异。


对Pilot研究及UK 100K基因组项目中的基因组进行基于基因的负荷测试(Gene-based burden testing),分析特定疾病队列中的新的、罕见的、可能致病的、符合共分离的变异,提高诊断能力(参见补充附录)。


统计分析


使用R软件(版本3.6)和Stata软件(版本16)进行分析,详见补充附录。


结果


入组病例


招募共计4660名参与者(2183名先证者和2477名家庭成员),涉及161种罕见病(表1)。神经疾病、眼科疾病和肿瘤综合征比较常见(表2),先证者的家庭成员有的受累有的正常。尽量招募Trio或更大的家系分析,以获得更有效的变异优先级排序。招募的多发性肠息肉先证者中,93%为Singleton,智力低下先证者中12%为Singleton。成人先证者比儿童先证者更普遍(74% vs 26%),与英格兰和威尔士人群中儿童和成人的比例一致(79% vs 21%,2011年英格兰和威尔士人口普查数据)。


640.webp (15).jpg

1636681718022007960.jpg

与之前的测序项目相比,成人病例优势明显,因为先证者必须接受常规流程检测作为入组标准,多数病例已经经过相关基因检测(主要是单基因或基因包检测)常规流程。儿童病例先证者中女性比例低于男性(232名女性[11%] vs 339名男性[16%];根据2011年英格兰和威尔士人口普查结果,预计女性患者的比例为51%。可能与男性X连锁隐性遗传疾病风险较高相关,诊断病例中超过6%的变异位于X染色体(约占基因组的5%)。先证者的推断祖先(见补充附录)与普通人群预期一致,86%的儿童和成人为白人,8%为亚裔,3%为黑人,2%为混血,1%为其他人种(2011年英格兰和威尔士人口普查数据)。然而,南亚血统在儿童先证者中比成人先证者中更为常见(16% vs 4%),结果显示,93名南亚儿童先证者中有43%和478名儿童先证者中有1%具有潜在血缘关系(表1)。


临床数据和测序


使用HPO收集患者临床数据,有表型中位数和缺失表型中位数均为4,经基因组测序和质量控制包括覆盖率、序列质量、是否有重复提交或错误提交,与报告的样本家系结构是否一致等(见补充附录)。


诊断率


先证者诊断率为25%(ClinVar编号SCV001759972至SCV001760540),其中60%是通过基因包诊断的SNV/Indel;26%是未包含在基因包中的SNV/Indel,由来自Congenica等团队通过基于表型的排序和专家审阅发现;14%在基因组范围通过表型不限定方法进行分析以上异常外的其他变异(图1)。根据指南,额外发现10%的先证者携带VUS,与临床表型一致但需要进一步功能验证。在较大家系(表3)中对变异进行过滤(去除极不可能的候选变异)后,少量候选变异返回至区域中心,这样致病性变异更容易鉴别,多人家系分析模式的诊断率更高(图2A)。同一类型疾病也是如此,遗传性共济失调的诊断率Singleton为21%,Trio为32%(表S4)。相比复杂疾病,单基因疾病诊断率更高(35% vs 11%)(图2A)。


1636681771085057861.jpg


1636681800600026756.jpg


如果疾病包含在OMIM数据库中,基因检测作为标准诊断流程并且三位临床遗传学家(彼此互不指导评估结果)一致认为是单基因疾病,则诊断为单基因疾病。不同疾病诊断率不同(图2B和表S3),智力低下和视力, 听力障碍的诊断率为40%-55%,肿瘤综合征的诊断率为6%。


1177名参与者之前进行基因检测的次数从0到16次不等,约一半先证者至少接受过一次检测。在该亚组中使用基因组测序后总诊断率增加了32%,与之前是否进行过检测与否差别轻微。当然,之前的许多检测都不是最近进行的,最晚可追溯到招募期间(2014年至2016年)。基因组测序的诊断率大约28%-45%不等,与之前的检测类型有关(图2C和表S5),其中大部分是靶向单基因和基因包检测(表S6)。


诊断流程


使用自动化诊断流程旨在去除极不可能的候选基因(进行过滤),并识别其余候选基因中最可能的基因(进行优先级排序),辅助临床医生进行解读和报告。


在490例SNV/Indel诊断病例中,共计322例(66%)通过虚拟基因包进行分析,阳性预测值可达28% (291/1041),返回到区域中心后证实是诊断性结果。2019年12月,使用基因和表型经更新的虚拟基因包进行重分析,并根据最新变异筛选策略进行分析(例如,采用不完全外显率),490例诊断病例中,从322例增加至377例(灵敏度77%),阳性预测值15%(图2D)。结果显示对变异进行有效筛选和优先排序后,每个先证者返回至区域中心的候选变异中位数为1(表3)。随着虚拟基因包不断加入新的基因并持续更新,该方法的诊断率预计会继续得到提高。


Exomiser基于表型,对最可能的致病的变异进行打分和排序,77% 的病例中致病变异排在首位,86%的病例致病变异排在前 3 位,88%的病例致病变异排在前 5 位(图2D)。Exomiser和PanelApp 联合使用,如果统计Exomiser排在前5位的候选变异,490例确诊病例中92%获得诊断,(图2D最后一个蓝柱)。入组病例中有精确的表型对于Exomiser的使用和虚拟基因包的选择至关重要。如果表型不完善,只有54%包含在虚拟基因包中被优先考虑,并作为可能的候选者返回至区域中心(图2D中第一个蓝柱)。


基于研究的诊断


14%的诊断结果需要在标准诊断流程之外进一步研究(图1),包括基因组序列和临床数据联合分析,并使用正交试验和计算机方法进行验证(表S7)。分析高度约束编码区中de no变异额外得到诊断性结果,包括遗传性共济失调患者的de novo EBF3错义变异,线粒体基因组异质性分析发现4个新的诊断和主要分析流程发现的9个诊断性结果。12例先证者携带内含子剪接变异,由于这些变异在ClinVar数据库中为已知致病变异,Exomiser已经优先考虑这些变异。9例新的,之前未报道的非编码区变异通过逆转录PCR或荧光素酶等对整个基因组进行分析和体外功能实验进行验证。对于这些诊断病例,未确诊先证者病例对非编码区变异是否有影响进行分析,无论是单独变异还是复合杂合功能丧失变异,都包括在应用的基因包中。这些变异通过Genomiser,视网膜疾病先证者的非翻译区、启动子或内含子进行系统分析获得诊断。另外43名病例完全或部分可通过结果变异或STR进行解释,SV和STR均位于遗传性痉挛性截瘫先证者的HTT或FXN基因内。


新的疾病-基因关联性


通过负荷测试确定新的孟德尔病-基因关联性,对未诊断病例进行基因分析,鉴定了828个显著的疾病-基因关联性,包括249个已知基因和579个新基因(与疾病相关联的新基因),共有22个候选基因是最有可能的、新的、完全外显的孟德尔病基因(表S8;ClinVar编号SCV001759972至SCV001760540),3例独立确诊的病例为:遗传性痉挛性截瘫相关UBAP1,非囊性纤维化支气管扩张相关FOXJ1,Charcot–Marie–Tooth疾病相关SORD。对3名具有这些基因的先证者发放了诊断性报告(图1),目前正在通过GeneMatcher和模型生物的功能验证研究寻找其他类似的先证者。


诊断后的医疗保障


通过该研究使部分患者和家属结束了漫长的诊断求医之路(平均持续时间75个月,平均住院次数68次)(表S1),同时降低了NHS的成本(受累患者共计183,273次住院治疗的总成本为8,700万英镑)(表S3)。此外,临床医生报告的533例诊断结果中有134例(25%)可即时实现临床可操作性,仅11例(0.2%)认为没有获益。到目前为止,其余诊断的效用尚不可知。获益病例包括:4例确诊后,改变药物治疗方案,26例确诊后,建议对先证者或亲属进行进一步监测, 13例参加了临床试验,59例确诊后沟通了未来生育选择,32例确诊后表示有其他获益(表S9)。


某些病例的诊断性结果具有非常重要的临床可操作性:


  • 疑似脉络膜减少的36岁男性患者,检测到新的CHM启动子变异,导致基因表达功能丧失,这一诊断结果使其得以参加基因替代治疗试验;


  • 一例男性新生儿先证者出现严重感染和短暂的神经损伤,在4个月大时死亡并且未能确诊,但医疗费用已经高达80000英镑(表S10)。本研究结果显示为TCN2纯合子移码所致的跨钴胺II缺乏征,弟弟在出生后1周内进行检测,结果阳性,通过每周注射羟钴胺组织代谢失偿;


  • 10岁女孩因致死性水痘进入ICU,经历了长达7年的诊断之旅,共花费356571英镑,共307次二级护理(表S11)。本研究诊断为CTPS1缺乏症,由纯合的已知致病性剪接受体变异引起,该诊断结果使其能够进行治疗性骨髓移植(费用为70000英镑),对其兄弟姐妹进行预测性检测发现其他不存在类似风险;


  • 一名先证者等到60岁时才对导致局灶性节段性肾小球硬化的INF2突变得到了基因诊断,其父亲、兄弟和叔叔均死于肾衰竭,他本人接受了两次肾移植,并遗传给了他女儿,目前女儿住院进行常规监测。因为担心15岁的孙女有风险,在他接受基因诊断后,其孙女也接受了检测,结果阴性,随后办理了出院;



讨论


研究结果显示通过基因组测序,罕见病诊断率得到了显著提高。


通过对一系列罕见疾病进行基因组测序,患者的基因组诊断率显著提高。无论参与者之前是否接受过基因检测,均有比较大的受益。在接受基因诊断的患者中,25%获得了即时的临床可操作性。整个流程的标准化,包括从患者登记NHS验证结果返回给临床医生,对本研究的成功至关重要。例如,通过使用疾病特定数据模型和HPO收集临床信息最终获得诊断,显示了在精确医学中使用标准化术语和注释的价值。这些额外的诊断,除了来自单基因虚拟基因包的264个结果(占总诊断的49%)外,使用Exomiser和新的虚拟基因包又发现了新的变异,结合研究、决策支持、临床验证和评估共计额外发现72个诊断性结果。


诊断率与样本家系分析结构相关,单基因孟德尔遗传的诊断率可达35%:眼科疾病、代谢性疾病和神经系统疾病的诊断率最高。通过负荷检测确定了多个新的疾病-基因关联性,包括3个现已得到证实的疾病和19个可能得到证实的强证据支持关联性。


使用基因组测序诊断的疾病中,13%由非编码序列或线粒体基因组突变、Huntington疾病相关的STR以及覆盖breakpoints的结构变异引起(使用新的随机森林法则确定),外显子组低覆盖度区域的编码区变异额外发现了2%的诊断结果。本研究结果显示了基因组测序的价值,印证了之前研究的结果。该研究中通过基因组测序获得结果的参与者中有53%之前进行过外显子组测序。


之前有研究表明,在之前未接受过基因检测的人群中,WES的诊断率可达25-29%。UDN对382名患者联合使用WES和WGS诊断率为26%。另有研究显示,在50名之前接受过检测的智力低下先证者中,通过基因组测序有42%的患者获得了治疗。本研究患者覆盖了很多疾病(总共161种),之前未能获得确诊,与之前研究报道结果相似。本研究通过短读长测序进行了分析,后续将会使用长读长测序技术,对短读长测序有局限性的结构变异进一步分析。


本文Pilot研究结果支持在新的NHS国家基因组检测目录中增加某些特定罕见病的基因组测序。针对智力低下等特殊疾病患者,NHS已经将基因测序作为一线检测(表S12)。NHS目前正在对医疗保健体系中包括罕见病和癌症在内的500,000个全基因组进行测序,希望本研究结果将有助于其他卫生系统,可实现将基因组测序和分析整合到罕见病患者的护理流程中。

1636681903945014292.jpg


作者介绍:


1636681948101024077.jpg