AI工具Eve准确预测人类基因变异的疾病相关性
了解人类基因组中丰富的遗传变异如何影响疾病可能会改变医疗保健,但尽管我们知道可能少数特定基因突变的后果,但我们仍然无法解释通过基因组测序确定的数百万个遗传变异的含义一个挑战。
哈佛医学院和牛津大学的研究人员现已开发出一种名为EVE(变异效应进化模型)的人工智能(AI)工具,该工具使用复杂的机器学习类型来检测数十万非人类物种的遗传变异模式,并然后用它们来预测人类基因变异的含义。
在《自然》杂志上发表的一项研究中,该团队使用EVE评估了多个物种的3600万个蛋白质序列和3219个疾病相关基因。他们的结果表明,256,000个先前已识别的目前意义不明的人类基因变异实际上应该被重新分类为良性或致病性。虽然研究人员强调EVE不是一种诊断测试,但他们表示,它可以增强遗传学家和其他医生当前使用的临床工具,以进行诊断、预测疾病进展,甚至根据某些致病基因突变的存在来选择治疗。“人们越来越多地可以对他们的基因组进行测序,但理解数据并不总是那么简单,”该研究的资深作者、英国皇家医学院布拉瓦尼克研究所系统生物学副教授黛博拉·马克斯博士说。
Marks与牛津大学的同事YarinGal博士、哈佛医学院的JonathanFrazer博士和MafaldaDias博士以及牛津大学的PascalNotin共同第一作者共同领导了这项研究。在科学家题为“利用进化数据的深层生成模型进行疾病变异预测”的报告中,他们总结道:“我们的工作表明,进化信息模型可以为变异解释提供有价值的独立证据,这将在研究和临床中广泛使用。设置。”
没有两个人是相同的,这是每个人DNA独特排列中编码的生物奇点。然而,虽然这种遗传变异是生物学的一个基本特征,推动了多样性,并代表了进化的引擎,但它也有其阴暗面。
DNA序列的改变以及由此产生的构建细胞的蛋白质有时会导致生理功能的严重破坏并导致疾病。但了解哪些变异会影响疾病是一个巨大的挑战,而将人类基因组的特定变化与疾病联系起来仍然困扰着临床遗传学领域,因为人群中变异的数量使科学家可以研究的数量相形见绌。
尽管只对一小部分人群进行了测序,但研究人员已经发现了数以百万计的变异,其重要性和意义尚不清楚。在这些变异中,只有2%被归类为良性、中性或致病性。其余98%的已识别基因变异目前被认为具有“未知意义”。作者评论道:“人类基因组测序的指数级增长凸显了人类群体中巨大的遗传变异……量化人类疾病相关基因中蛋白质变异的致病性将对临床决策产生显着影响,
准确解释遗传变异意义的风险是巨大的。将良性变异解读为致病可能会导致错误诊断,从而引发一系列进一步测试和可能不必要的医疗干预。相反,当可能需要观察、进一步检测或采取预防措施时,将促进疾病的DNA变异误解为良性可能会提供错误的保证。
研究小组指出,在人类基因组中,仅蛋白质编码区就包含人与人之间的巨大变异,迄今为止,已观察到650万个错义变异。这些所谓的错义突变可能对蛋白质的功能没有影响,或者可能使蛋白质功能失调,导致疾病。事实上,研究人员估计,在地球上80亿人的基因组中,除了致命的蛋白质位置外,每个蛋白质位置都可能存在一个变异。
“一个人不仅仅拥有一种基因组,还有很多原因,”马克斯说。“一个基因的一个拷贝上可能有不同的变异,随着年龄的增长,会发生各种体细胞变异——不仅与癌症的发展有关,而且与神经退行性变有关,这两者都是由突变驱动的与年龄相关的过程。”。
研究人员已经鉴定出许多与疾病相关的基因具有高临床疾病风险的突变。其中包括用于乳腺癌和卵巢癌的BRCA1和BRCA2,以及用于一系列癌症的肿瘤抑制基因p53。但即使这些基因也显示出其他未经研究的突变,其重要性仍不清楚。马克斯说,所有这些都迫切需要澄清人类遗传变异的重要性——在这个过程中,计算将在提供答案方面发挥越来越重要的作用。
神经网络的一个决定性特征是它们能够在新数据可用时不断重新评估和更新假设的概率。这意味着神经网络可以使用新知识重新评估证据,因此可以检测传统方法遗漏的模式和含义。
在当前的研究中,研究人员使用了一种称为无监督机器学习的复杂分析类型,这是一种不基于预定义参数和规则,而是涉及自适应学习的人工智能形式。这意味着,当出现新数据时,机器学习算法将随着时间的推移变得更好地识别模式。相比之下,在监督机器学习中,算法学习从预先标记的数据中检测模式——它的训练是受到监督的。
在信息学家给出的一个经典示例中,该算法会呈现猫和狗的图像,并在面临识别未标记的猫和狗图像的挑战之前告知哪些是哪些。在无监督机器学习中,算法会得到一组猫和狗的图像,但不知道哪些是哪些。它必须自己辨别模式。“因为算法不需要提前知道哪些图像是猫,哪些图像是狗——它只需要一堆猫和狗的图像——所以无法使用它不应该知道的信息,”Gal进一步说道著名的。
这两种类型的机器学习都为特定任务提供了优势。无监督模型的优点之一是,不会因为向模型提供预先标记的数据而使模型的学习产生偏差。此外,它们还可以随着数据的变化进行调整,以执行更复杂的分析。研究人员表示,目前用于评估基因变异重要性的大多数计算方法都采用基于临床标签的监督训练,这可能会使这些工具产生偏差,并导致现实世界中预测的准确性过高。“原则上,计算方法可以支持遗传变异的大规模解释。然而,最先进的方法依赖于根据已知疾病标签训练机器学习模型。由于这些标签稀疏、有偏差且质量参差不齐,因此所得到的模型被认为不够可靠。”
正是无监督机器学习从从未遇到过的数据中检测新模式的能力,使得这种方法特别适合分析非人类的基因序列。多年来,科学家们一直利用比较遗传学来检测DNA或蛋白质序列的相似区域,以得出意义。哈佛-牛津团队使用神经网络在更大的范围内做到了这一点。
在他们报告的研究中,研究人员重新审视了这个概念,即通过研究多个物种的遗传变异,他们可能会收集有关人类变异重要性的线索。“......我们根据无监督生成模型的最新发展重新审视进化信息的临床价值,”他们指出。进化往往会保留对物种的功能和生存至关重要或至少重要的特征。因此,跨物种重复出现的氨基酸排列是生物学重要性的标志,表明它们对生物体的功能及其进化适应性很重要。因此,对这种高度保守的序列的改变可能会带来麻烦,并与致病性有关。
该计算方法分析了140,000个物种的数据,包括濒危和灭绝的生物,并有效地寻找进化保守的模式来得出结论。“我们的方法——EVE——从物种间序列变异的分布中了解人类错义变异的致病倾向,”该团队写道。“从进化角度来说,这些物种相距甚远,并且存在许多遗传差异,但综合起来,它们为我们提供了信息,”马克斯说。“这就是为什么该模型对于与人类和人类变异相关的模式如此强大。”
在对2.5亿个蛋白质序列进行训练后,EVE估计了每个氨基酸变异良性或致病性的可能性。为了确定EVE是否做出了准确的预测,研究人员将其得分与已确定的人类突变进行了比较,这些突变的重要性已知。研究小组发现,该工具的结果与临床数据非常一致。
接下来,研究人员将EVE应用于一组3,219个与疾病相关的人类基因。研究人员表示,EVE对所有基因(包括60个“临床可操作”基因)的突变是致病性还是良性做出了正确的判断。当研究人员将EVE的性能与其他监督和非监督工具的性能进行比较时,它显示出明显更高的预测准确性。事实上,分析表明,EVE在预测临床效果方面优于其他计算预测模型,并且得分与测试突变对生物功能影响的当前金标准高通量实验一样高或更好。“EVE在预测已知临床标签方面优于所有监督和非监督方法,”该团队表示。
但是,与评估基因突变如何影响生理功能的黄金标准——实际临床实验的结果相比,EVE的预测结果如何呢?为了回答这个问题,研究小组将EVE的得分与临床实验的结果进行了比较,这些临床实验涉及五个基因的经过深入研究的突变,其中包括与各种形式的癌症、几种癌症综合征和心律失常相关的基因。EVE的预测与实验数据中的当前标签重叠。“我们的模型EVE……不仅优于依赖标记数据的计算方法,而且与高通量实验的预测相当,甚至更好,
“我们的结果比我们预期的要好得多,”马克斯说。“看来,通过简单地训练一个模型来适应进化过程中序列的分布,我们就可以提取信息,从而使我们能够对给定遗传变异引起的疾病风险做出意想不到的精确预测。”
与当前方法相比,EVE的一个显着优势是它分配连续分数而不是二进制分数。这是因为,即使基因变异被标记为良性或致病性,突变在生理上的表现也更加微妙。
“致病性是一个完整的连续体,”马克斯说。“连续评分对于预测致病性水平非常重要。这种突变是否意味着我的小脚趾会疼痛,或者我明天就会死?”
该工具的另一个重要方面是它在逐个基因的基础上分配预测置信度分数。这可以帮助临床医生了解任何预测的确定性程度。换句话说,对于每个基因变异,EVE都会告诉专家他们对它的判断的信任程度。研究人员表示,这是一个模型的可信度和信心问题。
加尔说:“我们希望这种方法能够生成强大的数据,使前线的临床医生能够做出正确的诊断、预后和治疗决策。”“我们不仅仅为临床医生提供一个数字,还给他们带来了一定程度的不确定性。这是专家可以在决策过程中获取和使用的东西。该工具可以说,“我认为该变体属于那堆,但我以前从未见过任何类似的变体,所以对此持保留态度。”或者该工具还可以说,“我认为其他变体属于这堆,并且我过去见过与过去非常相似的变体,并且我看到它们属于这堆,因此我将分配它”对这一堆充满信心。
研究人员表示,这种类型的模型仍处于起步阶段,很明显,进化和遗传变异仍然可以教会我们很多关于疾病的知识,并补充说,他们计划将这项工作扩展到蛋白质编码区域之外的基因组其他部分。。尽管如此,他们得出的结论是,“一个有吸引力的前景是,我们的方法可能有助于指导未来的实验工作,本质上可以作为识别哪些变异和哪些基因最有利于探测的方法。”
近期的一项紧迫任务是将我们已有一定了解的遗传变异用于临床。为此,研究人员已经与一家基因组测序公司合作,并通过陈·扎克伯格计划与各个团体合作。
该团队还参加了变异效应联盟图谱,这是一项全球研究工作,其任务是绘制整个基因组变异的影响图谱,并创建所有可能的人类基因变异及其对蛋白质功能和生理学影响的综合图谱。这项努力的最终目标是改善人类疾病的诊断、预后和治疗。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
宝子们,杭州 房子装修完成啦!这次要给大家分享几家设计超赞的装修公司哦。它们各具特色,从空间规划到风格...浏览全文>>
-
欲筑室者,先治其基。在上海,装修房子对于每个业主而言,都是极为关键的一步,然而,如何挑选一家值得信赖的...浏览全文>>
-
2025年以来,联通支付严格贯彻落实国家战略部署,以数字和科技为驱动,做好金融五篇大文章,履行支付为民社会...浏览全文>>
-
良工巧匠,方能筑就华居;精雕细琢,方可打造美家。当我们谈论装修公司时,选择一家靠谱可靠的公司是至关重要...浏览全文>>
-
在当今社会,随着城市化进程的高速推进,建筑垃圾的产生量与日俱增。据权威数据显示,我国每年建筑垃圾产生量超 ...浏览全文>>
-
家人们,在上海要装修,选对公司那可太重要了!古语有云:"安得广厦千万间,大庇天下寒士俱欢颜。"一个温馨的...浏览全文>>
-
近年来,新能源汽车市场发展迅猛,各大品牌纷纷推出各具特色的车型以满足消费者多样化的需求。作为国内新能源...浏览全文>>
-
近年来,随着汽车市场的不断变化和消费者需求的升级,安徽滁州地区的宝来2025新款车型在市场上引起了广泛关注...浏览全文>>
-
随着汽车市场的不断变化,滁州地区的消费者对高尔夫车型的关注度持续上升。作为大众品牌旗下的经典车型,高尔...浏览全文>>
-
在2023年,大众探影以其时尚的设计和出色的性能赢得了众多消费者的青睐。作为一款小型SUV,探影凭借其紧凑的车...浏览全文>>
- 安徽滁州途安L新车报价2022款,最低售价16.68万起,入手正当时
- 小鹏G7试驾,新手必知的详细步骤
- 别克GL8预约试驾,4S店的贴心服务与流程
- 安徽阜阳ID.4 CROZZ落地价全解,买车必看的省钱秘籍
- 淮北探岳多少钱 2025款落地价,最低售价17.69万起现在该入手吗?
- 安徽淮南大众CC新款价格2025款多少钱能落地?
- 淮北长安启源C798价格,最低售价12.98万起现在该入手吗?
- 安徽淮南途锐价格,各配置车型售价全解析
- 蒙迪欧试驾预约,4S店体验全攻略
- 沃尔沃XC40试驾需要注意什么
- 滁州ID.4 X新车报价2025款,各车型售价大公开,性价比爆棚
- 试驾思域,快速操作,轻松体验驾驶乐趣
- 试驾长安CS35PLUS,一键搞定,开启豪华驾驶之旅
- 天津滨海ID.6 X落地价限时特惠,最低售价25.9888万起,错过不再有
- 天津滨海凌渡多少钱?看完这篇购车攻略再做决定
- 安徽池州长安猎手K50落地价,买车前的全方位指南
- 山东济南ID.6 CROZZ 2024新款价格,最低售价19.59万起,现车充足
- 试驾海狮05EV,新手必知的详细步骤
- 生活家PHEV多少钱 2025款落地价走势,近一个月最低售价63.98万起,性价比凸显
- 奇瑞风云A9试驾,新手必知的详细步骤