9月20日消息,谷歌旗下人工智能团队DeepMind开发了一款全新的人工智能模型,名为AlphaMissense。它能够快速分析错义突变对人体的影响,加速科学家研究罕见遗传病。相关成果于本周二在《科学》杂志上发表。
大约10年前,兹伽·阿夫塞茨(Žiga Avsec)还是一名物理学博士生,通过大学开设的机器学习课程参加了基因组学的速成班。他很快就进入了一个研究罕见病的实验室,参与研究一种非同寻常的线粒体疾病到底是由哪种基因突变引起的。
如今阿夫塞茨已是谷歌研究科学家,他表示,解决这个问题等于是“大海捞针”。遗传密码中潜藏着上千万种可能的罪魁祸首,这些DNA突变可能会对一个人的生物学产生严重影响。其中最令人感兴趣的是错义突变,即因为单个碱基替换而导致肽链中氨基酸发生改变。氨基酸是蛋白质的组成部分,而蛋白质是身体其他部分的组成部分,所以即使微小的变化也会产生巨大而深远的影响。
据估计,人类基因组中有7100万种错义突变,平均每人携带超过9000种。大多数是无害的,但有些与镰状细胞性贫血和囊性纤维化等遗传疾病有关。科学家还猜测,像2型糖尿病这样更复杂的疾病可能是由一系列错义突变共同引起的。阿夫塞茨在开始研究时问他的同事:“我们怎么知道哪些突变是真正危险的?”答案是“在很大程度上,我们无法知道”。
经过多年的艰苦研究,科学家在人类身上发现了400万种错义突变,其中只有2%被确定为致病性或良性。研究单个错义突变的影响可能需要几个月的时间。
如今,谷歌人工智能研究团队DeepMind发布了一款工具,可以极大加速这一研究过程。机器学习模型AlphaMissense能够分析错义突变并预测其致病性,准确率达到90%,优于现有的研究工具。相关论文于本周二在《科学》杂志上发表。
DeepMind此前开发的突破性模型AlphaFold能够根据氨基酸组成预测上亿种蛋白质的结构。AlphaMissense基于AlphaFold的基础建立,但两者的运行方式不同。AlphaMissense不预测蛋白质的结构,它更像一个大语言模型,类似于OpenAI的ChatGPT。
AlphaMissense经过训练,了解了人类及其他灵长类生物的生物学语言,因此清楚蛋白质中氨基酸的正常序列应该是什么样的。当人体内蛋白质中的氨基酸排序错误时,AlphaMissense就能发现,就像发现句子中不协调的单词一样。论文合著者Jun Cheng表示:“这是一种语言模型,但针对蛋白质序列进行了训练。” “如果我们在英语句子中替换一个单词,懂英语的人可以立即看出替换是否会改变句子的意思。”
DeepMind研究副总裁普什米特·科利(Pushmeet Kohli)拿一本食谱来打比方。如果AlphaFold关注的是各种食材如何组合在一起,那么AlphaMissense则是预测如果你使用了错误的食材会发生什么。
AlphaMissense根据分析与其他密切相关突变带来的影响,为7100万种可能的错义突变分配了0到1之间的“致病性分数”,分值越高,错义突变致病性的概率就越高。DeepMind研究人员与英国基因组学(Genomics England)合作,将模型的预测结果与已知的错义突变研究结果进行对比。论文称,AlphaMissense能够对89%的错义突变进行分类,准确率达到90%。
研究人员一直希望找出某种疾病背后的错义突变,现在可以通过人工智能来实现,并找到模型预测的致病性评分。人们希望,就像AlphaFold能推动药物研发、癌症治疗一样,AlphaMissense可以帮助多个领域的研究人员加速对基因突变的研究,使他们能够更快地诊断出疾病并找到新的治疗方法。阿夫塞茨说:“我希望这些预测能让人们更深入地了解哪些突变会导致疾病,或者能在基因组学中产生其他应用价值。”
研究人员强调,这些预测不能单独使用,只能用于辅助现实世界的研究。AlphaMissense可以帮助研究人员快速排除不太可能的错义突变,加速将基因突变与疾病匹配的缓慢过程。它还有助于科学家更好地理解人类遗传密码中容易被忽视的部分,模型的分析结果还包括每个基因的“重要性”指标,研究人员可以用这一指标来衡量某个基因对人类生存的重要性。
欧洲分子生物学实验室(European Molecular BiologyLaboratory)副主任实验室欧洲生物信息学研究所(European BioinformaticsInstitute)联合主任伊万·伯尼(EwanBirney)表示,对于AlphaMissense并不感到“意外”。研究所过去与DeepMind密切合作,但没有参与AlphaMissense的研究。他说:“AlphaFold一问世,每个人都知道,利用这个框架来解释哪些突变会改变蛋白质性状应该是可能的。”
伯尼认为,AlphaMissense可以帮助医生对疑似患有遗传疾病的儿童进行快速诊断。“我们一直都知道,错义突变一定是导致某些未确诊病例的原因,这是对这些病例进行突变排序的更好方法。”他以RPE65基因为例,该基因导致失明,只能通过基因疗法治疗,AlphaMissense可以帮助医生迅速排除患者DNA中任何其他可能的基因突变,从而确定正确的治疗方法。
除了揭示错义突变的影响,AlphaMissense还展示了人工智能模型在整个生物学领域的潜力。因为AlphaMissense并非专门训练用于解决错义突变的问题,而是研究生物学中发现的各种蛋白质,所以该模型有助于科学家更好地了解人类整个基因组及其表达方式。科利表示:“模型的基本架构源自AlphaFold。从某种意义上说,很多东西都是从AlphaFold继承而来的,我们已经能够证明它可以推广到相关但完全不同的任务上。”(辰辰)