本项目通过药学、化学、物理、计算机科学、人工智能的多学科交叉,提出药物靶标相互作用预测新方法KGE_NFM和多约束分子生成新方法MCMG,为新靶标发现、活性分子生成及优化提供了功能强大的计算工具。
Through the multidisciplinary intersection of pharmacy, chemistry, physics, computer science and artificial intelligence, this project proposed a drug-target prediction method, KGE_NFM, and a new multi-constraint molecule generation method, MCMG, which provide powerful computational tools for drug target discovery and active molecule generation and optimization.
项目负责人侯廷军教授,团队核心成员包括博士研究生王極可、叶青、蒋德军、吴振兴、沈超。项目负责人侯廷军长期围绕计算机辅助药物设计中的核心问题展开前沿交叉学科研究,通过引入人工智能、高性能计算、理论化学、生物信息学等学科的最新技术发展了一系列高精度的药物虚拟筛选和成药性预测方法,并将其用于创新药物研发。2021年在Nature Machine Intelligence、Nature Communications、Advanced Science、Journal of Medicinal Chemistry等国际知名期刊发表学术论文30余篇,开发了多种基于AI技术的药物设计新理论和新方法。累计共发表SCI论文380余篇,他引14000余次,H因子为64;获授权专利和软件著作权40余项。
药学版的“银河系”
药物研发的核心内容是如何评价药物分子与靶点蛋白之间的相互作用。无论是靶标的发现、活性分子的设计,还是药物分子毒副作用的评价都是围绕着这对“主角”的相互作用展开的。2017年发表在Nature杂志的一篇报道称,有望成为药物的候选小分子的数量大约为1060个,约是整个银河系中星球数量总和(1054)的100万倍。目前,研发一种新药从起步到上市大约需要13年的时间,平均成本是26亿美元。面对这浩渺无边的“银河系”寻药之旅,依托于生物实验的传统方法显然难以穷尽各种可能的。如何更高效地去发现未知的靶点、未知的药物分子、未知的相互作用呢?
浙江大学药学院侯廷军教授是从事计算机辅助药物设计的专家,在过去的十几年中,他一直在探索如何把计算机技术用于药物研发。在本项目中,侯廷军教授团队提出的药物靶标相互作用预测方法KGE_NFM和多约束分子生成新方法MCMG,为药物靶标发现、活性分子生成及优化提供了功能强大的计算工具。
组学数据助力靶点发现
近年来,基因组学、蛋白组学、药理学等生物信息技术经历了快速发展,这些领域各自都积累了海量的生物医学信息。药物、蛋白质、疾病、副作用、生物过程、分子功能、细胞成分、生物酶、离子通道等。这些海量的生物信息可以抽象成一个多层的、异构的网络系统,就像大脑神经网络一样,借助人工智能技术在这样的网络中进行知识挖掘和学习,并产生“新知”,意义重大。
生物信息领域的海量信息,有的可能是噪声的,有的可能是冗余的,我们希望设计一个系统能更好地将信息加以组织,从而把未知的线索挖掘出来。在本项目中,我们建立一个有效的网络模型,把这些异构的信息链接起来,其中各种生物信息是网络上的一个个节点,而数据之间的关系是网络上的一条条边。该预测系统它将知识图谱和推荐系统两种人工智技术相结合,“消化”能力更强了。这好比是警察抓小偷,过去的方法我们或许只能通过长相或者指纹来判断,而现代技术让我们记录到诸如通话记录、行动轨迹等周边信息;有效利用这些辅助信息,在不知道小偷长相的情况下,也一样能锁定目标。利用组学提供的大数据,结合人工智能技术,该方法在靶标蛋白冷启动的场景下的模拟试验中,比传统算法的精度提升15%,该方法对于新药物靶标的发现、药物作用机制的研究、药物潜在副作用的评价都有非常重要的意义。
AI赋能分子生成
药物分子设计本质上是一个多参数优化问题,其目标是设计和发现具有某些理想属性的新分子,因此如何生成新的分子结构及优化分子的关键属性(如生物活性、成药性、安全性、选择性和可合成性等)是影响药物设计成败的两个关键问题。在巨大的化学空间内如何进行分子结构的智能生成并进一步实现结构的快速演化是药物分子设计面临的巨大挑战。近几年,多类基于人工智能(AI)技术的深度分子生成模型在复杂化学空间探索上展现出巨大的潜力,有望成为从头药物设计的关键技术,如循环神经网络(RNN)、变分自动编码器(VAE)、生成对抗网络(GAN)和强化学习(RL)等。RL可用于微调生成模型的参数,以将自由参数空间引导至具有最佳目标函数值(例如生物活性)的集合。尽管 RL已被证实能够找到一组高度多样的生物活性分子,但它仍然需要大量的优化步骤才能通过奖励训练来学习这些模式。
针对这一挑战,侯廷军教授提出了一种新的分子生成方法,即多约束分子生成方法MCMG。该方法通过c-Transformer构建生成模型并采用知识蒸馏模型来降低模型的复杂度,并提升生成分子的多样性。蒸馏模型最初是为了将从大型模型或多个模型的集合中学到的知识转移到另一个轻量级模型以实现快速部署,在本研究中该策略还可以大大提高生成分子的结构多样性。MCMG模型对两个多目标药物分子生成任务的实际成功率分别达到89.26%和70.9%,与其他主流模型相比具有较大的领先优势(REINVENT为72.8%,RationaleRL为51.7%),这表明MCMG对多目标分子生成具有非常优秀的性能,可以产生更多的成功分子结构,提供了一种高效的方法来遍历大型复杂的化学空间以寻找潜在的候选药物分子。
互动评论
字体:大一号 小一号