“物理建模+机器学习+高性能计算”:深势科技的药物研发新方案

DP Technology 2021-9-22

药物设计行业存在的问题及其分类

药物研发是一个复杂漫长的长链条行业,每个环节都有相对清晰的milestone。

计算有两种方式助力药物研发:一是从海量数据中归纳出相关关系(数据驱动),二是以第一性原理的方式进行演绎推理(物理驱动)。

两者的界限在于,是否能够将实际面临的问题或场景抽象或演化为定义明确的物理模型。蛋白质的结构以及构象变化、配体与蛋白质的相互作用 (包括亲和力与动力学参数的评估)、以及药物分子晶型和剂型的溶解度等问题,都可以用非常明确的物理化学模型进行定义;而诸如成药性问题、临床研究中面临的一系列不确定因素等,涉及到药物发现前后两端的复杂生物学机制。这些“黑盒子”在目前的技术水平下多数还难以抽象为物理问题,因此数据的作用将更为重要;尤其是在对数据之间相关关系的简单清晰,和数据本身的量与质量的要求可以被满足的前提下。

未来的药物计算与设计方法的驱动因素与演进方式
如果将算力的提升作为一个外生变量,那么驱动药物设计算法发展的主要有三股力量:
  • 数据获取和处理方法的改进,更有效地利用数据、挖掘海量数据背后的价值规律
  • 对生物机制理解的深入,把更多生物“黑盒子”问题转变为物理问题如通过对药物代谢或毒性相关通路的深入理解,将“黑盒子”具象化为若干对配体-蛋白相互作用的问题;
  • 物理模型算法的发展,保证精度的前提下更加高效地求解物理模型如深度神经网络在密度泛函理论、分子动力学方法的发展中的应用。

药物化学家的经验与传统CADD方法的本质

药物化学家的经验本质是一种介于数据和模型的中间层知识,而传统CADD(Computer Aided Drug Design,计算机辅助药物设计)方法是这些中间层知识的数字化。人们根据药物化学家们丰富的实验数据积累和长时间的观察总结,结合相关物理化学理论,人为抽象化提炼出一套经验法则。这些经验法则有些可以用经验模型来总结表述,但大部分只能靠药物化学家根据实际情况灵活使用。不幸的是,经验丰富的药物化学家是稀缺的。他们的时间、能处理的信息量和能做的管线有限,他们的经验也很难被低成本复制。与此同时,传统的CADD工具也天然面临着巨大的瓶颈。举例来讲,在药物与蛋白质结合模式及强度的计算方法中,传统的对接方法和经验打分函数是对物理模型的“经验简化”,而没有对结构和能量进行严格地搜索和计算,由此获得的结构和能量很难给研发人员提供直接有效的参考,只能在一些超大分子库的筛选或富集中发挥部分辅助作用。

换句话说,传统CADD方法的瓶颈主要在于精度和通用性不足、难以处理复杂情况等。经验知识积累和提升的速度远远跟不上竞争加剧的脚步,复杂相互作用也难以用现实的实验数据来拟合。近年来,随着人工智能技术的蓬勃发展,学界业界就人工智能技术在CADD中的应用开展了很多探索。然而,生物体系的复杂性给建模问题带来了很大挑战,同时由于缺乏大量高精度的实验数据,模型的泛化性也往往比较有限。这些问题的解决方案随着AI+Science的理论图景和实践经验逐渐丰富开始明晰,这也意味着CADD领域来到了一个关键的历史交叉口——需要通过物理建模的方式来连接高质量数据和人工智能算法。那么我们能否依靠更加严格的物理模型计算来解决药物设计中的精度问题呢?这其中的困难在哪里?

物理驱动的药物计算与设计面临的问题与机遇

就蛋白质水平的研究而言,也就是蛋白结构解析-靶点发现-苗头和先导化合物发现-先导化合物的活性优化等环节,相当一部分问题都是良好定义的物理问题,本质上都可以抽象为微观原子、电子层面的相互作用问题,因此理论上都可用以薛定谔方程为代表的量子力学方法清晰描述。

就蛋白质水平的研究而言,也就是蛋白结构解析-靶点发现-苗头和先导化合物发现-先导化合物的活性优化等环节,相当一部分问题都是良好定义的物理问题,本质上都可以抽象为微观原子、电子层面的相互作用问题,因此理论上都可用以薛定谔方程为代表的量子力学方法清晰描述。

但在实际中,我们面临的困难是,当原子、电子等微观粒子数量增多,计算会陷入维数灾难,计算量随微观粒子数量的上升而成指数级上升。因此,在尝试用第一性原理精度的方法描述药物研发中面临的实际场景时,我们将面临极其恐怖的计算量。此前的建模方法通常会面临效率与精度的取舍问题,若不想牺牲计算的精度,我们不妨思考如何去把计算效率提升到我们期望的水平。从而将问题进一步定义为:如何运用一切适合的方法,加速物理模型的演化和求解。

解决这一问题的传统范式是“多尺度物理模型+高性能计算”。几十年来,人们对于不同时间、空间尺度的问题发展了耦合簇方法(CC)、密度泛函理论(DFT)、分子动力学(MD)、粗粒化分子动力学(CGMD)等理论算法,并在先进的计算平台上针对这些理论算法发展了高性能计算软件。然而,由于无法准确表示这些物理模型中的高维复杂函数,对于每两个临近的尺度,更宏观的模型往往快而不准,而更微观的模型往往准而不快。作为结果,兼具精度和效率往往只能是从业人员的梦想。

幸运的是,源于机器学习方法对高维复杂函数的表示和优化能力,我们在这一问题上有了全新的答案。在此,机器学习的作用不再是处理现实数据,而是表示和学习物理模型中的高维复杂函数。基于这样的思路,团队成员和合作者系统发展了量子化学精度DFT效率的建模方法Deep Kohn-Sham(DeePKS)1,2、DFT精度MD效率的建模方法Deep MD(DeePMD)3,4、MD精度CGMD效率的建模方法Deep Coarse-graining(DeePCG)5,并针对不同尺度的数据生成、构型空间采样等问题发展了DP Generator(DP-GEN)6、Reinforced Dynamics(RiD)7,8等方法。同时,这些新一代算法也对针对不同算力平台的高性能优化和弹性调度提出了新的挑战。在团队成员和合作者的不懈努力下,将第一性原理精度分子动力学模拟推向上亿原子的工作获得了2020年高性能计算最高奖戈登贝尔奖9;我们打造的SCaaS(Scientific Computing as a Service)云服务平台也满足了DP-GEN、RiD等方法成千上万台机器的峰值需求。我们相信,“物理模型+机器学习+高性能计算”的新范式正在打开分子模拟新世界的大门,为药物设计提供极具颠覆性的新一代解决方案

深势科技将会给药物研发领域带来哪些新工具

深势科技推出了根植于云计算的临床前计算机辅助药物设计平台Hermite,致力于为药物科研工作者提供在CADD中数据、算法、算力三位一体的一站式解决方案。

Hermite药物设计平台集成了深势科技自主研发的全新药物设计解决方案,及众多业界优秀的药物设计工具,并基于云计算场景深度优化支持分布式计算。Hermite药物设计平台具有调度大规模云计算资源的能力,并内置大量可以直接使用的蛋白、配体预处理数据库。Hermite药物设计平台以网页应用的形式,提供交互友好、多端数据同步、功能实时更新的、免安装轻量化的在线服务。

Hermite药物设计平台已于2021年6月30日上线内测,推出了蛋白结构优化模块Uni-ProteinProc和虚拟筛选模块Uni-VS。

Uni-ProteinProc模块包含鲁棒的蛋白准备工作流Uni-ProteinPrep,基于强化动力学(Reinforced Dynamics,RiD)10,11开发的蛋白结构优化工具Uni-ProteinRefine,支持ProMod312、DiSGro13、FREAD14、petals15的Loop区补全和优化工具Uni-LoopOpt,及基于Fpocket16的配体结合位点预测工具Uni-LBSPred等实用工具。

Uni-VS模块包含基于Gypsum-DL17开发的配体准备工作流Uni-LigandPrep,支持Autodock418、Qvina19和Smina20等的分子对接工具Uni-Dock,基于Gromacs21开发的分子动力学模拟全自动工作流Uni-MD,能够自由组合功能模块的虚拟筛选工作流搭建工具Uni-VSW,基于ADMETlab22开发的Uni-ADMET,及相似物搜索工具Uni-SimilaritySearch。

Hermite药物设计平台作为一款CADD应用集成平台,将不断迭代更新提升多方面能力。一方面,我们将持续上线诸如FEP、IFD等深势科技自主研发的CADD领域全新解决方案,并持续集成CADD业界各类优秀工具,并针对云计算二次开发适配。我们也将不断增加蛋白结构、虚拟分子库等各类预处理数据,并提供更多的数据分析工具。我们也将努力提高各类功能的鲁棒性,不断提升各个功能面对复杂问题的解决能力。我们还将深度优化用户交互体验,提升工作效率、降低使用门槛。以期把Hermite药物设计平台打造成功能强大、算力自由、交互友好、性价比高的计算机辅助药物设计一站式解决方案。

如有意深入了解Hermite平台,请点击阅读《深势科技Hermite:一站式计算机辅助药物设计平台现已开放内测》

深势科技将重新定义药物研发产业链的未来

Hermite的发布只是开始,未来一年内,我们将陆续推出这些功能的升级版以及更多新功能。

很多人拒绝去思考药物计算是否能够达到实验精度,甚至默认这一设想永远无法实现;而我们更多关注,当前的算法还不够准确的原因,并试图寻求聚沙成塔的改变。正如那句经典的“只要量子力学是正确的,那么化学问题就可以被归结为应用数学问题”。23

不妨畅想一下未来,当我们得以在远超想象的时间和空间尺度上,将第一性原理的精度游刃有余在药物设计中问题的描述,使得在药物研发的某些环节上,计算可达到与实验可比的精度,那么整个产业的研发逻辑非常可能被重塑。当某一个环节通过计算的方式、在可接受的代价下就能获得精准的结果,这一环节就会在药物筛选的早期阶段被前置考虑;——于是,药物研发的链条会由过去的漏斗形转变为阶梯型:
深势科技

虚拟筛选和模拟的机器连接着自动化实验装置,有活性的分子直接进入实验验证环节,并和后续的实验紧密交互、迭代,源源不断地输出活性分子实体。

这样的未来终将到来。
References:
1. Chen, Y., Zhang, L., Wang, H., & E, W. (2020). DeePKS: A Comprehensive Data-Driven Approach toward Chemically Accurate Density Functional Theory. Journal of Chemical Theory and Computation.
2. Chen, Y., Zhang, L., Wang, H., & E, W. (2020). Ground State Energy Functional with Hartree–Fock Efficiency and Chemical Accuracy. The Journal of Physical Chemistry A, 124(35), 7155-7165.
3. Zhang, L., Han, J., Wang, H., Saidi, W. A., & Car, R. (2018). End-to-end symmetry preserving inter-atomic potential energy model for finite and extended systems. arXiv preprint arXiv:1805.09003.
4. Zhang, L., Han, J., Wang, H., Car, R., & Weinan, E. (2018). Deep potential molecular dynamics: a scalable model with the accuracy of quantum mechanics. Physical review letters, 120(14), 143001.
5. Zhang, L., Han, J., Wang, H., Car, R., & E, W. (2018). DeePCG: Constructing coarse-grained models via deep neural networks. The Journal of chemical physics, 149(3), 034101.
6. Zhang, Y., Wang, H., Chen, W., Zeng, J., Zhang, L., Wang, H., & Weinan, E. (2020). DP-GEN: A concurrent learning platform for the generation of reliable deep learning based potential energy models. Computer Physics Communications, 253, 107206.
7. Zhang, L., Wang, H., & E, W. (2018). Reinforced dynamics for enhanced sampling in large atomic and molecular systems. The Journal of chemical physics, 148(12), 124113.
8. Wang, D., Zhang, L., & Wang, H. (2021). Efficient sampling of high-dimensional free energy landscapes using adaptive reinforced dynamics. arXiv preprint arXiv:2104.01620.
9. Jia, W., Wang, H., Chen, M., Lu, D., Liu, J., Lin, L., ... & Zhang, L. (2020). Pushing the limit of molecular dynamics with ab initio accuracy to 100 million atoms with machine learning. arXiv preprint arXiv:2005.00223.
10. Zhang, L., Wang, H., & E, W. (2018). Reinforced dynamics for enhanced sampling in large atomic and molecular systems. The Journal of chemical physics, 148(12), 124113.8.
11. Wang, D., Zhang, L., & Wang, H. (2021). Efficient sampling of high-dimensional free energy landscapes using adaptive reinforced dynamics. arXiv preprint arXiv:2104.01620.
12. Studer, G., Tauriello, G., Bienert, S., Biasini, M., Johner, N., & Schwede, T. (2021). ProMod3 - A versatile homology modelling toolbox. PLoS computational biology, 17(1), e1008667.11.
13. Tang, K., Zhang, J., & Liang, J. (2017). Distance-guided forward and backward chain-growth Monte Carlo method for conformational sampling and structural prediction of antibody CDR-H3 loops. Journal of chemical theory and computation, 13(1), 380-388.
14. Choi, Y., & Deane, C. M. (2010). FREAD revisited: accurate loop structure prediction using a database search algorithm. Proteins: Structure, Function, and Bioinformatics, 78(6), 1431-1440.
15. Wong, S. W., Liu, J. S., & Kou, S. C. (2017). Fast de novo discovery of low‐energy protein loop conformations. Proteins: Structure, Function, and Bioinformatics, 85(8), 1402-1412.
16. Le Guilloux, V., Schmidtke, P., & Tuffery, P. (2009). Fpocket: an open source platform for ligand pocket detection. BMC bioinformatics, 10(1), 1-11.
17. Ropp, P. J., Spiegel, J. O., Walker, J. L., Green, H., Morales, G. A., Milliken, K. A., ... & Durrant, J. D. (2019). Gypsum-DL: an open-source program for preparing small-molecule libraries for structure-based virtual screening. Journal of cheminformatics, 11(1), 1-13.13.
18. Morris, G. M., Huey, R., Lindstrom, W., Sanner, M. F., Belew, R. K., Goodsell, D. S., & Olson, A. J. (2009). AutoDock4 and AutoDockTools4: Automated docking with selective receptor flexibility. Journal of computational chemistry, 30(16), 2785-2791.14.
19. Alhossary, A., Handoko, S. D., Mu, Y., & Kwoh, C. K. (2015). Fast, accurate, and reliable molecular docking with QuickVina 2. Bioinformatics, 31(13), 2214-2216.15.
20. Koes, D. R., Baumgartner, M. P., & Camacho, C. J. (2013). Lessons learned in empirical scoring with smina from the CSAR 2011 benchmarking exercise. Journal of chemical information and modeling, 53(8), 1893-1904.16.
21. Van Der Spoel, D., Lindahl, E., Hess, B., Groenhof, G., Mark, A. E., & Berendsen, H. J. (2005). GROMACS: fast, flexible, and free. Journal of computational chemistry, 26(16), 1701-1718.
22. Dong, J., Wang, N. N., Yao, Z. J., Zhang, L., Cheng, Y., Ouyang, D., ... & Cao, D. S. (2018). ADMETlab: a platform for systematic ADMET evaluation based on a comprehensively collected ADMET database. Journal of cheminformatics, 10(1), 1-11.
23. Eyring, H., Walter, J., Kimbal, G. E. Quantum Chemistry-John Wiley & Sons Inc. (1944). Preface, iii. Original: “In so far as quantum mechanics is correct, chemical questions are problems in applied mathematics.”
关于深势科技

深势科技有限公司(“深势科技”)是一家成立于2019年的科技公司,致力于以新一代分子模拟技术解决微观尺度工业设计难题。 以打造切实服务于药企、材料商和科研机构的模拟研发平台为主要业务方向,以解放研发工作者的生产力为主要业务目标。

深势科技具有强大的科研与产业落地能力。其新一代分子模拟算法在保持量子力学精度的基础上,将分子动力学的计算速度提升了至少五个数量级,且对算力的需求与体系的原子数量呈线性依赖;结合高性能计算,能够对数十亿原子规模的体系进行量子力学精度的计算模拟。团队核心成员获得2020年全球计算机高性能计算领域的最高奖项“戈登·贝尔奖”,相关工作当选2020年中国十大科技进展,以及2020年全球人工智能十大科技进展。