深势科技首席科学家张林峰:教会AI解物理方程 ,打破数据的核心壁垒 | 智源专访

DP Technology 2021-9-22
智源社区「源创播客」栏目持续邀请AI创业不同赛道上崭露头角的新星和资深创业者分享创业实践和创业故事。近期,智源社区对深势科技公司创始人及首席科学家张林峰进行了专访。
  • Q:从北大元培到普林斯顿,再到自己创业,分享下您的创业历程?

    A:创业不是突然冒出来的想法,而是一个很自然的选择。我们做很多事情总是面临很多选择,创业或者获得教职或者去一个地方工作,都是一种可能性,更重要的是我觉得要想清楚自己想要做什么,以及怎样的形式是最好的。

最开始在元培比较兼容并包的通识环境下,我学了很多东西,涉猎了数学、物理、计算机等等。

紧接着在Princeton,最重要的其实是在鄂维南老师指导下受到应用数学机器学习的熏陶,以及另外一位导师Roberto Car 在分子模拟领域深度积累的影响下,这两者的碰撞变成了一个让我认定要好好做的事情。

深势科技
左:Roberto Car,右:鄂维南院士
而想要做好这件事情,我发现有不同的选择,比如我曾谨慎考虑过去继续学术的道路,在一些非常好的环境体系下工作,但我发现即便如此,我都不得不以创业的形式来去把这件事情做得更好。

未来的药物计算与设计方法的驱动因素与演进方式

  • Q:看到深势科技的墙上写满了公式,十分热血,创业过程中您有没有什么很热血的小故事值得分享?

    A:无论是最开始的算法研究,还是在创业道路上去快速奔跑,我觉得最有挑战的就是与不确定性做对抗。

如果一个事情确定性过高,那么大家就会有反复的实践、套路的总结,只要遵循那条既定的路就好。但是在创业的过程中,我们需要时刻地想未来应该是怎样的,然后在愿景的引领之下,怎样有效地团结大家,每当面临挑战,我们尚不确定能不能做得出来,但最终又作出决定去做的时候,这往往是热血的来源。

之所以写满了公式是因为,不论在一天的任何一个时刻,你会突然有某些想法,最有效的方式就是赶紧写下来,跟人交流,如果它是一个非常大的想法,那么就应该迅速被spread out,团队来共同推进,我非常喜欢充满黑板的环境,我们能够快速地讨论起来。

最开始想法产生的时候,包括像Deep Potential分子动力学,可能就是某个晚上突然写在了黑板上,拍个照,发群里和小伙伴一起讨论,快速地实现,如果发现「 it works 」就非常开心。

在创业的过程中,不再那么个体化,也更需要一群人的配合。比如,我们认为药物设计是一个会有很大影响力的方向,但在这个方向上,我们需要长时间的行业积累,以及和行业从业人员交互的接口去承载我们的技术能力,这个接口似乎就是上一代的药物设计软件。

然后我们就先要实现一个下一代的药物设计软件,同时实现跟用户的交互,把我们新的技术能力放上去,于是我们需要做下一代的「薛定谔」,这对于任何一个从业者来说都是一个非常疯狂的想法,但这对我们来说是为了实现目标必须做的。实现目标的过程中,我们需要去做很多我们不擅长的事情,甚至是遇到什么做什么。我们的伙伴们经常互相说「什么都没有,就是有信心」,在信心的驱使下,我们快速学习并真正做出结果。

在快速迭代的过程中,我们会直接和比如说全国最大的药厂去沟通,说你们要不要试一试(我们的产品),我们可以给你们打磨迭代,在试用的过程中得到他们的反馈再去改进。这个快速迭代的过程中,我们慢慢的就成为了行业上有力的竞争者。体现出我们的技术优势,同时能真正跟我们想要帮助的客户互动,并得到他们的反馈,这个过程其实是激动人心的。
  • Q:AI+药物应该是最近特别大热的一个赛道。咱们团队最核心的优势都有哪些?

    A:核心优势可能分偏硬件和偏软件。首先我觉得 AI + 药物确实是一个非常热的赛道,这个赛道也有非常多不同的视角。从纯传统制药到传统AI,这个过程中他们交互的接口是什么?会有怎样的数据?IT 大厂、制药大厂、Startups,他们各自的优劣是什么?同时它涉及的学科是从最底层的数学、物理、计算机到化学、生物,再到药物的一整个链条。

药物化学家的经验与传统CADD方法的本质

所以没有一个人是全局性的expert,大家在不同的视角下讨论这个概念,往往是对着相同的词儿在说着不同的话,这是我们首先应该警惕的。

在此之上,我们最本质的优势还是AI和物理模型相结合的能力。

AI 最擅长的其实是处理大规模的数据,无论是图像数据、NLP语言数据,还是文字数据等等。在此基础上,AI 技术让我们能够有效地提取其中的 patterns,或者有效地把高维信息拟合或者压缩起来,进一步地推演和预测,通过这个方式来指导我们的实践。

我们的分子模拟方法,是将人工智能算法和物理模型相结合,实现了对分子结构层面的大规模、高效仿真和模拟。原理是依靠确定的物理规律对微观世界的分子和原子如何运动进行计算,AI在其中起到的作用更多是为物理模型的计算加速,为数据挖掘和数据处理的方法加速。通俗的说,就是教会AI解物理方程。

这个路线相较传统AI,优势在于:

一是ground truth问题,由物理模型作为Golden Standard,避免了缺少正确性检验和人为数据标注问题,物理模型的高度通用性也顺带地也解决了AI模型迁移性的问题;

二是数据来源问题,由物理模型生成训练数据,使得模型训练不再依赖现实世界数据,也避免了数据挖掘、清洗和打标签的问题。

去年我们团队获得戈登贝尔奖的工作,是实现了1亿原子规模的第一性原理精度的模拟,通常第一性原理驱动的建模方法只能对几十到几百个原子做很短时间的模拟,这样的规模体量是难以解决实际问题的。而我们的工作类似是一个数据生产工具,由物理模型生成训练数据,生产完数据之后,通过AI的方式来把相应的数据拟合好,再进一步大规模地用AI的工具来去做模拟,这才是我们在底层AI和物理结合上做的事情。
深势科技
再加上制药的话,数据如果是一个药厂的核心壁垒,我们如何切入到药厂就变成了一系列的现实问题。

总结来看,我觉得从AI的角度上是减少了对数据的依赖。而从药物的角度上讲,因为过去已经有一个逐渐成长成型的计算机辅助药物设计的行业,其实从我们的切入点来看,我们是对这个行业的进一步改进,可能产生潜在的巨大推动,所以这可能是我们最核心的优势。

  • Q:您和 CEO孙伟杰是同班同学?您和老同学一起并肩战斗,作为商业伙伴这些年是什么体验?

    A:我和伟杰都是11级北大元培班的。在元培这个比较特殊的学院里面,我呆了5年,以数学物理计算机课程为主,伟杰的专业是政治经济哲学,但如果你和他聊你几乎很难看出他的背景。元培是一个非常注重通识教育的学院,我们几乎没上过同一门课,但是我们活跃于很多组织里面,在学生会、球队等很多地方都有并肩战斗的经历,比如说他在篮球队是队长,我打替补,不同的角色定位下我们都有过很多的配合。球队里我们的目标就是赢球。过程里我们需要考虑怎么样配合是最好的。但问题就出在我赢和球队赢是两种不一样的体验。往往作为中心角色赢球的只能有一个人,这样的话我们就没有办法去共同赢球。这是一个类比,体现了合作过程中关于组织的思考。我们很早开始就在讨论相关的事情,从技术以及哲学层面上。同时,我俩都是比较正能量的 source。早期我们从来不需要互相做心理建设,都比较皮实,在任何情况下我们都是非常正面的应对。

  • Q:怎么平衡个人价值和团队整体的最优解,这中间会有矛盾和冲突吗?

    A:可能每个人的自我意识在整体性的最优解之下都是受到冲击的,很重要的一点,并不是把每个人的账面实力物理地组合到一起就是我们的最优解,往往是靠化学反应。

我认为,个体的价值追求是最重要的一个因素。与其说团队里正好有空缺的角色适合某个人,我们其实更关注的是,他想做什么,什么事情让他激动到停不下来,这是第一位的。

在这个基础之上,我们日常的组织磨合就会相互地去契合。从个人角度来看,需要去考虑长线的追求。处理不好一定容易造成对抗的情况,这恰恰是我们作为一个整体最核心的挑战。

(你和团队其他小伙伴吵过架吗?)

我们有很多激烈的讨论。实际问题有时是因为缺乏情绪宣泄的窗口,但更多激烈的争吵是因为理性的碰撞。并非事实上的不一致,而是认识上的不一致,看问题的角度。

  • Q:您是DeepModeling开源社区的创始人之一,这个社区的精神内核主要是什么?

    A:这个社区有技术层面,和非技术层面。

技术层面很简单。Deep,我们都知道Deep learning等都是以Deep开头,实际上目前这轮革命的技术依托的是深度神经网络。Modeling则指的是物理建模,基于物理模型进行科学计算,两者的组合使得不光是微观的分子/电子的模拟,以及宏观的很多物理模型都存在质变的可能性。这个愿景可能是新一代的基础设施。

此外,我们要搭建的是一个交流的平台,DeepModeling是我们底层的基础关键词,上面的开源软件就是我们交流的载体。
社区需要的是在底层数理方法,以及相应的分子模拟等方面有深刻建树的人,这样的人可能会在学界的体系当中。比如在国内,从博士,博士后,到去高校任职,他需要申请很多title、科研基金等等。在大厂,有这样想法的人可能要完成很多KPI范围内的事情。这些问题导致实现这个愿景存在很多现实的阻碍,所以更需要长期的热爱和信念,因为现有的价值体系之下,个人永远都有更好的选择。

  • Q:最近深势刚刚获得了融资,由高瓴创投领投,融资的过程有没有什么值得分享的?

    A:当然非常感谢像高瓴、经纬以及我们过去几轮的投资人。和优秀的投资机构和相应的小伙伴去学习是一个让我非常开心的事情。这是一个双向选择的过程。

接受投资其实是凝聚共识的过程,大家从不同的视角看我们的时候,我们希望能够传递清楚我们想做什么,同时也在这个过程中,我们时刻反思我们的愿景以及想要实现愿景的方式,突然的契合就变得顺其自然。

  • Q:对于AI创业赛道选择有什么建议?

    A:对于一个想要拿AI去创业的人来说,我觉得首先需要想清楚为什么创业是最好的选择,是为了自己的名声,为了某个特别大的愿景,或者某个 brilliant idea 想要以最有效的形式实现。

创业要考虑的包括,说服每一个人,接受更多人的十动然拒,在组织管理上以及在各种配套支撑体系上的有效支持,让整个体系一直保持活力等等。

从最底层的技术到最后最深的场景是一个很长的链条,往往对从技术端出发的同学最大的挑战就是场景。我深刻地体验到,当我们有通用性的能力,在比如药物、能源材料、合金、半导体等领域,我们发现从场景出发对我们来说是更真实的挑战,不同场景对技术的需求切入点不同,可能是软件,协同解决的方案,相应的研发IP等等。

我想基于对场景深入的理解,落地才是一个practical的命题,一个现实主义的命题,而不是一个理想主义的命题。
关于深势科技

深势科技有限公司(“深势科技”)是一家成立于2019年的科技公司,致力于以新一代分子模拟技术解决微观尺度工业设计难题。 以打造切实服务于药企、材料商和科研机构的模拟研发平台为主要业务方向,以解放研发工作者的生产力为主要业务目标。

深势科技具有强大的科研与产业落地能力。其新一代分子模拟算法在保持量子力学精度的基础上,将分子动力学的计算速度提升了至少五个数量级,且对算力的需求与体系的原子数量呈线性依赖;结合高性能计算,能够对数十亿原子规模的体系进行量子力学精度的计算模拟。团队核心成员获得2020年全球计算机高性能计算领域的最高奖项“戈登·贝尔奖”,相关工作当选2020年中国十大科技进展,以及2020年全球人工智能十大科技进展。