标签: 沙龙

  • 圆壹药闻 | 潘麓蓉博士出席2022德锐特-赛默飞新药沙龙,细谈冷冻电镜、计算化学、人工智能给药物研发带来的机遇和挑战

    由德锐特SingleParticle主办,赛默飞、BioBAY、晶云药物、新药创始人俱乐部协办的“结构与计算驱动的新药研发”2022德锐特-赛默飞冷冻电镜沙龙(苏州站)于1月12日顺利召开,来自药明康德、信达生物、佰翱得生物、倍勘生物、圆壹智慧等药物研发企业的专家学者,以及红杉资本、华平投资等风投职业人齐聚一堂。此次活动还受到南京大学、苏州大学、西交利物浦等高校的关注。

    圆壹智慧创始人兼CEO潘麓蓉博士应邀出席该活动,期间针对AIDD和CADD的发展前景问题提出看法。会议圆桌讨论中,潘麓蓉博士从计算药物设计科技发展史的角度出发,分别阐述了AIDD与CADD之间技术内核的传承和方法论的区别,以及计算精准度和计算效率方面的比对,分享了AI为药物发现带来的各方面的机遇和突破点,以及作为新兴AI制药企业在生物制药领域的技术路线和产业布局。


    实录如下:

    梅晔博士:您如何看待新兴的AIDD和CADD之间的关系?AIDD它的优势在哪里?您认为AI能为我们的药物研发能带来哪些方面的突破?您的公司的在AI方面的布局如何?

    潘麓蓉博士:首先CADD的基础方法论是物理学,从微观上用量子物理模型对小型分子体系高精度的计算,一直到基于经典物理的模型比如分子动力学对大型分子体系的低精度计算,是过去几十年制药和科研领域常用的方法论。

    另一方面,人工智能这个领域其实是非常大的。但是如果我们关注于数据驱动 (data driven)的深度学习(deep learning)方法,也就是今天 AIDD主要用到的一个方法论的话,它又是一个非常简单和通用的方法。只要我们在现实世界当中找到在某一个维度足够多的数据,它就能够用统一的数学方法拟合出对于现实世界的测量的一个预测。所以基本上它对于传统的不同学科的理论公式是一种冲击,但是与此同时又解决了传统CADD在生命科学大尺度计算在经典计算机逼近摩尔极限后算力不可扩展的问题。它用数据置换了冗余的算力消耗,所以它在一定程度上可以把过去的这种大计算复杂度在十的3-7次方的计算问题压缩到一个训练好的AI模型之后,就简化为一个计算复杂度接近线性的预测过程。AI模型可以将我们的经验和数据浓缩在这样的信息富集的黑盒(black box)中,能够很快地预测目标性质。随着训练数据的逐步增加,不仅仅在节省很大部分算力的情况下,它的精度已经逐渐地和传统的物理学方法逼近,在宏观大尺度问题上甚至有了超越。

    回到具体的制药的问题,对于大分子和小分子的药物设计,其实用到的方法还不太一样。

    就小分子而言,大部分传统的CADD的方法论其实发展得比较成熟,就像刚才柳博士介绍的,我们通过基于经典力学的分子对接(docking)方法来解决蛋白质跟小分子之间的作用关系。这种方法在发展过程当中,传统的分子对接的评分函数(scoring function)计算起来非常费算力,而且需要增强采样(enhanced sampling)的方法才能逼近更好的精准度。所以后来一系列的学术和商业机构开发出基于蛋白质靶点与小分子共晶体结构数据和生物化学数据学习出来的统计势能(statistical potential)和基于机器学习的这类评分函数,能够减少算力消耗并增大准确度,但是仍然要引入基于物理的分子对接过程和沿袭其底层误差。而纯粹的AIDD的方法论,基本上就完全不考虑这两个分子在物理原子层面具体到底是怎么样结合的,直接通过深度学习模型拟合分子结构信息和生物化学实验数据预测他们的相互作用。CADD到AIDD过去几十年的发展和演化路线大抵如此,我们圆壹智慧的技术创新主要集中在AIDD的方法路线上。

    对于大分子也是同样的一个过程。过去大家其实不管是在结构生物学还是传统的分子动力学都做出了非常多的努力。我博士生时期参与过很多蛋白-蛋白相互作用 (protein-protein interaction)的计算生物物理学基础研究,动用过百万核时(core-hours)的美国国家算力资源。即便穷极算力,和真实的生物化学与结构生物学实验的测量比较,还是有一定的差距,而且我们也很难真的穷举所有的搜索空间(search space)去寻找两个蛋白质之间的潜在作用点。所以在后来的研究生涯中,我们也逐渐开发了一些基于蛋白质序列的算法模型,直接用两个蛋白质的序列,对各类生物化学实验数据进行拟合。最终发现AI不仅仅可以从结构还可以从序列学习到不同类型的特征(feature),实现蛋白之间相互作用或者蛋白质自身的一些性质的预测。

    与此同时,AlphaFold这个历史性的事件从本质上也说明了数据大到一定程度之后,就能够基于序列,用纯深度学习的模型预测蛋白质某一个维度的特点, 结构信息也只是其中一个维度。过去十几年CASP打比赛基本上都是用传统 CADD的方法来做模拟和优化,但最终AlphaFold打破了这个局面。虽然它不是说对每一种蛋白预测都很有效,但因为它有个泛化能力的体现,也就说明了实际上数据大到一定程度,数据模型是可以取代物理模型的。

    所以我认为我们今天讨论的这三种技术 —— 1、冷冻电镜是对于客观世界的高精度的观测,2、CADD基于物理学的不同精度的计算,一直到3、数据驱动的深度学习的模型 —— 这三种方法其实都是非常重要和实用的。

    我认为我们应该思考如何才能在制药的过程当中在同等资源下(包括人力,设备,算力、实验的预算等)、在不同的阶段都能够恰如其分的使用每一种技术,最大化其产出,这样才能最终对新药研发的投入产出比带来更好的优化。

    梅晔博士:您刚才反复提到一个数据驱动(data driven)的问题。在这个领域里面,其实在各个环节上,特别是AI,都在发力。那么您认为哪几个环节的data已经足够了,而哪些环节data不够?对这些data不够的环节,您认为我们有什么办法去产生data?

    潘麓蓉博士:这个问题也非常好。

    首先,数据永远都是不完美的。比如说结构生物学的数据,在蛋白质数据库(protein databank)里面的结构信息其实都是不完整的数据。这种不完整不仅仅体现在单个蛋白质结构的不完整,也体现在蛋白质组的不完整,很多的蛋白家族并没有数据和或者完整可靠的数据。但是基于不完整的数据, 只要全部数据隐含的信息足够充分,我们也能够建立一个可用的模型(比如AlphaFold)实现对于一些未知蛋白结构从头预测的能力,和对于已知不完整结构的补全预测能力。与此同时我们需要基于不同的科学假设和方法论,去清洗和整合不同的数据集,才能拿到全部的信息。所以很多时候我们可以用一些多源头多维度数据整合,和通过高级算法实现数据增强,这些都是数据驱动的方法学里面的比较核心的环节。

    此次沙龙探讨行业最前沿议题,专注于冷冻电镜技术在新药科研领域最新应用成果的交流与分享,旨在以通过理论计算、分子模拟和科学数据驱动的AI技术来推动和变革传统的新药研发和创新模式。

    圆壹智慧创始团队由来自海内外拥有人工智能、计算化学、药学、生命科学、转化医学、生物医学工程等多重科研和工业背景的顶尖科学家和工程师组成, 毕业于哥伦比亚大学,佐治亚理工大学、密歇根大学、南加州大学,莱斯大学,华盛顿大学,伦敦大学学院等世界名校,核心团队具备丰富的人工智能技术平台开发工程经验,药物研发实践经验和商业创新能力。
    
    创始人&CEO潘麓蓉博士在疾病生物学研究和药物研发领域的计算技术开发与应用方面拥有超过14年的经验,疾病领域涵盖神经退化性疾病、心血管疾病、癌症、罕见病和传染病。曾担任美国阿拉巴马大学伯明翰分校医学院研究员,工程院交叉学科中心计算总监;全球健康药物研发中心(GHDDI)AI部门负责人,副主任研究员。