企业与科研院所一起成长 北大药学院刘振明 AI制药十人谈 创新药时代 恳请 (企业与科研院所合作模式)
“AI的应用场景很多,但是AIDD最佳的应用场景是品种交付。现在很多AIDD公司的理念、研发路径、战略都不一样;如果拿中国历史比,现在更像春秋时代,连战国都还没到。”
刘振明博士是北京大学药学院研究员,国家化合物资源库北京大学负责人,是我国抗肿瘤创新药物研发和AIDD领域的科学家。前不久,刘振明研究员在与&《医健AI掘金志》的对话中,表达了他对AIDD制药的一些个人看法。
作为一名北大培养出的科研工作者,从在北大药学院学习药物合成,到北大化学院学习药物设计,再到法国实践药理学,刘振明研究员认为,多学科的融汇学习,促使他走上药物设计方法和候选药物发现这条路。
2005年8月至今,刘振明研究员在北大药学院药物化学系任教,相继参与北京大学药学院分子设计平台和化合物库的建设。目前,北京大学正在打造“智慧药物研发平台”,对接创新药物发现重大国家战略需求。
随着医药体制改革的不断推进和创新环境的不断改善,中国已经进入创新药时代,顶层制度设计为迎接创新药研发铺平了道路,积极开展和建立人工智能驱动的创新药物研发(AIDD),成为新一轮产业变革的核心驱动力。
然而现实情况却是,自从2012年Exscientia注册成立,AI制药开始在全球萌芽,至今已经十多个年头,依然没有一款AIDD“独立”研发的药物成功获批上市,甚至进入临床试验的药物都凤毛麟角。此外,部分进入临床阶段的药物是否全流程基于AI设计还存在争议。
在刘振明研究员看来,“AIDD不是谎言,按照AI研发的药物规律,乐观来讲,给这个行业5-8年时间,能看到一波AIDD设计出来的药物,至少做到让传统药企眼前一亮。完成这历史性第一步的,未必是现在公认为最好的AIDD公司。”
近日,&《医健AI掘金志》推出《AI制药十人谈》系列,探究AI制药的前景与隐忧。以下为我们与刘振明研究员的对话内容,&《医健AI掘金志》做了不改变原意的编辑与整理。
:作为一名北大培养出的科研工作者,从在北大药学院学习药物的合成,到北大化学院学习药物设计,再到法国实践药理学,您何时尝试在药物设计中使用计算机技术?
我本科是北京医科大学(现北京大学医学部)药学院药物化学专业,直博保送到北京大学化学与分子工程学院物理化学专业。虽然是物理化学,但总体来说,五年博士学习更侧重计算化学。当时和我一同入门的有4个博士生,一律都进入了计算机模拟方向。入学第五天,我跟师兄就到了国家气象局接触到了曙光大型机和超算,从那时开始,我就尝试将计算机辅助手段用于药物研发。
2005年毕业,我回母校效力,碰巧当时北大药学院要建设计算机辅助药物设计(CADD,computer aided drug design)平台,这就成了我留校任教后的第一个项目。自然地,CADD就成为了我的研究方向。
后来我到法国做了一年半的访问学者,主要工作是熟悉神经药理学研究的一般流程和规律,进一步熟悉和了解药物研发的过程。
为什么要做这个研究?在此之前,我有幸参与了国家“重大新药创制”科技重大专项的启动和实施工作,那时候我就发现:新药研发一定会成为中国未来10~15年的重要发展方向。我进一步梳理自己的知识背景,发现我本科更多是做合成,博士是计算,所以我到法国,主要是为了补充和完善自己在药物研究方面的知识和认知体系。
为什么选择药理学?实际上,药理学对药物研发非常关键,很多人将药理学定义为一个“桥梁学科”,联接基础研究和临床研究。所以我经常感慨,我是站在了“计算机科学”和“生命科学”的分水岭上,同时看到了两边的发展情况。
现在随着算力的提升,AI真正走入药物设计领域,证明国家的判断方向是正确的。
AI其实并不神秘,在我们圈内一些老师看来,简化一些讲,AI就是定量构效关系,完成各种各样的定量关系。只不过当时我们用“已知模型框架”做算法和软件,后来出现了以“深度神经网络”为基础的工具,比如AlphaGo,AlphaGoZero。
从我的经历看,8年前CADD还不是那么火热,但正如当初预期,现在风口来了,CADD的能力逐渐显现出来了,用了AIDD这个词。但无论叫什么名字,药物研发的门槛还是蛮高的。
目前大家比较担忧的是很多闯入“AIDD”这个领域的人是不懂药的,以化学药研发为例,至少要懂药化、药理,否则光会玩程序,算出了一个binding(用于配体结合位点的检测,ligand binding site,LBS),就认为解决了药物发现的问题,这是比较危险的“乐观”。
:近年来,您在知识库构建上做了很多工作,为什么决定从数据出发做工作?
我们在数据库上做了两个重要工作。一个是“通用知识的海洋天然产物数据库”(CMNPD)。这是北大药物设计研究室与北大计算机技术研究所等多家机构合作构建的,面向化学知识库自动生成的高效策略平台。
特别是在针对复杂天然产物数据库的构建中,一个月内就可以完成数年非冗余海洋天然产物数据库的构建与标引工作。
另一个是参与到北京大学张陆霞研究员所承担的重点研发计划“生物与信息融合(BT 与 IT 融合)”重点专项:“基于AI大数据驱动和可信安全计算的创新药物筛选系统研发与应用”,前不久启动会在北大医学部召开。
回过头看,我们为什么要做这些数据库项目?
因为早在五年前我们就意识到了数据的重要性。当时我们也在用别人的数据,虽然能拿到一部分数据,但是底层数据是触及不到的。所以即便我们的能力再高,在下游的模型搭建上只能做一些修修补补的工作。
但这五年以来,我反而对自己做的模型和方法更有信心了,因为我们直击的痛点是“自主可控的原始数据”。只有自主可控的数据,才能使得模型自主可控。
目前我们的CMNPD数据平台上线后,一年内达六万点击量,90多个国家访问。不同人的需求对接过来,我们首先会问他们要做什么问题?所以很明显,数据成了我们的护城河。
总体来说,后信息时代的生物医学研究,使整个生命科学领域都面临着学科整合的问题。只有整合,才能避免科学研究中的“盲人摸象”,而不同学科之间整合的基础和最优途径,就是结构化的知识和数据。
所以现在我有一个判断:未来“基于数据的科研”可能会超过“基于实验的科研”,效率和维度都会提升。而且大家也意识到,基于高维数据可以俯瞰整个学科,这要和翻阅某一学者的一篇文献或者若干篇文献,或者基于自身知识体系看到的东西不一样。
:有人称,AIDD一定会成为药研专家必不可少的工具,这也意味未来数据一定是“兵家必争之地”。目前您在这方面有哪些准备?
大家都知道,数据很值钱,但如果仅仅把数据存到硬盘上是不值钱的,那是死数据。所以近年来,很多人想用联邦学习解决这一问题。
但联邦学习最大的问题在哪?
它本质上是一种加密的分布式机器学习技术,可以在不披露底层数据和加密形态的前提下共建模型。但在实际使用中,如果只是做了数据接口,并不能解决数据稀缺的问题。
首先,联邦学习使用的数据,大部分都是拷贝数据,甚至有些数据清洗完丢失了很多信息;
其次,由于联邦学习的数据光有接口,没有打通数据内部,所以“模型拿走数据留下”的理念具体实施起来非常难。
此外,国内搞了很多数据汇交,数据中心,但很多时候这些也都是“死数据”。
举个例子,ACS(American Chemical Society,美国化学学会)是世界上最大的科技协会之一,涵盖了20多个与化学相关的学科,是全球被使用次数最多的化学期刊源之一。
为什么ACS这么受欢迎?因为ACS的一大特色,Article References可直接链接到Chemical Abstracts Services(CAS)的资料记录,也可与PubMed、Medline、GenBank、Protein>(公众号:):针对创新药,国内在这一领域还存在哪些薄弱环节?
有很多,最直接的是国家提倡的基础研究没跟上。
我们为什么会follow?说到底是别人有了,我们一做就是follow。原始创新太少。
比如靶点发现,人家敢做,我们敢做吗?
人家敢做,是因为背后有大量的研发数据,证明这个东西跟疾病密切相关。但试想一下,你一做之后,人家不做了,你心里是什么滋味,肯定很慌。这就是说,如果没有原始创新,你只能永远被迫去做follow。从国家层面来讲,基础研究是一个长期的事情。
同时,中国的优势也很明显:人口优势。这是西方所不具备的。因此我们的重要工作,是面向临床做原始药物发现。此外还有一点,要推动中国特色的创新药物研发,要制定我们自己的临床药物评审原则。
:新药发现太难,很多百年药企巨头的爆款药物很多是靠收购而来。那么AIDD公司的出现,是否会加速百年药企“药物研发”的没落?也就是说,百年药企越来越依赖外部创新,自身的创新是否愈加乏力,会不会出现一种恶性循环?
百年药企,为什么会做这个事情?
第一,有钱。
国外大药企经常一个License out能开到20亿。但小的企业做不了这个事情,包括国内大药企也做不了,仍然保持自研。第二,百年药企的成本权衡。
国外大药企很风光,但是内部的管理成本、人员成本,要远远超过小企业。
如果他们自己培养一支AI团队,一年要花20个亿,还不如合作上花20亿和AI制药公司合作,既能收到“果实”,还有可能埋了几个“种子”。而且只要能成一个,依靠他们这种大公司的强大商业能力,一定能获得回报。
所以我和创新企业交流时会说一句话,如果你本身没有AI研发基因,还不如跟高校合作,学习大药企的思路,把原始研发放出去。
事情证明,2015年后FDA批准的新药,59%都来自于Biotech和Bigpharma的合作。
这是一个好现象。
我曾经看到一个段子,大概是说某Bigpharma几千号人,研究十年,没搞出一个新药,后来有人考证过,其实是有研究出新药的,但Bigpharma研究效率低确实也是客观现象。
与此同时,从Biotech变到Bigpharma很难,因为短期内Biotech的商业能力不可能快速提升,不靠时间和资金积累是提升不上去的,所以Biotech也会主动和Bigpharma合作。合作才又可能产生赋能和共赢。
所以这是两厢情愿的事情,目的都是一个:更快完成能力积累,推出药物并盈利。
此外,这里还涉及到药品专利保护期的问题。药品跟别的不一样,它的专利保护期非常重要,多一年可能就多赚十几个亿,少一年就少赚十几个亿。这种现实情况下也让他们更愿意合作共赢。
所以,我不认为百年药企会没落,或者AI制药公司会没落,只不过大家在药物研发和商业版图上做了更好的分工而已。
:归根到底,AIDD的价值还是需要跟药企的合作来证明。在您看来,传统药企或百年药企巨头,他们对于AI制药新技术的看法是怎样的?怎么去做成果验证?是否愿意付费?
百年药企对AI这种新兴事物比较欢迎。有个数字,过去五年,国外一些创新药企业已经开始关注前端研发,超过40家药企建立了跟AI研发相关的部门。
为什么它们不抵触?因为药物研发行业跟别的行业很不一样,别的行业可能会竞争,但是百年药企缺少药物品种,有人能给我更多的选择,我为什么不去鼓励呢?
另外,百年药企更关注的是自身的商业版图。这种情况下,它和AIDD公司是一种互惠互利的关系,没有理由去反对,甚至是欢迎、扶持。
但是你会发现,药企跟AIDD公司的合作,更多的是药物品种交付。药企不管你的软件有多好,能做品种就合作,签一个里程碑付费的合同。
:最近ChatGPT火,包括背后的AIGC技术,对AI制药行业产生了哪些影响?
我们非常欢迎新技术的出现。早在OpenAI和DeepMind两家公司成立之初,我们就有关注,这些年来它们已经分化出两种不同的技术路径。
简单来说,前者非常注重数据和语料,靠规模数据、庞大算力、充分训练而“大力出奇迹”的暴力美学,在大模型时代发挥到了极致。
后者是不搞暴力美学,大搞神经科学,在数学、物理,这些涉及抽象世界和人类深层直觉的领域长期深耕。比如2021年DeepMind与顶级数学家合作研发的AI登上Nature,找到一个几十年来都没有结局的数学猜想,2022年与瑞士等离子体中心合作开发的AI系统参与核聚变。
但实际上,它们最终解决的问题都是一个:如何让电脑看懂你在说什么,而不是简单的复述。
这个是基础,因为人工智能三个领域--图像、语音和语义。
实际上,ChatGPT代表着人工智能在语义方面已经迈出了第一步。这对于AI制药非常重要,因为这个领域的发展方向就是做“基于知识的药物发现”。
以前AI不懂语义时,我们要像一个老师一样,给AI“喂知识”。未来AI懂得语义之后,我们只需要给它“喂数据”就行,甚至是一种开源数据,不需要提前做太多规范。
另外我认为ChatGPT这些技术的出现,也迅速让AIDD行业热闹起来了,大家都在说基于GPT-4要做一个DrugDeginGPT。不管说法对不对,至少有人意识到,以ChatGPT代表的语义解析能力,将为药物研发、智能医疗带来很大的赋能。
原创文章,未经授权禁止转载。详情见 转载须知 。