探秘蛋白质组大数据 西湖大学郭天南 元宇宙 从 视角 (探秘蛋白质组成元素)

文章编号:37350 资讯动态 2024-11-30 蛋白质西湖大学郭天南

近日,由& 医健AI掘金志主办的GAIR「医疗科技高峰论坛」在深圳正式召开。

论坛上,西湖大学特聘研究员、西湖欧米创始人郭天南以《AI 赋能的蛋白质组大数据助力精准医疗》为题发表了演讲。

郭天南表示:“AlphaFold2 使用 AI 技术在蛋白质结构预测上取得了突破性进展,但此类 AI 驱动的生命科学的更大价值将体现在蛋白质组学中。”

他说到,一个战场上,有各类兵种和武器,各自的性能就如同是一个蛋白质的结构。要赢得一场战斗,不仅要知道各类兵种和武器的性能,更需要知道他们的数量、运行及修复方式,以及所有军力在整个作战系统中的互动,这个过程在生命健康中就如同是动态的蛋白质组。这个类比在一定程度上体现了蛋白质结构和蛋白质组的关系。”

演讲中,郭天南还重点介绍了一种新的蛋白质组大数据展示形式——怎样将蛋白质组数据转化成为张量(即 Tensor,多维矩阵)。

“张量可转化为多种数据格式视频,包括这里每个像素就是某个蛋白质的一个多肽的一个片段,平铺后可以得到一副有规律的、类似宇宙的图像,密集像素之间的间隔都是一个分子单位。这种数据可直接用于深度学习,将人体内的小宇宙转化为大数据。”

以下为演讲的全部内容,做了不改变原意的整理和编辑:

大家好,我是西湖大学特聘研究员郭天南,给大家分享AI 蛋白质组大数据辅助精准医疗的一些想法和实践。

我的演讲分为六个部分:

第一,什么是蛋白质组学;

第二,蛋白质组学最新临床技术进展;

第三,蛋白质组学大数据的概念,以及AI 发挥的作用;

第四,AI 助力甲状腺结节的诊断;

第五,AI 在尿检中实现新冠肺炎分类;

第六,将蛋白质转化为Tensor 的多维矩阵新概念。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

宏观世界中存在各种各样的疾病,不同的检测方法会把结果以图像、文字、数字等呈现在我们面前。而AI能将这些大数据进行整理、分析、归纳、预测,给我们的疾病诊治带来极大便利。

同时,还有一个我们看不到的微观分子的世界,虽然目前还没有技术可以直接看到微观世界里分子机器如蛋白质等的具体呈现和动态,但它是真实存在的,并且所有生命活动都是在微观世界中以蛋白质为主的分子层面上发生的。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

例如在感染新冠肺炎的时候,病毒入侵细胞后,细胞内各种蛋白质等分子会发生相应的改变。一个成年人大约有30 万亿个细胞,一个真菌细胞大约有4000 万个蛋白质。而人体的每一个白细胞、红细胞到底有多少种类型的蛋白质,而每一类蛋白质有多少个,现在还没有准确数据。所以,人体其实包含了无数个非常宏大的微观世界。

这张图展示的是一个人的基因组,一个人的基因组基本上固定不变,从出生到死亡,心肝脾肺肾各个不同器官的基因组非常稳定。但每一个器官、每一个细胞都不一样。我们有红细胞、白细胞、神经细胞、肿瘤细胞等,它们在形态上有很大差别,功能也不尽相同,这些差别也主要体现在蛋白质层面,也就是蛋白质组。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

蛋白质组是一个非常复杂的体系,这里展示的是其中一些蛋白质,每一个蛋白质就像汽车的一个零件,研究所有蛋白质的科学就叫蛋白质组学(Proteomics),与基因组(Genomics)的概念相对应。

最近,在生命科学和AI 领域有一个突破性进展,将AI应用于蛋白质结构的预测,因为AI预测在理论上可以无限并行计算,也有人将之称为“蛋白质组”结构的预测。

每一个蛋白质都有独特的结构,并且这个结构处于动态变化中,不同蛋白质结构间还有相互作用,目前这些结构在一定程度上可以由AI 进行预测。

第一,蛋白质结构预测跟蛋白质组关系是什么?

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

我有一个比喻。这里展示有不同的战士、不同的武器和不同的装备,他们就如同是微观分子世界的一个个蛋白质。每一个装备有什么性能、有什么样的形态、可以做什么,都需要研究。

而且,要赢得一场战斗,还需要知道各种士兵和武器的数量、运行及修复方式,以及所有军力在整个作战系统中的互动,这个过程在生命健康中就是蛋白质组学。这个类比在一定程度上体现了蛋白质结构预测和蛋白质组学的关系。

第二,蛋白质组学的临床最新技术进展。

我一直以来都是从事临床蛋白质组研究,十几年前还很难将蛋白质组学技术应用在临床,因为当时蛋白质组学技术非常复杂,价格昂贵,距离临床应用尚有很长的路。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

但最近几年,这个领域有了显著进步,多种新的技术可有效分析各类临床样品。

例如血清、血浆、尿液、眼泪、唾液等各种体液样本,以及活体组织、石蜡切片、细胞等固体样本,甚至像毛发、骨骼、牙齿、粪便等特殊组织样本都可以进行蛋白质组分析,且只需极小量样本就可进行蛋白质组分析。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

图中这个案例的组织,直径是0.5 毫米,上部90% 以上都是白色石蜡,下面红色部分是仅肉眼可见的组织样本。

在这部分组织上,我们可以提取出足够量的样本进行多次高通量的蛋白质组分析。通过独特的压力循环技术,3小时能处理16 个微量组织样品;从组织提取到进行质谱分析,只需要3 个小时。

这是我们几个月前在Cell发表的关于Clinical proteomics的Snapshot文章,总结了最新的针对各类临床样品的蛋白质组分析方法。

还有一个重要问题,蛋白质组分析的成本。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

根据估算,2006 年使用质谱测一个蛋白质的成本大约是3 美金;而2020 年测一个蛋白质的成本是0.1 美金左右。

如果用在临床,经过更好地工业优化,使用质谱进行蛋白质检测的成本还会进一步降低。

有了高通量微量蛋白质组学技术,我们就有可能将AI 纳入蛋白质组学驱动的精准医疗当中。

AI 医疗的初衷是希望通过人工智能和医疗大数据来实现对疾病的早期预测、准确诊断、有效治疗、靶点发现、预后判断等。目前使用的医疗数据主要是临床数据、图像、文本分析,或简单的生化检测。

而组学数据正在兴起,因为组学可以得到微观世界分子的动态信息,其中蛋白质是最主要的靶点,几乎所有药物的靶点和效应分子都离不开蛋白质。我们在蛋白质组方面的进展会让我们加深对生命的理解。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

上图来自于我们最近的一篇综述,AI医疗的核心驱动力是AI,还有临床数据、蛋白质组、转录组、基因组。蛋白质组从临床队列到样本到制备分析,整个流程会越来越容易,我们将产生越来越多的蛋白质组大数据。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

所以我们提出“蛋白质组大数据”概念。蛋白质组大数据可以通过各种临床样本含有的蛋白质组的内容,和各种蛋白质的量,获取AI 医疗以前无法获得的信息。

下面介绍一下蛋白质组在临床上的应用。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

第一,甲状腺结节。甲状腺结节很常见,几乎一半成年人都有甲状腺结节,而这些绝大多数为良性。

如果出现甲状腺结节,一般都是通过B 超、血液检测进行诊断,如果怀疑结节是恶性的,还需要做穿刺活检,判断组织的良恶性。

如果是恶性,就要通过手术切除,虽然这并不是很大的手术。但切除之后,病人需要终生服用人工激素。因为甲状腺是一个非常重要的器官,切除之后就无法分泌甲状腺素。

这其中有个关键问题,30% 左右的甲状腺结节目前无法判断是良性还是恶性,因此患者通常有非常大的心理压力。压力之下,大多数人会选择甲状腺切除。但手术后却经常发现其实是良性结节,原本并不需要切除这么重要的器官。这是因为缺乏对甲状腺结节良恶性进行准确判断的方法。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

美国有多项研究尝试使用基因测序方法,为这些无法判断的甲状腺结节作

进一步诊断,通常要测100 多个基因,其中包括DNA 和RNA。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

以上表格是目前市面上所有经过FDA 批准的商业化试剂盒。经过第三方评估,发现这些检测灵敏度很高,接近百分之百,但特异性只有10%-52%,也就是被判断为恶性的结节,实际上有大约50%-90%是良性的,这就导致过度治疗,大量良性甲状腺结节被切除。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

所以,我们就尝试开发基于蛋白质的甲状腺结节诊断系统。具体来说,我们将新加坡578 位患者的数据作为训练数据集。

首先这些患者的结节良恶性情况是已知的,利用这部分数据我们训练出了一个神经网络模型,这个模型最初包含了6000多个蛋白。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

最后我们挑选出了19 个蛋白质,在一个回顾性的临床队列中进行了验证,并在一个前瞻性的多中心临床队列中也做了验证,目前已经有十几个国内外医院参与到这项工作中。

该方法在回顾性与前瞻性的队列里面都能够达到比较好的效果,具有90% 的准确率,尤其在特异性方面优于基因组的效果。我们正在通过更大规模的前瞻性的队列去验证、进一步优化这个基于蛋白质的AI模型,并正在开发可以在临床使用的试剂盒。

蛋白质组不仅仅可以用作诊断,还可以发现潜在的药物靶点,几乎所有的药物都是要以蛋白质作为靶点。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

例如,我们在甲状腺癌中发现有一个特殊的亚型叫Hürthle cell亚型,目前的分子机理研究非常少,也没有特别有效的药物治疗。

目前仅知道这种肿瘤主要患者群体是老年女性,在显微镜下酸性染色比较强,但原因未知。我们的数据显示,在这一群特殊的肿瘤中,有186 个蛋白跟其它肿瘤是不一样的,其中有160 个蛋白都跟线粒体蛋白相关。

这些线粒体相关的蛋白,很多都是潜在药物的靶点,有可能用来开发针对这一特殊亚型肿瘤的新方法。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

第二个案例是新冠诊断。绝大部分患者感染新冠之后,自身免疫力都可以将病毒消灭,核酸阳性患者只有很少的部分,其中约20% 的阳性患者会出现重症和危重症。根据2020年的数据统计,占80%的轻症患者可以通过一般抗病毒治疗或隔离治愈,而占20%的重症患者,如果早期干预也可以转化为轻症。

但现在世界上还有很多国家的重症、危重症病人无法转好。重症诊断一般都是基于临床数据判断,也就是宏观世界的数据——病人呼吸急促、血氧饱和度非常低等。

当这些指征出现的时候,病人已经处于重症,治疗窗口期已经非常短,要进行紧急处理,如吸氧、上呼吸机等。

所以,我们试图在血液中找到一些分子,在患者演变为重症之前,通过AI进行鉴别诊断,通过分子的改变,提前预判重症,以期为每一位患者提供更加精准的治疗。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

为此,我们在2020年收集了一些轻症患者、重症患者以及健康人群对照样本,将患者分为训练集和验证集。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

我们在训练集中测量了蛋白,其中包含22 个蛋白和7 个代谢物,最终在训练集中AI 达到了93.5%的准确度,有两个患者的预测结果和临床结果不符。其中一位70 岁男性患者,临床是轻症,但模型认为他是重症,而我们发现,他在所有患者中年龄最大,所以这位男性的治疗方法也跟重症患者最相似。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

而在验证集中的19位患者中,有3 个患者跟临床诊断不相符,后来发现主要是因为患者复杂的病史情况。

其中,XG45这位患者临床判断为重症,但AI 认为他是轻症,后来得知,这位患者入院前做了20 多天各种的抗病毒治疗,所以入院时虽然临床表现为重症,但很快就康复出院。

另外一位患者XG22,临床症状是轻症,AI 模型判断为重症,后来诊断发现有乙肝和糖尿病,是所有观察组中住院时间最长的一位。其他重症患者都已经出院,他还没有明显的好转,连续50 多天检测都呈阳性。这位患者的微观世界数据表明,他的慢性疾病导致他的免疫系统与其他人都不一样,比重症患者对病毒清除能力更弱。

另外一个独立队列有十几位患者,其中3位患者与临床诊断不相符,后来发现不一定是我们错了,甚至我们微观世界的数据其实更加准确。

例如,X2-22 这个患者是一位66 岁的女性,她的分数是所有患者中最低的,比重症患者还要低,她在采血当天,血糖达到27.8,这是典型的高血糖危象。

我们通过蛋白质和代谢的分析,利用AI 模型,准确找到了这位患者,未来如果我们有可能将这个方法在临床广泛使用,有可能让医生更加从容的应对类似患者。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

除了对疾病诊断和预后进行判断之外,蛋白质组数据同时还可以提供分子通路信息,这些改变的通路里通常含有潜在的治疗靶点。

我们的文章发表之后,确实有很多临床研究针对其中一些潜在靶点,对新冠药物进行了开发。

此外,我们也做了新的研究,利用尿液做新冠诊断。一般我们认为尿液中没有蛋白,如果发现蛋白尿,一般认为是肾脏功能出了问题。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

但这种观念是因为过去临床使用的一般的蛋白检测技术比较陈旧,而目前蛋白质谱技术可以发现正常尿液里有非常多的蛋白。为此,我们采集新冠和相应对照患者的血样和尿样,展开了更多蛋白质组学分析。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

我们发现尿液里有3800 多个蛋白,而同样的方法只能在血液中发现大约1500 个蛋白,我们在血液中发现的蛋白,其实在尿液样本中绝大多数都可以测到,且分子量分布差不多,并不是只有小的蛋白才能进入尿液。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

得到结果之后,我们再用机器学习预测,使用血蛋白和尿蛋白进行新冠轻重症鉴别,发现和目前使用血液检测蛋白的方法效果类似。

并且,重症患者尿蛋白模型的分数刚开始还比较高,康复期才逐渐下降。这说明尿蛋白也可以对新冠病情进行分类和预测。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

此外,尿液中还可以发现很多细胞因子,一般通过抗体检测新冠重症患者,在细胞因子风暴数据中一般只测量十数个细胞因子。

用质谱检测可以测到200 多个细胞因子以及受体,我们发现一些新发现的细胞因子都与新冠有密切相关性,这些都是目前只能通过蛋白质谱检测到的。蛋白质谱可以让我们看到肉眼无法察觉的,但在微观世界中真实发生着的蛋白分子的一举一动。

最后介绍一下我们的新技术——蛋白质大数据。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

大数据一定要有展示形式,大数据领域有一个基本的、适用于深度学习的大数据格式,叫做张量(Tensor),即多维矩阵。各种大数据形式,包括文本、声音、图像都可以转化成Tensor。

那么蛋白质组数据能不能转化成Tensor?

我们最近将蛋白质转化为Tensor 多维矩阵,这个矩阵可以转化为视频。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

如图所示,每个像素就是某个蛋白质的一个多肽片段,平铺后可以得到一副有规律的图片,如果再放大就会发现每个像素之间像宇宙图像一样有一些间隔,每个间隔都是一个分子单位。

我们的微观世界蛋白质组就像宇宙一样,有大量信号,这些信号绝大部分都不是随机存在的,而是生物信号。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

我们做了统计,45 分钟内质谱机采集的像素点达到100多亿个。我们也建立了一些针对蛋白质组tensor的计算流程,像TensorFlow 一样,可以进行各种深度学习分析,用于疾病诊断、新靶点发现等。

西湖欧米是我们实验室的Spin-off,我们希望和医院和社区合作,满足大家对健康及医疗的需求。虽然有很多宏观世界数据,但是微观世界分子运作数据极其匮乏。欧米工厂生产试剂盒、做样本制备,可以将各类临床样品转化为蛋白质组数据。在数据中心处理之后,AI 可发现并总结规律,用于指导疾病诊疗。同时,也有望发现新的药物靶点,与制药公司合作,开发更好的治疗方法。

西湖大学郭天南:从「元宇宙」视角,探秘蛋白质组

原创文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
美图秀秀

美图秀秀网页版在线图片照片编辑制作美化修改处理工具提供在线拼图,在线改图修图,在线P图,在线美颜,在线ps照片,另外还提供图片美化、人像美容、添加文字、批量处理图片大小、证件照换底色、图片压缩等好用的功能,还有海报设计、平面设计、广告设计、贴纸素材、边框等丰富的内容,可制作PPT图片、简历、GIF动图等,支持Windows、Mac、Linux及网页版。

免费论文分享:为您提供各行业论文下载

专业中英对照论文网,找免费论文,下载论文,就上免费论文下载中心,覆盖法律,英语,教育,经济,管理等2024个论文分类,40万余篇免费论文范文,是专业的论文下载网站。

联系我们果博东方有限公司客服电话19048888882(客服)

果博东方客服电话19048888882微【19048888882】【果博东方在线客服】【需要办理业务加以上联系方式】【24小时在线】【果博东方客服电话】【果博东方公司直属客服】果博东方公司客服电话-果博东方公司客服联系方式-热线咨询在线-果博东方公司客服中心

北京医院

北京医院是一所以高干医疗保健为中心、老年医学研究为重点、向社会全面开放的融医疗、教学、科研、预防为一体的现代化大型综合性医院

威宁彝族回族苗族自治县人民医院

威宁彝族回族苗族自治县人民医院|威宁县人民医院【官网】

EA资讯网

EA外汇资讯网为您提供最新的外汇市场资讯、交易策略和智能交易系统(EA)的专业分析。深入研究市场趋势,助您在外汇交易中取得成功。

湖北科器信息技术有限公司

湖北科器信息技术有限公司(原十堰市科学器材有限责任公司简称科器公司)是鄂西北第一家以经营高新科技产品为主的“科技型、专业化”服务型企业。公司位于十堰市六堰科器大厦。公司创立于1990年,以两万元资金的打字复印部起家,经过二十年的艰苦创业,现已成为一家固定资产达三千万元、年销售规模达五千万元以上、充满生机与活力的现代化企业。公司经营范围涉及计算机、复印机等各类办公自动化产品、网络及其外围设备和耗材配件销售及售后服务;计算机软硬件技术开发、销售;家用电器、机电设备、电子产品、安防监控产品、电线电缆、通迅器材及配件的销售及售后服务;音响设备销售、安装;网络工程;空调安装及家用电器维修;中央空调、冷冻设备销售及安装;物资调剂;自有房屋租赁;计算机信息系统集成及服务;网络工程施工;安全技术

重庆道同动力机械设备有限公司

重庆道同动力机械设备有限公司坐落于中国较大的通用机械制造基地重庆,是集科研、生产、销售于一体的现代化生产企业,主营产品有:汽油机动力、通用发电机组、电焊机组以及水泵等。厂房占地面积25000平方米,年生产通机能力达20余万台。道同动力拥有精良的设备、雄厚的技术实力、完善的检测手段和先进的管理模式,已通过ISO2008:9001国际质量管理体系认证以及美国EPA等认证,具备CE、SONCAP等产品认证,产品畅销世界各地。

鹤壁人才网

鹤壁人才网站致力于为求职者提供全面的招聘信息,帮助大家在河南找到理想工作。无论是兼职岗位还是全职职位,鹤壁人才网汇集了各类招聘信息,包括人民医院招聘|司机|教师|保安和会计等热门行业。通过人才市场,您可以轻松查找事业单位的招聘机会,找到适合自己的工作。无论是初入职场还是寻求职业发展,鹤壁人才网站都是您求职的最佳选择,助您顺利迈向职业新阶段。

快速查分免费发布系统

快查分是一款快速查分免费发布系统,简单易上手,仅需2分钟搭建好属于个人专属快捷查分系统。快查分系统不仅可以帮助学校搭建快速查分系统,还能够帮助企业搭建快递查询管理系统,整体操作便捷快速,是一款不可多得的好工具。

深圳市第一波网络科技有限公司

《奶牛镇的小时光》是一款开放式模拟乡镇生活手游,你可以建设梦幻农场,开荒种地,打造属于你自己的梦想庄园。

全局底部横幅