复旦大学熊贇分享 如何在数据开放同时确保数据稀缺性不丧失和隐私不泄露 (复旦大学熊钰)
IEEE x ATEC科技思享会是由专业技术学会IEEE与前沿科技探索社区ATEC联合主办的技术沙龙。邀请行业专家学者分享前沿探索和技术实践,助力数字化发展。
随AI技术的不断深入发展,医学人工智能应用如雨后春笋般迅速涌现,在医疗领域遍地开花。AI具有智能化、自动化的特点,能够通过强大算力解锁复杂数据、处理海量数据,在医学变革过程中发挥着无与伦比的重要作用。IEEE x ATEC科技思享会第三期会议特邀四位嘉宾围绕“AI驱动下的医学变革—从生命科学到医疗管理”独立TALK。
以下是复旦大学教授/博导、上海市数据科学重点实验室副主任、ATEC科技精英赛高级咨询委员会专家熊贇的演讲《医疗大数据:由浅入深、由繁至简》。
演讲嘉宾 |熊 贇
复旦大学教授/博导
上海市数据科学重点实验室副主任
ATEC科技精英赛高级咨询委员会专家
《医疗大数据:由浅入深、由繁至简》
大家好,我是复旦大学的熊贇,感谢IEEE x ATEC科技思享会,非常高兴能够与大家分享医疗大数据的相关研究进展。
一、医疗大数据
我们都知道数据已成为一种新的生产要素。医疗健康关乎民生福祉。习总书记指出,要加快“互联网+医疗健康”发展。医疗数据的价值发现及其在药物研发、辅助诊断等方面都起到了非常重要的作用。数字医疗为实现优质医疗资源共享、解决医疗资源分配不均和就医成本高等问题提供了可行的方案。
医疗数据类型多样,常见的有患者的就医记录(包括患者的基本信息、就医诊断、用药等信息),也有以非结构化文本形式存在的电子病历及其诊断报告,还有医学影像、医疗试纸以及文献等各类数据。我们对这些数据进行分析,从中挖掘其价值,要针对这些不同数据的特点,从不同角度来看医疗数据并研究其相应算法。我们有单一来源的数据处理方式,多来源数据的处理方式,也有结构化、非结构化和多模态、多源异质数据的处理方式。
大数据的内涵包括了用数据解决问题和解决数据的问题。
前面我们分析了医疗大数据可以用到的各种数据类型,下面我们来看一下医疗大数据的问题和挑战。
医疗大数据包括了数据类型繁杂、数据质量较差、数据孤岛众多、数据安全薄弱和数据应用尚浅等问题。这些问题在其它领域里面也有共性。这也是我们之所以能够将现有的一些数据挖掘机器学习(例如自然语言处理、图像视觉处理等方法)引入的一个基础。但医疗领域对数据质量和分析结果的有效性的要求更高,因此,我们需要对这些共性技术加以改进。
对于类型繁杂的数据,我们需要采用多模态的数据融合技术,例如我们要将医疗影像和医疗报告文本的数据不同模态下进行对齐。对于数据质量差的,我们需要有专门的医疗数据规范化的技术,例如利用电子病历文本与ICD编码对齐这样的规范化的技术。医疗数据的高敏感、高隐私的要求和我们在做医疗智能分析时对数据全面特征的需求,两者之间存在着矛盾,这就需要我们要有更为有效的共享互联机制和技术支撑。
为此,我们针对上述研究开展了工作,研制了一系列的医疗数据智能分析和开放互联技术。
二、挖掘分析:由浅入深
下面我们就其中的大数据挖掘分析技术和开放互联技术展开重点介绍。
在分析挖掘方面,我们的研究工作是由浅入深发展的。首先我们在医疗大数据挖掘方面,包括了从单一来源的就医数据的简单挖掘到基于深度学习的特征表示,从结构化到非结构化和跨模态数据的深度学习方法在医疗影像和文本方面的分析,以及多源多模态的组学数据分析。
下面我们将进行展开介绍。
我们可以从一些患者的就医记录中看到患者的基本信息和用药记录等信息。我们可以使用最基础的训练模式,挖掘频繁模式挖掘算法,来得到患者的用药模式。例如上图中的三个患者,他们都有使用前面三种药物。可以看到三种药物之间存在着一定的用药关联。这种直观的方式可以带来一定的辅助诊断作用,但医疗实际场景下不同的用药顺序也反映了患者的疾病状态。比如先用某一种药和后用某一种药,治疗疾病的原理可能是不一样的。另外,用药的剂量也反映了该病人症状的治疗方案。
因此我们使用不同的方法,包括考虑统计频次的方式、考虑顺序的方式和考虑剂量的方式,得到的用药模式也是不一样的。
可以对于某一种用药以及其他相关用药进行展现。患者的用药特点反映了患者本身的特征,有助于对患者个性化的精准治疗。例如有相似用药模式的患者,他们更为相似,可以作为诊断的参考。但我们也发现这种简单的(参考)对反映用户特征方面仍然是有限和不足的。
随着深度学习技术的引入,可以利用患者更多的数据进行刻画,捕获更多的信息。比如刚刚只考虑了药物的顺序,但是药物用药之间的时间间隔以及前一状态对后一状态的影响等信息并没有考虑到。
为了能够更好地刻画这些多元复杂的因素,我们将患者行为进行一个图的建模,构建成一个二部图。这个节点分别是患者和用药。边上记录了丰富的交互行为,即在什么条件下、什么时间使用了某一种药物或药物的剂量以及药物的具体情况等等。现在我们的问题就转化为,得到图中的每一个患者节点的特征向量来刻画用户的特征,用于下游任务。比如对用户的相似性识别或者对用户分类,对于每一个节点都可以用深度学习模型得到一个特征向量。如果两个患者的特征向量相似,那认为这两个患者是足够相似的。
之所以采用图的建模,是因为首先能够更好的捕获时序依赖性,即建模了多个时间间的依赖关系。比如对于一个用户来说,他在每个不同的时间段、不同的时间点使用了药物。那可以知道他服用A药物以后可能还会服用B药物。因此深度学习的建模主要是能够最大化的用药共现概率,当用户来使用A这个药物时他会使用的下一个药物是什么的。
并且还能建模单个事件在不同条件下发生的概率及条件邻近性,例如患者在什么时候来使用这个药物。即我们的模型要能够最大化患者和用药,在某一个条件下面最大的概率。
我们再来看一下非结构化和跨模态数据方面的相关技术进展。
传统的基础文本分析方法可以用在医疗文本上。例如对于电子病历,进行特征抽取,然后得到它具有较多共性的文档,形成共性文模板。这种方法可以采用比较简单的SimHash来提取文本的特征。但可以看到这对于医疗本身的语义特征的提取是非常有限的。
因此,如果能够利用医疗领域中的结构化信息对文本进行规范化,那么可以更好的理解医疗文本。
以ICD编码为例,即这个医疗文本主要是以文本的非结构化的信息展示。但是每一个文本都会标注一定的ICD编码。因此可以实现给一个医疗文本,能够得到它对应的ICD编码。这其实是一个多标签的分类问题。我们采用的方式是对文本中的词进行嵌入表示学习。
然后引入图深度学习的方法。对于需要建模的ICD编码的层次关系进行图的表示。我们利用图卷积的方式得到每一个图的节点特征表示。在这种方式的支撑下,能够比原有的浅层模型或者没有加入图的模型得到有效提升。但在这个过程当中,对于文本的这个特征仍然是用通用领域的一个卷积模型来实现的。这里面也可以采用像BERT这样的预训练模型。
由于通用领域包含的医疗生物信息知识比较少,因此在通用领域上的预训练模型,比如BERT或者GPT,可能它不能够更好的学习到生物医学领域的知识,因而出现了一些专门利用生物医学语料库进行训练得到生物医疗领域专门的预训练模型。
我们所做的工作是在现有基础上,对医学文本预训练模型考虑到中文情景当中中文汉字各个部件之间的语义关系,再进行提取。比如每一个汉字,特别是对于疾病里面的一些汉字,它的部件其实体现了一定的语义特征。我们将每一个汉字拆成更小的图的形式,然后利用图的深度学习模型来得到各个部件的语义特征,再和通用领域的BERT进行结合,最终得到一个更好的反映医学文本特征的领域的预训练模型。
除了单一模态数据分析外,多模态的数据融合分析也可以做到更多的价值挖掘工作。例如除了传统影像中进行疾病检测之外,其实医学报告的生成也成为了当前的热点,即如何能够更好地利用文本数据,这个思想其实是来源于图像视觉领域里面通用领域的思想。它对于一个图片来说,不仅可以得到里面有哪些具体的物件,还能够生成一段相应的文本,即看图说话。
在医疗影像领域里面存在哪些更多的挑战呢?首先在医疗文本领域,文本报告描述的长度相对而言总是比较长的。对于一段比较长的文字,就会有一个常依赖的问题。另外要得到的异常区域比较小,挖掘、描述异常是一个挑战。
因此我们将主题的注意力机制,还有门控单元等技术、深度学习的技术应用到医疗影像文本报告的生成。我们的模型得到了更好的表述异常的描述句子。
我们也发现了另一个问题,即所能够获得的有些疾病的样本量可能是比较少的。因此提出了一个Few-shot GAN的方法,让我们能够生成更多的少见疾病的样本,并且还利用了疾病图卷积来建模疾病之间的内在关联性。即对于疾病的标签之间的关联性也进行了建模。这样对于一些少的疾病和其他相对更多的疾病之间的关联,可以有助于增强我们对疾病、少见疾病的语义的表示,进一步提高文本生成的有效性。
对于更多源复杂的数据而言,异质网络技术的发展对于组学数据利用起到了非常积极有效的作用。例如,可以构成一个上图这样的网络,在这个网络里面既有基因这种数据类型,又有疾病这种数据类型,甚至还有它对应的药物化合物以及这个化合物可能产生的副作用等信息。节点和节点之间,互相又有不同类型的关系。
通过这样的方式,如果要研究两个基因之间的相关性,不仅可以知道基因和基因之间是因为疾病相似,还是因为他们都是同一个疾病的靶向基因,亦或者是因为他们可能对于某一个药物的治疗都有非常重要的作用。可以采用异质网络里面的语义路径的方式。比如从上图可以看到,对于两个圆形的节点(基因节点),它可以是经过了如三角形(疾病)这样的一个语义路径,也可以是经过了方形(化合物)这样的一个语义路径。在这种情况下,可以得到更多的语义关系。
我们把这个问题简化一下。例如要去识别和一些miRNA相似的miRNA,可以通过这样的一个异质图谱,然后来考虑它不同的原路径。比如这两个miRNA之间是通过基因相似,还是通过疾病相似。
基于上述工作,可以进一步融合多源和多模态的数据来研究基于知识图谱的医学影像报告生成的任务。
前面提到医学影像和报告生成时,我们利用了医学影像的图像以及医疗文本。我们知道医疗文本或影像的一些标签和医疗领域的知识图谱之间也有相对应的关系,所以也可以把医疗知识图谱引入进来进行学习,可以得到更好的医疗影像文本报告。
但这里面还有一个挑战,也是我们正在研究的问题,即可能会有不同领域的知识图谱。在医学领域里面可能有来自于不同机构的多种知识图谱,需要对医学知识图谱进行对齐,这也是一个医疗领域知识规范化、质量处理的问题。
三、开放互联:由繁至简
医疗数据的共享互联是一个开放的难题,我们就这方面的技术也开展了一些探索。以下是我们要探索的第三部分,开放互联。
因为开放技术的发展,使得琐碎的数据获取流程变得更加方便简单。我们原来要获得相应的医疗数据需要经过非常复杂的申请流程才能使用数据,并且在使用过程当中,大部分情况下对医疗数据的访问可能也是非常有限的。我们提出了一种数据自治的开放模式。这种模式是我们将数据封装在数据盒中,然后用户通过以数据盒为访问单位的形式来访问数据。数据拥有者有一个更自主制定哪些数据可被访问的方式。
此外,为了能对数据访问方式进行约束,我们在数据盒里面也提供了一个数据使用行为的检测功能。于是,对这些数据的使用者而言,可能他所需要的操作只是利用数据的一些统计信息,而不能够读取每条数据。在行为监测方面,我们就会加以限定。这种方式激发了数据拥有者更好、更方便地开放数据。对用户而言,以数据盒的方式进行使用也是非常方便的。从而,我们能够在数据开放的基础上保护数据的权益。并且在这里面我们还使用了区块链的方式对每一个使用过数据的用户行为加以记录,可以用于我们的追踪。
同时我们也会考虑,对于数据拥有者来说,提供数据的便利,即提供数据互联的接口。例如多个数据拥有方有多个系统,可以利用软件接口化技术实现数据的链接,即给出配置要求,从相应的系统里面连接接口,将数据与平台进行一个衔接。
在这个过程当中,数据使用者会受到数据互联平台的管控。比如说哪些使用行为是允许的、哪些使用行为是不允许的,我们会对这些日志进行记录。另外如果要使用这些数据进行智能分析时,会为这些数据分配相应的容器,即它能够使用哪些算力,然后它就可以对这些数据进行算法训练。
我们有机结合了数据、算力和方法三方面的优势。这样可以让数据拥有者的提供方更好地把他的数据贡献共享出来。数据管控方主要是保护数据的安全性;人工智能算法的研究机构或企业更关注于其研发的方法如何来进行分析和研究。所以通过上述方式,能够高效地按需提供实时的、高质的、互通的数据。目前已经形成了医疗大数据的互联互通系列技术,构建了医疗人工智能算法的训练实验场。
四、总结与展望
最后是总结。我们看到了浅层的医疗数据资源的利用已经产生了巨大价值,还有更多更新的技术可以进一步推动医疗大数据的利用和发展。因此还需要探索更深层次的一些数据资源的利用开发方法。当前,元宇宙技术在医疗行业的探索也得到了非常大的关注,这对医疗数据的分析和利用也提出了一些新挑战。
希望能够通过对医疗大数据更深入的分析和对互联技术更深的探索,更好地支持医疗健康数字化行业的发展,赋能未来的医疗,转变医疗服务模式,助推全面的健康,筑牢健康的基石。以上是我的分享,谢谢大家。
版权文章,未经授权禁止转载。详情见 转载须知 。