复旦大学团队发布中文医疗健康个人助手，开源47万高质量数据集|样本|大模型

文章编号：2085 应用软件 2023-09-02 样本医疗大模型复旦大学个人助手

用微信扫码二维码

分享至好友和朋友圈

患者感到身体不适时，可以向模型问诊，描述自身症状，模型会给出可能的病因、推荐的治疗方案等作为参考，在信息缺乏时会主动追问症状的详细描述。

图2：问诊场景下的对话

用户还可以询问与自身无关的医学知识，此时模型会尽可能专业地作答，使用户全面准确地理解。

图4：与自身无关的医学知识询问对话

DISC-MedLLM是基于我们构建的高质量数据集DISC-Med-SFT在通用领域中文大模型Baichuan-13B上训练得到的医疗大模型。值得注意的是，我们的训练数据和训练方法可以被适配到任何基座大模型之上。

DISC-MedLLM具有三个关键特点：

3、方法：数据集DISC-Med-SFT的构造 复旦大学团队发布中文医疗个人助手开源4

在模型训练的过程中，我们向DISC-Med-SFT补充了通用领域的数据集和来自现有语料的数据样本，形成了DISC-Med-SFT-ext，详细信息呈现在表1中。

数据集。分别从两个公共数据集MedDialog和cMedQA2中随机选择40万个和2万个样本，作为SFT数据集构建的源样本。

重构。为了将真实世界医生回答调整为所需的高质量的统一格式的回答，我们利用GPT-3.5来完成这个数据集的重构过程。提示词（Prompts）要求改写遵循以下几个原则：

图6展示了一个重构的示例。调整后医生的回答与AI医疗助手的身份一致，既坚持原始医生提供的关键信息，又为患者提供更丰富全面的帮助。

图6：对话重新改写的例子

医学知识图谱包含大量经过良好组织的医学专业知识，基于它可以生成噪声更低的QA训练样本。我们在CMeKG的基础上，根据疾病节点的科室信息在知识图谱中进行采样，利用适当设计的GPT-3.5模型Prompts，总共生成了超过5万个多样化的医学场景对话样本。

在训练的最终阶段，为了进一步提高模型的性能，我们使用更符合人类行为偏好数据集进行次级监督微调。从MedDialog和cMedQA2两个数据集中人工挑选了约2000个高质量、多样化的样本，在交给GPT-4改写几个示例并人工修订后，我们使用小样本的方法将其提供给GPT-3.5，生成高质量的行为偏好数据集。

通用数据。为了丰富训练集的多样性，减轻模型在SFT训练阶段出现基础能力降级的风险，我们从两个通用的监督微调数据集moss-sft-003和alpacagpt4datazh随机选择了若干样本。

MedMCQA。为增强模型的问答能力，我们选择英文医学领域的多项选择题数据集MedMCQA，使用GPT-3.5对多项选择题中的问题和正确答案进行了优化，生成专业的中文医学问答样本约8000个。

训练。如下图所示，DISC-MedLLM的训练过程分为两个SFT阶段。

图7：两阶段训练过程

评测。在两个场景中评测医学LLMs的性能，即单轮QA和多轮对话。

比较模型。将我们的模型与三个通用LLM和两个中文医学对话LLM进行比较。包括OpenAI的GPT-3.5,GPT-4,Baichuan-13B-Chat;BianQue-2和HuatuoGPT-13B。

单轮QA结果。单项选择题评测的总体结果显示在表2中。GPT-3.5展现出明显的领先优势。DISC-MedLLM在小样本设置下取得第二名，在零样本设置中落后于Baichuan-13B-Chat，排名第三。值得注意的是，我们的表现优于采用强化学习设置训练的HuatuoGPT(13B)。

表2：单项选择题评测结果

多轮对话结果。在CMB-Clin评估中，DISC-MedLLM获得了最高的综合得分，HuatuoGPT紧随其后。我们的模型在积极性标准中得分最高，凸显了我们偏向医学行为模式的训练方法的有效性。结果如表3所示。

在CMD样本中，如图8所示，GPT-4获得了最高分，其次是GPT-3.5。医学领域的模型DISC-MedLLM和HuatuoGPT的整体表现分数相同，在不同科室中表现各有出色之处。

CMID的情况与CMD类似，如图9所示，GPT-4和GPT-3.5保持领先。除GPT系列外，DISC-MedLLM表现最佳。在病症、治疗方案和药物等三个意图中，它的表现优于HuatuoGPT。

各模型在CMB-Clin和CMD/CMID之间表现不一致的情况可能是由于这三个数据集之间的数据分布不同造成的。CMD和CMID包含更多明确的问题样本，患者在描述症状时可能已经获得了诊断并表达明确的需求，甚至患者的疑问和需求可能与个人健康状况无关。在多个方面表现出色的通用型模型GPT-3.5和GPT-4更擅长处理这种情况。

DISC-Med-SFT数据集利用现实世界对话和通用领域LLM的优势和能力，对三个方面进行了针对性强化：领域知识、医学对话技能和与人类偏好；高质量的数据集训练了出色的医疗大模型DISC-MedLLM，在医学交互方面取得了显著的改进，表现出很高的可用性，显示出巨大的应用潜力。

该领域的研究将为降低在线医疗成本、推广医疗资源以及实现平衡带来更多前景和可能性。DISC-MedLLM将为更多人带来便捷而个性化的医疗服务，为大健康事业发挥力量。

谷普下载提醒您

本文链接：http://www.gpxz.com/article/a592ea5658b4eef9aa25.html

上一篇：AndrejKarpathy大模型有内存限制，这个妙招挺

下一篇：大模型时代，百度智能云迎来空前机遇千帆云计

蓝图机

蓝图机，晒图机，绘图仪，工程复印机，胶装机，切纸机销售。

办公职场 2024-08-17 00:48:28

下载中心

PChome电脑之家下载中心提供安全无毒的电脑软件下载、手机软件下载、手机游戏下载、电脑游戏下载、驱动下载等，下载软件和游戏就到电脑之家下载中心！

游戏网游 2024-08-17 00:50:55

云南推拉篷,云南太阳伞厂,昆明帐篷厂,昆明遮阳篷厂

豫东伞业（13577061785）是生产批发云南推拉篷,昆明罗马篷,云南工程篷,昆明救灾帐篷,云南户外用品,昆明侧立伞的云南太阳伞厂家.我公司在昆明帐篷厂以及昆明遮阳篷厂中价格实惠,品质有保障.我们将秉承合格的品质与服务,为广大客户提供优质可靠的产品!

商业服务 2024-07-07 20:00:23

办公室装修

设计美化 2024-08-18 00:21:34

侨大教育

广东升学考试,提供专升本,专插本,成人自考,成人大专,成人本科,艺术考试,继续教育,自考,函授,业余,电大,网络教育,学历提升服务

网络应用 2024-11-16 18:49:48

建元信托股份有限公司

电影视频 2024-11-16 20:28:45

徐州鑫华耐磨材料有限公司

网商天下、网站制作、页面设计

设计美化 2024-11-17 02:28:58

万梦手游

万梦手游是专业的折扣手游平台，致力于为手游玩家提供最直接、最大力度的手游福利，万款热门手游，充值自动2折，无需人工操作，安全便捷。

游戏网游 2024-11-23 01:56:40

写字楼入驻企业查询

写字楼入驻企业查询、分析，通过当地写字楼入驻企业可视化数据分析图，帮助访问者查询当地写字楼入驻企业详细情况，包括写字楼城市各区域的分布情况、写字楼较集中的区域、新企业最多的区域、区域中入驻企业最多的写字楼分析数据。

企业品牌 2024-11-28 14:43:15

乐叶园

乐叶园是一个汇集了丰富养花、种植、种花等园艺知识的平台，它为广大园艺爱好者提供了一个学习和交流的园地。在这里，您可以探索各种花卉的养护方法，获取专业的种植指导，让每一朵花都能在您的呵护下绽放最美的姿态。

生活常识 2024-11-30 23:01:22

怡声微纳

换能器,ICE,IVUS,超声影像,体外探头,RDN,超声炮,医疗美容,介入影像

设计美化 2024-12-04 21:09:01

伊犁速帮网络

伊犁速帮网络专注互联网!主营业务:伊犁软件开发伊犁网站建设伊犁微信开发小程序制作伊犁电子商务平台建设网络技术开发网页制作伊犁信息技术伊犁微信商城公司电话:0999-898252

网络应用 2025-02-04 00:53:38

老鼠和猫题材的游戏大全老鼠和猫的游戏有哪些介绍2025 (老鼠和猫题材电影)

老鼠和猫的游戏有哪些介绍，想要体验这种紧张刺激的猫鼠大战吗，这里有几款不容错过的游戏推荐给你，这些游戏不仅画面精美，玩法多样，还能让你在紧张刺激的游戏中，体验到猫鼠之间的斗智斗勇，快来下载体验，看看你能否在这场猫鼠大战中脱颖而出！1、，猫抓小老鼠，你将化身猫咪指挥官，用手中的画笔指引猫咪前进，在充满童趣的手绘世界中展开一场妙趣横生的追...。

2025-02-09 23:25:40

入口已导向百家号和小程序熊掌号彻底凉了

据网友发帖爆料熊掌号ID页也发生了重大改变，当小编再次进入熊掌号ID首页一栏，竟直接跳转到了直指百家号和小程序这个页面，看样子熊掌号真没戏了，主页熊掌号ID当前已重点显示，小程序平台和百家号平台，，小程序平台，图文，排第一位，不愧当之今年风口，小程序要火熊掌号全面助力，百度搜索流量也给导到百家号平台里了，而度娘熊掌号ID如今也明摆着告...。

2025-02-02 02:13:27

人类文明的刘慈欣元宇宙论战复盘蜜糖还是砒霜 (人类文明的什么)

人类向外扩张，还是向虚拟而行，支持不同的科技发展方向，两方被分别称作，飞船派，和，元宇宙派，作为，飞船派，的坚定支持者，刘慈欣曾表达过对人类进入元宇宙时代的反对观点，在近日引发热议，他认为，元宇宙将是整个人类文明的一次内卷，而内卷的封闭系统的熵值总归是要趋于最大的，所以元宇宙最后就是引导人类走向死路一条，被，科幻教主，如此质疑，，元...。

2024-12-09 22:36:26

互广告联盟站内互动数据分析 (广告互推平台)

代码说明，本页面的认证代码为互广告联盟专用评测代码，站长需懂简单html知识，直接复制代码粘贴到联盟网站相应页面即可使用，本代码不适用于其他广告联盟网站请勿获取！文字认证，文字链接代码认证适用所有类型的广告联盟，复制代码后放在互广告联盟网站首页底部或友情链接位置处，普通认证，普通联盟认证标志适用所有类型的广告联盟，能有效提升互广告联盟...。

2024-12-05 21:03:57

改款理想ONE换新征程芯地平线开启自动驾驶量产落地 (改款理想L8申报信息)

近日，造车新势力头部企业理想汽车在品牌春季发布会上正式发布了2021款理想ONE，新车型最大的变化在于替掉了老款车型使用的Mobileye芯片，而是搭载了两颗地平线自动驾驶专用芯片征程3，这让理想汽车首次实现了NOA导航辅助驾驶功能，自动驾驶功能进一步提升，同时，2021款理想ONE还搭载了地平线征程2的NPU计算平台，可实现全车语音...。

2024-12-03 20:34:10

5月9日 2022智慧医院信息网络建设在线论坛正式启幕 (5月9日2024年)

近年来，互联网、物联网、人工智能、大数据等信息技术与医疗相融合，我国医疗服务发展正处在从，信息化，向，智慧化，发展的关键阶段，国家卫健委办公厅组织制定了，医院智慧服务分级评估标准体系，试行，并印发通知，建设具有中国特色的智慧医院已是大势所趋，为提升医疗质量和效率，优化区域间医疗资源配置，改善人民群众看病就医感受等方面具有重要意义，中...。

2024-11-30 20:29:58

amlogic与mstar哪个好别被忽悠了 Mstar和Amlogic芯片对比区别 (amlogic)

发表在综合交流大区2022，6，1819，09平时我们在选购投影仪时经常会看到投影仪参数上显示芯片处理器，所有的商家都会宣称自己的芯片处理器是最厉害的，但懂行的才知道哪个是鸡肋款哪个才是真正的牛逼款，这里我们就给大家分享一下关于amlogic与mstar芯片的知识，看完就不会被忽悠了，amlogic与mstar哪个好，现在很多投影仪上...。

2024-11-28 18:29:34

儿童阅读馆加盟为什么是2024创业风口 (儿童阅读馆加盟)

受市场影响，有人纠结阅读加盟还能不能行，其实不论处于何种发展时期，都存在消费需求，关键是要找准风口，比如2023年文旅行业就实现了逆势增长，年初持续到夏季爆火的淄博烧烤，还有冬季走红的哈尔滨旅游，那2024年的创业风口是什么，是面向3，14岁孩子，提供借阅、阅读指导、研学等服务的儿童阅读馆加盟项目，为什么这么说，以下是几点分析，1.政...。

2024-11-16 19:18:54

live直播卖家直播带货的第一波红利是什么亚马逊重磅推出Amazon

对于亚马逊卖家来说，不管是做listing优化、关键词挖掘还是PPC广告、站外推广等，都是为了获取更多的流量，继而才有可能获得更多的销量，近日亚马逊官方吹风，将在全站点陆续上线亚马逊直播，AmazonLive，功能，买家可点击视频旁边的轮播图或者视频下方完成一键购买，AmazonLive带货，对卖家有何好处?1品牌卖家优势大亚马逊对品...。

2024-11-15 22:53:27

失掉手机root权限方法引见强力一键ROOT (手机失落了怎么办)

想要在手机上经常使用一些，非官网，app，有些是须要取得root权限后能力经常使用的，如今root手机十分繁难，有很多的手机助手中都添加了这个配置，如何经常使用强力一键root失掉手机root权限呢，一同来了解一下，强力一键ROOT怎样用，怎样失掉手机ROOT权限，1、在手机上关上强力一键root软件，在界面中点击，立刻体验，，切换界...。

2024-07-05 12:52:44

精美,精美专题内容文章-点家

精美专题,提供精美的相关文章和相关资讯,在本栏目你可以看到精美这个内容的相关各类文章很多篇,如有不足请提供给我们更多精美的文章供大家查阅.

2023-10-11 01:41:52

中方狠批美对台“军事融资”：养肥美军工复合体，损害台湾同胞安全福祉|防务|国防部|美国政府|克里米亚大桥

中方狠批美对台“军事融资”：养肥美军工复合体，损害台湾同胞安全福祉,防务,军援,国防部,美国政府,军事融资,台湾同胞,军工复合体,克里米亚大桥

2023-09-02 16:49:44

文章推荐

2023好玩的模拟经营类游戏大全热门的种植经营类游戏有哪些 (2023好玩的单机手游)

大家过惯了城市里面的快节奏生活，肯定也都想去过一下悠闲自在的农庄生活吧，本期小编就给大家分享一篇种植经营类游戏有哪些的文章，你能在这几款游戏里体验到种植作物经营农庄的快乐，同时你也可以在繁忙的生活中找到片刻的安逸，如果你对种植经营游戏感兴趣的话，那就看看小编的这几款游戏分享吧，1、，浪漫庄园，浪漫庄园，这款游戏整体的画风特别的绚丽清...。

2025-02-12 00:24:54

资讯动态

热门的单机手游排行榜2023 有哪些好玩的单机手游推荐一下 (热门的单机手游)

最近有小伙伴在问有哪些好玩的单机手游推荐一下，现在每个人的工作生活压力都很大，玩网游花费需要花费很多的时间，所有很多人都改完单机了，这样不仅花费时间少，而且也不需要充值，下面带来最佳单机手游排行榜2023，1、，元气骑士，这是一款非常好玩的割草类型手游，在游戏中你将化身为一个小骑士去城堡地牢冒险打败怪兽守护魔法石保卫世界和平，因为是割...。

2025-02-10 01:24:48

资讯动态

云服务做桥头堡华为如何诠释别样AI之道 (云服务干什么)

雷锋网按，在人人皆可谈AI的2018年，似乎AI已经无限接近水电燃气，成为普通人都能用到的基础能源，但转念一想，正是由于大家都在谈AI，说明了AI这一非新非旧的事物仍处于类似混沌的状态，像古希腊数学家研发的汽转球，如果没有瓦特的改良，蒸汽机既不知道能用在何处，最终将驶向何方，人工智能已经成为新一轮产业变革的核心驱动力，2018世界人工...。

2024-12-09 20:59:39

资讯动态

苹果与英特尔分手内幕曝光基带自研 2025 5G 年可期 (苹果与英特尔cpu对比)

对于苹果、高通、英特尔三家公司来说，2019年都注定是不平凡的一年，苹果和高通沸沸扬扬闹了两年之久的专利诉讼案终于在上月和解，而英特尔也及时止损宣布退出5G调制解调器市场，本以为这三家公司之间的，恩怨纠葛，就这样尘埃落定了，但事情远远没有这么简单，周三，有外媒披露了苹果与英特尔在5G基带业务上分道扬镳的原因，而苹果自研的5G调制解调器...。

2024-12-09 16:59:48

资讯动态

37GB的源代码泄露黑客组织lapsus$声称成功入侵微软

黑客组织Lapsus$声称从微软内部的AzureDevOps服务器上窃取了Bing、Cortana和其他项目的源代码，早些时候，Lapsus$团伙在他们的Telegram频道上发布了一张截图，表示他们入侵了微软AzureDevOps服务器，其中包含Bing、Cortana和其他各种内部项目的源代码，周一晚上，这个黑客组织发布了一份9g...。

2024-12-03 22:12:21

资讯动态