深度学习模型从健康记录中提取重要数据以辅助个性化医疗
电子健康记录(EHR)需要一位新的公共关系经理。十年前,美国政府通过了一项法律,要求医院将其健康记录数字化,以改善和简化护理。这些现已数字化的记录中的大量信息可用于回答超出临床试验范围的非常具体的问题:对于这种身高和体重的患者,这种药物的正确剂量是多少?具有特定基因组特征的患者呢?
不幸的是,大多数可以回答这些问题的数据都被困在医生的笔记中,充满了行话和缩写。使用当前技术,计算机很难理解这些注释——提取信息需要训练多个机器学习模型。为一家医院训练的模型在其他医院也不能很好地工作,并且训练每个模型都需要领域专家来标记大量数据,这是一个耗时且昂贵的过程。
一个理想的系统将使用一个单一模型,该模型可以提取多种类型的信息,在多家医院运行良好,并从少量标记数据中学习。但是怎么办?麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员认为,要解开数据,他们需要调用更大的东西:大型语言模型。为了提取重要的医疗信息,他们使用了一个非常大的GPT-3样式模型来执行诸如扩展超载的行话和首字母缩略词以及提取药物治疗方案等任务。
例如,系统接受一个输入,在本例中是临床笔记,“提示”模型关于笔记的问题,例如“扩展这个缩写,CTA”。系统返回诸如“听诊清晰”之类的输出,而不是CT血管造影术。该团队表示,提取这些干净数据的目的是最终实现更个性化的临床建议。
可以理解,医疗数据是一种很难自由导航的资源。由于数据使用限制,使用公共资源测试大型模型的性能存在大量繁文缛节,因此该团队决定自己拼凑。他们使用一组简短的、公开可用的临床片段拼凑了一个小数据集,以评估大型语言模型的提取性能。
“开发一个单一的通用临床自然语言处理系统是一项挑战,该系统将解决每个人的需求,并对健康数据集中的巨大变化保持稳健。因此,直到今天,大多数临床笔记都没有用于下游分析或用于电子健康记录中的实时决策支持。这些大型语言模型方法可能会改变临床自然语言处理,”麻省理工学院电气工程和计算机科学教授、CSAIL和医学工程与科学研究所的首席研究员DavidSontag说,并监督作者撰写了一篇关于这项工作的论文,该论文将在自然语言处理经验方法会议上发表。
“研究团队在零样本临床信息提取方面的进步使扩展成为可能。即使你有数百个不同的用例,也没问题——你可以用几分钟的工作构建每个模型,而不是必须标记大量数据那个特定的任务。”
例如,在完全没有任何标签的情况下,研究人员发现这些模型在扩展超载首字母缩略词时可以达到86%的准确率,并且该团队开发了其他方法将准确率进一步提高到90%,而且仍然不需要标签。
被囚禁在EHR中
一段时间以来,专家们一直在稳步构建大型语言模型(LLM),但它们凭借GPT-3广泛覆盖的句子补全能力一跃成为主流。这些LLM接受了来自互联网的大量文本的训练,以完成句子并预测下一个最有可能的单词。
虽然以前的较小模型(如早期的GPT迭代或BERT)在提取医疗数据方面取得了良好的性能,但它们仍然需要大量的手动数据标记工作。
例如,注释“ptwilldcvancodueton/v”表示该患者(pt)正在服用抗生素万古霉素(vanco),但恶心和呕吐(n/v)严重到足以让护理团队停止(dc)药物。该团队的研究避免了为每项任务训练单独的机器学习模型的现状(从记录中提取药物、副作用、消除常见缩写的歧义等)。除了扩大缩写外,他们还调查了其他四项任务,包括这些模型是否可以解析临床试验并提取细节丰富的药物治疗方案。
“之前的工作表明,这些模型对提示的精确措辞很敏感。我们的部分技术贡献是一种格式化提示的方法,以便模型以正确的格式为您提供输出,”CSAIL博士HunterLang说。论文的学生和作者。
“对于这些提取问题,有结构化的输出空间。输出空间不仅仅是一个字符串。它可以是一个列表。它可以是原始输入的引号。所以结构不仅仅是自由文本。我们研究的一部分贡献是鼓励模型为您提供具有正确结构的输出。这大大减少了后处理时间。”
该方法不能应用于医院开箱即用的健康数据:这需要通过开放的互联网将私人患者信息发送给像OpenAI这样的LLM提供商。作者表明,可以通过将模型提炼成一个可以在现场使用的较小模型来解决这个问题。
模型——有时就像人类一样——并不总是受制于真相。潜在问题可能如下所示:假设您要询问某人服药的原因。如果没有适当的护栏和检查,如果注释中没有明确提及任何内容,该模型可能只会输出该药物的最常见原因。这导致团队努力迫使模型从数据中提取更多的引述,减少自由文本。
该团队未来的工作包括扩展到英语以外的语言,创建额外的方法来量化模型中的不确定性,以及使用开源模型得出类似的结果。
“与一般领域文本相比,埋藏在非结构化临床笔记中的临床信息面临着独特的挑战,这主要是由于大量使用首字母缩略词,以及不同医疗机构使用的不一致的文本模式,”微软AI负责人兼AI前执行董事SadidHasan说在CVSHealth,他没有参与这项研究。
“为此,这项工作提出了一个有趣的范例,利用通用领域大型语言模型的力量来完成几个重要的零/少镜头临床NLP任务。具体来说,所提出的LLM指导提示设计可以生成更多结构化输出通过迭代利用模型生成的伪标签,进一步开发更小的可部署模型。”
“人工智能在过去五年中加速发展,以至于这些大型模型可以预测情境化建议,并在各个领域带来好处,例如建议新药配方、理解非结构化文本、代码推荐或创作受启发的艺术作品任何数量的人类艺术家或风格,”ParminderBhatia说,他曾是AWSHealthAI的机器学习负责人,目前是AWSAI实验室利用大型语言模型的低代码应用程序的ML负责人。“[该团队]最近推出的这些大型模型的应用程序之一是AmazonCodeWhisperer,它是[一个]ML支持的编码伴侣,可帮助开发人员构建应用程序。”
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
宝子们,杭州 房子装修完成啦!这次要给大家分享几家设计超赞的装修公司哦。它们各具特色,从空间规划到风格...浏览全文>>
-
欲筑室者,先治其基。在上海,装修房子对于每个业主而言,都是极为关键的一步,然而,如何挑选一家值得信赖的...浏览全文>>
-
2025年以来,联通支付严格贯彻落实国家战略部署,以数字和科技为驱动,做好金融五篇大文章,履行支付为民社会...浏览全文>>
-
良工巧匠,方能筑就华居;精雕细琢,方可打造美家。当我们谈论装修公司时,选择一家靠谱可靠的公司是至关重要...浏览全文>>
-
在当今社会,随着城市化进程的高速推进,建筑垃圾的产生量与日俱增。据权威数据显示,我国每年建筑垃圾产生量超 ...浏览全文>>
-
家人们,在上海要装修,选对公司那可太重要了!古语有云:"安得广厦千万间,大庇天下寒士俱欢颜。"一个温馨的...浏览全文>>
-
近年来,新能源汽车市场发展迅猛,各大品牌纷纷推出各具特色的车型以满足消费者多样化的需求。作为国内新能源...浏览全文>>
-
近年来,随着汽车市场的不断变化和消费者需求的升级,安徽滁州地区的宝来2025新款车型在市场上引起了广泛关注...浏览全文>>
-
随着汽车市场的不断变化,滁州地区的消费者对高尔夫车型的关注度持续上升。作为大众品牌旗下的经典车型,高尔...浏览全文>>
-
在2023年,大众探影以其时尚的设计和出色的性能赢得了众多消费者的青睐。作为一款小型SUV,探影凭借其紧凑的车...浏览全文>>
- 安徽滁州途安L新车报价2022款,最低售价16.68万起,入手正当时
- 小鹏G7试驾,新手必知的详细步骤
- 别克GL8预约试驾,4S店的贴心服务与流程
- 安徽阜阳ID.4 CROZZ落地价全解,买车必看的省钱秘籍
- 淮北探岳多少钱 2025款落地价,最低售价17.69万起现在该入手吗?
- 安徽淮南大众CC新款价格2025款多少钱能落地?
- 淮北长安启源C798价格,最低售价12.98万起现在该入手吗?
- 安徽淮南途锐价格,各配置车型售价全解析
- 蒙迪欧试驾预约,4S店体验全攻略
- 沃尔沃XC40试驾需要注意什么
- 滁州ID.4 X新车报价2025款,各车型售价大公开,性价比爆棚
- 试驾思域,快速操作,轻松体验驾驶乐趣
- 试驾长安CS35PLUS,一键搞定,开启豪华驾驶之旅
- 天津滨海ID.6 X落地价限时特惠,最低售价25.9888万起,错过不再有
- 天津滨海凌渡多少钱?看完这篇购车攻略再做决定
- 安徽池州长安猎手K50落地价,买车前的全方位指南
- 山东济南ID.6 CROZZ 2024新款价格,最低售价19.59万起,现车充足
- 试驾海狮05EV,新手必知的详细步骤
- 生活家PHEV多少钱 2025款落地价走势,近一个月最低售价63.98万起,性价比凸显
- 奇瑞风云A9试驾,新手必知的详细步骤