近年来得益于深度学习技术进步以及基础算力提升,基于Transformer架构的大规模语言模型(large language models,LLMs)在自然语言处理(natural language processing,NLP)领域取得革命性进展。如生成式预训练(generative pre-trained transformer,GPT)、双向编码器表征(bidirectional encoder representations from transformers,BERT)、T5等标志性模型,通过在海量文本数据基础上进行无监督预训练,具备了语义理解和逻辑推理能力,并在文本生成、翻译、问答等任务中表现卓越。
在医疗领域,大语言模型在信息提取方面发挥重要作用。信息提取过程涉及从海量医学文献、病历记录、临床指南及研究论文中自动识别并提取关键医疗信息,如疾病症状、治疗方法、药物剂量、患者预后等。有研究[14-18]表明大语言模型能够从海量文本数据中提取结构化信息。Chen J等运用ChatGPT生成标注数据,有效改善事件抽取任务的表现。针对临床实践具体需求,Wang L等应用大语言模型从住院记录中提取语义信息。对模型信息提取能力的系统评估也成为研究热点,例如Jethani N等研究ChatGPT提炼临床记录信息的效能,强调其在促进医疗决策支持方面的作用。此外,大语言模型在揭示健康的社会决定因素(social determinants of health,SDOH)及人口统计学特征方面展现出独特价值。Ramachandran G K 等通过部署GPT 4,在非结构化电子健康记录中自动捕获SDOH信息,Bhate N J等探索如何以最少的引导信息最大化发挥GPT模型潜能,精准提取包括人口统计学信息、SDOH以及家族病史在内的多维度数据。一系列研究表明大语言模型在医疗信息提取领域取得实质性进展,不仅提高了信息提取效率和准确性,还促进了医疗决策支持。基于大语言模型的信息提取在深化医疗领域数据洞察、促进健康管理个性化发展等方面有较好应用前景。
3.3.2 ICD编码整理 国际疾病分类(international classification of diseases,ICD)作为一种标准化工具,用于编码临床诊断和医疗程序信息,确保全球医疗记录的一致性和可比性。在每次诊疗互动后,相应的ICD代码被录入患者电子健康记录系统中。然而,人工执行ICD编码过程极为耗时,促使研究者[46-48]探索利用大语言模型实现自动化。Huang C W等介绍一种创新框架,运用预训练大语言模型自动完成ICD编码任务。Ong J等则聚焦于视网膜病变领域,通过ChatGPT展示一个无需额外反馈即可自动生成ICD编码序列的实例,指出该方法在减轻医生编码负担方面具有潜力。另一方面,Dong H等肯定了自动化临床编码概念,深入分析该领域面临的挑战。在实际应用中,基于深度学习的临床编码方法在可解释性、一致性方面尚待提升,应列为未来研究重点。
3.4 医学教育
大语言模型在医学教育领域的应用促进教育内容个性化与实用性。有研究指出,大语言模型能模拟医疗案例,促进医学生临床决策能力的培养。大语言模型还能够针对学生对实际案例的反应自动生成反馈,实时指出学生的认知盲点,促进其自我反思和改进。大语言模型可以智能调节其输出文本中的医学术语密度,以适配不同背景读者。面对非专业人士,将复杂的医疗概念转化为通俗易懂的语言,确保信息的可接近性和理解度;面对医务工作者,精准运用专业术语,提供更详细的信息。大语言模型在医学教育应用中应注意道德、算法偏见等问题[10,51-52]。有研究[53-54]关注大语言模型在医疗考试中的表现,例如Kung T H等评估ChatGPT在美国执业医师资格考试中的表现,展示其辅助人类学习及作为临床决策辅助工具的潜力。综上所述,大语言模型在提升医学教育互动性和效率方面展现较强潜力,并预示着医学教育与临床实践深度融合的新趋势。然而在这一进程中也伴随着特定的挑战与机遇。
4 医疗大语言模型应用挑战
4.1 “幻觉”问题
“幻觉”是指大型语言模型在处理特定复杂任务时可能产生的看似合理实则错误的输出[55-56]。医疗领域作为知识密集型行业,信息量庞大、专业术语繁多且情境复杂多变。在尝试模拟临床决策、患者诊断或治疗建议时,大语言模型可能因无法完全把握医学知识的深度、广度及最新进展,而产生看似符合逻辑却偏离事实的“幻觉性”结论,这种现象尤其体现在对罕见病、特殊病例的判断上。为应对该挑战,Shuster K等提出一种连接外部数据的方法,为模型提供现实世界数据参考,使其在生成内容时能够依赖于真实数据,显著减少“幻觉”,确保输出准确性和真实性,有助于提高临床决策可靠性。Roit P等设计一种基于强化学习与文本蕴涵反馈的方法,通过强化学习机制,从反馈中不断优化生成的摘要质量,减少不真实信息的产生,进一步提高模型在医疗环境的适用性。Chern I C等则引入一个结合对比学习和奖励学习的框架,使用事实性指标解决大语言模型摘要生成中的“幻觉”问题,这对于确保医疗信息准确传递至关重要。此外,Dhuliawala S等开发验证链方法为不同任务中的“幻觉”问题提供有效解决方案,不仅对基于维基数据的问题有效,而且在封闭式书籍MultiSpanQA和长文本生成任务中也能显著减少“幻觉”,对于提升医疗诊断安全性和准确性具有重要意义。
大语言模型在医疗领域展现出巨大潜力,但尚缺乏统一且全面的评估基准数据集和指标体系,如可信度、有效性和可解释性等对医学领域至关重要的指标。对此有研究提出解决方案。Jin D等提出用于解决医疗问题的自由形式多项选择数据集MedQA,从专业医学委员会考试中收集,涵盖英语、简体中文和繁体中文3种语言。Pal A等提出大规模多项选择题回答数据集,收集超过19.4万条高质量全印医学科学研究所(all India institute of medical sciences,AIIMS)和全印研究生医学入学考试(national eligibility cum entrance test for postgraduate,NEET PG)多选题,涵盖2 400个医疗保健主题和21个医学科目。为了进一步标准化评估方法,Singhal K等提出基准数据集MultiMedQA,结合涵盖专业医学、研究和消费者查询的6个医学问答数据集,以及一个新的在线搜索医学问题数据集HealthSearchQA;同时还提出一个评估框架,用于从事实性、理解性、推理能力、可能损害和偏见等维度评估模型。尽管通用大语言模型领域已有评价指标[64-65],但尚不能直接用于医学领域。因此迫切需要更多针对医学领域的特定基准数据集和评估方法,以促进大语言模型在医疗领域的评估标准化,为模型的可信度和可靠性提供保障。
医疗领域大语言模型的应用,因涉及个人健康数据处理与敏感医疗决策辅助,存在伦理与法律问题。一方面,确保患者隐私、消除算法偏见、实现医疗决策的可解释性是维护个体权益与社会公正的需求[13,67];另一方面,随着医疗大语言模型在诊断、治疗中的角色日益重要,如何在法律框架内界定人机责任,同时激励创新与技术进步,成为亟待解决的法律挑战[68-69]。Valia L G等主张在技术应用初期即全面考量其长远影响,辅助作出更加周全的决策。Stokel-Walker C认为出于道德方面的考虑,不应在撰写生物医学研究论文时使用大语言模型。医疗大语言模型的伦理与法律问题是多维度、跨学科的挑战,需要政策制定者、医学专家、数据科学家、法律学者以及社会各界的共同努力,通过建立全面的监管体系、强化伦理指导原则、提升技术透明度和可解释性,确保技术进步在惠及人类健康的同时,妥善解决伴随而来的复杂问题。