DOI:10.3969/j.issn.1673-6036.2025.11.003
中图分类号:R197.323;|TP18;|TP391.1
陈宇聪, 谭伟锋, 戎伟鑫, 韩春春, 王耿彬
| 【作者机构】 | 江门市中心医院网络信息科 |
| 【分 类 号】 | R197.323;TP18;TP391.1 |
| 【基 金】 | 广东省卫生经济学会科研课题(项目编号:2024-WJMZ-48) 江门市医疗卫生科技计划项目(项目编号:2025YL01040) |
电子病历(electronic medical record,EMR)书写是医疗活动的核心环节,具有记录病情、指导治疗、支持科研教学等多重功能。然而,传统病历书写过程高度依赖人力,存在耗时长、任务重、易受主观因素影响等痛点[1]。有研究[2]统计,临床医生用于EMR系统操作的时间甚至超过了诊疗患者的时间,这不仅增加了医生的工作强度,也影响了医疗服务的质量与效率。
近年来,人工智能技术快速发展,大语言模型(large language model,LLM)因其强大的语言生成能力,深刻影响着各行各业[3]。部分医疗机构[4-6]积极探索大语言模型在医疗领域的应用。2024年11月《卫生健康行业人工智能应用场景参考指引》[7]发布,其中包括基于大语言模型的电子病历自动生成应用场景。智能病历辅助生成逐渐成为“人工智能+医疗”领域备受关注的研究方向。
医疗文本处理技术演进经历了从基于规则和传统机器学习的自然语言处理,到基于深度学习的自然语言处理,再到大语言模型生成,以及当前的一体化智能体阶段。早期技术在特定任务上取得了进展,但泛化能力和复杂语境理解能力有限。近年来,以GPT系列为代表的大语言模型,凭借其在海量数据上预训练获得的强大语言理解与生成能力,为解决复杂的医疗文本处理任务带来了革命性突破。此外,模型微调、检索增强生成(retrieval-augmented generation,RAG)和提示词工程等技术不断发展,使大语言模型具备了文本检索、持续学习、自我校正的能力,为智能病历生成奠定了可靠的技术基础[8]。病历生成智能体可通过“微调-检索-提示”一体化架构实现多模块协同优化,在系统整合性与场景适应性上更具优势。
国际上,GPT系列模型(GPT-3、GPT-4)通过海量语料预训练,展现出令人瞩目的语言理解和生成能力[9]。LLama模型和Gemini模型进一步扩展了大语言模型的性能边界[10]。在国内,DeepSeek、通义千问、GLM-4等大语言模型相继问世,在多语言理解、知识推理和任务适应性方面展现出卓越性能[11]。这些模型普遍具有超大规模参数和跨领域知识迁移能力,上下文理解能力较强,在代码生成、数学推理等复杂认知任务中展现出惊人的潜力。
尽管大语言模型在上述任务中表现出色,但在医疗等专业程度较高的领域,其应用仍有改进空间,医疗垂直大语言模型相关研究成为学术界和医疗界的重点关注方向。大语言模型基于海量医疗文献和医疗数据集进行预训练或微调训练后,可进一步提高专业性和准确性,不仅在医疗知识问答方面表现出色,还在临床决策支持、病例分析、医学文献综述等关键应用场景展现出巨大潜力[12]。如BioGPT、BioMedLM、MedGemma和Med-PaLM等模型已经在医疗领域应用中有较好表现。国内许多高校和企业也相继推出面向医疗场景的垂直大语言模型,如DoctorGLM、HuaTuoGPT、RuiPath等。研究与实践表明,医疗垂直大语言模型能更有效地辅助医疗专业人员进行诊断、治疗方案制定和医学研究[13]。
智能电子病历生成是大语言模型在医疗领域应用最具挑战性的方向之一。国际研究表明,基于Transformer架构的大语言模型在自动生成结构化、准确的临床文档方面具有巨大潜力[14]。近期,国内研究也取得一系列令人瞩目的成果,如湖南省生物信息研究所将大语言模型的语言理解能力与知识图谱的结构化医学知识相结合,以电子病历记录为基础,提高临床诊断准确性[15];北京理工大学联合解放军总医院共同研究基于电子病历数据的3阶段医疗LLM训练范式,并在此基础上探索基于检索的知识增强技术[16];首都医科大学利用文心一言大语言模型,对电子病历内容进行文本结构化,助力患者特征准确提取[17]。然而,基于大语言模型的电子病历生成仍存在准确性低、逻辑混乱、信息缺失等问题,尤其缺少从医院自主研发角度出发,从数据预处理、模型微调、智能体搭建到实际应用全流程的研究与设计。本研究通过设计病历生成智能体,整合大语言模型、RAG、模型微调、提示词工程、工作流设计等技术,进一步提升电子病历生成的规范化水平、内容准确性和逻辑性,以提高医疗记录质量和临床医生工作效率。
基于大语言模型的病历生成智能体总体架构,见图1。一是对EMR数据进行预处理。二是构建病历生成规则库,通过RAG技术检索病历书写规则,以校正生成病历的格式与内容。三是利用经过预处理的数据对通用大语言模型进行微调,构建病历生成垂直大语言模型。四是基于病历生成规则库、经过预处理的数据和病历生成垂直大语言模型,搭建病历生成智能体。五是在应用层实现病历生成,并回写至EMR系统,实现入院记录、出院小结等医疗文书的智能化、标准化自动生成。
图1 基于大语言模型的病历生成智能体整体架构
根据医院病历文本实际情况设计Python代码,通过多阶段数据预处理,将EMR系统中的病历数据转换为适合LLM训练的alpaca格式。数据预处理思路,见图2(a)。第1步:通过应用程序接口(application programming interface,API)或数据库查询等方式,抽取EMR系统中的结构化(如个人信息)与非结构化(如入院记录、出院小结)数据,依据患者住院号进行数据整合。第2步:设计针对关键字段的条件判断语句,剔除低质量数据;对于非结构化数据,通过数据清洗(如过滤特殊符号)、关键信息补全等方法提升数据质量。采用完整病历文本、病历文本中的结构化字段、医患对话等多种形式数据进行模型微调,对比结果显示问答形式数据训练效果更优。第3步:以电子病历(含主诉、现病史、家族史等关键内容)作为输入,以各临床科室提供的问答模板作为提示词,利用Qwen2.5-72B-instruct模型模拟生成医患对话。进而构建以模拟医患对话为输入字段,以对应病历数据为输出字段的训练数据集,并将其转化为json格式的LLM微调训练数据集,见图2(b)。
图2 数据预处理过程及微调训练数据格式
RAG技术基于对病历生成规则库的检索,校正病历格式与内容,确保生成病历符合规范。本研究通过文本嵌入模型构建可动态更新的规则库,主要包括医院病历书写标准与制度、医疗文书质控标准、病历模板格式要求等标准与制度等。应用RAG技术可将所要检索的规则转换为与规则库语料相同维度的向量,通过向量相似度匹配,快速定位最相关的文档片段,实现高效语义检索。
模型微调是提升大语言模型生成效果的关键技术之一,能使生成的电子病历更具医疗专业性,书写格式更符合医院标准。为了平衡模型性能和算力资源,选取Qwen2.5-7B-instruct作为基础模型,采用LoRA微调方式,冻结大语言模型的绝大部分预训练参数,仅对少量新增或选择的参数进行训练,显著降低显存占用和计算成本,同时提高生成病历的专业性和准确性。将经微调的模型称为EMR-LLM。
采用本地部署的Dify智能体及工作流平台搭建病历生成智能体,见图3。医生输入要生成的文书类型(必需)、患者住院号(必需)、症状和病情等信息。智能体提取关键参数并判断要生成的病历类型,根据类型运行相应Python代码,从电子病历数据库中抽取入院情况、住院经过、出院记录等数据。EMR-LLM基于上述基础素材,生成结构化病历。智能体通过RAG技术检索病历生成规则库,自动审核生成的结构化病历草稿,判断其是否符合病历书写规范和内容完整性要求,如果数据要素齐全且格式规范,直接调用模板生成电子病历;如果不符合标准,将评估意见返回给EMR-LLM,重新生成病历,经过多次循环迭代,直至生成符合要求的病历。
图3 病历生成智能体工作流程
智能体应用层须对接Dify平台的标准API接口,以获取模型最终生成的病历内容;还须与EMR系统对接,通过API保存病历内容,实现数据回写。Dify平台以HTML页面展示返回的病历内容,该临时数据经人工确认符合预期,则可手动触发交互控件,调用EMR系统提供的HTTP协议,API将对应的患者标志、科室标志和确认后的病历内容等信息一并传入EMR系统后台,EMR系统根据内置逻辑算法校验数据内容的合法性,通过校验则将数据保存到数据库对应的表中。
在本地部署LLama-factory开源平台,并对模型进行监督微调,其中Qwen2.5-72B-Instruct部署在两台NVIDIA L40s服务器中,Qwen2.5-7B-Instruct微调硬件为一块NVIDIA 3090显卡,其他微调参数设置如下:深度学习框架采用PyTorch 2.6.0,Transformers 4.52.4学习率为1e-4,批处理大小为2,训练总轮次为3,混合精度训练设置为bf16。在评估阶段,采用双语评测替代(bilingual evaluation understudy,BLEU)、面向召回率的摘要评测辅助(recall-oriented understudy for gisting evaluation,ROUGE)作为效果评价指标。
BLEU常用于评估机器翻译或文本生成质量,ROUGE常用于评估文本摘要和生成结果的重合度,两者取值范围均为0—100,值越大表示生成效果越好。其中ωn为权重,Pn为文本正确匹配率,BP为惩罚项。ROUGE-1用于评估生成文本与参考文本中单个词的召回率。ROUGE-2用于评估生成文本与参考文本中双词组的召回率。ROUGE-L用于评估生成文本与参考文本之间的最长公共子序列的召回率和精确率的平均值。
(1)
(2)
抽取江门市中心医院妇科、产科、神经内科、康复科、泌尿科、神经外科、血液科、眼科、骨科、肾脏内科共10个科室的电子病历共15 000份、入院记录共10 000份、出院记录共5 000份,作为实验数据,按7∶2∶1的比例划分为训练集、验证集和测试集。以模拟医患对话作为输入,生成对应的病历内容,与真实病历(金标准)进行比对。微调前后模型效果,见表1。微调训练损失,见图4。微调后的模型EMR-LLM在各项指标上均有显著提升。其中BLEU-4指标提升36.19个百分点,ROUGE-1指标提升16.11个百分点,ROUGE-2指标提升33.7个百分点,ROUGE-L指标提升28.69个百分点。说明通过在医院真实病历数据上进行监督微调,模型掌握了更多医疗领域的专业知识和病历书写规范。
表1 微调前后模型生成效果比较(%)
评价指标微调前微调后BLEU-4 54.4390.62ROUGE-180.1796.28ROUGE-258.2591.95ROUGE-L64.5093.19
图4 EMR-LLM微调训练损失
在相同的测试集上,对比Qwen2.5-7B-instruct、HuaTuo-o1-7B、Llama-3-8B-UltraMedical与EMR-LLM生成病历的准确性、规范性和专业性,见表2。Qwen2.5-7B-instruct是未经微调的模型,虽然能够根据指令生成出院小结,但与真实病历格式、术语风格有较大差距。HuaTuo-o1-7B和Llama-3-8B-UltraMedical均经过大量医学数据微调,在医疗问答评估中已取得优异表现。两者所生成病历格式、术语风格与真实病历十分相似,但仍存在“幻觉”,以及内容错乱与缺失等问题,如个人史与家族史内容相同,个人史内容缺少等情况。两者参数数量与EMR-LLM相近,排除了模型参数量差异导致的结果差异。相比之下,EMR-LLM的优势主要体现在以下几个方面。一是通过对接业务数据库抽取患者性别、姓名、年龄、入院日期等基本信息,可以防止生成的电子病历出现基本信息错误,避免症状描述、诊断结论等重要内容遗漏关键信息或表述不规范。二是通过提示词工程规范生成病历的格式与内容,提高术语专业性和语言逻辑性。三是通过RAG检索病历生成规则库,对生成病历内容和格式进行质控,如检查病历内容是否存在前后不一致,女性患者是否缺少月经史等,进而提高病历生成质量。
表2 不同模型生成效果对比(%)
评价指标Qwen2.5-7B-instructHuaTuo-o1-7BLlama-3-8B-UltraMedicalEMR-LLMBLEU-4 54.4330.1314.9790.62ROUGE-180.1761.3233.8696.28ROUGE-258.2537.1920.5791.95ROUGE-L64.5038.3122.5793.19
病历生成智能体通过将生成内容回写到医院EMR系统,实现电子病历智能化生成。诊疗过程中,医生可直接调用智能体,输入患者住院号及基本情况,由系统自动生成病历草稿。医生只须审阅生成内容,并进行少量修改,即可完成病历书写。这种模式极大减轻了医生的文书工作负担,提高了病历书写效率。在人机界面融合方面,将病历生成智能体以系统弹窗形式嵌入EMR系统,便于医生确认生成结果。采取接口对接和功能嵌入方式,将经医生确认的生成结果写入EMR系统的相应字段。
经过3个月的试运行,智能体共辅助生成包括入院记录、出院小结等在内的各类电子病历300余份。统计结果显示,使用智能体生成病历可平均缩短病历书写时间约60%,医生对智能体生成内容的总体满意度达到90%以上。大部分参与试用的临床医生反映,智能体生成的病历内容比较完整、条理清晰,可大幅减少手动输入和修改的工作量。同时,由于智能体生成的病历在格式和术语上高度符合规范,减轻了病历质控部门后期审核及修改的负担。试运行期间还收集了医生提出的改进建议,例如进一步提高对复杂病例的处理能力、增加对不同专科病历模板的支持等。可针对反馈意见对模型和病历生成规则库进行持续优化。
为解决临床病历书写耗时费力的问题,本研究设计了一种基于大语言模型的病历生成智能体。一方面对电子病历自动生成进行全流程设计,包含数据预处理、模型微调、智能体搭建及对接电子病历系统的完整链路。另一方面,在数据训练阶段,除文本数据外,利用大语言模型根据电子病历内容模拟生成医患对话,更符合临床诊疗实际情况,提高了模型根据真实医患对话内容生成电子病历的泛化能力。实验结果和实际应用表明,该智能体生成的病历内容在准确性、完整性和规范性方面均达到较高水平。该智能体与医院现有电子病历系统融合后,能够有效减轻医生的文书工作负担,提高病历书写效率和质量。
本研究仍存在局限性,有待进一步探索和改进。一是对于多学科联合诊疗、罕见病等复杂病例,生成内容的准确性和深度不足。应不断提升大语言模型对复杂医疗场景的理解和生成能力。二是病历生成场景有限,且生成的病历内容未能充分体现不同专科的诊疗思维与侧重点。应进一步细化各专科病历生成流程,提升智能体的专业性与精准度,并扩展文书生成类型,如日常查房记录、手术记录等,建立更加全面的电子病历生成智能体。三是缺少多模态数据识别和分析功能,文书生成的数据来源依赖文本数据,无法对影像、报告等图像数据进行分析。随着人工智能及大语言模型技术的不断发展和医疗领域数据的积累,智能病历生成将应用于更多医院和临床场景。
作者贡献:陈宇聪负责数据预处理、模型微调、智能体设计、论文撰写;谭伟锋负责研究设计、论文撰写;戎伟鑫负责模型微调、系统开发;韩春春负责数据预处理、模型效果校验;王耿彬负责数据预处理、智能体设计。
利益声明:所有作者均声明不存在利益冲突。
1 LI Y,WU S,SMITH C,et al. Improving clinical note generation from complex doctor-patient conversation[C].Singapore:Pacific-Asia Conference on Knowledge Discovery and Data Mining,2025.
2 杜雪冰,关欣.数字时代的电子病历管理挑战与发展[J].中国医院院长,2024,20(3):71-73.
3 周文粲,陈洁,冯艳芳,等.大语言模型病历质控与病程记录生成评估方法研究[J].中国卫生信息管理杂志,2025,22(2):163-170.
4 颜见智,何雨鑫,骆子烨,等.生成式大语言模型在医疗领域的潜在典型应用与面临的挑战[J].医学信息学杂志,2023,44(9):23-31.
5 肖仰华,徐一丹.大规模生成式语言模型在医疗领域的应用:机遇与挑战[J].医学信息学杂志,2023,44(9):1-11.
6 田雪晴,李泉江,游茂,等.我国医疗机构大语言模型建设现状调查与分析[J].中国卫生信息管理杂志,2025,22(1):38-44.
7 卫生健康行业人工智能应用场景参考指南[EB/OL].[2025-02-22].https://www.nhc.gov.cn/guihuaxxs/c100133/202411/3dee425b8dc34f739d63483c4e5c334c.shtml.
8 刘少堃,何仲廉,李彬,等.基于大模型的电子病历自动生成系统的设计与应用探讨[J].中国数字医学,2024,19(8):8-13.
9 BROWN T,MANN B,RYDER N,et al. Language models are few-shot learners[J]. Advances in neural information processing systems,2020,33(5):1877-1901.
10 CHOWDHERY A,NARANG S,DEVLIN J,et al. Palm:scaling language modeling with pathways[J]. Journal of machine learning research,2023,24(240):1-113.
11 王文奇,郭梦帆,杨杜祥,等.大语言模型发展与应用综述[J].中原工学院学报,2025,36(2):1-8.
12 SOLARES J R A,RAIMONDI F E D,ZHU Y,et al. Deep learning for electronic health records:a comparative review of multiple deep neural architectures[J]. Journal of biomedical informatics,2020,101(1):103337.
13 孙磊,汪安安,宋一敏,等.大语言模型在临床医学领域的应用、挑战和展望[J].解放军医学院学报,2025,46(1):50-60.
14 ZHANG H,SONG H,LI S,et al. A survey of controllable text generation using transformer-based pre-trained language models[J]. ACM computing surveys,2023,56(3):1-37.
15 JIA M,DUAN J,SONG Y,et al. medIKAL:integrating knowledge graphs as assistants of LLMs for enhanced clinical diagnosis on EMRs[EB/OL].[2025-02-22]. https://arxiv.org/abs/2406.14326.
16 王博,于志昊,张军雁,等.基于电子病历数据和知识增强的医疗大语言模型构建方法研究[J].解放军医学院学报,2025,46(1):97-103,119.
17 李佳林,郜斌宇,陈卉.基于大语言模型的电子病历文本结构化[J].中国医疗设备,2025,40(5):42-46,52.
X