DOI:10.3969/j.issn.1673-6036.2026.02.009
刘蕾, 张越, 王蕾, 蒋俭
| 【作者机构】 | 首都医科大学附属北京同仁医院; 中国医学科学院/北京协和医学院医学信息研究所 |
| 【分 类 号】 | |
| 【基 金】 | 首都医科大学附属北京同仁医院青年管理人才项目(项目编号:2023-YJJ-ZZL-064)。 |
临床进修教育是提升医师临床实践能力的关键环节,科学评估其培训效果至关重要[1]。既有研究[2-4]多围绕进修项目的结构设置、满意度与教学质量等开展问卷调查,在推进评价指标体系建设和量化比较方面发挥了重要作用。然而,此类研究多依赖预设量表与固定题项,侧重总体满意度或有限维度的主观评分,难以及时、充分地捕捉进修医师在真实情境中的学习经历、个体诉求及潜在问题。与此同时,教育领域已有研究[5]引入文本挖掘与自然语言处理技术,对课程评价、教学反馈及在线学习评论等非结构化文本进行分析,证实文本挖掘能够在学习者情感识别、潜在问题预警和改进建议提炼等方面弥补传统方法的不足。但针对临床医师进修反馈评价开展的相关研究相对匮乏,鲜有从整体视角全面揭示进修体验的构成维度及情感倾向的实证工作。本研究聚焦进修医师评价文本,综合运用主题模型与情感分析方法,系统挖掘进修医师的关注重点与满意度情况,识别现阶段优势与薄弱环节,为精准优化临床进修教学与管理提供数据支持与决策参考。
收集首都医科大学附属北京同仁医院2023年9月28日—2025年9月29日结业进修医师填写的“进修工作情况调查表”共872份,提取其中“您对本次进修经历的评价”开放式文本题项回答数据,共获得有效文本869条。所有数据均在匿名条件下收集,研究仅用于教学管理改进,不涉及个人隐私信息。使用Python 3.12对原始自然语言文本进行数据清洗,删除无意义字符、表情符号、重复文本后,最终纳入861条文本数据开展研究分析。
采用BERTopic模型进行评价文本主题识别[6]。选用paraphrase-multilingual-MiniLM-L12-v2作为预训练模型,将预处理后的文本进行语义向量化;利用均匀流形近似与投影(uniform manifold approximation and projection,UMAP)算法对向量进行降维,利用层次密度聚类(hierarchical density-based spatial clustering of applications with noise,HDBSCAN)算法对语义相似文本进行聚类;利用基于类别的词频-逆文档频率(class-based term frequency-inverse document frequency,c-TF-IDF)计算各簇的关键词权重,以提取代表性术语。在此基础上,结合高频词与随机抽样的原始文本,对聚类结果进行人工审阅与语义标注,合并语义重叠主题,最终确定核心主题名称和分类结果。
基于PyTorch框架与Hugging Face Transformers库,加载中文预训练语言模型hfl/Chinese-robertawwm-ext-large进行情感分类,模型输出类别包括正向、中性与负向。从全部评价文本中随机抽取150条样本进行人工情感标注[7]。考虑到标注样本量有限且不同情感类别分布不均,为降低单次训练、测试划分带来的偶然性,并保证各类别在验证集中的代表性,对标注文本采用5折分层交叉验证,在每一折中以4/5的样本作为训练集、1/5的样本作为验证集。在模型微调阶段,引入Focal Loss损失函数缓解类别不平衡问题,并基于各折验证集上的表现进行超参数调优。采用准确率(accuracy)和宏平均F1(macro-F1)作为评价指标,计算5折结果的平均值及标准差,以衡量模型在小样本情感识别任务中的性能与稳定性。基于交叉验证中全部验证集的预测结果,构建3类情感的混淆矩阵,用于分析模型在不同情感类别上的识别差异。
借鉴改进的重要性-绩效分析(importanceperformance analysis,IPA)框架[8],构建“主题关注度-情感满意度”矩阵,确定改进优先级。基于BERTopic模型输出的主题概率分布计算主题关注度θk。其中,D 为文本总数,K 为主题总数,Pd,k 表示第d 条文本属于主题k 的概率。通过聚合各主题下的情感分类结果计算情感满意度αk。其中,
为主题k 下正向情绪文本数,
为主题k 下的总文本数。
鉴于本研究中关注度与情感满意度均为0~1区间的比例型指标,且存在偏态分布和极端值,中位数相较均值具有更好的稳健性[9],采用所有主题关注度和情感满意度的中位数作为划分阈值,将主题映射至“高关注-高满意”“高关注-低满意”“低关注-高满意”“低关注-低满意”4个象限,以刻画各主题的相对位置并界定管理改进优先级。
为揭示低满意度主题涉及的问题,对其中负向情绪文本开展关键词共现网络分析。针对情绪标注为负向的文本,构建自定义领域词典,利用jieba分词并去除停用词,以提高分词准确性。统计任意两个关键词在同一文本中的共现次数,构建关键词共现矩阵与加权网络,并设置共现次数阈值为3,仅保留不低于该阈值的关键词共现边,以减少噪声。采用社区检测算法Louvain对网络进行聚类,识别关键词高频组合,提炼待改进的“问题簇”。
BERTopic主题建模结果提示,有30条(3.48%)评价文本属离群值类、145条(16.84%)文本属“无评价”类、95条(11.03%)文本属“满意或感谢”短文本类、105条(12.20%)文本属“祝福或期待”等语义类,除此之外的486条(56.45%)文本共涉及6类主题:“信息设备”“教师评价”“收获体验”“教学培训”“后勤保障”和“进修管理”。
情感分析模型的5折平均准确率为0.906 7±0.032 7,macro-F1为0.904 5±0.039 5,说明在小样本条件下,模型在不同交叉验证折次之间的性能波动较小,具有一定稳定性和鲁棒性。基于交叉验证中全部验证集的预测结果,构建正向、中性和负向3类情感的混淆矩阵,见表1。模型对3类情感均具有较好的识别能力,仅有少量样本类别边界模糊。该模型共识别出正向文本236条(48.56%)、中性文本31条(6.38%)、负向文本219条(45.06%),见表2。
表1 情感分类混淆矩阵(条)
表2 进修评价文本主题类别与情感分类
6 类主题的主题关注度范围为0.04~0.35,情感满意度范围为0~0.90。以所有主题关注度的中位数0.15和情感满意度的中位数0.04作为分割阈值,将主题划分并命名为“优势巩固”“关键改进”“适度提升”和“次要优化”4个象限,见图1。“教师评价”(θ=0.35,α=0.90)与“收获体验”(θ=0.23,α=0.81)位于优势巩固区,提示教师水平和整体进修收获均具有较高关注度和较好满意度;“教学培训”(θ=0.21,α=0.02)位于关键改进区,为进修医师关注度较高但满意度相对较低的改进方向;“进修管理”(θ=0.10,α=0.07)位于适度提升区,提示其在关注度相对较低的情况下满意度亦有待提升;而“信息设备”(θ=0.04,α=0.00)与“后勤保障”(θ=0.07,α=0.00)皆位于次要优化区,表明相关支持性资源整体关注度和满意度水平均较低。
图1 主题关注度-情感满意度双指标象限图
通过对低满意度主题中的负向情感文本进行网络聚类与社区检测,识别出各主题下高频共现关键词的聚集结构及其对应的核心问题簇,见图2。
图2 低满意度主题负向情感文本关键词共现网络的Louvain社区结构
分析显示,“教学培训”主题的主要问题集中在手术实践机会不足、系统性培训缺乏及科研参与度低;“进修管理”主题的关键问题涉及流程烦琐、时间安排不合理及名额限制;“后勤保障”与“信息设备”主题则分别反映出生活支持不足和信息系统效率较低等问题。
“教师评价”与“收获体验”两大主题的高满意度,证实了高素质的临床师资与积极的学习体验是当前培训体系的核心竞争力。既有研究[10-11]强调要重视师资队伍建设,建议在保持现有优势的基础上,继续发挥优质师资的示范引领作用,推动优秀教学经验分享,扩大优势效应辐射范围。
“教学培训”主题的高关注度与低满意度形成对比,揭示了当前临床进修教学的主要改进方向。结果显示,临床实践训练、规范操作流程、科研思维培养、结构化教学活动4个方面存在突出短板,与既往研究[12]强调的进修体验关键影响因素相一致。可通过以下策略予以优化。一是临床技能培养方面,采用“导师制-知识更新-临床实践”教学培训模式[13],紧密贴合临床应用需求;完善分层递进的教学体系,建立与年资、能力水平相匹配的实践梯度,在科室内部通过分层操作授权与系统化床旁示教等方式,强化从观察到实操的能力转化。如在常规手术或操作中,由上级带教医师在术前明确进修医师可参与的操作环节,并在术后给予简要反馈,使实践机会从“随机获得”转向“指导评价”,从而更好地平衡教学价值与医疗安全。二是规范工作流程方面,现阶段院科两级培训更多停留在制度宣讲层面,缺乏针对进修医师角色的情境化引导。有必要在现有制度框架内,优化院前在线学习体系、更新标准化岗前培训手册,强化基于真实场景的流程导向[14]。通过对典型病例流程、系统操作路径与医疗运行节奏的整合介绍,使进修医师尽快掌握制度规范、诊疗流程、应急处理、信息系统应用等内容,从而缩短适应周期[15]。三是科研能力建设方面,当前科研培训与临床轮转之间存在脱节现象。应在进修周期内针对科研设计、论文撰写等薄弱环节,设置契合进修医师特点的科研培训系列课程,提出可实现的阶段性目标与连续性支持机制,如围绕既有临床病例或科室在研项目,引导进修医师完成文献综述、研究构思或病例报告等不同难度的科研任务,并通过集中授课或小组讨论形式,提供过程性反馈,增加进修医师接触科研的机会[16]。四是教学模式创新方面,虽然多数医院已开展教学查房和病例讨论,但文本反馈提示其临床思维训练的实际效果有限。建议丰富结构化教学活动比重,围绕典型病例设置标准化诊疗决策节点,引导进修医师阐述思路,再由高年资医师进行聚焦式点评。与简单增加教学活动数量相比,这种基于问题与决策过程的结构化调整,更有助于提升满意度与教学效果[17]。
“进修管理”主题反映了行政流程效率、岗位工作安排和信息沟通响应3方面问题,提示以行政管理为中心的模式难以充分回应进修医师的体验需求。在有限资源约束下,管理优化的关键在于通过流程再造与信息化手段,提升管理效率与学习者参与体验。在行政流程效率方面,评价文本集中反映了进修管理路径烦琐的问题。应升级进修医师全流程管理系统[18],通过流程可视化和节点前移提升感知效率。将涉及的主要管理节点以流程图或时间轴形式呈现,使进修医师在学习过程中全面了解每个关键环节及所需材料,从而减少反复咨询与线下办理[18]。在工作安排与时间分配方面,“临床任务重、学习时间少”的反馈比较突出,揭示了进修医师角色界定模糊的现状。应深入探讨进修医师嵌入式岗位工作模式[19],按比例分配临床服务与参训时间,帮助其改善时间分配失衡状况,以便有余力从事学术或科研活动。另外,通过在排班和考核中适度强化“学习任务”,推动临床科室从“以人手补充为主”转向“以培养目标为导向”的岗位使用逻辑。在信息沟通响应方面,进修医师接收各类信息处于相对被动状态,应将进修管理由单向告知转为双向、持续的互动机制。一方面,通过统一在线平台整合培训安排、值班要求、考核信息等关键通知,减少依赖工作群等方式分散发布消息;另一方面,建立固定渠道收集进修医师在轮转安排、学习资源等方面的意见,并对共性问题进行定期反馈和说明,从而增强管理的透明度和应答性。
“后勤保障”与“信息设备”两个主题虽然对整体进修体验的影响有限,但作为培训环境建设的支撑环节,可能通过累积效应削弱教学与管理改进的成效。在工作环境与生活保障方面,部分进修医师提及提供住宿、改善环境、提升就餐体验等需求,据此应在有限资源内适度提升环境的舒适度与后勤保障的可及性。可推行食宿安排与生活设施信息透明化,使进修医师对即将面对的生活环境有合理预期,减轻落差感。提高进修医师生活补助,加强人文关怀,以减轻其经济与情绪压力。在信息化支持方面,医院信息系统及信息设备有较大提升空间。同时,应提高现有工作和学习平台对进修医师的开放程度,重点提升文献以及线上教学等资源的可及性,并优化访问流程与使用体验。
基于文本挖掘的临床进修反馈分析,有效识别出进修培训的优势与改进重点,验证了该方法在教学评估中的应用价值。本研究尚存在一定局限性。一是情感分析方法依赖预训练模型,且当前人工标注样本量较少,可能导致分析偏差。后续研究可通过扩大标注规模或引入主动学习策略进一步提升模型性能。二是研究数据仅来源于一家三甲教学医院的横断面评价文本,结果主要反映了该院进修教学管理的现状特征,结果的外部代表性有待进一步验证。未来可通过多渠道数据采集和多维度研究方法,完善分析框架并开展针对性干预研究,以验证改进措施的效果,推动临床进修培训持续优化。
作者贡献:刘蕾、张越、王蕾负责研究设计、数据分析、论文撰写;蒋俭负责提供指导、论文修订。
利益声明:所有作者均声明不存在利益冲突。
1 张潇潇,李娟,刘扬,等.某医院血液科进修医师培训满意度影响因素研究[J].中华医学教育探索杂志,2020,19(11):1328-1330.
2 王婷,马晓,金铭,等.三级综合医院进修医师满意度及需求调查[J].中国公共卫生,2017,32(10):1515-1518.
3 张潇潇,曾庆奇,侯丽如,等.进修医师培训质量满意度影响因素研究[J].中国卫生经济,2022,41(12):98-100,109.
4 蒙世佼,霍墨菲,张家亮.脑血管病专科进修医师工作满意度与培训成效分析及改进策略研究[J].中国医刊,2025,60(5):613-616.
5 林铭炜,许江松,林佳胤,等.面向在线教育的学习者情感识别综述[J].控制与决策,2024,39(4):1057-1074.
6 EGGER R,YU J.A topic modeling comparison between LDA,NMF,Top2Vec,and BERTopic to demystify twitter posts[J].Frontiers in sociology,2022,7(5):886498.
7 GAO T,FISCH A,CHEN D.Making pre-trained language models better few-shot learners[C].Online:The 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing,2021.
8 毕达天,王璐,王雨菲,等.AIGC产品用户需求特征体系构建及改进策略研究[J].图书情报工作,2024,68(14):14-24.
9 BACON D R.A comparison of approaches to importanceperformance analysis[J].International journal of market research,2003,45(1):1-15.
10 宋泽亮,孙嫣然,杨红军,等.基于一院多区管理模式下进修医师培训现状与管理对策分析[J].中国医药导报,2025,22(3):107-110.
11 王燕,袁佳艳,张菲菲.我国教学医院进修医生管理存在的问题及对策[J].医学与社会,2019,32(1):127-129.
12 FU Y,ZHAO G,YU C,et al.Study on strategies to improve clinical fellow training satisfaction based on importance-performance analysis(IPA)[J].BMC medical education,2025,25(1):1137.
13 马满姣,马璐璐,王锐颖,等.麻醉科进修医师临床教学培训模式的探索研究[J].协和医学杂志,2024,15(2):462-465.
14 罗林枝,李琦,罗静,等.北京协和医院进修医师院前培训在线学习模式探索与学习效果评估[J].基础医学与临床,2017,37(3):431-434.
15 张佩,胡亚洲.肿瘤专科医院进修培训模式及改进思考[J].医院管理论坛,2021,38(8):77-79,74.
16 马璐璐,王锐颖,张志永,等.北京协和医院麻醉科进修医师科研规范化培训模式探索[J].中国医药导报,2024,21(10):50-53.
17 FRATUS A,NIRUNSUK P,FENG X,et al.A survey on the perspective and benefits of being an international visiting surgeon at a leading level I trauma centre[J].International orthopaedics,2025,49(1):29-33.
18 李欢,周磊.三级医院进修生全流程管理系统的设计与实现[J].中国数字医学,2022,17(5):35-39.
19 GALLOWAY R,CASTLE J,BROWN A,et al.An evaluation of clinical fellow programmes in an acute teaching hospital trust[J].British journal of hospital medicine,2023,84(10):1-6.
Analysis and Im provem ent Strategies of C linical Fellow ship Feedback Based on Text M ining
X