DOI:10.3969/j.issn.1673-6036.2025.11.008
中图分类号:TP181;|R192.6
高铭阳1, 袁晓彤1, 吴玉兰2, 尹娟1
| 【作者机构】 | 1大连大学护理学院; 2大连市第七人民医院护理部 |
| 【分 类 号】 | TP181;R192.6 |
| 【基 金】 |
护士作为医疗团队的核心成员,长期处于高强度工作状态。三级医院患者病种复杂,工作强度高、节奏快,且突发事件频发,护士要熟练掌握基础操作,同时付出大量情绪劳动,成为职业倦怠高危人群[1]。《国际疾病分类》2024版[2]将职业倦怠描述为由长期工作压力未得到成功管理所引起的一种综合征。护士职业倦怠不仅会使其对护理工作丧失动力、对患者缺乏热情,长期情绪失控更易引发焦虑、抑郁,身体上出现眩晕、头痛、恶心等表现,身心失衡严重危害其健康[3]。
目前测量护士职业倦怠主要依赖各种主观量表[4]。此类量表虽为评估提供了参考,但存在固有局限,结果易受被试者主观态度、作答偏差影响,难以全面反映职业倦怠客观状态。机器学习[5]是人工智能技术的重要分支,具有良好的数据处理和前瞻性预测能力。国内关于护士职业倦怠的风险模型构建仍处于探索阶段,现有研究多以统计学方法构建风险预测模型[3]。探索多元分析方法,构建符合我国护士群体特点的风险预测模型具有重要研究价值。本研究基于文献调研,设计调查问卷,引入客观指标,开发适合护理管理者使用的高效、多维度护士职业倦怠评估工具,并运用机器学习算法构建预测模型,探索最优算法。
以辽宁省三级医院临床护士为调查对象。纳入标准:工作地点为三级医院,具有注册护士证书,且实际从事护理工作;工龄(执业注册后在岗工作时间)不低于1年,不超过30年。排除标准:因病假、事假、产假等原因不在岗,或者处于返聘、进修学习状态;工作地点为三级民营医院。本研究经大连市第七人民医院伦理委员会批准,伦理批件号:2025-04。
2.2.1 样本量计算 根据既往研究[6],护士职业倦怠发生率约41%,设允许误差为5%,α值为0.05,通过PASS 15.0软件中Proportions模块计算样本量N=372,按科室与工龄进行分层整群抽样。考虑每层脱落率为20%,至少应纳入500人。
2.2.2 调查工具 一是护士工作情况调查问卷。通过系统综述,归纳护士职业倦怠风险因素主要包括个体、工作特征和组织环境3类。结合我国国情与护士工作特点设计问卷,共23个客观题项。经检验,问卷的取样适当性(Kaiser-Meyer-Olkin,KMO)值为0.786,表明其具有良好的结构效度,适合因子分析。二是哥本哈根职业倦怠量表(the Copenhagen burnout inventory,CBI),由Kristensen T S等[4]于2005年编制,含个体、工作、患者或同事倦怠3个维度,19个条目,采用李克特5级评分(1—5分),总分19~95分。原量表Cronbach’s α系数为0.86,各维度Cronbach’s α系数为0.85~0.87。2020年吴军等[7]对其进行修订,修订后量表Cronbach’s α系数为 0.936,各维度Cronbach’s α系数为0.853~0.932,KMO=0.945,信效度良好,适用于我国医务人员。因此采用修订版CBI测量护士职业倦怠程度,50~95分为职业倦怠,19~49分为非职业倦怠。本次调查Cronbach’s α系数为0.975,各维度分Cronbach’s α系数为0.834~0.960,信度良好。
2.2.3 调查方法 2025年3—5月,先以便利抽样对符合纳排标准的25名护士开展预调查,完善调查工具。之后采用分层整群抽样,通过问卷星发放问卷,同IP限答1次,要求填写完整。剔除作答低于2分钟、答案规律重复、不符合纳排标准、未通过身份验证以及注意力题回答错误的问卷。共回收998份问卷,有效问卷908份,有效率为90.98%。
2.2.4 统计学分析 使用SPSS 27.0分析数据,分类变量以n(%)表示,组间比较应用卡方检验或 Fisher 确切概率法;连续变量以中位数和四分位数间距表示,组间比较应用Mann-Whitney U检验。单因素分析非职业倦怠组与职业倦怠组差异,P<0.05表示差异有统计学意义。问卷信度评价中,采用Cronbach’s α系数检验内部一致性信度,采用探索性因子分析检验结构效度。
2.2.5 数据预处理与分析 为构建非职业倦怠(标签“0”,441例)与职业倦怠(标签“1”,467例)二分类预测模型,对变量进行提取并编码。数据集类别基本平衡(比例接近1∶1),避免了后续模型训练因类别不平衡产生偏差。对数据进行平滑与归一化预处理,然后进行基线分析、共线性分析、特征重要性排序。使用Python 3.6及其sklearn.ensemble、sklearn.model_selection、sklearn. metrics等库进行模型搭建和相关计算分析。
2.2.6 预测模型构建 采用集成学习中的堆叠泛化(stacking)集成模型策略[8],以提升预测精度与泛化能力。(1)算法选择。选取随机森林(random forest,RF)、极度随机树(extra trees,ET)、梯度提升决策树(gradient boosting decision tree,GBDT)、极端梯度提升树(extreme gradient boosting,XGBoost)、K近邻(K-nearest neighbors,KNN)、支持向量机(support vector machine,SVM)和逻辑回归(logistic regression,LR)7种算法。(2)分层交叉验证。采用10折分层交叉验证,确保每折中训练集和测试集的类别分布(非职业倦怠/职业倦怠)与原始数据一致。每折并行训练多个基础模型并计算评估指标。(3)最优折选取。分析每种模型组合在10折交叉验证中所有测试集上的受试者工作特征曲线下面积(area under the receiver operating characteristic curve,AUC)表现,选取AUC值最高的第8折,作为后续模型构建基础。(4)模型训练与测试。基于选定的第8折数据划分方案,使用其中的训练集独立训练7种不同的学习器,并在对应测试集上获取各模型的预测结果。(5)模型性能评估。采用AUC、F1值、敏感性、特异性、准确率、平均精确率、阳性预测值、阴性预测值评估模型性能。(6)Stacking集成模型构建。以最优模型作为元学习器,同时选取排名前3位的模型作为基学习器(包含元学习器),构建4种Stacking集成模型(包括3种基学习器的两两组合模型,以及3种基学习器的整体组合模型),对最终选定的最优Stacking集成模型进行全面评价,包括受试者工作特征曲线、决策曲线、校准曲线。使用SHAP值[9]量化分解各输入特征对预测结果的边际贡献,以明确并展示预测模型中每个特征的贡献程度。筛选性能最优者为最终预测模型。模型构建流程,见图1。
图1 模型构建流程
本研究共纳入908例数据,职业倦怠组467例,非职业倦怠组441例。两组在科室、聘用形式、每周工作时间、遭受暴力次数、被投诉次数、被批评次数的组间差异均有统计学意义(P<0.05),数据集基线特征,见表1。共线性分析结果,见图2。年龄与工龄相关系数为0.97,呈强相关;婚姻状况与子女数量相关系数为0.62,呈显著正相关;性别与科研时间占比,考试或培训次数与患者沟通时间占比,相关系数接近0,线性关联弱。
表1 护士职业倦怠风险预测模型数据集基线特征
变量非职业倦怠组(n=441)职业倦怠组(n=467)P性别[n(%)]女393(89.1)428(91.6)0.236 7男48(10.9)39(8.4)年龄[岁,M(P25,P75)]32(27,41)33(28,42)0.086 5工龄[年,M(P25,P75)]10(5,17)10(5,20)0.308 6科室[n(%)]内科病房118(26.7)104(22.3)0.006 1外科病房118(26.7)107(22.9)手术室35(7.9)56(11.9)重症监护室45(10.2)49(10.4)急诊36(8.2)53(11.4)儿科40(9.2)55(11.8)精神科和心理科49(11.1)43(9.3)教育程度[n(%)]中专8(1.8)10(2.1)0.320 0大专47(10.7)50(10.7)大学本科(非全日制)225(51.0)218(46.7)大学本科(全日制)152(34.5)175(37.5)硕士研究生(非全日制)8(1.8)7(1.5)硕士研究生(全日制)1(0.2)7(1.5)被聘用职称[n(%)]护士126(28.6)100(21.4)0.624 6护师137(31)152(32.6)主管护师127(28.8)166(35.6)副主任护师43(9.7)47(10.0)主任护师8(1.9)2(0.4)婚姻状况[n(%)]未婚163(36.9)165(35.4)0.951 2已婚260(58.9)293(62.7)离异15(3.5)8(1.7)丧偶3(0.7)1(0.2)聘用形式[n(%)]合同制(院聘)258(58.5)225(48.2)0.010 4编制内(事业编制)173(39.2)227(48.6)劳务派遣(第三方聘用)10(2.3)15(3.2)子女数量[个,M(P25,P75)]2(1,2)2(1,2)0.691 2一个月内夜班数[次,M(P25,P75)]3(0,6)3(0,7)0.849 4工资区间[元/月,M(P25,P75)]6 000(4 000,7 000)5 000(4 000,7 000)0.429 9每周工作时间[小时,M(P25,P75)]43(40,48)48 (40,48)0.000 0执行治疗时间占比[%,M(P25,P75)]50(0,75)50(25,75)0.480 6文书工作时间占比[%,M(P25,P75)]50(0,75)50(0,75)0.497 0患者沟通时间占比[%,M(P25,P75)]25(0,50)25(0,50)0.334 3管理工作时间占比[%,M(P25,P75)]50(25,50)50(25,50)0.934 6科研时间占比[%,M(P25,P75)]0(0,50)0(0,50)0.135 8遭受暴力次数[次,M(P25,P75)]0(0,1)0(0,2)0.000 0被投诉次数[次,M(P25,P75)]0(0,0)0(0,0)0.000 0被批评次数[次,M(P25,P75)]0(0,0)0(0,2)0.000 0单位表扬次数[次,M(P25,P75)]0(0,1)0(0,1)0.242 7患者感谢次数[次,M(P25,P75)]0(0,1)0(0,1)0.380 2考试或培训次数[次,M(P25,P75)]0(0,4)0(0,4)0.893 4
图2 共线性分析
特征重要性排序,见图3。被批评次数的重要性最高,其次是遭受暴力次数、每周工作时间、年龄、科室;婚姻状况最低。
图3 风险因素特征重要性排序
注:Median为中位数,S_cor为Spearman相关系数,ER_RF为随机森林的错误率,AUC_CF为分类器的曲线下面积,P_cor为Pearson相关系数,LogReg为逻辑回归系数,Gini_RF为随机森林的基尼系数,ER_CF分类器的错误率。
7种算法在测试集的结果,见表2。
表2 7种机器学习算法的预测性能
算法AUC准确率敏感性特异性F1阳性预测值阴性预测值平均精确率RF0.7180.6670.6170.7170.6520.6910.6470.620ET0.6950.6240.4890.7610.5680.6770.5930.589KNN0.6670.5810.4260.7390.5060.6250.5570.556GBDT0.6920.6340.5960.6740.6220.6510.6200.592XGBoost0.7170.6450.5750.7170.6210.6750.6230.603SVM0.6870.6450.5750.7170.6210.6750.6230.603LR0.7300.7200.6380.8040.6980.7690.6850.674
综合评估显示,LR表现最佳,AUC和准确率显著高于其他模型,且特异性和阳性预测值表现突出,在正确识别非职业倦怠护士以及预测可靠性方面具有显著优势。RF和XGBoost的AUC值表现次之,且RF显示出较高的敏感性。ET虽然特异性较高,但敏感性过低,导致其漏诊率较高。GBDT和SVM表现中等。KNN在所有指标上均表现最差,不适于本预测任务。最终LR模型被确定为性能最优的单一模型。后续Stacking集成学习将以LR为元学习器,LR、RF和XGBoost模型作为基学习器。
RF_LR Stacking集成模型在AUC(0.764)、准确率(0.720)、特异性(0.804)上表现最优,见表3。融合3种算法的 RF_XGBoost_LR Stacking集成模型AUC(0.763)、准确率(0.699)、特异性(0.761)表现次之。RF_XGBoost和XGBoost_LR Stacking集成模型表现稍弱,两者特异性均为0.761,平均精确率分别为0.632、0.641,整体在减少非职业倦怠群体误判与提升预测结果可信度上表现不及前两个模型。4种模型的AUC均集中在0.755~0.764之间,核心指标差异较小,但结合临床筛查需求,要优先保证减少漏诊与准确识别非倦怠群体,RF_LR Stacking集成模型在特异性与准确率等关键指标上的优势,成为综合性能最优的预测模型。各模型受试者工作特征曲线、决策曲线和校准曲线,见图4。
表3 4种stacking集成模型的预测性能
算法AUC准确率敏感性特异性F1阳性预测值阴性预测值平均精确率RF_XGBoost0.7590.6770.5960.7610.6510.7180.6480.632RF_LR0.7640.7200.6380.8040.6980.7690.6850.674XGBoost_LR0.7550.6880.6170.7610.6670.7250.6600.641RF_XGBoost_LR0.7630.6990.6380.7610.6820.7320.6730.650
图4 4种Stacking集成模型性能评价
图5 模型特征贡献SHAP值
模型纳入23个风险特征,核心风险特征为被批评次数、遭受暴力次数、被投诉次数、一个月内夜班数。当每年被批评4次及以上时,SHAP值急剧上升(0.05~0.25),每增加1次批评,职业倦怠风险提升8.2%。每遭受1次暴力事件,SHAP值增加0.03,职业倦怠风险提升6.5%,当每年遭受暴力事件3次及以上时,SHAP值突破0.1(高风险区)。当每年被投诉3次及以上时,SHAP值突破0.1(风险陡增),当每年被投诉5次时,SHAP值达峰值0.125。当一个月内夜班不超过4次时,影响微弱;当一个月内夜班超过8次时,职业倦怠风险急剧提升。关键保护性特征为患者感谢次数、管理工作时间占比。当护士每年收到患者感谢4次及以上时,每增加一次感谢,职业倦怠风险降低4.3%。每周参与管理工作时间占比维持在20%~30%时,不会引发职业倦怠风险,如果过低(低于10%)或过高(高于40%),职业倦怠风险会上升5%。
7种单一机器学习算法性能差异显著,其中LR展现最佳综合性能,显著优于RF、XGBoost 等树类算法。该结果与周闯等[10]提出的线性模型在高特异度需求场景中更具优势的结论高度一致,印证机器学习处理多维度特征时,结合应用场景选择算法的重要性。LR的高特异度可有效识别非倦怠群体,适合作为临床初筛工具;其阳性预测值较高,有助于护理管理者快速定位高危个体。虽然树类算法在捕捉非线性特征关联方面具有潜力,但其敏感度低于LR,与张维等[11]指出的树类算法在样本量有限时易过拟合导致漏诊的结论相符,该缺陷在筛查场景中可能遗漏部分早期职业倦怠筛查对象,提示大规模筛查应优先选择LR等兼具精度与稳定性的算法。
采用Stacking集成模型策略融合基学习器后,RF_LR Stacking集成模型预测性能显著提升,AUC较单一LR提升4.7%,且其准确率、F1值等核心指标表现最佳。印证集成学习融合不同算法优势可提升模型泛化能力的理论[12]。融合3种算法的RF_XGBoost_LR Stacking集成模型与RF_LR Stacking集成模型性能接近,但计算复杂度更高,提示应权衡模型性能与部署成本。Kong G等[13]也应用Stacking集成模型提升了预测性能,但本研究中RF_LR Stacking集成模型AUC更高,能更精准地区分两类群体,尤其适用于须动态监测的高风险科室(如急诊科、手术室)。结合受试者工作特征曲线分析,该模型在假阳性率与真阳性率的平衡上表现优异,可为护理管理者提供可靠决策依据。
《全国护理事业发展规划(2021—2025)》[14]中提出医疗机构为护士提供必要的卫生防护和医疗保健措施,有效预防和减少护士在职业环境中可能受到的危害,切实维护和保障护士合法权益,以推动护理行业高质量发展。SHAP值分析揭示了模型预测核心逻辑。被批评次数、遭受暴力次数、被投诉次数是权重最高的风险特征,年被批评次数每增加1次,职业倦怠风险提高8.2%,年暴力事件达到3次,护士发生职业倦怠进入高风险区间(SHAP值超过0.1),与基线分析及Haight B L等[15]负性事件累积效应的结论一致。据此医疗机构可建立负性事件分级响应机制;优化投诉处理流程,设立多部门投诉调解小组;建立暴力零容忍机制,配备安防设备并开展应急培训,并纳入医院安全考核[16]。患者感谢次数与管理工作时间占比(20%~30%)具有显著保护效应,与谷良丹等[17]的职业价值感可缓冲工作压力研究结果相印证。每年收到患者感谢4次及以上,可使职业倦怠风险降低4.3%,管理工作占比低于10%或高于40%则风险上升5%。医院可搭建患者反馈平台(如电子感谢系统)、设计分层级管理培训路径,避免管理职责失衡致压力过载。针对暴力事件心理创伤,配备专项支持方案:由专业咨询师提供一对一匿名疏导;对严重创伤者,启动持续干预(阶段性辅导、团体支持),以修复其心理状态[18]。上述措施可实现风险防控与正向激励双重发力,为政策落地提供精准路径。
本研究落地方案包括以下几方面。一是模型工程化,选取RF_LR Stacking 集成模型进行轻量化改造,确保集成至医院系统后单批次响应时间在3秒之内。二是多源数据采集,通过系统接口自动获取工龄、科室等结构化数据,开发端口供护理管理者录入动态指标,内置逻辑校验保障质量。三是平台搭建,建立可视化预测平台,输出结果并借SHAP值揭示关键特征,使用仪表盘按个体、工作特征等维度展示风险分布。四是落地保障,遵循数据隐私保护规范,形成“数据采集-风险预测”闭环管理,为护士职业倦怠动态监测提供持续精准保障[19]。
本研究构建的LR及RF_LR Stacking集成模型为护士职业倦怠筛查提供了高效工具,后者融合线性与非线性算法优势,保持可解释性与预测精度。SHAP值分析揭示的核心特征,为政策落地提供靶向路径。模型部署能有效推动模型从技术研发阶段转化为临床护理管理的实践应用工具,助力护理管理者高效开展护士职业倦怠的日常筛查工作,实现技术转实践的有效落地。本研究仍存在局限,虽然模型在辽宁省三级医院样本中表现良好,但其普适性有待不同地区、不同等级医疗机构的多中心数据验证。未来将扩大样本,覆盖基层医疗机构,通过动态更新模型参数提升普适性,为我国护理事业进步及护理队伍稳定发展提供支撑。
作者贡献:高铭阳负责问卷设计、预测模型构建、论文撰写;袁晓彤负责问卷调查实施、数据收集与整理;吴玉兰、尹娟负责论文审核与修订。
利益声明:所有作者均声明不存在利益冲突。
1 吴淑君,冯伟杰.护士职业倦怠测评工具及心理干预措施的研究进展[J].职业与健康,2024,40(6):842-846.
2 Wourld Health Organization.ICD-11 for mortality andmorbidity statistics 2024-01[EB/OL].[2024-09-30].https://icd.who.int/browse/2024-01/mms/zh#129180281.
3 沈月,周炜,肖雅,等.临床护士重度职业倦怠预测模型的构建[J].护理管理杂志,2023,23(10):797-802.
4 KRISTENSEN T S,BORRITZ M,VILLADSEN E,et al. The Copenhagen burnout inventory:a new tool for the assessment of burnout[J]. Work &stress,2005,19(3):192-207.
5 张丽达,梁晟,农世相,等.基于机器学习算法构建晚期直肠癌病人疼痛危象预测模型[J].护理研究,2025,39(17):2900-2907.
6 CHAKRABORTY R,CHATTERJEE A,CHAUDHURY S. Internal predictors of burnout in psychiatric nurses:an Indian study[J].Industrial psychiatry journal,2012,21(2):119-124.
7 吴军,刘文斌,冯婷,等.哥本哈根倦怠问卷的修订及信效度检验[J].护理研究,2020,34(23):4149-4153.
8 MAO Z,XIA M,JIANG B,et al.Incipient fault diagnosis for high-speed train traction systems via stacked generalization[J].IEEE transactions on cybernetics,2020,52(8):7624-7633.
9 WU J,CHAN Y T,LU Y,et al.The tumor microenvironment in the postsurgical liver:mechanisms and potential targets of postoperative recurrence in human hepatocellular carcinoma[J].Medicinal research reviews,2023,43(6):1946-1973.
10 周闯,金学勤,郭正丽,等.不同机器学习算法的社区老年人认知衰弱风险预测模型比较[J].护理学杂志,2023,38(19):1-5,11.
11 张维,张浩晨.一种基于最优集成随机森林的小样本数据特征提取方法[J].西北工业大学学报,2022,40(6):1261-1268.
12 MAHAJAN P,UDDIN S,HAJATI F,et al.Ensemble learning for disease prediction:a review[J].Healthcare,2023,11(12):1808.
13 KONG G,WU J,CHU H,et al.Predicting prolonged length of hospital stay for peritoneal dialysis-treated patients using stacked generalization:model development and validation study[J]. JMIR medical informatics,2021,9(5):e17886.
14 国家卫生健康委员会.全国护理事业发展规划(2021—2025年)[EB/OL].[2025-09-24].https://www. fj.gov.cn/zwgk/ztzl/tjzfznzb/zcwj/gj/202205/t20220510_5906448.htm.
15 HAIGHT B L,PEDDIE L,CROSSWELL A D,et al. Combined effects of cumulative stress and daily stressors on daily health[J].Health psychology,2023,42(5):325.
16 MONTGOMERY A P,PATRICIAN P A,AZUERO A. Nurse burnout syndrome and work environment impact patient safety grade[J].Journal of nursing care quality,2022,37(1):87-93.
17 谷良丹,林金燕,陈瑶偏,等.精神科一线临床护士职业获益感与职业价值观和知觉压力的相关性[J].健康研究,2024,44(3):259-264.
18 廖俪雯,王琳.遭受工作场所暴力急诊护士情绪调节策略在应对方式与抗逆力之间的调节效应[J].护理学杂志,2023,38(13):1-6.
19 周丽娟,温贤秀,蒋蓉,等.机器学习在护理领域中的应用研究进展[J].护士进修杂志,2022,37(15):1388-1392.
X