摘要
目的/意义 采用不同算法构建医院临床科室绩效聚类模型,探讨最佳聚类算法及临床科室绩效分布特点。方法/过程 采用k-means、k-medoids、GMM 3种聚类算法,分析2019年6月—2024年6月临床科室绩效数据,以轮廓系数评价模型结果,通过主成分分析技术可视化绩效分布特点。结果/结论 k-means聚类算法在医院绩效数据分析中效果最佳,临床科室绩效呈现3大类群分布,为医院科室运营绩效管理提供参考。
关键词:
医院管理
绩效数据
聚类算法
轮廓系数
近年来,我国先后发布《关于建立现代医院管理制度的指导意见》《关于加强三级公立医院绩效考核工作的意见》《关于推动公立医院高质量发展的意见》等重要文件 ,提出医院绩效管理目标和要求,成为医院高质量建设发展的关键抓手。在相关政策推动下,我国医院绩效管理已取得显著成效,但仍须深化和完善。绩效数据是医院绩效管理的基础,《国家三级公立医院绩效考核操作手册(2024版)》 提出医疗质量、运营效率、持续发展、满意度评价4类55项绩效数据指标。本研究在构建医院临床科室绩效指标体系基础上,应用k-均值(k-means)、k-质心(k-medoids)、高斯混合模型(Gaussian mixture model,GMM)共3种聚类算法 构建模型,探索适用于医院临床科室绩效数据的聚类算法,揭示其绩效分布特点,为医院科室运营绩效管理提供参考。
收集医院信息系统2019年6月—2024年6月的历史绩效数据。
参考《国家三级公立医院绩效考核操作手册(2024版)》 公布的绩效考核指标体系,运营效率相关指标包含资源效率、收支结构、费用控制、经济管理4部分,共19个指标。构建医院临床科室绩效指标体系,见 表1
2.3.1 数据采集与预处理 使用Microsoft Excel 2016对医院科室历史绩效数据进行预处理,过滤非临床科室绩效数据,共获得30个临床科室与10个特征指标的绩效数据集,保存为CSV表。使用Python 3.8.1作为编程语言,基于Jupyter Notebook编程平台进行算法与模型搭建。
2.3.2 数据标准化 由于绩效数据特征指标尺度和范围不同,为消除量纲影响,对数据集进行标准化处理 [8-12] 。使用sklearn框架下preprocessing模块的StandardScaler函数对上述10个特征指标进行标准化 [13-16] 。主要步骤:通过pandas库读取绩效数据集CSV表,用sklearn.preprocessing.StandardScaler方法拟合和转换数据,最后将标准化数据矩阵保存为CSV表。设 标准化处理公式如下。式中, 是样本数量, [
{
"name": "text",
"data": "ij"
}
] 是第 个样本的第 个特征, [
{
"name": "text",
"data": "j"
}
] 表示第 个特征的均值, [
{
"name": "text",
"data": "j"
}
] 表示第 个特征的标准差, 表示每个特征 [
{
"name": "text",
"data": "ij"
}
] 标准化后的特征值。
2.3.3 聚类分析 选择最佳聚类模型数目 值,构建聚类模型,采用主成分分析(principal component analysis,PCA)技术进行降维可视化 [17-20] 。使用肘部法和轮廓系数法确定k-means模型、k-medoids模型、GMM模型的最佳聚类数目 值 [21-25] ,各模型主要步骤如下。(1)k-means模型。通过遍历不同的 值,调用sklearn.cluster模块KMeans类进行聚类,设置参数为n_clusters= 、init=‘-means++’、max_iter=300、n_init=10、tol=0.000 1和random_state=42,使用sklearn.metrics模块中的silhouette_score函数、sklearn.cluster模块KMeans类中的‘inertia_’属性分别计算每个 值对应的轮廓系数(silhouette score)、簇内误差平方和(sum of squared errors,SSE)。选定最佳 值后,调用sklearn.cluster模块KMeans类构建模型,设置参数为n_clusters=optimal_K、init=‘k-means++’、max_iter=300、n_init=10、tol=0.000 1和random_state=42。调用sklearn.decomposition模块PCA函数进行降维,参数为n_components=2。最后,利用Matplotlib库绘制肘部图、轮廓系数图和PCA降维可视化图。(2)k-medoids模型。通过遍历不同的 值,调用sklearn_extra.cluster模块中的KMedoids类进行聚类,设置参数为n_clusters= 、init=‘k-medoids++’、max_iter=300和random_state=42,并使用sklearn.metrics模块中的silhouette_score函数和sklearn_extra.cluster模块KMedoids类中的‘inertia_’属性计算每个 值对应的silhouette score和SSE。选定最佳 值后,再次调用sklearn_extra.cluster模块中的KMedoids类构建模型,参数为n_clusters=optimal_K、init=‘k-medoids++’、max_iter=300和random_state=42。最后,绘制肘部图、轮廓系数图和PCA降维可视化图,方法同前。(3)GMM模型。通过遍历不同的 值,调用sklearn.mixture模块GaussianMixture类聚类,设置参数为n_components= ,random_state=42,使用sklearn.metrics模块中的silhouette_score函数、sklearn.mixture模块GaussianMixture类中的aic、bic函数分别计算每个 值对应的轮廓系数、赤池信息量准则(akaike information criterion,AIC)和贝叶斯信息量准则(Bayesian information criterion,BIC) [26-27] 。选定最佳 值后,再次调用sklearn.mixture模块中的GaussianMixture类构建模型,设置参数为n_components=optimal_K、random_state=42。最后,绘制肘部图、轮廓系数图和PCA降维可视化图,方法同前。式中: 为聚类数, [
{
"name": "text",
"data": "i"
}
] 为第 个簇的样本数, [
{
"name": "text",
"data": "i"
}
] 为第 个簇的簇心,|| [
{
"name": "text",
"data": "j"
}
] - [
{
"name": "text",
"data": "i"
}
] || 2 为第 个簇中各样本到簇心的欧式距离 ; 为该模型下的最大似然, 为数据数量, 为模型变量个数 。
2.3.4 算法模型比较 轮廓系数是衡量聚类算法模型效果的一种评价方式,其取值范围在[-1,1]之间,越接近1表示聚类的内聚度和分离度越好,则聚类效果越好 [30-32] ,计算方式如下。其中: ( )为样本点到同簇样本点的平均距离, ( )为样本点到其他每个簇距离平均值的最小值 。
对预处理后的医院临床科室绩效数据进行标准化处理,得到内科、外科、特殊科室和辅助科室等30个临床科室绩效指标的标准化结果。
不同聚类算法肘部图、轮廓系数图,见 图2 。不同聚类算法PCA降维可视化图,见 图3 。临床科室绩效特征分组,见 表2 。k-means算法的最佳聚类数目为 =3,对应的轮廓系数为0.244 8。在PCA二维空间中,不同颜色代表不同的簇,具有相似绩效特征的科室将汇聚为一类簇。在绩效层面,医院临床科室分为3大类:高绩效、中绩效、低绩效科室。科室组间的分类较为紧凑,科室组内的点较为集中,获得了较好的区分度。k-medoids算法的最佳聚类数目为 =3,对应的轮廓系数为0.241 5。通过PCA可视化聚类,主要分为3大类,科室组间的分类存在一定重叠,组内点分布相对分散,区分度效果一般。GMM的最佳聚类数目为 =6,对应的轮廓系数为0.247 7。通过PCA可视化聚类,主要分为6大类,科室组间的分类较复杂,组内点的分布差异较大。此外,当聚类数目 =3时,对应的轮廓系数为0.160 1,主要分为3大类,科室组间的分类存在较大重叠,组内点分布具有较大的灵活性。
表2
临床科室绩效特征分组(k-means模型,K=3)
本研究采用3种聚类算法对医院临床科室绩效数据进行建模分析。结果显示,k-means和k-medoids算法在聚类数为3时表现最佳,GMM算法最佳聚类数为6。聚类数为3时,k-means模型轮廓系数最优,将科室分为高、中、低绩效3类。既往研究多集中于科研绩效,视角单一。例如,用k-means分析科室特征 ,评价医院科研工作绩效 ,分析医院管理岗位胜任力差异 。本研究创新之处在于全面分析临床科室运营绩效,采用3种聚类算法确定最佳模型,为医院科室绩效数据分析提供新视角和参考方法。本研究揭示了临床科室绩效特征3大类群分布。通过PCA技术降维至二维空间,相似绩效特征科室归同一簇,簇的紧凑性与分散性体现科室绩效差异与一致性。传统分析主要基于Power BI、R语言等工具进行可视化展示 [36-38] ,或者使用疾病诊断相关组(diagnosis related groups,DRG)分析评价科室绩效 [39-42] 。聚类算法可进一步解析科室绩效特征与专科性质、患者需求、资源配置等因素相关性。如前文 表2 所示,Cluster 0科室病情复杂、疾病多、治疗周期长,绩效侧重疾病管理、慢性病控制及患者随访,医疗服务收入等绩效指标表现好。Cluster 1科室手术量大、技术难度高,绩效表现为高手术量、高难度手术占比、高次均费用和耗材费用占比。Cluster 2科室治疗周期短,病情轻,次均费用和医疗服务收入占比指标表现好。这些发现为医院管理层提供全面、深入的科室绩效分析视角,为科室制定发展策略和绩效考核指标提供依据。
本研究采用无监督机器学习领域的传统聚类算法k-means、k-medoids,以及新提出的GMM聚类算法,基于近5年临床科室绩效数据构建模型,发现k-means模型聚类效果最佳。根据聚类结果进一步分析临床科室绩效分布特点,帮助管理者识别不同绩效类群科室,进行针对性管理和资源分配,同时可用于绩效评估和监测。未来可通过对比不同时间段聚类结果,辅助医院管理层及时发现绩效变化趋势,提前采取应对措施。
绩效数据是医院绩效管理的基础,深入分析对推动医院精细化管理和高质量发展具有重要意义。本研究采用传统与创新聚类算法分析医院绩效数据,为绩效考核分析、建立科学合理的绩效考核体系提供思路与参考。本研究存在局限性,如绩效数据敏感性导致仅收集单一研究中心数据,可能影响结果普遍性;所选算法虽应用广泛,但技术迅速发展背景下,其持续适用性有待进一步探讨。未来资料可获取时,将结合深度学习等前沿技术进一步研究和探索。
作者贡献 :赵霞负责研究设计、论文撰写;张海波、温必荣负责数据采集与预处理;文华枢、任亚颖、姚佳璇负责数据分析;李小华负责研究设计、提供指导。