DOI:10.3969/j.issn.1673-6036.2025.08.012
中图分类号:R197.32
闫春秒1, 孙雷1, 马玉环2, 罗葳2, 周伟2, 张胜发2
| 【作者机构】 | 1邯郸市中心医院; 2中国医学科学院国家人口健康科学数据中心 |
| 【分 类 号】 | R197.32 |
| 【基 金】 | 国家重点研发计划(项目编号:2023YFC2508801) 河北省医疗保障研究课题(项目编号:JYB240422) 河北省邯郸市科学技术研究与发展计划(项目编号:24422083026ZC) |
•医学信息技术•
随着信息技术的快速发展,数据作为新型生产要素正在改变社会生产方式。2022年1月发布的《“十四五”数字经济发展规划》将数据要素列为数字经济深化发展的核心引擎,越来越多的医院逐步意识到数据在医院管理中的作用[1-2]。在医保运营管理领域,2021年11月发布的《DRG/DIP支付方式改革三年行动计划》指出要加强信息系统建设,制定按疾病诊断相关分组付费(diagnosis-related group,DRG)/按病种分值付费(diagnosis-intervention packet,DIP)相关信息系统标准和规范。2022年2月国家医疗保障局发布的《关于进一步深化推进医保信息化标准化工作的通知》提出要全面深化医保信息平台应用。
医院信息系统数量多,各自采用不同的数据库和架构,缺少统一规划,形成“信息孤岛”,甚至缺少部分数据,无法支撑医院科研工作[3-5]。部分医院开始引进医保运营系统,但大部分系统只关注DRG等医保数据,医院无法分析医保支付亏损原因[4,6-9]。对此,本研究提出基于事务日志变更数据捕获(change data capture,CDC)的医院医保运营管理系统解决方案。与抽取、转换和加载(extract-transform-load,ETL)工具同步数据不同,该系统可以对业务系统的事务日志进行实时捕获,构建低延迟、高可靠的业务复制库,并建立医院医保运营管理数据集,借助人工智能、大数据等技术分析数据,为医院的医保运营管理提供决策支持[10-13]。
随着大数据、人工智能等技术的发展,针对数据中心和医保运营管理的研究逐渐增多。数据中心建设方面,采用超融合技术实现网络、存储、计算等多维度融合[14];建设“双活+异地容灾”数据中心保护数据安全[15];基于数据中心构建集成平台[16];构建标准化的医院数据中心,实现内部各业务系统数据整合[3]等。也有研究将数据中心应用到医院运营管理系统中,如通过整合业务系统和财务系统,构建数据中心[12];创建统计数据管理中心,实现医院统计数据查询和展示[17];通过信息化建设,对数据进行治理后构建耗材智能运营管理架构[18];管理部门深入参与医院运营指标定制,构建监测指标集管理系统[19]。医保运营管理方面,设计DRG运营管理系统,为医院医疗服务绩效评价提供支撑[1];通过建设 DRG运营管理体系,实现医疗费用管控[2];探讨智慧运营系统建设的必要性和可行性,提出建设方案[6];分析医保支付改革对医院运营管理产生的影响[7,20]等。虽然已有较多医保运营管理系统接入数据中心,但并未对数据进行规范化处理,数据更新存在延迟,无法满足实时监控和决策需求。采用以事务日志CDC为基础的医保运营管理系统可以解决上述问题。
各大数据库厂商引入的事务日志机制,为CDC技术奠定了基础。20世纪90年代,学术界开始研究数据同步和复制技术,提出基于日志解析的数据捕获方法。随着现代大数据平台和云服务的发展,数据流处理和云环境应用也开始使用CDC技术。目前CDC技术在集成平台、机器学习、人工智能等领域广泛应用。本研究将事务日志CDC技术应用于医保运营系统,可保证医保运营管理数据集的实时性,便于智能化监控医保数据并进行风险预警,同时降低对业务系统的负载。
首先,整合医院各业务系统源数据库,并实时捕捉事务日志信息。其次,解析捕获的事务日志,并将其转换为统一格式的消息队列,对消息队列中的数据进行清洗、转换,形成业务系统复制库。再次,在业务系统复制库基础上创建医保运营管理数据集。最后,实现医院医保运营情况可视化管理。事务日志CDC技术可应用于多个医保运营场景,如医保结算查询汇总,可使医院相关部门及时了解每笔结算数据的情况;还可将DRG系统返回的数据与院内业务数据进行关联,使医生能够了解疾病诊断的分组情况。
医保运营管理系统采用双日志机制实现数据变更捕获。重做日志记录物理层面的数据块变更信息,确保事务持久性。回滚日志存储逻辑层面的回滚操作信息,支持通过解析数据库的日志序列号顺序,实现对增加、更新、删除等逻辑操作的精准捕获。其核心技术特征表现为以下 4方面。一是增量同步,基于事务日志的实时监听技术,确保数据变更的毫秒级捕获。二是非侵入式采集,通过日志解析获取数据变更,避免对源系统产生性能损耗(实测对CPU的性能损耗小于0.3%)。三是全生命周期追溯,完整记录数据变更历史轨迹,提供可验证的审计基线。基于事务日志的CDC技术具有3方面优势。一是实时性与低延迟,可实时捕获医保业务数据库事务日志变更,并通过Kafka消息队列技术实现异步传输。二是数据完整性,捕获的数据变更能够详细地记录医保业务发生流程,保证数据变更的完整性。三是低侵入性,无须修改医保相关数据库的表结构或者在数据库中添加触发器,保障了业务生产库的稳定性。这与ETL有本质区别,ETL以轮询方式查询业务数据库,可能会造成查询负载。
一是支持大数据分析。提高医保运营数据的及时性和准确性,减少多数据源造成的数据冗余和差异。二是助力医保决策。实现医保运营指标个性化定制,提高对医保数据的管控能力。三是确保数据准确性和安全性。自动处理数据,减少人工统计误差;对患者重要个人信息进行脱敏,确保数据的安全性和隐私性。四是协助临床运营管理。DRG政策的实施,要求医院快速了解医疗费用情况和病种入组情况。系统应便于查看医院的耗占比和药占比等,以及病例组合指数(case mix index,CMI)、时间消耗指数、费用消耗指数等DRG指标,及时了解相关指标变化。
3.4.1 收入指标功能 将收入相关指标分为医疗总收入、医疗服务收入、药品收入、材料收入以及检查检验收入,并归类为门诊相关收入和住院相关收入。每个指标均可按照日期、科室、医生进行下钻,见图1。例如,医生可以通过该模块查看每一项开单收入情况。医保运营管理将业务系统中的收入数据进行标准化后抽取,根据管理者的需求,制作成个性化的指标集。
图1 基于事务日志CDC的医保运营管理系统收入指标功能
3.4.2 医保费用指标功能 提供门诊医保支付比例、住院医保支付比例等指标应用,可实现日期、科室、医生下钻。各临床科室可查看本科室及医生的医保收入占比,合理采取医疗措施、优化资源配置,见图2。该模块汇总收费系统中的医保收费记录,并与收入数据进行关联。
图2 基于事务日志CDC的医保运营管理系统医保费用指标功能
3.4.3 DRG指标功能 提供CMI、费用效率指数、时间效率指数、支用比、权重、拨付率等DRG运营指标,可以完成3级下钻。该模块汇总整理通过DRG系统及医保管理部门反馈的数据,形成完整指标集。各临床科室可以参考此指标集详细了解本科室DRG指标,见图3。
图3 基于事务日志CDC的医保运营管理系统DRG指标功能
3.4.4 指标开发流程 将数据汇总到医保运营管理数据集后,可根据需求设计指标口径及展示样式,通过可视化的自定义指标开发工具,编写结构化查询语言(structured query language,SQL)进行脚本统计、数据分析,并制作成所需的指标,具体流程,见图4。
图4 基于事务日志CDC的医保运营管理系统指标开发流程
基于事务日志CDC的医保运营管理系统将医院信息系统(hospital information system,HIS)、检验信息系统(laboratory information system,LIS)、影像存储与传输系统(picture archiving and communication system,PACS)、电子病历(electronic medical record,EMR)等业务系统数据通过事务日志CDC同步后创建业务系统复制库,并进行计算、清洗、汇总,形成医保运营管理数据集,然后对数据再次进行分析、处理,形成可供决策者参考的收入相关指标、医保费用相关指标和DRG相关指标等,见图5。
图5 基于事务日志CDC的医保运营管理系统架构
该架构中的数据流向如下。一是通过事务日志CDC技术将各相关业务系统的数据同步到操作型数据存储(operational data store,ODS)中。二是根据医保运营管理需要,对数据中心的数据进行计算、清洗、汇总,形成医保运营管理数据集。三是对管理数据集中的数据进行清洗、加密、统计分析等。四是对处理后的数据进行分类汇总,形成医保运营管理系统的可视化指标。
事务日志CDC通过读取数据库的事务日志获取数据库变更信息。事务日志是数据库用于记录数据库操作的持久日志,详细记录每次操作。采用Hadoop技术,能以较低成本建立高性能、高可靠性和高性价比的大数据分布式应用平台,实现分布式存储、分布式控制、分布式并行计算和高性能搜索。
基于事务日志CDC的医保运营系统技术架构主要包括6层,见图6。一是数据源层,主要负责存储核心业务数据。此层数据库须开启日志功能,记录增删改等操作,生成可被CDC捕获的变更信号。二是数据采集层,主要负责从数据源层捕获变更数据,并转换成标准格式。采用非侵入式方式读取数据库事务日志,并依次解析。如采用Oracle GoldenGate非侵入式数据同步工具,实时读取事务日志。设计isdeleted及lastupdatedttm字段,反馈数据表、字段、旧值和新值等关键操作信息。应注意的是,针对不同数据库及版本,要采用不同的日志解析方式,以避免解析失败。此外,应用CDC技术解析病历文本存在一定局限性,如仅能记录病历文本的整体变更,无法理解变更的医学含义。三是数据传输层,主要负责异步传输CDC数据,将过滤和转换后的数据从数据采集层传输到数据处理层。采用Kafka消息队列作为数据传输通道,能够缓存数据,并支持高并发的数据传输,在传输过程中保证数据可靠性。四是数据处理层,主要负责清洗、转换、关联数据。采用Spark Streaming批流一体技术,可实现以高吞吐、容错的方式处理实时数据流。此外,医保数据包含大量敏感信息,如参保人员个人身份信息、医疗记录等。采用 SSL/TLS 协议对数据传输通道进行加密,防止数据在传输过程中被窃取或篡改;同时对数据进行脱敏处理,在不影响业务逻辑的情况下,对敏感数据进行模糊化或替换处理,降低数据泄漏风险。五是数据存储层,主要用于存储医保数据。将数据存储于PostgreSQL数据库,并创建医保运营管理数据集。同时,对每个数据表创建数据索引,提高数据查询效率。对于历史数据存储,采用Hadoop大数据技术,确保具有海量数据存储能力。六是数据应用层,根据医院管理要求,自定义开发指标,及时更新医保运营管理系统各业务模块数据。
图6 基于事务日志CDC的运营管理系统技术架构
首先明确主数据管理范围。在医保运营管理系统中,主数据通常包括患者个人信息、科室、费用项目字典等数据,具有跨系统、跨部门特点。其次统一数据标准,包括数据格式、命名规则、编码标准等。如统一的费用信息时间格式、项目字典等。最后对需要抽取的业务系统数据进行清洗和转换,主要包括去除重复数据、补充缺失数据、修正错误数据,以及将数据转换为统一标准格式。
采用超融合技术实现基于事务日志CDC的医保运营管理系统服务器部署,将多台用于计算、存储等功能的服务器整合、集成于软件平台。以每台物理服务器作为单元节点,借助网络聚集实现模块化扩展。通过浏览器控制物理资源抽取,并将硬盘、内存等物理资源视为一组逻辑资源,提高物理资源利用率。
基于事务日志CDC的医保运营管理系统减少了对业务数据库的查询负载,避免了资源竞争导致的延迟。此种方式与ETL等批处理同步数据不同,ETL是设置固定的批处理同步时间,若时间设置较短,则会对业务系统数据库造成查询负载,所以多数ETL工具设置的同步时间为1~30分钟。应用基于事务日志的CDC技术,可实时捕获数据变化,提升数据同步效率。在医保运营管理数据集中,最新的业务数据发生时间和当前查询时间,以及两者的时间差,见表1。业务系统数据生成后会实时同步到医保运营管理数据集中,但是由于数据查询的时间消耗,会存在少许误差。
表1 数据同步延迟统计(示例)
查询表名业务生成时间当前查询时间时间差(秒)住院医保结算表2025-04-1809∶10∶572025-04-1809∶11∶1619门诊医保结算表2025-04-1809∶19∶102025-04-1809∶19∶166
系统将数据整合为3类表,即收入明细表、患者信息表、DRG表。其中,收入表包含患者医保性质、结算时间等字段,为医保管理提供全面、准确的数据支持。系统通过事务日志CDC将数据同步到业务复制库,并进行清洗、转换,之后集中存储于医保运营管理数据集,解决了传统医保系统的“信息孤岛”问题,实现了医保数据整合。
系统通过对各业务系统数据的自动化抽取,避免了人工操作错误。管理人员可通过系统查询医保相关指标,减少了操作时间。同时该系统可定制开发报表,并可下钻到明细,满足了管理人员的数据查看需求,缩短了报表统计时间。如医保管理部门针对住院医保支付占比指标(自定义开发)采取相应管理措施,使该指标从2023年的50.75%上升到2024年的54.64%。
医保运营管理数据集可为医院医保政策执行提供数据依据。通过对医保数据的深入分析和挖掘,可发现医保管理潜在问题和风险点,并展示异常数据明细,对医疗机构发出预警;还可以根据决策者要求,有针对性地展示所需数据。例如,提取不同时间CMI值的同比增幅,2025年1月(17.27%)和2月(8.84%)均高于2024年1月(-9.67%)和2月(-13.20%),这是因为通过医保运营管理系统,医院管理者可以快速了解该指标变化,并作出决策调整。CMI值降低,意味着医院收治的轻症患者数增加,医保拨付额度下降,影响医院收入。医院管理者通过查看病例数据和分组诊断信息,识别CMI值高的优势病种及CMI值低的病种。通过查看有较多低CMI值病例科室的病例信息并进行分析,减少因诊断不合理导致的低CMI值病例;也可以通过诊断、病历、收入及成本等数据全方位了解医院医疗诊疗能力,发展重点学科。此外,通过数据透明化,可激励医生收治高CMI值病例,加强对医生的引导,有助于提升其诊疗能力。由此可见,系统能够从数据挖掘、诊疗能力优化、行为引导等维度提供数据支持,帮助医院在合规控费的前提下提升CMI值。
基于事务日志CDC的医保运营管理系统对业务系统数据库事务日志进行监听,实时同步数据,创建业务系统的业务复制库,并进一步清洗数据,构建满足医院医保管理需要的运营管理数据集。通过收集、整理海量医保数据,实现医保运营管理全方位、深层次分析。医保运营管理系统的数据从业务系统数据库中抽取,减少数据传递误差,数据的准确性和完整性得到了有效保障。形成DRG指标体系、收入指标体系、医保费用指标体系,管理者可随时查看指标及其同比、环比数据等,为医保决策制定提供参考。该系统响应速度快、灵活性好,可满足使用者多样化需求。通过使用该系统,可以降低医院成本、优化医保结构,帮助医院更好更快地发展。然而,在构建医保运营管理数据集的过程中,还面临患者隐私保护、数据安全等挑战。未来医院不仅要加强数据整合,还要在确保数据安全的前提下,优化系统性能,以便能够更好地实现项目升级改造。
作者贡献:闫春秒、孙雷负责研究设计、技术实施、论文撰写;马玉环、罗葳负责资料整理、数据分析;周伟负责技术指导、论文修订;张胜发负责研究设计、技术实施、论文撰写与修订。
利益声明:所有作者均声明不存在利益冲突。
1 熊尚华,郭佳奕,颜梅,等. 医院DRG运营管理系统设计与应用[J]. 中国卫生信息管理杂志,2024,21(2):240-245,251.
2 吴月红,陈新平,胡钱美,等. 基于医保DRG支付的医院智慧运营系统建设研究[J]. 卫生经济研究,2022,39(6):67-69.
3 陈继何. 医院大数据中心建设及应用[J]. 数字通信世界,2023(12):123-125,128.
4 钟柏超. 医保控费背景下医院运营策略研究[J]. 行政事业资产与财务,2023(23):123-125.
5 朱梦婷,李少品,仰宗尧. 基于医院数据中心的肿瘤患者随访平台设计与应用[J]. 现代医药卫生,2024,40(11):1968-1970.
6 陈璐,孙梦峣,李圣尧,等. 基于医保支付标准的DRGs付费考核评价体系研究[J]. 中国现代医生,2024,62(10):85-87.
7 王蓬. 医保支付方式改革背景下公立医院运营管理模式应对策略[J]. 财政监督,2022(11):91-96.
8 高乐. 医保支付方式改革下医院运营管理分析[J]. 财富生活,2022(2):193-195.
9 张灵,陶涛,张瑞霖,等. 以价值医疗为导向的大型公立医院运营数据中心建设实践[J]. 中国数字医学,2024,19(6):10-16.
10 汪火明,孙润康,任宇飞,等. 基于数据分级的医疗大数据中心数据安全管理策略研究[J]. 中国医院管理,2022,42(10):64-67.
11 王能才,王玉珍,张海英,等. 基于人工智能的医疗大数据中心设计与构建[J]. 中国医学装备,2022,19(2):1-5.
12 刘雅娟,杨少春,李妍,等. 智慧财务视角下医院运营数据中心建设的实践探索——以上海新华医院为例[J]. 卫生经济研究,2024,41(4):81-84.
13 丁子哲,刘丹,朱凤超,等. 基于数据中台技术的医院运营管理信息平台建设及应用[J]. 中国数字医学,2024,19(3):63-67.
14 李薇,赵瑞兴,陈倩文,等. 超融合技术在医院数据中心建设中的应用价值[J]. 智慧健康,2022,8(23):17-20,32.
15 丁万夫,梁鑫,汤学民,等. 大型综合三甲医院容灾数据中心的研究与应用[J]. 现代信息科技,2022,6(22):89-92.
16 钟瑞颖. 临床数据中心的医院信息集成平台设计[J]. 无线互联科技,2022,19(16):71-73.
17 周宏珍,梁胜焜,吴韫宏. 建立统计数据中心 助力医院精细化管理[J]. 中国医院统计,2022,29(4):241-245.
18 孙春光,许明,蒋琳. 基于运营数据中心的医用耗材智能运营信息化设计与实现路径[J]. 医学信息学杂志,2023,44(12):89-94.
19 熊尚华,郭佳奕,黄玉清,等. 基于医院数据中心的监测指标集管理系统设计与应用[J]. 中国卫生信息管理杂志,2024,21(1):75-80.
20 熊尚华,应华永,郑盼,等. 医院DRG运营管理体系设计与应用研究[J]. 中国数字医学,2022,17(3):86-89.
X