基于事务日志CDC的医保运营管理系统构建研究

闫春秒1, 孙雷1, 马玉环2, 罗葳2, 周伟2, 张胜发2

【作者机构】 1邯郸市中心医院; 2中国医学科学院国家人口健康科学数据中心
【分 类 号】 R197.32
【基    金】 国家重点研发计划(项目编号:2023YFC2508801) 河北省医疗保障研究课题(项目编号:JYB240422) 河北省邯郸市科学技术研究与发展计划(项目编号:24422083026ZC)
全文 文内图表 参考文献 出版信息
基于事务日志CDC的医保运营管理系统构建研究

•医学信息技术•

基于事务日志CDC的医保运营管理系统构建研究

闫春秒1 孙 雷1 马玉环2 罗 葳2 周 伟2 张胜发2

(1邯郸市中心医院 邯郸 056000 2中国医学科学院国家人口健康科学数据中心 北京 100730)

〔摘要〕 目的/意义 构建基于事务日志变更数据捕获技术的医保运营管理系统,以满足医疗机构在医保运营管理方面的需求,进而提升运营效率。方法/过程 汇聚医院临床、管理等数据,基于业务系统数据库事务日志,采用变更数据捕获技术进行同步,进一步形成医保运营管理数据集,对数据进行标准化和结构化存储;构建医保运营管理系统,实现医保运营指标个性化定制。结果/结论 该系统实现了医保数据的整合与统一,降低了医院运营成本,提高了医保管理效率和质量,为医疗机构医保决策制定提供了数据支持。

〔关键词〕 事务日志;变更数据捕获;医保信息系统;医保运营管理

1 引言

随着信息技术的快速发展,数据作为新型生产要素正在改变社会生产方式。2022年1月发布的《“十四五”数字经济发展规划》将数据要素列为数字经济深化发展的核心引擎,越来越多的医院逐步意识到数据在医院管理中的作用[1-2]。在医保运营管理领域,2021年11月发布的《DRG/DIP支付方式改革三年行动计划》指出要加强信息系统建设,制定按疾病诊断相关分组付费(diagnosis-related group,DRG)/按病种分值付费(diagnosis-intervention packet,DIP)相关信息系统标准和规范。2022年2月国家医疗保障局发布的《关于进一步深化推进医保信息化标准化工作的通知》提出要全面深化医保信息平台应用。

医院信息系统数量多,各自采用不同的数据库和架构,缺少统一规划,形成“信息孤岛”,甚至缺少部分数据,无法支撑医院科研工作[3-5]。部分医院开始引进医保运营系统,但大部分系统只关注DRG等医保数据,医院无法分析医保支付亏损原因[4,6-9]。对此,本研究提出基于事务日志变更数据捕获(change data capture,CDC)的医院医保运营管理系统解决方案。与抽取、转换和加载(extract-transform-load,ETL)工具同步数据不同,该系统可以对业务系统的事务日志进行实时捕获,构建低延迟、高可靠的业务复制库,并建立医院医保运营管理数据集,借助人工智能、大数据等技术分析数据,为医院的医保运营管理提供决策支持[10-13]

2 相关研究

随着大数据、人工智能等技术的发展,针对数据中心和医保运营管理的研究逐渐增多。数据中心建设方面,采用超融合技术实现网络、存储、计算等多维度融合[14];建设“双活+异地容灾”数据中心保护数据安全[15];基于数据中心构建集成平台[16];构建标准化的医院数据中心,实现内部各业务系统数据整合[3]等。也有研究将数据中心应用到医院运营管理系统中,如通过整合业务系统和财务系统,构建数据中心[12];创建统计数据管理中心,实现医院统计数据查询和展示[17];通过信息化建设,对数据进行治理后构建耗材智能运营管理架构[18];管理部门深入参与医院运营指标定制,构建监测指标集管理系统[19]。医保运营管理方面,设计DRG运营管理系统,为医院医疗服务绩效评价提供支撑[1];通过建设 DRG运营管理体系,实现医疗费用管控[2];探讨智慧运营系统建设的必要性和可行性,提出建设方案[6];分析医保支付改革对医院运营管理产生的影响[7,20]等。虽然已有较多医保运营管理系统接入数据中心,但并未对数据进行规范化处理,数据更新存在延迟,无法满足实时监控和决策需求。采用以事务日志CDC为基础的医保运营管理系统可以解决上述问题。

各大数据库厂商引入的事务日志机制,为CDC技术奠定了基础。20世纪90年代,学术界开始研究数据同步和复制技术,提出基于日志解析的数据捕获方法。随着现代大数据平台和云服务的发展,数据流处理和云环境应用也开始使用CDC技术。目前CDC技术在集成平台、机器学习、人工智能等领域广泛应用。本研究将事务日志CDC技术应用于医保运营系统,可保证医保运营管理数据集的实时性,便于智能化监控医保数据并进行风险预警,同时降低对业务系统的负载。

3 基于事务日志CDC的医保运营管理系统

3.1 设计思想

首先,整合医院各业务系统源数据库,并实时捕捉事务日志信息。其次,解析捕获的事务日志,并将其转换为统一格式的消息队列,对消息队列中的数据进行清洗、转换,形成业务系统复制库。再次,在业务系统复制库基础上创建医保运营管理数据集。最后,实现医院医保运营情况可视化管理。事务日志CDC技术可应用于多个医保运营场景,如医保结算查询汇总,可使医院相关部门及时了解每笔结算数据的情况;还可将DRG系统返回的数据与院内业务数据进行关联,使医生能够了解疾病诊断的分组情况。

3.2 技术特征与优势

医保运营管理系统采用双日志机制实现数据变更捕获。重做日志记录物理层面的数据块变更信息,确保事务持久性。回滚日志存储逻辑层面的回滚操作信息,支持通过解析数据库的日志序列号顺序,实现对增加、更新、删除等逻辑操作的精准捕获。其核心技术特征表现为以下 4方面。一是增量同步,基于事务日志的实时监听技术,确保数据变更的毫秒级捕获。二是非侵入式采集,通过日志解析获取数据变更,避免对源系统产生性能损耗(实测对CPU的性能损耗小于0.3%)。三是全生命周期追溯,完整记录数据变更历史轨迹,提供可验证的审计基线。基于事务日志的CDC技术具有3方面优势。一是实时性与低延迟,可实时捕获医保业务数据库事务日志变更,并通过Kafka消息队列技术实现异步传输。二是数据完整性,捕获的数据变更能够详细地记录医保业务发生流程,保证数据变更的完整性。三是低侵入性,无须修改医保相关数据库的表结构或者在数据库中添加触发器,保障了业务生产库的稳定性。这与ETL有本质区别,ETL以轮询方式查询业务数据库,可能会造成查询负载。

3.3 建设目标

一是支持大数据分析。提高医保运营数据的及时性和准确性,减少多数据源造成的数据冗余和差异。二是助力医保决策。实现医保运营指标个性化定制,提高对医保数据的管控能力。三是确保数据准确性和安全性。自动处理数据,减少人工统计误差;对患者重要个人信息进行脱敏,确保数据的安全性和隐私性。四是协助临床运营管理。DRG政策的实施,要求医院快速了解医疗费用情况和病种入组情况。系统应便于查看医院的耗占比和药占比等,以及病例组合指数(case mix index,CMI)、时间消耗指数、费用消耗指数等DRG指标,及时了解相关指标变化。

3.4 系统功能设计

3.4.1 收入指标功能 将收入相关指标分为医疗总收入、医疗服务收入、药品收入、材料收入以及检查检验收入,并归类为门诊相关收入和住院相关收入。每个指标均可按照日期、科室、医生进行下钻,见图1。例如,医生可以通过该模块查看每一项开单收入情况。医保运营管理将业务系统中的收入数据进行标准化后抽取,根据管理者的需求,制作成个性化的指标集。

图1 基于事务日志CDC的医保运营管理系统收入指标功能

3.4.2 医保费用指标功能 提供门诊医保支付比例、住院医保支付比例等指标应用,可实现日期、科室、医生下钻。各临床科室可查看本科室及医生的医保收入占比,合理采取医疗措施、优化资源配置,见图2。该模块汇总收费系统中的医保收费记录,并与收入数据进行关联。

图2 基于事务日志CDC的医保运营管理系统医保费用指标功能

3.4.3 DRG指标功能 提供CMI、费用效率指数、时间效率指数、支用比、权重、拨付率等DRG运营指标,可以完成3级下钻。该模块汇总整理通过DRG系统及医保管理部门反馈的数据,形成完整指标集。各临床科室可以参考此指标集详细了解本科室DRG指标,见图3。

图3 基于事务日志CDC的医保运营管理系统DRG指标功能

3.4.4 指标开发流程 将数据汇总到医保运营管理数据集后,可根据需求设计指标口径及展示样式,通过可视化的自定义指标开发工具,编写结构化查询语言(structured query language,SQL)进行脚本统计、数据分析,并制作成所需的指标,具体流程,见图4。

图4 基于事务日志CDC的医保运营管理系统指标开发流程

3.5 系统架构

基于事务日志CDC的医保运营管理系统将医院信息系统(hospital information system,HIS)、检验信息系统(laboratory information system,LIS)、影像存储与传输系统(picture archiving and communication system,PACS)、电子病历(electronic medical record,EMR)等业务系统数据通过事务日志CDC同步后创建业务系统复制库,并进行计算、清洗、汇总,形成医保运营管理数据集,然后对数据再次进行分析、处理,形成可供决策者参考的收入相关指标、医保费用相关指标和DRG相关指标等,见图5。

图5 基于事务日志CDC的医保运营管理系统架构

该架构中的数据流向如下。一是通过事务日志CDC技术将各相关业务系统的数据同步到操作型数据存储(operational data store,ODS)中。二是根据医保运营管理需要,对数据中心的数据进行计算、清洗、汇总,形成医保运营管理数据集。三是对管理数据集中的数据进行清洗、加密、统计分析等。四是对处理后的数据进行分类汇总,形成医保运营管理系统的可视化指标。

事务日志CDC通过读取数据库的事务日志获取数据库变更信息。事务日志是数据库用于记录数据库操作的持久日志,详细记录每次操作。采用Hadoop技术,能以较低成本建立高性能、高可靠性和高性价比的大数据分布式应用平台,实现分布式存储、分布式控制、分布式并行计算和高性能搜索。

3.6 技术架构

基于事务日志CDC的医保运营系统技术架构主要包括6层,见图6。一是数据源层,主要负责存储核心业务数据。此层数据库须开启日志功能,记录增删改等操作,生成可被CDC捕获的变更信号。二是数据采集层,主要负责从数据源层捕获变更数据,并转换成标准格式。采用非侵入式方式读取数据库事务日志,并依次解析。如采用Oracle GoldenGate非侵入式数据同步工具,实时读取事务日志。设计isdeleted及lastupdatedttm字段,反馈数据表、字段、旧值和新值等关键操作信息。应注意的是,针对不同数据库及版本,要采用不同的日志解析方式,以避免解析失败。此外,应用CDC技术解析病历文本存在一定局限性,如仅能记录病历文本的整体变更,无法理解变更的医学含义。三是数据传输层,主要负责异步传输CDC数据,将过滤和转换后的数据从数据采集层传输到数据处理层。采用Kafka消息队列作为数据传输通道,能够缓存数据,并支持高并发的数据传输,在传输过程中保证数据可靠性。四是数据处理层,主要负责清洗、转换、关联数据。采用Spark Streaming批流一体技术,可实现以高吞吐、容错的方式处理实时数据流。此外,医保数据包含大量敏感信息,如参保人员个人身份信息、医疗记录等。采用 SSL/TLS 协议对数据传输通道进行加密,防止数据在传输过程中被窃取或篡改;同时对数据进行脱敏处理,在不影响业务逻辑的情况下,对敏感数据进行模糊化或替换处理,降低数据泄漏风险。五是数据存储层,主要用于存储医保数据。将数据存储于PostgreSQL数据库,并创建医保运营管理数据集。同时,对每个数据表创建数据索引,提高数据查询效率。对于历史数据存储,采用Hadoop大数据技术,确保具有海量数据存储能力。六是数据应用层,根据医院管理要求,自定义开发指标,及时更新医保运营管理系统各业务模块数据。

图6 基于事务日志CDC的运营管理系统技术架构

3.7 数据治理流程

首先明确主数据管理范围。在医保运营管理系统中,主数据通常包括患者个人信息、科室、费用项目字典等数据,具有跨系统、跨部门特点。其次统一数据标准,包括数据格式、命名规则、编码标准等。如统一的费用信息时间格式、项目字典等。最后对需要抽取的业务系统数据进行清洗和转换,主要包括去除重复数据、补充缺失数据、修正错误数据,以及将数据转换为统一标准格式。

3.8 系统部署

采用超融合技术实现基于事务日志CDC的医保运营管理系统服务器部署,将多台用于计算、存储等功能的服务器整合、集成于软件平台。以每台物理服务器作为单元节点,借助网络聚集实现模块化扩展。通过浏览器控制物理资源抽取,并将硬盘、内存等物理资源视为一组逻辑资源,提高物理资源利用率。

4 运营成效

4.1 系统运行效率明显提升

基于事务日志CDC的医保运营管理系统减少了对业务数据库的查询负载,避免了资源竞争导致的延迟。此种方式与ETL等批处理同步数据不同,ETL是设置固定的批处理同步时间,若时间设置较短,则会对业务系统数据库造成查询负载,所以多数ETL工具设置的同步时间为1~30分钟。应用基于事务日志的CDC技术,可实时捕获数据变化,提升数据同步效率。在医保运营管理数据集中,最新的业务数据发生时间和当前查询时间,以及两者的时间差,见表1。业务系统数据生成后会实时同步到医保运营管理数据集中,但是由于数据查询的时间消耗,会存在少许误差。

表1 数据同步延迟统计(示例)

查询表名业务生成时间当前查询时间时间差(秒)住院医保结算表2025-04-1809∶10∶572025-04-1809∶11∶1619门诊医保结算表2025-04-1809∶19∶102025-04-1809∶19∶166

4.2 实现医保数据整合

系统将数据整合为3类表,即收入明细表、患者信息表、DRG表。其中,收入表包含患者医保性质、结算时间等字段,为医保管理提供全面、准确的数据支持。系统通过事务日志CDC将数据同步到业务复制库,并进行清洗、转换,之后集中存储于医保运营管理数据集,解决了传统医保系统的“信息孤岛”问题,实现了医保数据整合。

4.3 管理质量和效率显著提高

系统通过对各业务系统数据的自动化抽取,避免了人工操作错误。管理人员可通过系统查询医保相关指标,减少了操作时间。同时该系统可定制开发报表,并可下钻到明细,满足了管理人员的数据查看需求,缩短了报表统计时间。如医保管理部门针对住院医保支付占比指标(自定义开发)采取相应管理措施,使该指标从2023年的50.75%上升到2024年的54.64%。

4.4 为医保决策提供更加精准的数据支撑

医保运营管理数据集可为医院医保政策执行提供数据依据。通过对医保数据的深入分析和挖掘,可发现医保管理潜在问题和风险点,并展示异常数据明细,对医疗机构发出预警;还可以根据决策者要求,有针对性地展示所需数据。例如,提取不同时间CMI值的同比增幅,2025年1月(17.27%)和2月(8.84%)均高于2024年1月(-9.67%)和2月(-13.20%),这是因为通过医保运营管理系统,医院管理者可以快速了解该指标变化,并作出决策调整。CMI值降低,意味着医院收治的轻症患者数增加,医保拨付额度下降,影响医院收入。医院管理者通过查看病例数据和分组诊断信息,识别CMI值高的优势病种及CMI值低的病种。通过查看有较多低CMI值病例科室的病例信息并进行分析,减少因诊断不合理导致的低CMI值病例;也可以通过诊断、病历、收入及成本等数据全方位了解医院医疗诊疗能力,发展重点学科。此外,通过数据透明化,可激励医生收治高CMI值病例,加强对医生的引导,有助于提升其诊疗能力。由此可见,系统能够从数据挖掘、诊疗能力优化、行为引导等维度提供数据支持,帮助医院在合规控费的前提下提升CMI值。

5 结语

基于事务日志CDC的医保运营管理系统对业务系统数据库事务日志进行监听,实时同步数据,创建业务系统的业务复制库,并进一步清洗数据,构建满足医院医保管理需要的运营管理数据集。通过收集、整理海量医保数据,实现医保运营管理全方位、深层次分析。医保运营管理系统的数据从业务系统数据库中抽取,减少数据传递误差,数据的准确性和完整性得到了有效保障。形成DRG指标体系、收入指标体系、医保费用指标体系,管理者可随时查看指标及其同比、环比数据等,为医保决策制定提供参考。该系统响应速度快、灵活性好,可满足使用者多样化需求。通过使用该系统,可以降低医院成本、优化医保结构,帮助医院更好更快地发展。然而,在构建医保运营管理数据集的过程中,还面临患者隐私保护、数据安全等挑战。未来医院不仅要加强数据整合,还要在确保数据安全的前提下,优化系统性能,以便能够更好地实现项目升级改造。

作者贡献:闫春秒、孙雷负责研究设计、技术实施、论文撰写;马玉环、罗葳负责资料整理、数据分析;周伟负责技术指导、论文修订;张胜发负责研究设计、技术实施、论文撰写与修订。

利益声明:所有作者均声明不存在利益冲突。

参考文献

1 熊尚华,郭佳奕,颜梅,等. 医院DRG运营管理系统设计与应用[J]. 中国卫生信息管理杂志,2024,21(2):240-245,251.

2 吴月红,陈新平,胡钱美,等. 基于医保DRG支付的医院智慧运营系统建设研究[J]. 卫生经济研究,2022,39(6):67-69.

3 陈继何. 医院大数据中心建设及应用[J]. 数字通信世界,2023(12):123-125,128.

4 钟柏超. 医保控费背景下医院运营策略研究[J]. 行政事业资产与财务,2023(23):123-125.

5 朱梦婷,李少品,仰宗尧. 基于医院数据中心的肿瘤患者随访平台设计与应用[J]. 现代医药卫生,2024,40(11):1968-1970.

6 陈璐,孙梦峣,李圣尧,等. 基于医保支付标准的DRGs付费考核评价体系研究[J]. 中国现代医生,2024,62(10):85-87.

7 王蓬. 医保支付方式改革背景下公立医院运营管理模式应对策略[J]. 财政监督,2022(11):91-96.

8 高乐. 医保支付方式改革下医院运营管理分析[J]. 财富生活,2022(2):193-195.

9 张灵,陶涛,张瑞霖,等. 以价值医疗为导向的大型公立医院运营数据中心建设实践[J]. 中国数字医学,2024,19(6):10-16.

10 汪火明,孙润康,任宇飞,等. 基于数据分级的医疗大数据中心数据安全管理策略研究[J]. 中国医院管理,2022,42(10):64-67.

11 王能才,王玉珍,张海英,等. 基于人工智能的医疗大数据中心设计与构建[J]. 中国医学装备,2022,19(2):1-5.

12 刘雅娟,杨少春,李妍,等. 智慧财务视角下医院运营数据中心建设的实践探索——以上海新华医院为例[J]. 卫生经济研究,2024,41(4):81-84.

13 丁子哲,刘丹,朱凤超,等. 基于数据中台技术的医院运营管理信息平台建设及应用[J]. 中国数字医学,2024,19(3):63-67.

14 李薇,赵瑞兴,陈倩文,等. 超融合技术在医院数据中心建设中的应用价值[J]. 智慧健康,2022,8(23):17-20,32.

15 丁万夫,梁鑫,汤学民,等. 大型综合三甲医院容灾数据中心的研究与应用[J]. 现代信息科技,2022,6(22):89-92.

16 钟瑞颖. 临床数据中心的医院信息集成平台设计[J]. 无线互联科技,2022,19(16):71-73.

17 周宏珍,梁胜焜,吴韫宏. 建立统计数据中心 助力医院精细化管理[J]. 中国医院统计,2022,29(4):241-245.

18 孙春光,许明,蒋琳. 基于运营数据中心的医用耗材智能运营信息化设计与实现路径[J]. 医学信息学杂志,2023,44(12):89-94.

19 熊尚华,郭佳奕,黄玉清,等. 基于医院数据中心的监测指标集管理系统设计与应用[J]. 中国卫生信息管理杂志,2024,21(1):75-80.

20 熊尚华,应华永,郑盼,等. 医院DRG运营管理体系设计与应用研究[J]. 中国数字医学,2022,17(3):86-89.

Study on Construction of Medical Insurance Operation Management System Based on Transaction Log CDC

YAN Chunmiao1SUN Lei1MA Yuhuan2LUO Wei2ZHOU Wei2ZHANG Shengfa2

1Handan Center HospitalHandan 056000,China2National Population Health Data CenterChinese Academy of Medical SciencesBeijing 100730,China

AbstractPurpose/Significance To construct a medical insurance operation management system based on transaction log change data capture (CDC),so as to meet the needs of medical institutions in medical insurance operation management and improve operational efficiency. Method/Process The clinical and management data of the hospital are aggregated,based on transaction log of the business system database,CDC technology is used for data synchronizition,and a medical insurance operation management dataset is further formed. The data is standardized and structured for storage. The medical insurance operation management system is built,enabling personalized customization of medical insurance operation indicators. Result/Conclusion The system achieves the integration and unification of medical insurance data,reduces the operating costs of hospitals,improves the efficiency and quality of medical insurance management,and provides data support for medical insurance decision-making of medical institutions.

Keywordstransaction log;change data capture(CDC);medical insurance information system;medical insurance operation management

〔中图分类号〕R-058

〔文献标识码〕A

〔DOI〕10.3969/j.issn.1673-6036.2025.08.012

〔修回日期〕 2025-06-25

〔作者简介〕 闫春秒,高级工程师,发表论文2篇;通信作者:张胜发,博士,副研究员。

〔基金项目〕 国家重点研发计划(项目编号:2023YFC2508801);河北省医疗保障研究课题(项目编号:JYB240422);河北省邯郸市科学技术研究与发展计划(项目编号:24422083026ZC)。

X