健康医疗大数据资产化实现路径研究*
安雨婷 1 , 王哲 1 , 李超峰 1 , 周毅 1

《医学信息学杂志》 2025年 46卷 第04期 004
中图分类号:R-058
全文 图表 参考文献 作者 出版信息
摘要
关键词
1 引言
2 大数据资产化
2.1 数据资产
2.2 数据资产化
3 健康医疗大数据资产化
3.1 健康医疗大数据确权
3.2 健康医疗大数据资产化关键步骤
3.3 健康医疗大数据资产化具体实现
4 健康医疗大数据资产化挑战与展望
4.1 技术创新推动健康医疗大数据价值挖掘
4.2 优化健康医疗大数据确权模式
4.3 加快医疗数据资产化平台构建
5 结语

摘要

目的/意义 有效利用健康医疗行业大数据的潜在价值,为我国健康医疗大数据资产化研究提供参考。方法/过程 梳理相关文献资料,概述我国健康医疗大数据资产化的研究现状,基于数据生命周期理论,提出健康医疗大数据资产化的实现路径框架。结果/结论 应着力突破健康医疗大数据的技术困境,优化确权模式,完善资产化相关政策,为健康医疗大数据资产的创新应用提供坚实基础,推动医疗健康产业高质量发展。

关键词: 健康医疗大数据 数据资产化 数据生命周期

1 引言

在推进健康中国战略的进程中,数据已成为提升医疗服务质量的核心驱动力。然而,数据孤岛化与价值挖掘不足限制了其潜能释放,亟需系统化的资产化路径以支撑行业高质量发展。2016年《关于促进和规范健康医疗大数据应用发展的指导意见》 明确将健康医疗大数据定义为覆盖个人全生命周期的综合数据。2020年《关于构建更加完善的要素市场化配置体制机制的意见》进一步将数据认定为现代生产不可或缺的基础要素 。作为生产要素的数据蕴含巨大价值,对社会生产经营至关重要 。通过数据要素化,原始碎片化数据经历“原始数据-数据资源-数据产品”的转变,最终形成“数据资产”,成为社会化生产流通的数据要素 。换言之,数据生产要素即数据资产的一种形式 。在此背景下,人工智能和大数据技术推动数据要素增值,形成新质生产力 。健康医疗数据资产化是医疗健康产业新质生产力发展的关键。当前,健康医疗大数据研究聚焦于规模特征和使用价值 ,相关资产化研究较薄弱。本文总结国内外健康医疗大数据资产化研究现状,结合数据生命周期理论构建实现路径,为我国健康医疗大数据资产化提供借鉴。

2 大数据资产化

2.1 数据资产

数据相关概念演变映射出经济、技术和社会条件变迁。1974年Peterson R E 首次围绕债券提出数据资产的概念。20世纪80年代和90年代,美国信息高速公路计划推动全球信息化。Fisher T等 提出“数据即资产”,将焦点回归数据信息本身。2019年美国《开放、公共、电子和必要的政府数据法案》正式实施,定义数据资产为整合的数据元素或数据集 。2023年中国通信标准化协会大数据技术标准推进委员会发布《数据资产管理实践白皮书(6.0)》 ,指出数据资产是企业拥有或控制,能够带来未来经济利益的数据资源。2024年2月财政部发布《关于加强行政事业单位数据资产管理的通知》 ,定义行政事业单位数据资产为依法履职或提供公共服务过程中持有或控制、预期能产生管理服务潜力或经济利益的数据资源。

2.2 数据资产化

数据资产衍生自数据资源,代表数据资源的“进阶” 。数据资源通常表现为非标准化、非结构化,质量不一,针对性开发前价值不显著。数据资产则具备高质量、高使用价值、强融合性及可交易性 。1999年Gargano M L等 指出数据挖掘可从数据资源中提炼有价值的信息成为数据资产。尹西明等 认为数据资产化是通过加工、整合和价值挖掘将数据转化为资产,充分释放数据潜在价值的过程,结果形成具有经济价值的数据资产。数据资产化核心在于数据价值提炼与提升 。数字产业化和产业数字化进程中,通过对数据的收集、分析、管理等实现价值,并转化为现金流 [17-18] 。目前,因大数据复杂性及各行业需求不同,尚未形成统一方法,仍在探索相关理论与技术路径

3 健康医疗大数据资产化

3.1 健康医疗大数据确权

实现数据资产化,需明确数据的权属 。国际医疗数据保护模式包括基于自主性原则的知情同意模式和为维护正当利益的合理处理模式,其核心原则基本相同,即数据的使用应经数据主体同意,保障个人隐私权与信息权益 ,在公共利益需要的情况下可例外 。2018年国家卫生健康委员会发布《国家健康医疗大数据标准、安全和服务管理办法(试行)》《医疗卫生机构网络安全管理办法》,明确医疗机构对健康医疗信息的管理义务 [23-24] 。若获得国家相关机构认证和授权,医院将获得对数据资源的独家使用权,并可授权他人或相关企业使用

3.2 健康医疗大数据资产化关键步骤

选取“健康医疗大数据”“数据资产化”“医疗数据资产”“medical big data”“healthy big data”等为关键词进行文献检索。叶萌等 认为可以通过数据治理产生数据价值,形成医疗数据资产。王雨晨 提出医疗数据需经历汇集、整理、分析、可视化和安全处理等成为数据资产。Visconti R M等 针对健康医疗大数据多源特性,提出BRNN-CHO框架对患者健康状况分类,涵盖数据源、收集、预分析、预处理和分类阶段。Wang Y等 通过实证分析109个大数据实施案例,证实基于大数据分析的商业价值模型是数据价值实现的有效工具。张卫东等 基于Data ONE模型,提出健康医疗大数据价值挖掘框架,涵盖数据采集、整合、价值挖掘、可视化、管理。姜晓萍等 基于大数据价值链理论,将健康医疗大数据价值的创造过程分解成数据采集、处理、汇聚、分析、共享、应用活动。翟运开等 将数据采集、存储、处理、管理、应用及相关环境因素作为影响健康医疗大数据资产化的6个关键维度。不同研究描述健康医疗大数据资产化具体过程虽有差异,但核心思想基本一致。通过提炼和总结关键步骤,发现资产化过程是贯穿大数据生命周期的连续活动。目前,国内外研究将数据生命周期视为从产生到消费的完整数据生命框架 。在数据生命周期中,数据处理分为初始加工和后续再利用两阶段,前者涉及数据收集和处理,后者包括深入分析和数据共享等二次应用 。基于上述研究本文提出健康医疗大数据资产化实现路径框架,见 图1 。数据最初为无价值状态,经加工链逐步积累挖掘出价值。在数据加工阶段,整合分散数据至数据池,形成数据资源;预处理后,分类分级加密储存;深入挖掘和分析,提取数据资源中有价值的信息,这一过程是数据资产价值创造的基石,并可能带来潜在的经济回报。再利用阶段,依托完善的数据管理体系,确保数据的可追溯性和信息的准确性;探索拓宽数据的应用领域,促进数据融合,催生新的价值点。通过充分的数据价值实现,形成具有经济效益的健康医疗大数据资产。
图1 基于数据生命周期的健康医疗大数据资产化实施路径框架

3.3 健康医疗大数据资产化具体实现

一是数据汇集。健康医疗大数据采集是价值挖掘的基石 。多源异构健康医疗大数据采集方式包括设备数据收集和Web数据爬取。前者可通过特定系统接口,利用 Sqoop、Flume 等分布式数据采集集群技术进行收集;后者可运用Apache Nutch、Scrapy等工具定向抓取。收集后需确定数据标准,狭义上指元数据标准 ,通常根据应用领域、专指度、通用性和互操作级别划分 。二是数据预处理。主要操作有数据清洗、数据集成、数据归约和数据转换等 [35-36] ,为下一步分析和深入挖掘奠定基础。三是数据存储。数据结构决定存储方案,健康医疗大数据包括结构化、半结构化、非结构化和文件数据等 。常见存储方式有分布式文件系统、文档存储、列式存储、键值存储、图形数据库和内存存储。分布式文件系统具有高性能、高扩展和高可用性,是大数据领域最基础、核心的功能组件,可用于存储结构化和半结构化数据。MySQL常用于存储实时性高、响应快的结构化数据,如临床诊疗和健康监测数据。存储后数据可参考《信息安全技术 健康医疗数据安全指南》(GB/T 39725—2020)等数据分级管理标准规范进行分类 。健康医疗大数据包含可公开信息和患者敏感信息,安全需求各异。因此,需要合理进行数据分级,对关键追溯性信息执行脱敏操作,对隐私数据设置隐私标记。四是数据分析。这是产生数据价值最主要的环节 ,通过聚类与分类、关联分析、深度学习等,挖掘数据关联性或进行预测。五是数据可视化。利用图形技术、分层技术、混合技术等,直观展示处理和聚合后的数据 。六是数据管理。数据质量控制指在数据采集、存储、清洗、分析等过程中,采取相应措施保证数据质量以满足分析的要求 。要从成本、数据质量等维度评估并提升数据产品的应用价值 。七是数据应用。可以使健康医疗大数据资产共享发挥更大价值。数据共享方式包括线下共享、基于共享数据库的在线共享、基于请求和反馈的共享 。数据资源经过以上过程形成数据资产后,可进入数据流通交易市场 ,并选择场内或场外交易方式。整个框架的具体技术实现,见 图2
图2 基于数据生命周期的健康医疗大数据资产化技术流程

4 健康医疗大数据资产化挑战与展望

4.1 技术创新推动健康医疗大数据价值挖掘

健康医疗大数据是典型的多源异构大数据 。不同机构管理信息系统结构不一,导致数据标准、格式差异较大。其中,约80%的医疗数据是自由文本构成的非结构化数据,其价值未充分挖掘 [29,44] 。尽管已有一些科研和应用基于现有数据产出,但成果较少,且多停留在研究阶段,未进入临床实践 。技术创新将是解决健康医疗大数据技术困境的关键,需提升非结构化数据处理能力,实现数据高效结构化、标准化,挖掘数据价值,为临床实践和科研提供有力支持。

4.2 优化健康医疗大数据确权模式

在健康医疗服务的智能化时代,每个使用者都是数据信息的潜在收集终端 。然而,随着数据流通的频率、深度和广度不断增加,个人信息在流动过程中已悄然超越了其原始生产主体——患者的掌控范围 。健康医疗大数据利用涉及个体权利、企业产权、医疗数据治理及社会公共利益等诸多问题 ,传统模式的知情同意原则对数据主体的保护力度略显不足 。未来应构建多方参与的数据确权体系,涵盖政府、医疗机构、企业、患者等,通过法律法规、技术手段和市场机制,实现数据权益的合理分配和有效保护。

4.3 加快医疗数据资产化平台构建

在政策研究层面,我国健康医疗大数据战略聚焦基础设施建设、应用、服务、保障体系、研究及人才培养6大板块 。在实践层面,一方面,多数医院普遍将资源集中于完善自身系统升级,对数据资产化的价值认知与资本投入力度较为有限 ;另一方面,医疗机构与企业合作仍局限于科研和临床技术开发的传统模式 ,未能充分释放医疗数据的商业潜力。因此建议构建“政府主导-医疗机构协同-企业参与”的健康医疗大数据共享平台,通过推动医疗数据的商业开发和应用,促进医疗数据在科研、临床、产业等领域的价值转化,实现共赢发展。

5 结语

我国健康医疗大数据资产化实现路径尚未形成一致标准。尽管先进技术的应用为健康医疗大数据资产化提供了坚实的支撑,但数据多源异构特性日益复杂,具体价值实现路径需要持续优化,包括整合多源数据、开发高效精确的数据分析技术、构建可靠的管理系统以及结合不同场景的应用。同时需改进数据确权机制,完善相关政策体系,为我国健康医疗大数据资产的创新应用提供坚实基础,推动医疗健康产业高质量发展。
作者贡献 :安雨婷负责论文撰写;王哲负责论文修订;李超峰、周毅负责提供指导。
利益声明 :所有作者均声明不存在利益冲突。