DOI:10.3969/j.issn.1673-6036.2025.09.007
中图分类号:R-05
耿铎1, 吴尚2, 钱爱兵1
| 【作者机构】 | 1南京中医药大学卫生经济管理学院; 2徐州医科大学附属医院 |
| 【分 类 号】 | R-05 |
| 【基 金】 | 国家社会科学基金一般项目(项目编号:20BTQ053)。 |
随着数字健康技术的发展,隐私保护成为全球关注的重要议题。在线健康信息平台作为医疗领域主要的互联网平台,不仅能提供便捷的健康数据存储与共享服务,还促进了医疗资源的高效配置与患者健康管理[1]。健康信息平台涉及大量个人健康信息,包括医疗历史、诊断数据、药物使用情况等敏感数据[2],不仅关系到患者的隐私权益,还涉及医疗数据的安全性与合规性[3]。隐私政策作为平台与用户之间的重要法律文件,不仅应明确告知用户其个人数据的收集、使用、存储及共享方式,还应清晰阐述数据保护的具体措施[4]。然而,许多平台的隐私政策复杂且专业性强,普通用户难以理解,导致隐私保护的有效性受到质疑[5]。因此,如何评估和量化隐私政策的内容,判断其是否真正符合隐私保护要求、用户权益是否受到充分保障,成为不可忽视的课题之一。
近年来,很多学者对在线健康信息平台用户隐私政策展开研究,采用内容分析、对比分析等方法探讨用户隐私保护的完整性等问题,提出完整评估指标和评估框架,或者从用户角度探究隐私政策感知的作用机理[6],发现我国在线健康社区隐私政策存在隐私保护不充分[7]、政策透明度不足[2]、数据滥用风险高[5]和法律监管缺乏[4]等多方面问题。现有研究多聚焦于隐私政策内容的定性分析,尚缺乏从用户感知视角对在线健康社区隐私政策文本进行系统性的实证研究。因此本研究引入技术接受模型(technology acceptance model,TAM),该模型可用于解释用户对新技术或信息系统的使用意愿,其核心维度为感知易用性与感知有用性,分别代表用户对技术操作便捷性的主观认知及其对完成任务是否有帮助的判断[8]。本研究从双重感知视角分析在线健康信息平台隐私政策文本内容,利用隐含狄利克雷分布(latent Dirichlet allocation,LDA)模型对其进行主题提取与归类,探寻在线健康平台隐私政策中存在的问题,并提出相关优化建议。
选取好大夫、丁香医生、寻医问药、百度健康等17个典型健康信息平台的隐私政策文本,文本总长度超过17万字,涵盖主流的公立与私营医疗信息平台,避免选用过时或仅反映局部情况的隐私政策,以此确保研究基础的可靠性。
2.2.1 总体思路 引入TAM模型解释用户对健康信息平台隐私政策的认知与接受行为。将感知易用性界定为用户在接触隐私政策时所感受到的理解难度,包括文本可读性、信息结构直观性和访问便捷性,反映用户在阅读与查阅政策过程中的认知负荷。感知有用性则转化为对隐私政策内容功能性的评估,即政策是否清晰说明了用户的权利与义务,是否具体列明了数据使用、存储、共享及争议解决等核心条款,并体现出合规性、透明度及风险提示,从而形成基于双重感知视角的隐私政策文本分析框架。
2.2.2 隐私政策感知易用性评估指标 感知易用性分析是评估用户对系统使用容易程度的主观感知,强调用户对交互过程简便性的整体评价。Sweller J[9]的认知负荷理论阐述个体在吸收和处理信息过程中所耗费的心理资源,在社会化批注[10]、移动医疗相关研究[11]和健康社区[12]等领域应用广泛。基于认知负荷理论与TAM模型中感知易用性的定义,构建从外在认知负荷、交互友好性和内在负荷性3个维度出发的评价指标体系,见表1。
表1 隐私政策感知易用性主要评估指标及其获取/计算方式
维 度 指 标 名 称 指 标 解 析 获 取 / 计 算 方 式 指 标 参 考 外 在 认 知 负 荷 平 均 句 长 隐 私 政 策 全 文 句 子 平 均 长 度 文 本 篇 幅 / 句 子 总 数 柏 晓 鹏 [ 1 3 ] 、 王 旭 等 [ 1 4 ] 文 本 篇 幅 隐 私 政 策 全 文 总 字 数 隐 私 政 策 文 本 内 容 柏 晓 鹏 [ 1 3 ] 、 王 旭 等 [ 1 4 ]
续表1
维度 指标名称 指标解析 获取/ 计算方式 指标参考 交互友好性 主动提供 用户可在平台登录页直接阅读, 也可以在 网站底部找到 百度搜索健康信息平台名称后获得 徐雷等[7] 、 姚胜译等[15] 阅读窗口 从用户搜索该平台开始到隐私政策出现的 点击次数 百度搜索健康信息平台名称后获得 徐雷等[7] 、 姚胜译等[15] 出现时机 隐私政策向用户展示的方式 百度搜索健康信息平台名称后获得 徐雷等[7] 、 姚胜译等[15] 内在负荷性 小标题数量 隐私政策中全文小标题总数 隐私政策文本内容 张敏等[5] 、 王旭等[14] 术语密度 专业术语在隐私政策全文词汇中的占比 术语总数/ 词语总数×100% 张敏等[5] 、 王旭等[14] 导语 隐私政策文本开头是否有引导性文字 隐私政策文本内容 张敏等[5] 、 王旭等[14] 命名方式 隐私政策的标题名称 文本首行 张敏等[5] 、 王旭等[14]
2.2.3 隐私政策感知有用性分析 采用LDA模型对17家健康信息平台的隐私政策文本进行主题建模分析。经过jieba分词和停用词过滤后,通过困惑度和一致性曲线确定最佳主题数,进行LDA建模以挖掘文本中的潜在主题结构,进一步提取每一主题所对应的高频关键词集合,从用户阅读视角识别平台在政策信息传递中的关注重心与内容覆盖范围。
3.1.1 外在认知负荷 平均句长和文本篇幅影响阅读难度,长句和冗长文本增加认知负荷,简洁表达和适当篇幅有助于提升理解效率和阅读体验。(1)平均句长。为检验不同句长类型在健康信息平台隐私政策中的分布差异,对其句子数占比进行比较分析,两组句长在占比上的差异具有统计学显著性(T=2.213,P<0.05),说明当前隐私政策文本中存在较强的句式冗长倾向,见表2。(2)文本篇幅。文本篇幅指文本的长度,通常以字、词或页数为单位进行度量,统计文本长度[16],见表3。
表2 隐私政策平均句长占比情况
平 均 句 长 ( 字 ) 平 台 数 量 ( 个 ) 占 比 ( % ) 说 明 4 0 ~ 6 0 字 3 1 7 . 6 表 示 句 式 相 对 简 洁 , 阅 读 负 担 较 轻 超 过 6 0 字 1 4 8 2 . 4 长 句 占 主 导 , 增 加 用 户 理 解 难 度
表3 隐私政策文本长度分布统计
统计指标 值 平均文本长度 9 732 字 中位数文本长度 9 850 字 超过 10 000 字的政策占比 48. 2% 文本长度在 9 000~ 10 000 字的政策占比 35. 7%
3.1.2 内在负荷性 (1)导语。在探究健康信息平台隐私政策时,导语具有关键作用[17],能帮助用户迅速把握隐私政策的结构脉络与整体内容。经统计发现,在所选取的17个隐私政策中,设有导语的多达18个(94.1%)。进一步细分后发现,其中有7个健康信息平台的隐私政策带有导语、引言、概要等直接性的引导文字。(2)小标题数量。各健康信息平台隐私政策均根据内容的层次性和逻辑结构设置若干小标题,见表4。(3)术语密度。针对健康信息平台隐私政策内容选取个人信息[18]、服务条款、用户同意、授权同意、隐私权、服务协议、数据保护、信息披露、数据共享、用户身份、身份认证、敏感信息[19]、个人健康信息、法律责任、违约赔偿共15个专业术语。计算各平台隐私政策的术语密度,见表5。(4)命名方式。总体来看,17个健康信息平台隐私政策中,有6个命名突出了“隐私协议”“用户协议”关键字样,其他11个平台在标题中明确了“隐私政策”字样。各平台隐私政策标题类型分布,见表6。
表4 隐私政策小标题数量分布统计
小 标 题 数 量 分 段 平 台 数 量 ( 个 ) 占 比 ( % ) 1 5 个 以 上 5 2 9 . 4 1 5 个 及 以 下 1 2 7 0 . 6
表5 隐私政策术语密度分布情况
术 语 密 度 水 平 平 台 数 量 ( 个 ) 占 比 ( % ) ≥ 4 % 1 2 7 0 . 6 < 4 % 5 2 9 . 4
表6 隐私政策标题类型分布统计
标 题 类 型 平 台 数 量 ( 个 ) 占 比 ( % ) 隐 私 政 策 1 1 6 4 . 7 用 户 协 议 4 2 3 . 5 隐 私 协 议 2 1 1 . 8
3.1.3 交互友好性 交互友好性是指人机交互设计过程中,将用户置于优先位置,将人的需求、习惯和认知视角纳入设计,最终从使用者角度,使用户界面变得顺畅、直观和自然。本研究从健康信息平台隐私政策主动提供、阅读窗口和出现时机3个方面进行深入分析。(1)主动提供。隐私政策的主动提供,是指其能否在平台的登录页面或注册页面上直接呈现于用户眼前,无须用户自行费力查找。隐私政策可访问性分布,见表7。(2) 阅读窗口。阅读窗口的定义聚焦于用户从搜索平台到隐私政策展示的操作成本,具体体现为点击次数、所需步骤或经历页面数。研究结果,见表8。(3)出现时机。出现时机指隐私政策面向用户展示的具体方式,涵盖在注册、登录、购买等特定操作时的弹窗展示,或者点击链接、按钮后的查看模式[20],见表9。
表7 主动提供隐私政策的网站数量统计
访 问 类 型 平 台 数 量 ( 个 ) 占 比 ( % ) 平 台 主 动 提 供 隐 私 政 策 6 3 5 . 3 在 网 站 底 部 清 晰 标 明 5 2 9 . 4 隐 私 政 策 不 便 查 询 6 3 5 . 3
表8 隐私政策访问点击次数分布统计
访 问 所 需 点 击 数 ( 次 ) 平 台 数 量 ( 个 ) 占 比 ( % ) < 4 8 4 7 . 1 ≥ 4 9 5 2 . 9
表9 隐私政策出现时机分布统计
出 现 时 机 类 型 平 台 数 量 ( 个 ) 占 比 ( % ) 被 动 呈 现 1 2 7 0 . 6 较 为 明 显 3 1 7 . 6 显 眼 位 置 2 1 1 . 8
3.2.1 隐私政策主体提取 为确定最优主题数,以主题数2—10为范围训练LDA模型,并计算每个主题数下的困惑度与一致性得分。困惑度衡量模型对语料的拟合能力,困惑度越低,表示模型越能有效拟合数据。一致性衡量主题词间的语义连贯性,一致性越高,主题的质量越好。不同主题数的困惑度变化趋势,见图1。困惑度在不同主题数下波动较大,整体未呈单调下降趋势,说明主题数的增减对模型拟合性能影响较敏感;其中主题数为6时困惑度出现显著降低,表明模型对文本的拟合能力较强。不同主题数的一致性得分分布,见图2。一致性得分在第6个主题附近虽未达到最大值,但表现出良好的语义连贯性,且波动较小,有利于主题的稳定识别。健康信息平台隐私政策主题可视化,见图3。综合困惑度与一致性两方面的评价结果,最终将隐私政策的最优主题数确定为6个。
图1 不同主题数的困惑度变化趋势
图2 不同主题数的一致性得分分布
图3 健康信息平台隐私政策主题可视化
3.2.2 隐私政策主体类别分析 类别一:设备与数据合规。该类别涵盖设备、按钮、身份、数据合规、服务、技术等关键词,关注用户身份识别、设备使用与数据处理的合规性。部分平台存在“一揽子授权”现象,用户必须授权多个权限才能使用核心功能,且App首次安装时部分权限默认同意,需用户手动取消。类别二:服务系统与隐私政策。主要涉及服务、系统、个人、组织、存储、工具、隐私政策、法律、产品及技术等关键词,聚焦服务系统中的隐私保护和法律合规性,涵盖个人和组织的数据政策、存储方式及技术应用的合法性。此类条款强调数据流转的合法性与组织责任,常使用“技术工具”“数据存储”“法律规定”等表述,但对数据流向和责任主体界定不清,尤其在服务功能与个人数据边界模糊时,易造成用户对数据处理范围的误解。类别三:网站与技术管理。关键词主要涉及网站、技术、咨询、Cookie、个人、共享、解释、账户、同意、数据等,重点讨论网站操作、技术管理和用户隐私保护,涉及Cookie的使用、账户管理、个人数据共享及同意机制,强调技术和数据保护的透明度。健康信息平台隐私政策会涉及Cookie追踪、账户绑定及用户同意机制,但仍存在同意流程不规范、数据共享边界模糊、过度强调“平台解释权”等问题,实质削弱用户对个人数据的控制权,须警惕合法形式下的权利不对等现象。类别四:争议解决与法律责任。关键词包括使用、争议、系统维护、法律责任、服务、隐私政策、权利等,主要聚焦使用过程中的争议解决与平台责任认定。多数平台条款主张协商优先,诉讼作为补充手段,部分平台还设有“系统维护”“不可抗力”等免责条款,可能掩盖系统缺陷引发的数据泄漏风险,限制用户权利救济路径。类别五:用户服务与网络安全。关键词包括用户服务、计算机系统、产品、广告商、网络协议、用户行为、密码保护、法律等,涉及用户服务保障与网络安全管理,重点关注与广告商、第三方网络、用户行为追踪等相关的系统操作与法律问题。但多数平台对第三方广告商或网络服务中用户数据的流转路径说明不足,可能导致用户在不知情的情况下暴露隐私,且安全责任边界模糊。类别六:存储与身份管理。关键词涵盖存储、身份、应用名称、产品、个人、权限、位置、SDK、账号和技术,主要讨论身份管理与数据存储,包括权限控制、位置数据和账户管理,涉及身份验证及技术合规。条款有时未充分告知用户位置数据和后台权限风险,尤其在身份与设备数据绑定时,可能导致持续技术追踪,增加隐私风险。
调研发现,尽管多数平台采用“隐私政策”或“隐私协议”这一规范命名,仍有部分平台使用“用户协议”或“注册协议”,不利于用户准确识别隐私相关内容,降低了政策的识别度与针对性。此外,导语设置不一,有的平台未设置引导性内容,增加用户理解难度。小标题使用也存在问题,部分隐私政策为追求形式上的条理性堆砌小标题,反而加重阅读负担。与此同时,隐私政策中专业术语使用频繁,虽提升表述严谨性,却忽视普通用户的理解能力,影响整体可读性与可理解性。
在调研的17份健康信息平台隐私政策中,仅17.6%的平均句长处于推荐范围(40~60字),超60字长句比例较高,句式冗长、信息密集增加理解难度。同时,隐私政策篇幅普遍较长,超过1万字的占比显著,用户阅读成本较高,难以高效获取关键信息。部分篇幅较短的隐私政策,虽节省阅读时间,但如果内容表达晦涩,仍可能降低用户对平台的信任与使用意愿。
在调研的17个健康信息平台中,仅6个平台在登录或注册页面主动展示隐私政策,另有6个需用户手动搜索,5个虽在页面底部标明,但缺乏明显引导,主动呈现比例偏低。近半数平台用户点击3次以内即可访问隐私政策,便捷度较高;但仍有过半数平台需4次以上,路径复杂,影响了用户查阅意愿与知情权实现。隐私政策出现时机与点击路径密切相关,点击路径短的平台更倾向于主动告知,而路径长的平台多为被动呈现,难以保障用户在关键操作前及时了解个人信息处理规则。
通过对17个健康信息平台隐私政策进行LDA主题建模,识别出6类主要主题:“设备与数据合规”“服务系统与隐私政策”“网站与技术管理”“争议解决与法律责任”“用户服务与网络安全”和“存储与身份管理”。不同平台对各主题的关注程度不一,反映出其在个人信息保护实践中的治理侧重点。多数平台的隐私政策涵盖数据收集、权限调用、账户管理、法律责任与技术防护等关键环节,基本符合合规要求,并回应了用户对隐私保障的基本预期;部分平台进一步细化了对Cookie使用、SDK调用与争议处理等技术细节的说明,增强了数据处理流程的透明度。总体而言,LDA结果显示隐私政策普遍强调合法合规与平台责任,但对用户数据的具体使用路径和目的表述相对笼统,仍以平台视角为主,表明隐私政策尽管在形式上满足了合规要求,在提升用户理解与信任方面仍存在改进空间。
健康信息平台在隐私政策命名上可以统一使用“隐私政策”或“隐私声明”等明确术语,避免使用“用户协议”“注册协议”等涵盖范围广但指向模糊的表述,从源头上便于用户识别。同时,应设置简明扼要的导语,引导用户快速了解隐私政策核心内容与阅读路径,增强文档的入口友好性。小标题设计应注重逻辑清晰与信息聚合,避免过度拆分章节造成认知干扰,提高整体结构的条理性与指引性。融入隐私设计理念中的“默认保护”原则[21],即在无额外操作的前提下为用户提供最高等级的隐私保障。通过结构优化与信息聚合,帮助用户在最小认知负荷下获取最大信息价值。
针对当前隐私政策句式冗长、术语密集的现象,平台应在保证法律严谨性的前提下,适度调整句长,优化表达方式。建议控制平均句长在40~60字之间,减少嵌套结构,并使用用户友好的语言解释专业术语。可采用ISO/IEC 29100框架中的“可用性与透明性”原则[22],为专业表述配备易懂释义、关键名词加注说明,保障各类用户都能准确理解个人信息处理方式,强化政策的可达性与包容性。
建议平台在用户登录、注册等关键环节主动展示隐私政策,确保用户在进行个人信息提交前即有机会充分了解相关规则。同时应简化访问路径,将隐私政策链接放置在页面显著位置,控制点击次数在3次以内,确保用户可快速触达。还可通过在系统开发阶段设定“隐私提示组件”,使用户在操作前即获取完整信息告知,符合“全生命周期嵌入”原则,确保数据处理在采集、存储、共享等全过程均设有提示、限制与退出机制,强化用户对其数据的控制权。
基于LDA主题建模结果,建议平台在隐私政策中进一步明确用户数据的使用目的、使用路径与流转过程,减少平台导向叙述所带来的信息不对称。可结合场景示例、操作流程图等方式提升内容直观性,并针对“设备权限”“数据共享”“第三方调用”等用户关注高频议题,展开更具体的解释与告知。推动隐私政策从“满足合规”向“强化用户理解与信任”转型,将隐私保护真正融入用户体验全过程。
同时增加定期评估与更新制度,基于反馈数据与法律法规演进,每6~12个月进行一次隐私政策内容更新与合规性复核,确保政策长期有效并与用户需求同步演进。结合ISO标准“目的限定”与“数据主体参与”原则,不仅清晰列明平台责任,还应赋予用户更多主动管理空间,如设置“拒绝推荐”“管理授权”等可操作入口,推动隐私从平台内部合规走向用户外部信任,建立可感知、可追溯的治理体系。
本研究在一定程度上丰富了相关领域的理论与实践认识,但研究样本和方法仍存在局限,隐私政策动态更新未被充分考虑,结论的普适性与对实际执行效果的反映有待进一步验证。
作者贡献:耿铎负责研究设计、数据收集、论文撰写;吴尚参与研究设计;钱爱兵负责提供指导。
利益声明:所有作者均声明不存在利益冲突。
1 THAKKAR V,GORDON K.Privacy and policy implications for big data and health information technology for patients:a historical and legal analysis[J].Improving usability,safety and patient outcomes with health information technology,2019,257:413-417.
2 张启源.国内外在线健康社区隐私政策对比研究[D].郑州:郑州大学,2020.
3 UNEKE C J,LANGLOIS E V,URO-CHUKWU H C,et al. Fostering access to and use of contextualised knowledge to support health policy-making:lessons from the policy information platform in Nigeria[J]. Health research policy and systems,2019,17(1):38.
4 刘乾坤,刘昊鹏,秦子昂,等.基于内容分析法的健康App用户隐私保护政策发展现状研究[J].中国医院,2019,23(9):20-23.
5 张敏,沈嘉裕,刘华玮,等.我国互联网医院App的隐私政策评价研究——基于认知负荷与内容合规双重视域[J].现代情报,2023,43(3):110-122.
6 张玥,王坚,朱庆华.医疗问诊App隐私政策的认知影响因素框架模型研究——基于扎根理论方法[J].情报理论与实践,2019,42(6):105-110.
7 徐雷,徐润婕.移动App隐私条款可获得性及内容分析研究[J].现代情报,2020,40(7):82-91.
8 冀杨,王攀,李乐乐,等.北京市属医院智慧服务建设对患者就医体验的影响机制研究——基于技术接受模型(TAM)视角[J].中国卫生政策研究,2025,18(3):57-64.
9 SWELLER J. Cognitive load during problem solving:effects on learning[J]. Cognitive science,1988,12(2):257-285.
10 李武,艾鹏亚,姚琦.社会化批注能否提升阅读理解水平?——基于个体化和社会化批注对比的实验研究[J].中国图书馆学报,2024,50(6):119-134.
11 张玥,王坚,余姝,等.信息表征对移动医疗App隐私政策阅读效果的影响研究——基于认知负荷理论[J].图书情报工作,2021,65(11):3-13.
12 严章宽.在线健康社区用户算法回避行为的影响因素研究[D].南昌:南昌大学,2023.
13 柏晓鹏.计算人文视阈下的计算语言学:现状和范式[J].图书与情报,2023(1):12-20.
14 王旭,王甲旬,宫博乐,等.面向健康信息治理的健康类App隐私政策文本分析及优化研究[J].情报科学,2024,42(8):174-183.
15 姚胜译,吴丹.App隐私政策用户友好度评价研究[J].信息资源管理学报,2021,11(1):30-39,58.
16 秦琴,柯青,丁松云.中文在线健康教育信息可读性计算及应用实证——以食品安全领域为例[J].现代情报,2020,40(5):111-121.
17 朱侯,张明鑫,路永和.社交媒体用户隐私政策阅读意愿实证研究[J].情报学报,2018,37(4):362-371.
18 朱光,李凤景,沈雨萌,等.社交媒体隐私政策的阅读意愿研究——基于TAM模型与自我效能理论视角[J].现代情报,2022,42(1):150-166.
19 李卓卓,蒋雨萌.信息隐私量表对象、指标和应用的研究与展望[J].情报理论与实践,2024,47(10):41-52.
20 刘裕,周毅,农顔清.网络信息服务平台用户个人信息安全风险及其治理——基于117个App隐私政策文本的内容分析[J].图书情报工作,2022,66(5):33-43.
21 CAVOUKIAN A. Privacy by design:the definitive workshop. A foreword by Ann Cavoukian,Ph.D.[J].Identity in the information society,2010,3(2):247-251.
22 谢宗晓,董坤祥,甄杰.隐私框架标准ISO/IEC 29100介绍[J].中国质量与标准导报,2019(12):10-13.
X