电子病历中表型术语识别及罕见病知识富集研究进展与关键技术思考*
张睿 1 , 王丽 1 , 吕庆国 1 , 李蕾 1

《医学信息学杂志》 2025年 46卷 第02期 005
中图分类号:R-058
全文 图表 参考文献 作者 出版信息
摘要
关键词
1 引言
2 表型术语识别及罕见病知识体系研究进展
2.1 医学术语体系研究进展
2.2 EMR中表型术语识别研究进展
2.3 罕见病诊断工具研究进展
2.4 罕见病知识挖掘及整合研究进展
3 关键技术思考及展望
3.1 完善中文EMR中HPO术语的识别
3.2 挖掘EMR中DPAs并整合入知识库
3.3 优化罕见病预测模型
3.4 改进语义相似度算法引擎
4 结语

摘要

目的/意义 分析罕见病辅助诊断研究进展,提升罕见病识别能力。方法/过程 通过文献分析法,阐述罕见病知识体系研究进展,总结研究思路及关键技术。结果/结论 应加强全国罕见病诊疗协作网建设,在协作网内表型术语识别、罕见病知识整合、罕见病预测模型、语义相似度算法改进等方面继续深耕,探索诊断工具在协作网落地相关技术。

关键词: 罕见病 临床决策支持系统 罕见病协作网 人类表型术语 表型术语识别 知识整合

1 引言

我国于2018年6月和2023年9月公布第一批、第二批罕见病目录,病种从121种增加至207种,公众对罕见病的重视程度进一步提高。根据《2020中国罕见病综合社会调研》数据 ,我国罕见病平均确诊需4.26年,误诊率达42%。对医生而言,罕见病诊断极具挑战性 。为了辅助临床医生诊断疑似罕见病患者,已开发多种基于人类表型本体的罕见病临床决策支持系统(clinical decision support system,CDSS)和患者病例库 。罕见病CDSS的早期介入可节省32%~49%总费用 ,并显著缩短诊断过程,改善患者的生活质量 。将罕见病CDSS嵌入国内电子病历(electronic medical record,EMR)使用十分重要,但目前尚存在以下难点:一是中文EMR中相关表型术语难以精准识别,限制了CDSS对疾病特征的准确捕捉;二是权威罕见病知识库可能更倾向于学术研究,而缺少真实世界的合并症及并发症等信息。针对这些挑战,本文探讨如何优化EMR中的表型术语识别,并对罕见病知识库进行知识富集,以进一步提升CDSS的预测精度。

2 表型术语识别及罕见病知识体系研究进展

2.1 医学术语体系研究进展

人类表型本体(human phenotype ontology,HPO)旨在提供一套描述人类疾病所致异常表型的标准词语集。通过整合不同来源数据,形成临床表型与疾病之间的知识关联,从而建立对罕见病诊疗至关重要的相关知识库。国际知名的罕见病知识库包括OMIM、Orphanet、eRAM等,多基于英文语系。由于词汇异质性在罕见病领域普遍存在,构建结构良好、完备,适用于本地语言的罕见病词汇表十分必要 。但将英文术语集本地化,不仅涉及翻译问题,更是本体层面的词汇富集 ,很大程度上依赖于领域专家。
国内已陆续开展医学术语集的中文本地化工作。2016年完成HPO中文翻译,2017年开始对系统化医学术语-临床术语集(systematized nomenclature of medicine clinical terms,SNOMED CT)进行本地化试点。在基于本体的中文医学术语集研发中,“七巧板”医学术语协作项目已持续7年,目前2024年7月版已包含104万个概念。2023年11月国家卫生健康信息标准与术语联合体发布包含80万条术语的中文医学术语系统。统一医学语言系统(unified medical language system,UMLS)整合SNOMED CT和HPO等一系列术语集,并形成概念间的交叉映射。因此,目前针对中文临床语境,少有完备的罕见病术语体系,但通过对上述多个成熟医学术语资源的交叉映射,可对HPO中文同义词有效扩增。随着人工智能技术的发展,特别是大规模预训练模型的出现,有望实现医学术语集的自动更新,显著提高其维护效率。

2.2 EMR中表型术语识别研究进展

2.2.1 国外 罕见病有效表型信息多数存在于文本中 。但标准化术语与EMR内医师的惯用描述间存在巨大差异 。在缺乏足够同义词汇支撑的前提下,将HPO作为自然语言处理(natural language processing,NLP)字典时,术语查全率较低。目前英文EMR的HPO识别算法多通过识别UMLS或SNOMED CT概念后再映射至HPO ,已有多种开箱即用的NLP工具可从英文文本中识别UMLS或SNOMED CT术语,如cTAKES 等。其中,PheNomical工具可嵌入EMR后从英文文档中半自动地识别HPO术语,平均每名患者可捕获7个HPO术语,相较于人工识别,医生为每位患者录入术语的平均时间从15分钟减少到5分钟,且错误率更低 。目前多数医学术语识别工具适用于英文语料,在非英语国家,开箱即用的术语识别工具和可用于训练的公开数据集均较少。Matthias B等 利用cTAKES,以德语版UMLS为基础对德语临床文本进行UMLS概念识别后映射至HPO。翻译成本国语言的UMLS等术语资源是HPO识别的重要桥接资源。考虑到基于字典的匹配方法精度高但召回率低,一些基于字典和机器学习的联合方法被用来识别文本中的HPO术语,如PhenoTagger工具基于现有HPO词表构建基于字典的NLP算法,建立用于机器学习的弱监督训练集,再利用该训练集训练深度学习模型,最后将基于字典和深度学习的预测结果相结合,提升HPO术语的识别性能
2.2.2 国内 中、英文文本在词法和语法结构上存在巨大差异,面向英文开发的分词和单词规范化组件较难适用于中文文本 。在既缺乏术语识别工具又缺乏中文版UMLS的情况下,目前在中文EMR中识别HPO术语的研究较少。但国内有学者 通过中文分词工具,分析中文词法、语法结构,在EMR中基于字典和条件随机场的混合方法进行英文术语集的中文同义词富集,将富集后的同义词作为NLP词表,可提升目标术语的识别精度。中文EMR文本中的命名实体识别往往利用人工标注的语料库,经机器学习方法进行命名实体识别后 ,再与HPO等术语进行实体链接。同时,各结构化诊疗数据(检验、检查等)也十分普遍,但针对这部分结构化数据较难应用NLP技术进行术语识别,这在文献中也较少提及,但是对这部分结构化数据的术语识别仍然值得重点关注。

2.3 罕见病诊断工具研究进展

借鉴上述罕见病知识体系,研究者探索了基于知识库、机器学习,以及病例检索的一系列罕见病辅助诊断决策支持系统 。其中,国外Phenomizer 、Find Zebra 和国内伦琴系统具有代表性。然而,这些工具多独立于EMR之外,需医生自主归纳表型术语,虽有较好的诊断精度但临床使用较少。融入EMR的罕见病诊断工具,首要任务是完成EMR中HPO的识别。Nicolas G 等 利用法语版UMLS,从法语EMR中抽取UMLS后映射至HPO,再将其与Orphanet知识库比对,使6种特定罕见病的平均诊断准确率达到0.79。Shen F等 在美国某医院通过UMLS识别HPO术语后,对比eRAM知识库以计算不同罕见病的罹患可能,其15种特定罕见病的诊断灵敏度达到0.46、特异度达到0.51。国内少有文献将诊断工具嵌入中文EMR。因此,研发基于中文EMR环境的罕见病诊断工具,实现对患者全诊疗过程的HPO术语识别,并据此进行潜在罕见病预测,显得十分重要。这有助于医务人员更好地理解诊断工具的决策逻辑及异常表型的来源。

2.4 罕见病知识挖掘及整合研究进展

疾病-表型关联(disease-phenotype associations,DPAs)对临床指导意义较大,有较多研究基于此进行罕见病知识挖掘、整合及富集 。罕见病知识主要来源于知识库、文献库及病例数据库等。多种来源的罕见病知识如何整合成为关键。知识整合须确认不同知识来源中的疾病名称及表型是否代表同一内涵,术语的差异化表达是知识整合的主要障碍。部分研究判断两个疾病名称内涵是否一致,取决于二者是否属于UMLS下相同疾病概念的不同别名。该做法可能因同一疾病表述不同,或该表述未被UMLS收录而造成漏匹配。中文环境下因缺乏成熟的中文医学术语集,判断两个疾病名内涵是否一致更为困难,常需专家进行甄别。此外,这类通过文本挖掘富集的大规模罕见病知识,存在由术语识别技术、期刊质量、共病情况导致的虚假关联问题。部分研究对EMR中的罕见病范围、共病情况进行限定,经临床医师逐项审核后进行知识富集。随着罕见病权威知识库在EMR中的持续实践及知识富集,其自身的DPAs也在不断调整以更好地适应临床实践需求。Shen F等 从EMR中对15种特定罕见病进行DPAs挖掘,以丰富现有罕见病知识库。其研究发现,相较于单一来源的DPAs,将EMR与现有Orphanet知识库相结合生成的DPAs,在鉴别诊断时具有更高灵敏度与特异度。研究 发现从EMR中挖掘的DPAs,有79%被医师认可但却未出现在权威罕见病知识库中。因此,来源于EMR的DPAs是对权威知识库的有效补充,其有利于真实世界EMR中的罕见病识别。而国内罕见病知识富集主要是对文献库的整合,往往缺少对EMR的知识挖掘及整合研究。

3 关键技术思考及展望

3.1 完善中文EMR中HPO术语的识别

3.1.1 文本中的HPO术语识别 因缺乏开箱即用的中文术语识别工具,中文语境下HPO的识别更为困难。有研究 讨论SNOMED CT与EMR中临床习惯用语的映射技术路线,首先借用SNOMED CT和HPO的交叉映射,完成HPO术语到中文临床用语的相互映射;其次从EMR中提取各类术语的日常表达,行归一化处理(如基于相似度算法),并在人工审核的基础上将其映射至目标概念 。国内“七巧板”、中文医学术语系统有丰富的中文词汇与交叉映射,也可将这些中文词汇映射至HPO。当HPO的中文同义词达到一定规模后,基于规则及字典的术语提取算法(rule and terminology based algorithm,RTBA)即可进行EMR中的HPO识别。此外,文本数据经过临床医师人工标注后,基于条件随机场(conditional random field,CRF)的术语识别算法也可被应用于HPO识别。将RTBA、CRF联合应用,与前述PhenoTagger工具 有相似之处,均是将基于字典和机器学习的预测结果相结合,再加入新发布的中文术语集,即可完成EMR中的新词发现,并将其富集到目标术语集中,见 图1
图1 RTBA和CRF方法识别EMR临床文本中HPO术语
3.1.2 结构化数据中的HPO术语识别( 图2
图2 异构 EMR 中检验类结构化数据的 HPO 术语识别
与临床文本相比,部分表型术语更容易从检验结果数据中识别。然而,数据表结构、检验和医嘱项名称的院间差异增加了这部分数据的术语识别难度。美国哈佛医学院SHRINE医疗协作网各节点医院也存在数据高度异质性问题 ,因此其强调术语的一致性以及语义的可辨性。SHRINE协作网要求将各节点医院的本地编码全部映射至标准语义概念,诊断以国际疾病分类(international classification of diseases,ICD)编码为标准,检验以观测指标标识符逻辑命名与编码系统(logical observation identifiers names and codes,LOINC)为标准。国内在缺乏自动化工具进行完全匹配映射的条件下,通过人工方式寻求匹配映射。针对异构EMR的结构化数据,在HPO概念有限(仅10 000余个)的情况下,由医疗、术语及信息化专家,结合术语标准构建标准概念层数据模型,建立HPO概念与标准概念层的逻辑映射。

3.2 挖掘EMR中DPAs并整合入知识库

因罕见病权威知识库更倾向于面向学术研究,但EMR日常诊疗记录中包含患者合并症及并发症等共病信息,以及常规检验、检查阳性结果,EMR中的DPAs较学术性权威知识库更为混杂。挖掘EMR中的DPAs,并经领域专家审核后完成对权威知识库DPAs的补充,形成适用于目标地域的本地DPAs,可提升本地EMR中罕见病筛检的精准度。此外,患者的所有表型可能较难在一次就诊中充分暴露,理想情况下CDSS应能依据目标患者的主索引信息,搜索其在协作网内的既往表型信息。此外影像等多模态数据可能包含更多表型信息,对罕见病知识库优化具有重要意义。

3.3 优化罕见病预测模型

罕见病病例数较少,在训练基于数据驱动的疾病预测模型时,面临病例不足和类别不均衡问题,影响模型的泛化能力和准确性。因此,前述很多预测模型均限定在特定的罕见病范围内进行 [9,19] ,但此假设在EMR中较难成立,EMR中患者可能罹患不特定罕见病,且多数存在数据稀疏及患者共病问题。此外,要有效整合不断更新的医学领域专业知识(如DPAs、基因信息等),不仅需要构建完善的领域知识图谱,还需要设计更高效的算法处理以利用信息。目前,已有研究 尝试利用EMR中大样本病例数据,通过多标签学习任务,构建可同时预测患者罹患多种疾病的风险预测模型,提出构建知识感知模型以解决罕见病病例较少且不均衡的问题,以提升EMR中多疾病,特别是罕见病的预测性能。未来罕见病预测模型研发应引入持续学习机制,以自动化方式提取和整合医学专业知识,形成知识图谱,减少手动干预,提高效率和准确性,使模型无须重新训练就能够适应最新领域知识和研究成果。将罕见病领域知识(如知识库中DPAs)与数据驱动方法(如机器学习)充分结合,有助于提高罕见病预测模型的准确性、可解释性和适应性,从而更好地支持临床决策。

3.4 改进语义相似度算法引擎

知识图谱作为严谨的知识表达工具,能够准确描述概念及其相互关系,被广泛应用于语义相似度研究中。当患者表型从EMR中被识别后,罕见病辅助诊断任务转变为当前患者的表型术语集合与已知罕见病表型集合的相似度计算。表型相似程度可理解为当前患者罹患某种罕见病的概率。此外,罕见病相似度计算,并非对两组集合间交集的简单计算,而是计算两组集合各表型间的语义相似度,例如,两个表型概念的语义网路径长度越短、公共父节点深度越近、高度特征越小则两个概念越相似。互联网工具 PhenoSimWeb 可呈现此类术语相似度的计算过程。然而,现有语义相似度算法的主要问题是计算复杂度较高,尤其是基于本体的算法,需要进行大量计算,在处理大规模数据集时效率较低。此外,其对多义词和上下文的敏感度不足,部分算法(如Resnik)通过信息论衡量语义相似性,相似度由其共同拥有部分决定,但其在面对相同词语在不同上下文中具有不同含义时表现欠佳,因为其忽略了上下文变化对词义的影响。未来改进语义相似度算法的思路包括以下两个方面。一是融合多模态信息。整合文本、影像等多种模态信息,经标注后可提高算法对复杂语义的识别能力。例如,利用影像和文本联合训练模型更好地理解影像中反映的术语信息,进而提升相似度计算准确性。二是引入深度学习技术增强上下文理解能力。通过大量语料训练,基于双向编码器表征(bidirectional encoder representations from transformers,BERT)、多任务图神经网络(multi-task graph neural network,MTGNN) 等深度学习模型算法自动学习文本中的复杂表示,优化相似度计算性能。这些模型能够捕捉上下文的细微差异,自动调整语义解析策略,大幅提升语义理解的深度和广度。除优化适合本地EMR的DPAs外,合适的语义相似度计算方式对最终预测结果也有极大影响。未来的研究应进一步探索不同语义相似度算法对预测精准度的提升效果,但前提是这些算法要在本地EMR环境中经过训练及验证后才能被选用。此外,在CDSS上线前,还需着重提高相似性评分的可视化呈现能力,以便帮助临床医师更好地理解诊断逻辑,这也是临床医师非常看重的功能之一

4 结语

EMR中术语识别是一个复杂工程,医疗文书不会流水账式记录所有表型信息,特别是检验、检查等结构化数据中的各种阳性结果。目前一些大型医疗研究机构已将异构的EMR数据进行数据集成后建立临床数据中心,再利用多种技术识别HPO后用于决策。随着中文医学术语体系的快速发展,中文HPO同义词资源及交叉映射资源可得到进一步丰富,提升EMR中HPO识别率。在充分获得EMR中HPO后,基于罕见病患者真实病历提取的DPAs,可进一步对罕见病权威知识库进行优化。
目前多数罕见病诊断工具独立于临床工作流之外,与日常诊疗行为相割裂,不仅费时易出错,且未整合进EMR内的决策支持系统,很难获取患者历史诊疗信息,无法将不同机构的既往病史用于决策。我国于2019年建立包含324家医院的全国罕见病诊疗协作网,为整合罕见病相关基因、组学、影像特征提供基础。优化罕见病知识库,利用多种技术完成EMR中的HPO术语识别,并将决策系统嵌入协作网内临床工作流,有助于提升罕见病识别能力。
本研究的不足在于未对HPO识别的复杂性、知识库的实时更新、CDSS与临床工作流的深层次整合进行深入讨论。未来应将不同医疗机构之间的数据标准化集成工作、知识库的动态更新机制作为研究方向,以开发更加智能和灵活的罕见病CDSS,使其能够更好地融入临床工作流,减少对医生工作流程的影响,提高临床医生的使用意愿和满意度。
作者贡献 :张睿负责研究设计、论文撰写;王丽负责资料分析;吕庆国负责资料分析、论文审核;李蕾负责研究设计、论文审核。
利益声明 :所有作者均声明不存在利益冲突。