我国于2018年6月和2023年9月公布第一批、第二批罕见病目录,病种从121种增加至207种,公众对罕见病的重视程度进一步提高。根据《2020中国罕见病综合社会调研》数据,我国罕见病平均确诊需4.26年,误诊率达42%。对医生而言,罕见病诊断极具挑战性。为了辅助临床医生诊断疑似罕见病患者,已开发多种基于人类表型本体的罕见病临床决策支持系统(clinical decision support system,CDSS)和患者病例库。罕见病CDSS的早期介入可节省32%~49%总费用,并显著缩短诊断过程,改善患者的生活质量。将罕见病CDSS嵌入国内电子病历(electronic medical record,EMR)使用十分重要,但目前尚存在以下难点:一是中文EMR中相关表型术语难以精准识别,限制了CDSS对疾病特征的准确捕捉;二是权威罕见病知识库可能更倾向于学术研究,而缺少真实世界的合并症及并发症等信息。针对这些挑战,本文探讨如何优化EMR中的表型术语识别,并对罕见病知识库进行知识富集,以进一步提升CDSS的预测精度。
国内已陆续开展医学术语集的中文本地化工作。2016年完成HPO中文翻译,2017年开始对系统化医学术语-临床术语集(systematized nomenclature of medicine clinical terms,SNOMED CT)进行本地化试点。在基于本体的中文医学术语集研发中,“七巧板”医学术语协作项目已持续7年,目前2024年7月版已包含104万个概念。2023年11月国家卫生健康信息标准与术语联合体发布包含80万条术语的中文医学术语系统。统一医学语言系统(unified medical language system,UMLS)整合SNOMED CT和HPO等一系列术语集,并形成概念间的交叉映射。因此,目前针对中文临床语境,少有完备的罕见病术语体系,但通过对上述多个成熟医学术语资源的交叉映射,可对HPO中文同义词有效扩增。随着人工智能技术的发展,特别是大规模预训练模型的出现,有望实现医学术语集的自动更新,显著提高其维护效率。
2.2 EMR中表型术语识别研究进展
2.2.1 国外 罕见病有效表型信息多数存在于文本中。但标准化术语与EMR内医师的惯用描述间存在巨大差异。在缺乏足够同义词汇支撑的前提下,将HPO作为自然语言处理(natural language processing,NLP)字典时,术语查全率较低。目前英文EMR的HPO识别算法多通过识别UMLS或SNOMED CT概念后再映射至HPO ,已有多种开箱即用的NLP工具可从英文文本中识别UMLS或SNOMED CT术语,如cTAKES等。其中,PheNomical工具可嵌入EMR后从英文文档中半自动地识别HPO术语,平均每名患者可捕获7个HPO术语,相较于人工识别,医生为每位患者录入术语的平均时间从15分钟减少到5分钟,且错误率更低。目前多数医学术语识别工具适用于英文语料,在非英语国家,开箱即用的术语识别工具和可用于训练的公开数据集均较少。Matthias B等利用cTAKES,以德语版UMLS为基础对德语临床文本进行UMLS概念识别后映射至HPO。翻译成本国语言的UMLS等术语资源是HPO识别的重要桥接资源。考虑到基于字典的匹配方法精度高但召回率低,一些基于字典和机器学习的联合方法被用来识别文本中的HPO术语,如PhenoTagger工具基于现有HPO词表构建基于字典的NLP算法,建立用于机器学习的弱监督训练集,再利用该训练集训练深度学习模型,最后将基于字典和深度学习的预测结果相结合,提升HPO术语的识别性能。
借鉴上述罕见病知识体系,研究者探索了基于知识库、机器学习,以及病例检索的一系列罕见病辅助诊断决策支持系统。其中,国外Phenomizer、Find Zebra和国内伦琴系统具有代表性。然而,这些工具多独立于EMR之外,需医生自主归纳表型术语,虽有较好的诊断精度但临床使用较少。融入EMR的罕见病诊断工具,首要任务是完成EMR中HPO的识别。Nicolas G 等利用法语版UMLS,从法语EMR中抽取UMLS后映射至HPO,再将其与Orphanet知识库比对,使6种特定罕见病的平均诊断准确率达到0.79。Shen F等在美国某医院通过UMLS识别HPO术语后,对比eRAM知识库以计算不同罕见病的罹患可能,其15种特定罕见病的诊断灵敏度达到0.46、特异度达到0.51。国内少有文献将诊断工具嵌入中文EMR。因此,研发基于中文EMR环境的罕见病诊断工具,实现对患者全诊疗过程的HPO术语识别,并据此进行潜在罕见病预测,显得十分重要。这有助于医务人员更好地理解诊断工具的决策逻辑及异常表型的来源。
3.1.1 文本中的HPO术语识别 因缺乏开箱即用的中文术语识别工具,中文语境下HPO的识别更为困难。有研究讨论SNOMED CT与EMR中临床习惯用语的映射技术路线,首先借用SNOMED CT和HPO的交叉映射,完成HPO术语到中文临床用语的相互映射;其次从EMR中提取各类术语的日常表达,行归一化处理(如基于相似度算法),并在人工审核的基础上将其映射至目标概念。国内“七巧板”、中文医学术语系统有丰富的中文词汇与交叉映射,也可将这些中文词汇映射至HPO。当HPO的中文同义词达到一定规模后,基于规则及字典的术语提取算法(rule and terminology based algorithm,RTBA)即可进行EMR中的HPO识别。此外,文本数据经过临床医师人工标注后,基于条件随机场(conditional random field,CRF)的术语识别算法也可被应用于HPO识别。将RTBA、CRF联合应用,与前述PhenoTagger工具有相似之处,均是将基于字典和机器学习的预测结果相结合,再加入新发布的中文术语集,即可完成EMR中的新词发现,并将其富集到目标术语集中,见图1
图1RTBA和CRF方法识别EMR临床文本中HPO术语
3.1.2 结构化数据中的HPO术语识别(图2
图2异构 EMR 中检验类结构化数据的 HPO 术语识别
与临床文本相比,部分表型术语更容易从检验结果数据中识别。然而,数据表结构、检验和医嘱项名称的院间差异增加了这部分数据的术语识别难度。美国哈佛医学院SHRINE医疗协作网各节点医院也存在数据高度异质性问题,因此其强调术语的一致性以及语义的可辨性。SHRINE协作网要求将各节点医院的本地编码全部映射至标准语义概念,诊断以国际疾病分类(international classification of diseases,ICD)编码为标准,检验以观测指标标识符逻辑命名与编码系统(logical observation identifiers names and codes,LOINC)为标准。国内在缺乏自动化工具进行完全匹配映射的条件下,通过人工方式寻求匹配映射。针对异构EMR的结构化数据,在HPO概念有限(仅10 000余个)的情况下,由医疗、术语及信息化专家,结合术语标准构建标准概念层数据模型,建立HPO概念与标准概念层的逻辑映射。