基于多组学数据融合挖掘的药物重定位研究

药物研发是复杂系统过程，涉及药学、医学、化学、生物学等多学科交叉融合。由于传统药物开发程序失败率高、成本高，药物重定位策略日益受到关注[1]。药物重定位又称“老药新用”“药物再利用”“重审旧药”，指研究现有药物发掘新适应证或新用途，用于新治疗目的。多组学指联合两个及以上单一组学(如基因组、蛋白质组、代谢组和转录组等)，进行全面综合分析，探究生物系统中多种物质相互作用的方法。目前，多组学数据融合挖掘应用领域广泛。植物学方面，Kim J等[2]概述叶片衰老多组学数据融合挖掘研究最新进展和未来展望。转化医学方面，Athieniti E等[3]整合基因组学、转录组学等信息，从多组学数据集中提取新知识。微生物方面，Santiago-Rodriguez T M等[4]聚焦宿主和微生物，介绍组学方法并探讨数据处理注意事项。为更有效地进行药物重定位，朱思怡[5]整合多源数据构建多组学生物异构信息网络实现药物重定位；文昱琦[6]提出基于异质网络重启随机游走算法，成功预测新药物-靶标、药物-疾病关联，提高预测准确性；Zhang M等[7]于2016年分析公开组学数据，包括基因组学、表观基因组学、蛋白组学和代谢组学数据，生成抗阿尔茨海默病(Alzheimer’s disease，AD)蛋白靶点列表，发现潜在抗AD药物，如调节免疫系统或减少神经炎症的药物。

当前，药物重定位预测算法多依赖单一维度数据，预测精准度与实际应用价值受限。因此，如何有效整合多维度药物信息，提升药物重定位准确性与实用性，成为药物研发领域亟待解决的关键问题[6]。为此，本研究构建基于多组学数据融合挖掘进行药物重定位的方法框架，采用加权求和模型算法，结合权重排名机制，提高药物重定位效率。AD给社会带来巨大医疗和经济负担，且发病机制未完全明确，寻找其治疗药物的方法有待完善。因此以AD为例，预测疾病潜在治疗药物，为药物研发提供参考。

2 方法框架

基于多组学数据融合挖掘的药物重定位方法框架，见图1。基于开放式知识发现思想方法[8]，从疾病出发，基于多组学数据挖掘相关蛋白，通过这些相关蛋白逐一定位潜在药物，对药物靶点(蛋白)进行文献计量学指标评分优选，实现药物重定位。

2.1 筛选疾病相关蛋白质

抽取多组学数据，整合基因组学、蛋白组学、代谢组学、文献数据库等多种来源信息，确定某疾病相关蛋白质。针对下载的相关文献，利用文本挖掘方法，借助PubTator[9]等工具进行实体注释，抽取与该疾病相关的蛋白质，并进行数据清洗。

2.2 疾病相关蛋白质网络分析

生物体细胞功能实现依赖生物分子间错综复杂的功能互作网络，其中蛋白质-蛋白质相互作用(protein-protein interaction，PPI)网络有助于分析疾病发病机制及重定位药物对靶点的作用机制。STRING数据库整合已知及预测的蛋白质间各类关联[10]。针对筛选的某疾病相关蛋白质，利用STRING分析其相互作用，将证据来源限定为“Databases”和“Experiments”，筛选出高置信度的已知相互作用，构建PPI网络。利用Cytoscape软件进行可视化网络分析，解析多基因疾病复杂调控关系。

采用cytoHubba插件的Degree算法筛选网络关键节点(hub蛋白)，优先选关键蛋白作为靶点。cytoHubba是Cytoscape网络拓扑分析插件，可识别网络重要节点，基于Degree算法、MCC算法等发现在网络中具有重要生物学意义的节点或子网络。

采用MCODE插件对PPI网络聚类分析，形成多个有特定功能的聚类模块。MCODE是Cytoscape分子复合物检测插件，能通过聚类分析识别网络密集区域。其基于图的聚类算法，计算节点间连接度和拓扑结构，将网络节点(代表蛋白质或基因)划分为不同聚类或模块，模块内部节点连接紧密，模块间连接相对稀疏[11]。

2.3 疾病相关蛋白质功能分析

为深入分析药物-靶点作用机制，须分析蛋白质功能，可基于基因本体(gene ontology，GO)及京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes，KEGG)等进行功能富集分析。GO基于本体论整合生物知识，可提供基因产物功能的详尽注释，涵盖生物过程、细胞成分和分子功能3个核心领域[12]。KEGG通路库包含各种生物对象分子相互作用、反应及关系网络[13]。细胞生物功能由众多分子间复杂相互作用驱动，KEGG能紧密联系基因组信息与功能信息。本研究采用DAVID工具对获取的疾病相关蛋白进行GO和KEGG功能富集分析。

2.4 将疾病相关蛋白质定位到现有药物

利用药物数据库建立疾病相关蛋白与药物的联系，是选择疾病潜在治疗药物的前提。为专注于可能治疗某疾病的最有前途的药物，只选择已获批准或已在临床试验检测的药物。此外，从药物数据库提取现有治疗该疾病的药物、临床试验Ⅳ期药物及其相关靶蛋白信息，排除已知药物及靶点，对其余靶点及潜在药物进一步分析，筛选可能治疗该疾病的潜在药物。

2.5 药物重定位筛选

从治疗机制入手，借鉴Zhang M等[7]和Triantaphyllou E[14]的研究，选用文献计量学指标，使用加权求和模型算法对靶点评分，确定潜在药物靶点优先级，依据优选的靶蛋白筛选潜在药物。全面考虑某靶点支持该疾病发病机制的证据强度(基于被引用次数)和疾病-靶点关联可信度(基于论文数量)，采用两项指标：一是Web of Science数据库中首次报道某靶点与该疾病发病机制关系论文的被引用次数，记为C；二是Web of Science数据库中报道与该疾病相关某靶点论文数量，记为H。以该疾病首个相关靶点研究为基准，对指标标准化处理。计算方式如下，其中P为首篇报道该疾病首个相关靶点论文的被引用次数，Q为以首个靶点和该疾病为共同关键词的文章数量。考虑两项指标同等重要，赋予相等权重值0.5，得到每个靶点的评分。选取得分较高靶点的相关药物作为疾病潜在治疗药物。

3 实证研究

3.1 研究过程与方法

以AD为例开展药物重定位实证研究。从多数据库检索并抽取与AD相关的遗传变异、代谢物、蛋白质及表观遗传数据，进而获取与AD相关的蛋白质，见图2。一是变异基因抽取，检索NHGRI-EBI GWAS数据库，下载已发表的AD相关遗传变异信息(共37种蛋白)，利用其涉及的文献PMID号，结合PubTator工具对AD相关遗传变异信息进行文本挖掘处理。二是代谢物及相关蛋白抽取，从人类代谢组数据库(human metabolome database，HMDB)检索与AD相关代谢物(共212条)有关的蛋白质信息，选择与两种及以上代谢物相关联的蛋白(共320种)。三是蛋白质及表观遗传数据抽取，为获取最新AD相关蛋白质，从PubMed数据库检索并抽取2016—2024年AD相关蛋白及表观遗传数据。检索式为：“Alzheimer Disease”[MAJR] AND(“Proteins”[Mesh] OR “Proteomics”[Mesh] OR “DNA Methylation”[Mesh] OR “Epigenomics”[Mesh])AND “cerebrospinal fluid”[Subheading] Filters：Humans，from 2016—2024。共检索到245篇AD相关表观遗传学研究文献，1 233篇AD相关蛋白质研究文献。利用PubTator对文献中的蛋白质自动标注并人工审核。此外，整合Zhang M等[7]2016年从PubMed相关文献中抽取的相关蛋白备用。四是数据清洗及统计，生成AD相关蛋白质数据列表。运用药物靶标数据库(therapeutic target database，TTD)和DrugBank数据库提取AD相关靶点-药物数据，将AD相关蛋白定位到现有药物。排除已知抗AD药物及其靶点，其余作为AD潜在药物。以AD相关首个靶蛋白β-淀粉样前体蛋白(amyloid-beta precursor protein，APP)研究为基准计算各靶点评分，截至2024年4月，首篇报告APP突变与家族性AD关系的论文[15]被引用4 380次，以APP和AD为共同关键词的文章数量为23 586篇。依据靶点评分优选潜在药物，选取得分高的前两位靶蛋白进一步分析，最终实现药物重定位。

3.2 结果与分析

3.2.1 AD相关蛋白质功能分析经多组学数据融合挖掘，去重后共得到556种AD相关蛋白质。将上述蛋白信息导入STRING数据库，选择“Experiments”和“Databases”的已知相互作用作为交互数据来源，设置置信度得分为0.400，构建PPI网络。该网络包含549个节点与1 320条边，每个节点代表一种蛋白，蛋白间连线用于表征是否存在相互作用，连线粗细可直观反映该相互作用的数据支持强度。将PPI网络图数据导入Cytoscape软件，用其cytoHubba插件的Degree算法，得到前5种蛋白(APP、MAPT、AKT1、QARS1和IARS1)作为hub蛋白。网络分析显示，APP是核心枢纽节点，与13种蛋白存在连接，还鉴定出其他关键基因，这些发现为解析AD发病机制提供了重要线索。APP在AD发病机制中处于核心地位，其异常代谢产物β-淀粉样蛋白(Aβ)积累是AD关键病理特征之一。

利用Cytoscape的MCODE插件对PPI网络进行功能模块分析，预测分子间作用紧密的复合物，共得到9个AD相关蛋白聚类模块，见图3。上述9个聚类模块共包含35种蛋白，利用DAVID工具进行GO和KEGG富集分析。筛选P<0.01的显著富集基因，富集显著性最高的前5项，见表1—表2。其中BP、CC、MF是GO的3大分类，BP指基因参与的生物过程(biological process)，CC指基因表达的细胞成分(cellular component)，MF指基因发挥的分子功能(molecular function)，用于系统解析基因在复杂生命活动中的角色。

GO富集分析结果显示，glycolytic process等蛋白质主要参与蛋白质翻译、糖代谢、羧酸代谢等生物过程，定位于细胞外来体、氨基酰基-tRNA合成酶多酶复合物等细胞组分，具备果糖二磷酸醛缩酶活性、糖原磷酸化酶活性等分子功能。氨基酰基-tRNA合成酶多酶复合物是蛋白质合成关键分子，其功能异常可能导致错误蛋白质积累。AD患者大脑常见Aβ和tau蛋白异常聚集，可能与蛋白质翻译调控失调、错误折叠蛋白清除障碍有关[16]，进一步证实APP蛋白在AD发病机制研究中的重要性。KEGG通路富集结果显示，Glycolysis等蛋白质涉及HIF-1信号通路、糖酵解与糖代谢合成等关键代谢通路，通路异常与AD患者大脑“葡萄糖代谢减退”现象高度一致。

3.2.2 药物重定位结果对于556种AD相关蛋白，从TTD和DrugBank数据库查询到295种蛋白定位的1 372种药物。查找现有及临床试验Ⅳ期的AD药物及其相关蛋白信息，涉及28种蛋白及38种药物，含关键蛋白APP、MAPT及其相关8种药物。排除已知AD药物及相关蛋白后，得到267种蛋白与1 334种药物，这些药物对AD有潜在治疗作用。利用本研究提出的靶点评分算法，优选AD相关蛋白(APP作为内部对照，靶点得分标准化为1)，高效识别关键靶蛋白及其最具验证价值的候选药物。利用3种已知抗AD药物的靶蛋白(APOE、BACE1和TREM2)评估该靶点评分算法，其得分分别为1.278、0.549、0.294，名列前茅，见表3，说明本评分机制具有可行性。其他10种得分较高的抗AD靶点平均得分为0.195，范围0.101～0.376，其中靶点CD33得分为0.376，高于TREM2。CD33与小胶质细胞活化、神经炎症有关，靶向CD33的抗体或抑制剂最初在临床试验中用于治疗急性髓系白血病或实体瘤。在AD患者中，CD33基因的rs3865444多态性与CD33表达上调、小胶质细胞对Aβ42摄取能力下降，以及无法有效清除淀粉样斑块的激活态小胶质细胞数量增加相关[17]。因此，为治疗急性髓系白血病研发的靶向CD33的抗体或抑制剂(吉妥珠单抗奥佐米星、瓦达司他西单抗、林妥珠单抗、Actimab-A、Actimab-MDS、BI-836858、GTB-3550和HuM-195-Ac-225)可能值得探索。其次是CR1，现用于治疗黄斑退化。CR1基因中几种新单核苷酸多态(rs10494884、rs11118322、rs1323721、rs17259045和rs41308433)与大脑Aβ积累有关。进一步分析发现rs17259045可减少AD患者Aβ积累[18]，而Aβ积累是AD关键病理特征之一。因此，以CR1为靶点治疗视网膜黄斑变性的临床试验药物CDX-1135可能对AD有效，值得进一步验证研究。

4 结语

随着科学技术进步和医学研究深入，药物重定位成为当前及未来医药领域的重要趋势。本研究整合多组学数据构建融合挖掘框架，通过加权评分模型优选靶蛋白，进而精选潜在药物；以AD为实证，最终锁定CD33和CR1等具有AD治疗潜力的药物靶点及相关药物(吉妥珠单抗奥佐米星、CDX-1135等)。该框架为创新药物研发提供了新思路，能为发现疾病潜在治疗药物提供参考。

本研究仍存在一定局限性。疾病-靶点-药物关联机制比较复杂，发现过程中仅考虑三者关联，未考虑关联方向，后续分析药物作用机制时应具体考虑作用方向以进一步筛选。本研究仅利用文献计量学指标优选靶蛋白，未来可增加靶蛋白表达、分子对接等筛选指标提升准确性。此外，本研究虽揭示部分药物治疗潜力，其临床价值仍待系统性试验验证。

作者贡献：袁菁负责数据处理与分析、论文撰写；侯跃芳负责提出选题、研究设计、论文修订；韩玙蔓负责论文撰写与修订；张睿、安梓骞、陈星羽负责论文修订。

利益声明：所有作者均声明不存在利益冲突。

1 SHOAIB M，KAMAL M A，RIZVI S. Repurposed drugs as potential therapeutic candidates for the management of Alzheimer’s disease[J]. Current drug metabolism，2017，18(9)：842-852.

2 KIM J，WOO H R，NAM H G. Toward systems understanding of leaf senescence：an integrated multi-omics perspective on leaf senescence research[J]. Molecular plant，2016，9(6)：813-825.

3 ATHIENITI E，SPYROU G M. A guide to multi-omics data collection and integration for translational medicine[EB/OL].[2025-08-11].https：//www.sciencedirect.com/science/article/pii/S200103702200544X.

4 SANTIAGO-RODRIGUEZ T M，HOLLISTER E B. Multi’ omic data integration：a review of concepts，considerations，and approaches[J]. Seminars in perinatology，2021，45(6)：151456.

5 朱思怡. 基于多组学生物异构网络的药物重定位方法研究[D]. 厦门：厦门大学，2020.

6 文昱琦. 多组学数据整合算法及其在药物重定位领域的应用[D]. 北京：军事科学院，2019.

7 ZHANG M，SCHMITT-ULMS G，SATO C，et al. Drug repositioning for Alzheimer’s disease based on systematic ‘omics’ data mining[J]. Plos one，2016，11(12)：e168812.

8 LV Y，YUAN Y，ZHONG X，et al. Exploration and practice of potential association prediction between diseases and drugs based on Swanson framework and bioinformatics[J]. Scientific reports，2024，14(1)：29643.

9 WEI C H，ALLOT A，LAI P T，et al. PubTator 3.0：an AI-powered literature resource for unlocking biomedical knowledge[J]. Nucleic acids research，2024，52(W1)：540-546.

10 SZKLARCZYK D，NASTOU K，KOUTROULI M，et al. The STRING database in 2025：protein networks with directionality of regulation[J]. Nucleic acids research，2025，53(D1)：730-737.

11 BADER G D，HOGUE C W. An automated method for finding molecular complexes in large protein interaction networks[J]. BMC bioinformatics，2003，4(1)：2.

12 Gene Ontology Consortium. The gene ontology resource：20 years and still GOing strong[J]. Nucleic acids research，2019，47(D1)：330-338.

13 KANEHISA M，FURUMICHI M，SATO Y，et al. KEGG for taxonomy-based analysis of pathways and genomes[J]. Nucleic acids research，2023，51(D1)：587-592.

14 TRIANTAPHYLLOU E. Multi-criteria decision making：a comparative study[M]. Dordrecht：Kluwer Academic Publishers，2000.

15 GOATE A，CHARTIER-HARLIN M C，MULLAN M，et al. Segregation of a missense mutation in the amyloid precursor protein gene with familial Alzheimer’s disease[J]. Nature，1991，349(6311)：704-706.

16 BAI B，VANDERWALL D，LI Y，et al. Proteomic landscape of Alzheimer’s disease：novel insights into pathogenesis and biomarker discovery[J]. Molecular neurodegeneration，2021，16(1)：55.

17 BRADSHAW E M，CHIBNIK L B，KEENAN B T，et al. CD33 Alzheimer’s disease locus：altered monocyte function and amyloid biology[J]. Nature neuroscience，2013，16(7)：848-850.

18 ZHU X C，DAI W Z，MA T. Impacts of CR1 genetic variants on cerebrospinal fluid and neuroimagin biomarkers in alzheimer’s disease[J]. BMC medical genetics，2020，21(1)：181.

【作者机构】	中国医科大学健康管理学院
【分类号】	R9;TP311.13
【基金】	辽宁省教育厅高校基本科研项目(项目编号:LJ112410159061)

基于多组学数据融合挖掘的药物重定位研究

目录

文内图表

基于多组学数据融合挖掘的药物重定位研究

1 引言

2 方法框架

2.1 筛选疾病相关蛋白质

2.2 疾病相关蛋白质网络分析

2.3 疾病相关蛋白质功能分析

2.4 将疾病相关蛋白质定位到现有药物

2.5 药物重定位筛选

3 实证研究

3.1 研究过程与方法

3.2 结果与分析

4 结语

Study on Drug Repositioning Based on Multi-omics Data Mining