DOI:10.3969/j.issn.1673-6036.2026.02.002
杜家乐, 方媛, 毕成, 郑鑫, 张雨欣, 曹琼方, 宋杰, 肖萌, 沈百荣
| 【作者机构】 | 四川大学华西医院疾病系统遗传研究院 |
| 【分 类 号】 | |
| 【基 金】 | 国家自然科学基金项目(项目编号:32570773)。 |
近年来,音乐在临床医学中的应用研究快速发展,已成为传统医疗手段的重要补充,其在不同疾病治疗与康复中的使用范围不断扩大[1-2],过去几十年间欧洲注册的专业音乐治疗师数量增长了数十倍[3]。音乐疗法的价值不仅体现在生理层面的疗愈,更是改善心理状态、维护情感健康的重要手段[4]。相关研究[5]显示,人们接触音乐的目的具有多样性,既包括提升注意力等功能性需求,也涵盖缓解压力、减轻孤独与悲伤等负面情绪的心理需求。音乐治疗的作用在特定病症干预中尤为显著,例如,辅助神经退行性疾病患者认知康复[6-7]、精神疾病患者情绪调节[4-5,8]等。音乐治疗更易触发“关注时刻”,提高治疗效果[9]。
传统治疗性音乐推荐多依赖音乐治疗师的经验[10]。随着数字音乐库规模急剧扩大,以及大语言模型(large languagemodel,LLM)的广泛应用,在经验预设之外,有效地组织、检索和整合音乐数据,结合患者临床需求与音乐偏好生成个性化的治疗性音乐推荐已成为可能。检索增强生成(retrieval-augmented generation,RAG)作为大模型增强的重要手段[11],为音乐信息检索领域注入了新活力。目前RAG在音乐治疗领域的应用集中在以下两类任务:一是音乐生成任务,包括符号音乐生成、音乐音频生成;二是音乐理解任务,包括音乐字幕生成、乐理问答等。在音乐生成任务中,Jonason N等[12]于2023年首次将RAG用于音乐信息检索领域,有效提升了符号音乐生成性能;Gonzales R等[13]进一步提出将RAG与Text-to-Audio模型结合,显著改善模型在零样本与少样本场景下的音乐生成效果。在音乐理解任务中,Kwon D等[14]构建RAG框架,检索音乐专用矢量数据库MusWikiDB,模型效果明显优于传统微调方法。此外,Yu D等[15]整合来自Hugging Face、Github、Web API等平台的多样化音乐工具集,研发基于LLM的音乐理解与生成智能体。然而上述研究中尚无专门面向音乐治疗开发的音乐生成和理解方案。
本研究基于PubMed数据库筛选经随机对照试验验证的高质量音乐治疗文献,整合临床音乐治疗歌单及其可播放音频数据构建知识库,开发具备智能体特性的RAG框架(agentic RAG,ARAG),使大语言模型能够自主将复杂查询分解为子任务,并协调专业化检索操作,从而提供基于证据的音乐治疗个性化推荐。
本研究核心设计思路为:系统挖掘PubMed数据库中音乐治疗的临床应用趋势与干预性音乐音频特征,如节奏、调式、速度等与治疗效果相关的声学参数;整合RAG技术,通过关联领域文献知识库与用户个性化音乐偏好数据,构建兼具临床循证性与个体适配性的治疗性音乐推荐模型,并实现音乐治疗领域的专业化问答功能。文献检索策略为:以PubMed数据库为检索源,采用主题词与自由词结合的方式,以“music-therap*”为检索词,检索范围涵盖文献标题与摘要,检索时限设定为2000年1月1日—2025年8月31日。纳入标准为:研究对象为人类;干预措施包含音乐元素(聆听、唱歌、创作、演奏或训练);结局指标客观可量化;报告95%置信区间或提供充足数据。排除标准为:非人类受试者研究;非疾病治疗相关的音乐研究;无法获取全文、已撤稿或非同行评议文献(会议记录、社论、评论、书籍章节);缺乏95%置信区间或可靠统计数据。文献筛选流程,见图1。
图1 文献筛选流程
为了保证回答的精确性,采用美国国立卫生研究院音乐干预工具包[10]以及自行设计的标注框架,对纳入的268篇音乐治疗文献进行标注,标注内容包括音乐干预设计、干预音乐特征、疾病信息、研究人群信息、研究设计信息和参考文献信息等。对于文献中使用的音频和歌单,筛选可获取全部标注信息的42篇歌单及相应歌曲,针对歌单标注治疗目标、医疗操作、干预主题和相应的文献PubMed唯一标识码(PubMed unique identifier,PMID),针对音乐标注音乐流派、每分钟节拍数、是否带有歌词和音乐时长等信息。
为保证数据质量,建立双重验证机制。一是文献标注验证,由一名研究者独立审查所有数据条目,通过交叉核对确保准确性与一致性。二是音频特征标注验证,将音频元信息映射至Amazon Reviews公开数据集,并使用音乐信息检索工具Essentia自动提取流派、节拍等标签,人工校验异常值。质量评估结果显示:音频标注准确率达99.2%(空值率<1%);文献标注方面,由于原始文献报告标准不一,核心字段(音乐干预设计、会话设计、疾病信息)完整率为74.52%,缺失数据标注为“Not Reported”,并记录于元数据中。两类数据均采用Json格式标注,并存储于Metadata中。
本研究提出音乐治疗Agentic RAG框架(MTARAG),使用工具在音乐平台读取用户音乐偏好,引入两类专门LLM智能体优化上下文检索,实现音乐治疗问答和治疗性音乐推荐,见图2。
图2 音乐治疗Agentic RAG框架
采用Llamaindex框架构建RAG系统,调用大语言模型(ChatGPT-4)生成答案,并使用Streamlit搭建轻量级Web界面,便于服务器部署。系统主要实现两个任务:音乐疗法文献问答、治疗性播放列表推荐。
向量嵌入与存储方面,文本块由嵌入模型转换为1 536维向量[16],选用OpenAI text-embeddingada-002模型对音乐治疗文献进行批量嵌入(batch_size=16),并存储在ChromaDB持久化向量数据库中。通过MD5哈希生成稳定的ID编码实现增量索引机制,避免重复嵌入。语义分块策略结合段落切分和智能合并,每个分块节点继承文档级元数据并注入唯一ID。文档构建时将文献标注中17个维度的信息作为结构化元数据存储,并列为快速关键词文献检索依据。
用户偏好获取方面,选取全球最大音乐流媒体平台(Spotify),集成其Spotify OAuth授权接口。用户授权后,系统通过Spotify SDK调用应用程序接口(application programming interface,API)获取短期(4周)、中期(6个月)、长期(数年)的最常播放曲目与最常播放艺人,以及最近播放曲目,据此生成包含艺术家集合、歌曲集合、流派偏好的个性化音乐画像。
文献域与歌单域采用不同检索器设计策略。文献域使用密集向量检索(ChromaDB余弦相似度)与稀疏关键词检索(BM25倒排索引)相结合的加权混合检索,过滤相似度<0.3的噪声,返回Top-K(默认为5)结果。歌单域基于用户音乐画像与查询解析实现结构化元数据检索,查询解析包括bpm范围、时长范围和流派/情绪关键词匹配,并通过预定义词汇表实现疾病与干预目标的跨语言标准化映射。最终,系统通过偏好打分工具评估候选歌曲,兼顾文献准则与患者偏好,筛选出最合适的治疗性音乐。
由于音乐疗法学术文献与音频数据描述在语义结构上存在本质差异,传统单一检索器难以同时兼顾医学逻辑的严谨性与音乐特征的匹配度,设计两个针对特定数据文档的智能体。一是音乐疗法文献智能体(literature agent),通过系统提示词将其约束为“循证医学专家”,专责处理半结构化的学术文本。提示词要求其角色设定体现循证医学专业性,必须引用研究标题、作者、研究设计、样本量及结局等信息,强调循证共识,输出学术性强、结构化且具可解释性的证据链。输出由提示词严格约束,须解释推荐方案的证据链条。二是音乐疗法播放列表智能体(playlist agent),将其约束为“临床导向的音乐选择专家”,专责处理结构化的音频描述信息(如通过Spotify API获取的歌曲名、艺术家),以及其他音频标注信息,专注于音乐特征匹配和推荐。为该智能体分配两类工具:Spotify偏好获取工具,在授权情况下获取用户听歌历史,从中分析用户偏好(歌手偏好、专辑偏好、流派偏好、节奏偏好、歌词偏好),并将听歌历史中频次大于3的音乐组成听歌历史池;歌曲打分工具,主要基于规则匹配对音乐打分,找到最符合用户偏好的治疗性音乐。音乐治疗播放列表智能体的主要工作流程,是使用“基于文献策略”和“用户偏好策略”从歌曲源检索歌曲组成候选曲目池,结合文献中的治疗目标(如缓解焦虑、改善睡眠、康复训练等),基于规则对候选曲目打分并排序,筛选最合适的音乐,并生成个性化推荐列表,同时提供简要解释。输出格式由提示词严格约束为5个部分:治疗目标、选曲规则、歌曲列表、安全性、基于偏好占比的推荐方案。MT-ARAG通过提示词将用户查询划分为“循证文献问答”与“治疗性歌单生成”两类。如果识别为混合意图,则充当“协调者”,将前序智能体的输出作为上下文传递给后续智能体,协同整合基于证据的规则型筛选与偏好驱动的个性化推荐,见图3。
图3 MT-ARAG对话任务流程
MT-ARAG应用效果评估包括两个环节,见表1。一是LLM自动评估,使用Es S等[17-18]提出的RAGAs自动评估框架,主要涵盖两方面:包括上下文精确度、上下文召回率和上下文相关性的检索器评估,以及包括答案相关性和忠实度的生成器评估。二是人工评估,侧重正确性、论证质量和流畅性,综合主观和客观指标制定评分细则,采用5分制Rubric评估。从音乐治疗与疾病的关联、干预形式、音频特征以及人群特征4个角度,构建评估数据集,共包含25个测试用例,相关上下文来源于72篇音乐治疗文献,涵盖疾病包括阿尔茨海默病、脑卒中、孤独症谱系障碍、抑郁症、注意缺陷多动障碍、创伤后应激障碍和癌症等[19-25];治疗方案包括认知恢复、肺部与心脏康复、团体音乐疗法等[26-29]。评估数据集和评估细则随代码一同公布(https://github.com/blinkhor/MT-ARAG),便于研究结果复现以及二次开发。
表1 MT-ARAG评估指标及结果
音乐治疗作为循证医学实践中的重要非药物干预手段,其有效性很大程度上依赖于治疗师的临床经验。本研究面向音乐疗法领域,提出融合大语言模型与智能体协同机制的检索增强生成新方法,构建MT-ARAG框架,实现基于循证依据的音乐疗法方案制定与个性化治疗性音乐歌单推荐。评估结果证实,该框架不仅实现了可解释的循证证据音乐疗法方案问答,更能在保证有文献依据的前提下兼顾用户审美偏好,从而为解决音乐治疗个性化成本高的问题提供了计算医学视角的解决方案,切实推动该领域向精准医疗和数字疗法方向演进。
本研究存在一定局限性。一是文献检索仅限于PubMed数据库,未纳入非英语文献,未对其他语言地区人群音乐偏好差异进行研究。二是目前音乐疗法文献对于音乐干预内容的报告标准并不统一,部分报告内容缺失限制了MT-ARAG系统对音乐与疗法关联的深度特征发掘。三是纳入的临床试验文献中,部分疾病类别的随机对照试验样本量偏小,导致证据稳健性存在差异,MT-ARAG系统目前尚缺乏一套能够面向不同证据等级,综合生成音乐疗法方案并推荐治疗性歌单的输出算法。四是数据库尚缺乏生物标志物相关信息及成本效益评估,因此音乐歌单推荐在真实场景中的应用效果仍有待进一步临床试验加以验证。
未来在临床应用中,除了考虑音乐偏好外,还应进一步利用多样化人群的个性化画像进行迭代,综合考虑年龄、身体状况、文化背景、医疗背景、创伤史以及语言差异性等因素进行治疗性音乐推荐。
随着人工智能技术的飞速发展,特别是大模型的兴起,音乐疗法的可及性与实用性逐渐增强。本研究提出ARAG框架,通过不同智能体融合文献和音频知识,结合大模型提高治疗性音乐推荐效果,降低了音乐疗法临床实践的技术门槛。本研究提出的框架,在未来可以进一步推动音乐疗法的发展,为个性化音乐治疗提供基础和支撑。
作者贡献:杜家乐负责数据收集与标注、框架开发、论文撰写;方媛、毕成、郑鑫、张雨欣参与技术实现;曹琼方、宋杰、肖萌负责数据验证;沈百荣负责研究设计、提供指导、论文修订。
利益声明:所有作者均声明不存在利益冲突。
1 LIK,WENG L,WANG X.The state ofmusic therapy studies in the past20 years:a bibliometric analysis[J].Frontiers in psychology,2021,12(6):697726.
2 ZHIL,HOU D,HONG Y,etal.Research onmusic therapy from 2013 to 2022:a bibliometric and visualized study[J].Frontiers in psychology,2024,15(8):1323794.
3 European Music Therapy Confederation.Aboutmusic therapy in Europe[EB/OL].[2025-07-18].https://emtc-eu.com/overview/.
4 CHANDA M L,LEVITIN D J.The neurochemistry of music[J].Trends in cognitive sciences,2013,17(4):179-193.
5 SOLANKIM S,ZAFARM,RASTOGIR.Music as a therapy:role in psychiatry[J].Asian journal of psychiatry,2013,6(3):193-199.
6 MATZIORINISAM,KOELSCH S.The promise ofmusic therapy for Alzheimer’s disease:a review[J].Annals of the New York academy of sciences,2022,1516(1):11-17.
7 SIHVONEN A J,SARKAMO T,LEO V,et al.Musicbased interventions in neurological rehabilitation[J].The lancet neurology,2017,16(8):648-660.
8 KUCIKIENE D,PRANINSKIENE R.The impact of music on the bioelectrical oscillations of the brain[J].Actamedica lituanica,2018,25(2):101-106.
9 AGRESK R,SCHAEFER R S,VOLK A,et al.Music,computing,and health:a roadmap for the current and future roles of music technology for health care and well-being[J].Music&science,2021,4:1-32.
10 EDWARDSE,ST HILLAIRE-CLARKE C,FRANKOWSKIDW,et al.NIH music-based intervention toolkit:music-based interventions for brain disorders of aging[J].Neurology,2023,100(18):868-878.
11 SONG J,XU Z,HEM,etal.Graph retrieval augmented large language models for facial phenotype associated rare genetic disease[J].NPJdigitalmedicine,2025,8(1):543.
12 JONASON N,CASINIL,THOMÉC,et al.Retrieval augmented generation of symbolicmusic with LLMs[EB/OL].[2025-07-18].https://arxiv.org/abs/2311.10384.
13 GONZALES R,RUDZICZ F.A retrieval augmented approach for text-to-music generation[C].Bangkok:The Fifth Workshop on Financial Technology and Natural Language Processing and the Second Multimodal AI For Financial Forecasting,2024.
14 KWON D,DOH S,NAM J.MUST-RAG:musical textquestion answering with retrieval augmented generation[EB/OL].[2025-07-18].https://arxiv.org/abs/2507.23334.
15 YU D,SONG K,LU P,et al.MusicAgent:an AI agent for music understanding and generation with large languagemodels[C].Singapore:The2023Conference on Empirical Methods in Natural Language Processing:System Demonstrations,2023.
16 LIU N F,LIN K,HEWITT J,et al.Lost in themiddle:how languagemodels use long contexts[J].Transactions of the association for computational linguistics,2024,12:157-173.
17 YU H,GAN A,ZHANG K,etal.Evaluation of retrievalaugmented generation:a survey[M].Singapore:Springer Nature,2025.
18 ESS,JAMESJ,ANKE L E,et al.Ragas:automated evaluation of retrieval augmented generation[C].St.Julians:The 18th Conference of the European Chapter of the Association for Computational Linguistics:System Demonstrations,2024.
19 LYU J,ZHANG J,MUH,etal.The effects ofmusic therapy on cognition,psychiatric symptoms,and activities of daily living in patients with Alzheimer’s disease[J].Journal of Alzheimer’s disease,2018,64(4):1347-1358.
20 BERGMANN T,BIRKNER J,SAPPOK T,et al.The autism-competency-group(AutCom):a promising approach to promote social skills in adultswith autism spectrum disorder and intellectual disability[J].International journal of developmental disabilities,2021,67(5):349-365.
21 MAINKA S,WISSEL J,VOLLER H,et al.The use of rhythmic auditory stimulation to optimize treadmill training for stroke patients:a randomized controlled trial[J].Frontiers in neurology,2018,9(9):755.
22 TANG Q,HUANG Z,ZHOU H,et al.Effects of music therapy on depression:ameta-analysis of randomized controlled trials[J].Plos one,2020,15(11):e0240862.
23 PARK JI,LEE IH,LEE SJ,etal.Effects ofmusic therapy as an alternative treatment on depression in children and adolescents with ADHD by activating serotonin and improving stress coping ability[J].BMC complementary medicine and therapies,2023,23(1):73.
24 CARR C,D’ARDENNE P,SLOBODA A,etal.Groupmusic therapy for patientswith persistent post-traumatic stress disorder—an exploratory randomized controlled trial with mixed methods evaluation[J].Psychology and psychotherapy:theory,research and practice,2012,85(2):179-202.
25 TANG H,CHEN L,WANG Y,etal.The efficacy ofmusic therapy to relieve pain,anxiety,and promote sleep quality,in patients with small cell lung cancer receiving platinumbased chemotherapy[J].Supportive care in cancer,2021,29(12):7299-7306.
26 OKAMOTO J,FURUKAWA Y,KOBINATA N,et al.Combined effect of pulmonary rehabilitation and music therapy in patientswith chronic obstructive pulmonary disease[J].Journal of physical therapy science,2021,33(10):779-783.
27 CHANM F,WONGO C,CHAN H L,etal.Effects ofmusic on patients undergoing a C-clamp procedure after percutaneous coronary interventions[J].Journal of advanced nursing,2006,53(6):669-679.
28 LAGASSE A B.Effects of a music therapy group intervention on enhancing social skills in children with autism[J].Journal ofmusic therapy,2014,51(3):250-275.
29 SVANSDOTTIR H B,SNAEDAL J.Music therapy inmoderate and severe dementia of Alzheime’s type:a case-control study[J].International psychogeriatrics,2006,18(4):613-621.
MT-ARAG:Construction of RAG Based on Agent Characteristics and Its Application in the M usic Therapy
X