DOI:10.3969/j.issn.1673-6036.2025.08.014
中图分类号:R-05;|TP311.13
华磊1, 巩洋2, 毋丽丽1, 胡国华1, 贺国平1, 刘晋媛1
| 【作者机构】 | 1忻州师范学院; 2美国得克萨斯大学休斯顿健康科学中心 |
| 【分 类 号】 | R-05;TP311.13 |
| 【基 金】 | 山西省留学回国人员科技活动择优资助项目(项目编号:20230039) |
随着现代医疗技术迅速发展,医疗器械在疾病诊断、治疗、康复等领域的作用日益重要。但不良事件时有发生,给患者安全和医疗质量带来潜在威胁。构建科学有效的监测和研究体系,以提升医疗器械的安全与有效性,是行业监管的重要议题。
本研究基于大语言模型(large language model,LLM),结合思维链(chain-of-thought,CoT)推理技术在医疗器械制造商与用户设施不良事件报告(manufacturer and user facility device experience,MAUDE)数据库分析中的应用,设计开发AutoQUEST数据库自动化智能分析工具,并对其性能进行评估。结果表明,该工具可以精准筛选数据,并进行自动分析统计,快速生成高质量结果,有效降低MAUDE 数据研究的技术门槛,为医疗器械安全研究提供了自动化分析路径。
美国食品药品监督管理局(Food and Drug Administration,FDA)于1991年推出的MAUDE系统是目前全球范围内使用最广泛的医疗器械不良事件监测平台之一。该系统积累了海量医疗器械安全性数据,几乎完整覆盖医疗器械风险监测生命周期,并对敏感信息进行脱敏处理,可为监管机构、医疗器械制造商及医疗机构提供公开透明的信息支持[1]。研究人员可以利用MAUDE数据库精准定位医疗器械的故障模式、发生频率及其成因,为产品改进和监管部门管理提供科学依据。同时,该系统的数据反馈机制打通了医疗机构、监管部门和供应商等之间的信息壁垒,实现了对潜在安全隐患早发现、早干预的闭环管理。因此,利用MAUDE数据库进行深入研究对于提高医疗器械监管效率和保障患者安全具有极其重要的意义。
科研人员在使用MAUDE数据库时面临众多技术挑战。该数据库包含多个紧密关联的数据表和大量非结构化文本数据,导致数据预处理与信息提取流程复杂而耗时,精准定位关键信息难度高、效率低,且易引起人为疏漏,可能造成重要安全信号遗漏,直接给患者安全带来负面影响。此外,随着研究的深入,分析需求不断变化,研究人员须频繁调整查询策略和数据处理流程。过度依赖人工操作会耗费大量时间,增加人为误差风险,从而影响研究结果的准确性与可重复性。因此,实现分析过程的计算机辅助不仅能显著提升效率,更是确保分析精准性和患者安全的关键。
FDA官方提供在线查询页面[2]与应用程序编程接口(application programming interface,API)服务[3]两种数据访问途径,研究者可通过关键词检索和编程实现批量调用与处理。但前者功能单一,后者依赖编程实现且受限于调用频次及系统功能,难以兼顾易用性与灵活性。近年来,学界虽在不良事件文本分类模型[4]、自动结构化查询语句(structured query language,SQL)生成[5]、数据集成框架[6]及交互式分析报告方面取得一定成果[7],但仍缺乏贯穿数据采集分析到结果呈现的端到端自动化解决方案。
本研究旨在提出一种基于LLM与CoT推理[8]的AutoQUEST分析框架,构建具备自纠错能力的SQL生成机制(支持跨表复杂查询),并通过提示词优化技术,即词元(token)的压缩与少样本学习,提升文本解析能力。研究目标包括:构建端到端的自动化研究分析框架,实现研究流程的高度自动化;应用CoT推理与提示词优化方法,提高复杂任务的自动完成能力;通过多维度测试对框架性能和结果质量进行系统评估,以验证其可靠性与有效性。
AutoQUEST框架 采取“认知-执行”双链结构,模拟人类活动中“先思考、后行动”的闭环逻辑,见图1。采用 Gemini 2.0 Flash Thinking 为基础模型,因其具备1.8 %的低“幻觉”率(DeepSeek R1 对应数值为 14.8 %)[9]、每秒 200 token 以上的输出速度和可免费调用的API。框架遵循“提示词优化+双链结构”的轻量化思路:每次调用前,将 MAUDE 数据库的表结构、示例数据和专业术语等关键信息按任务指令的要求进行筛选,确保提示词上下文内容完整、精确。解耦式设计使框架无须修改代码即可即时继承模型升级带来的性能红利。
图1 框架流程及“认知-执行”双链式结构
认知链是以“想”的模式提供服务,依次完成问题生成、规划执行和结果分析:先将用户需求转写为可映射至 MAUDE数据库的具体研究问题,再自动制定分析策略,最终生成分析结果和报告。执行链是以“做”的模式提供服务,将认知链的规划转换为SQL,完成数据查询分析和结果格式化。整个处理通过输入层、LLM服务层和输出层的结构和顺序完成;统一的数据接口与实时监控保障信息流畅和系统稳定。用户提出问题后,即可启动从数据抽取到报告生成的全自动处理流程。
AutoQUEST框架的核心是基于提示词优化的链式思维推理。先自动整合用户需求与数据库元信息,将研究问题细化和分解为可执行的子任务。再结合数据库结构和样例数据对前述输出进行二次校验,以有效抑制“幻觉”和错误生成。SQL 查询采用渐进式生成策略,设定60秒数据库查询执行超时及最多32条查询结果返回的数量限制(达到或超过时自动生成统计类子查询),在控制链路上下文提示词长度的前提下,最大程度减少信息丢失。系统内置3重纠错机制:预验证、运行监控及指数退避重试(初始间隔1秒,递增因子为2,最多重试5次)。最终查询结果均标准化为JSON格式,实现面向研究问题的多维统计与语义分析,输出包括趋势、成因及局限性的综合报告。
AutoQUEST 框架支持在Linux、MacOS 或 Windows 操作系统的 Python 环境下运行,默认以 PostgreSQL 数据库加载 MAUDE 数据。仅需双核 CPU、16 GB 内存和 250 GB 硬盘空间即可完成部署。
使用方法简单,具体步骤:一是在配置文件中填写数据库连接信息、推理模型 API 地址与密钥、输出路径等关键参数;二是使用命令行模式执行语句(python main.py -question “你的研究问题或偏好”)。程序通常会在 3~10 分钟自动完成全过程,输出数据报告。报告内容涵盖研究问题、执行计划、生成的 SQL 语句、查询次数、执行耗时、token 数量消耗、查询失败次数、最终查询结果与综合分析报告。
本研究相关完整源代码(含所有提示词)、程序运行数据及结果报告已 发布于GitHub(https://github.com/leiMizzou/AutoQUEST),便于研究结果复现与进行二次开发[10]。
围绕技术执行和内容质量两个维度对AutoQUEST框架进行评估,见表1。其中,系统运行性能通过查询成功率、查询数量、重试次数以及执行时间来衡量,见表2;分析复杂度评分标准,见表3;内容质量评分标准,见表4。
表1 综合评分权重分布
一级维度二级维度三级维度技术执行维度(40%)系统运行性能(25%)查询成功率(7.5%)查询数量(6.25%)重试次数(6.25%)执行时间(5.0%)分析复杂度(15%)问题定义(6.0%)数据关联(4.5%)分析方法(4.5%)内容质量维度(60%)内容质量 (60%)问题阐述(12.0%)分析框架(15.0%)数据展示(12.0%)结论深度(12.0%)实用价值(9.0%)
表2 系统运行性能评分标准
分数查询成功率(%)查询数量(个)重试次数(次)执行时间(秒)5100最优(8~12)<5<200490~99适中(6~7或13~15)5~10200~400380~89稍弱(4~5或16~18)11~15400~600270~79较弱(2~3或19~20)16~20600~8001<70过多或少(<2或>20)>20>800
表3 分析复杂度评分标准
分数问题定义数据关联分析方法5多维度>3个表关联复杂统计分析4双维度2~3个表关联多维度分析3单维度2个表关联基础统计分析2一般描述单表分析简单统计1简单描述无关联分析基础计数
表4 内容质量评分标准
分数问题阐述分析框架数据展示结论深度实用价值5问题定义清晰,研究目标和边界明确框架完整,层次分明,逻辑严密数据全面,可视化专业,解释充分见解独到,论证充分,启发性强直接可用,建议具体可行4问题定义基本清晰,目标较明确框架较完整,逻辑较清晰数据较全面,展示合理见解较好,论证较充分较易应用,建议具体3问题描述一般,目标不够具体框架基本完整,逻辑一般数据基本完整,展示一般见解一般,论证基本可信可以参考,建议一般2问题描述模糊,目标不明确框架不完整,逻辑欠缺数据不足,展示简单见解浅显,论证不足应用困难,建议模糊1问题描述混乱或缺失框架混乱或缺失数据混乱或缺失见解混乱或缺失难以应用或无建议
以“请提出一个与医疗器械相关的研究问题”为示例需求,由AutoQUEST系统自动生成5组待评估数据(分别记为报告1—5)。系统在每次生成研究问题后,自动结合MAUDE数据库的表结构和案例数据完成研究问题拆解、SQL查询及统计分析等操作,最终产出对应的分析报告。在此过程中,系统自动记录每个报告对应的执行时间、模型token消耗总量、SQL语句及其数量、查询成功率、重试次数等指标。在主观评分环节,邀请两位计算机专家,依据内容质量评分标准,对报告进行评审。如果两位专家意见有差异,则引入团队讨论协商达成一致。最后,基于加权评分法,计算综合得分,并对5份报告进行整体排名。
系统性能详细评估,见表5。报告3和报告4的查询成功率均达到100%,耗时分别为158秒和290秒,表现出较高执行效率和稳定性。报告1结果相对良好。报告2重试次数高达23次,表明在处理查询时存在大量错误重试。报告5由于总查询数过多,尽管查询成功率达到100%,但执行时间显著增加。
表5 系统性能详细评估
报告执行时间(秒)token数(千)总查询数(个)成功查询(次)失败查询(次)重试次数(次)查询成功率(%)117817398158926693411082238031581207704100429014177051005877140323202100
基于系统运行性能评分标准,结合执行时间及查询成功率,计算5份报告的SQL执行性能评分,见表6。综合来看,报告3的表现最佳,报告2在执行时间和重试次数上失分较多。
表6 系统运行性能评分(分)
报告查询成功率查询数量重试次数执行时间加权总分13.05.04.05.04.1523.05.01.02.02.8535.04.05.05.04.7545.04.04.04.04.3055.01.05.01.03.10
5份报告的分析复杂度评分,见表7。报告3在问题定义、数据关联、分析方法3个方面均较为突出。
表7 分析复杂度评分(分)
报告问题定义数据关联分析方法加权总分14.04.04.54.1523.53.54.03.6534.54.54.54.5044.04.04.04.0053.03.53.03.15
5份报告的内容质量评分,见表8,报告3和报告1得分较高。
表8 内容质量综合评分(分)
报告问题阐述分析框架数据展示结论深度实用价值加权总分15.05.04.54.54.54.7524.04.04.03.54.03.9035.05.04.54.55.04.8044.54.54.54.54.04.4554.04.04.03.53.53.85
5份报告综合得分,见表9。其中,报告3综合得分最高,为4.74。
表9 综合评分与排名
报告技术维度(分)内容维度(分)综合总分(分)排名11.672.854.52221.272.343.61431.862.884.74141.682.674.35351.262.313.575
AutoQUEST能够持续生成高质量分析结果并在大多数实验场景中保持一致,证明其基础设计的稳健性,表明该系统不仅是一个概念验证,更是一个切实可行的工具,能够真正增强人类研究能力,特别是在减少数据分析的人工工作量的同时,确保了分析的严谨性。AutoQUEST采用的自动化流程显著简化了多次迭代查询与分析的操作过程,不仅大幅提升了研究效率,还能提供高质量分析结果。以报告1、报告3、报告4为例,其在问题阐述、分析框架、数据展示等关键维度均获得较高评分,充分体现了AutoQUEST在自动化效率与结果质量方面的双重优势,为研究者提供了便捷而可靠的研究辅助工具。然而,系统在处理复杂查询需求时仍有改进空间。报告2和报告5的测试结果显示,面对大规模数据或复杂分析任务时,系统出现了执行时间较长和重试次数增多的问题,这表明AutoQUEST在性能方面有待进一步提升。
AutoQUEST开创了医疗器械不良事件研究领域智能分析新范式,创新性地将LLM 与CoT推理技术结合,实现了从问题生成到数据分析的全流程自动化。实验结果表明,在CoT推理技术加持下,AutoQUEST不仅能够模拟专家思维,根据用户研究意图与数据特点自动构建并执行高质量查询,还能生成在问题阐述、分析框架、结论深度等方面均较出色的研究报告,确保每份报告具有逻辑闭环。
该系统的核心优势在于其模块化的双链式结构,通过认知链完成问题分析、执行策略优化等关键环节,再由执行链负责数据检索、分析及结果呈现。这一系列操作形成了端到端的智能化闭环,充分体现了CoT将复杂任务分解为更易管理的子任务的内在逻辑,为输出结果连贯性和上下文关联性提供了关键保障。
AutoQUEST系统配备独特的提示词压缩技术,通过聚类和LLM 对数据表进行语义相似度计算,将MAUDE原始113张数据表合并为13~16个表组,再按需还原使用。该方法显著简化了数据库模式的信息表达,提示词长度减少了85%~88%[11]。既满足了模型输入长度方面的限制(通常为32K~128K),又显著提高了AutoQUEST在研究问题生成阶段的创造性与准确性。双链架构与提示词压缩、少样本学习的结合,形成了强大的协同效应,使AutoQUEST能够超越简单的自动化,实现智能、专家级辅助。
尽管AutoQUEST在实验中综合表现灵活出色,但在复杂任务及大规模数据测试场景中,仍存在3方面问题有待优化。首先,AutoQUEST对数据规范性和完整度要求较高。一旦出现文本标准化缺失或数据不完整,可能对分析可靠性产生不利影响。后续可通过引入数据清洗、缺失值补全等预处理技术,增强系统鲁棒性。其次,AutoQUEST对MAUDE数据库中的海量非结构化文本信息主要采用规则匹配及少样本学习算法,在深层语义理解和自动知识抽取方面仍存在明显局限。将自然语言处理、机器学习等前沿技术融入分析过程,是未来拓展系统功能的重要方向。最后,从实验结果来看,报告2和报告5执行时间明显增长、重试次数增多,说明系统在面对多表复杂连接或大规模数据时存在性能瓶颈。为实现跨领域、更大规模的通用应用,应在算法优化、资源弹性调度、查询缓存和索引机制等方面进行深入研究。
AutoQUEST框架通过LLM 结合 CoT 的“认知-执行”双链,实现了 MAUDE 数据库从问题生成到结果报告的全流程自动化分析,不仅大幅提升了分析效率,还保证了高质量的结果输出,降低了MAUDE数据研究的技术门槛。尽管在深层语义理解与大规模数据处理方面仍存在改进空间,但实验结果已充分验证了系统应用于监管、研发与临床实践等领域的现实意义。随着因果推理、多模态输入及可视化交互的进一步融合,以及基础模型的持续进步,AutoQUEST 有望成为医疗器械安全研究领域的重要基础设施,为临床、产业和监管部门持续赋能。
作者贡献:华磊负责研究设计与实施、系统开发、论文撰写;巩洋负责提供指导、论文审核;毋丽丽负责组织主观评分及结果分析;胡国华、贺国平负责主观评分;刘晋媛负责评估数据收集与分析。
利益声明:所有作者均声明不存在利益冲突。
1 吴静,金乐. 美国医疗器械不良事件监测体系及MAUDE数据库在医疗器械注册申报中的应用[J]. 中国医疗器械杂志,2024,48(4):451-456.
2 U.S. Food and Drug Administration. Manufacturer and user facility device experience (MAUDE) database[EB/OL].[2025-02-22]. https://www.accessdata.fda.gov/scri pts/cdrh/cfdocs/cfmaude/search.cfm.
3 U.S. Food and Drug Administration. OpenFDA:open-source APIs[EB/OL].[2025-02-22]. https://open.fda.gov/.
4 WANG E,KANG H,GONG Y. Generating a health information technology event database from FDA MAUDE reports[J]. Studies in health technology and informatics,2019,264(8):883-887.
5 YU Y,SHI Y,FENG Y,et al. Developing a generative AI-powered chatbot for analyzing MAUDE database[J]. Studies in health technology and informatics,2024,316(8):1255-1259.
6 SHI Y,YU Y,FENG Y,et al. A data pipeline for enhancing quality of MAUDE-based studies[J]. Studies in health technology and informatics,2024,316(8):1214-1218.
7 YU Y,SHI Y,FENG Y,et al. Enhancing MAUDE database utility by GPT-4 and cause-effect visualization[J]. Studies in health technology and informatics,2024,315(7):290-294.
8 WEI J,WANG X,SCHUURMANS D,et al. Chain-of-thought prompting elicits reasoning in large language models[J]. Advances in neural information processing systems,2022,35(11):24824-24837.
9 VECTARA. Hallucination Leaderboard[EB/OL].[2025-05-19]. https://github.com/vectara/hallucination-leaderboard.
10 HUA L. AutoQUEST[EB/OL].[2025-02-22]. https://github.com/leiMizzou/AutoQUEST.
11 HUA L. MAUDE-schema-compressor[EB/OL].[2025-01-09]. https://github.com/leiMizzou/MAUDE-Sche ma-Compressor.
X