DOI:10.3969/j.issn.1673-6036.2026.02.015
王东丽, 邵帅, 丁磊, 陆玉梅, 严颖, 丁菊红
| 【作者机构】 | 南通大学附属南通第三医院重症医学科 |
| 【分 类 号】 | |
| 【基 金】 | 南通大学临床医学专项科研基金(项目编号:2024HY016)。 |
大语言模型(large languagemodel,LLM)基于深度学习技术,通过海量数据训练,具备文本信息理解、生成与推理能力[1]。近年来LLM快速发展,代表性模型有ChatGPT、Gemini、豆包、文心一言和DeepSeek等。与国外LLM相比,DeepSeek更适应中文语言环境,能够更好地理解中文语境与文化背景,从而更精准地满足我国本土化需求[2]。与其他国产LLM相比,DeepSeek处理连续性任务更稳定,文本生成更自然,推理能力更强[3]。在中国知网以“DeepSeek”为主题进行检索,自2025年1月20日DeepSeek-R1发布至2025年5月31日,已有1 711篇相关文献发表,其中学术期刊论文652篇,表明DeepSeek已成为人工智能领域研究热点之一。目前,LLM已广泛应用于机器翻译、软件开发、创意写作、教育辅导等领域,其在护理学领域也正得到快速推广与发展。为确保其在护理教育、临床等场景中应用的准确性与安全性,应先行对其护理知识掌握情况进行评估与验证[4]。有研究[5]表明LLM在护理基础知识理解与应用方面表现优异;但是对于LLM在复杂临床情境中的个案分析与高阶推理能力,相关研究仍较少。通过评估LLM对护理个案的理解和推理能力,可判断其在临床辅助决策、患者教育等高风险场景中的潜在价值[5-6]。本研究评估DeepSeek模型护理个案答题表现,为其在护理教育及临床辅助决策中的应用提供参考。
以科学出版社出版的《护理综合案例分析》[7]为资料来源。该书收录140余例临床案例,涵盖基础护理学、内科护理学、外科护理学、妇产科护理学、儿科护理学等护理学科,每个案例设3~5个情境化开放性问答题。案例纳入标准:题干完整,问题有明确参考答案;内容与临床护理实践相关,能反映护理工作中的实际问题。排除标准:题干模糊,无法理解含义;缺乏答案解析或答案争议较大;与临床护理实践不相关。最终纳入28个案例,共120道题目。
2.2.1 评价指标 利用DeepSeek解答纳入题目。从准确性、全面性、实用性、简洁性和条理性5个维度评价DeepSeek生成答案与答案解析。每个维度1—5分,1分为最差,5分为最佳。5个维度得分相加为总分,总分范围为5~25分,得分越高表示答题质量越高[8]。由两名具有副主任护师职称的专家独立评分。两名评分者从事护理专业年限分别为15年和17年,其中1名为硕士研究生导师。各维度最终得分取二者评分均值。如果准确性维度得分≥4分且未出现关键性理解错误,判定为“回答正确”;如果得分<4分,则判定为“回答不正确”。总体准确率=正确题目数/纳入总题数×100%。
2.2.2 样本量计算 使用PASS15软件进行样本量计算,采用配对样本t检验(t-Test Inequality模型),设定Power为0.8,α为0.05,得出所需样本量为100[9]。本研究纳入120道题目,超过最低样本量要求。
2.2.3 盲法 为减少评分主观性,每道题由两名评分者独立评分。将DeepSeek生成答案与答案解析随机标记为“答案A”和“答案B”。评分者不知晓答案来源,独立阅读案例及答案进行评分,以确保公正客观。如果两名评分者单项评分差距达到2分及以上,邀请第3名评分者参与评价,并以3人平均分作为最终得分,提高准确性和可靠性[10]。
2.2.4 DeepSeek模型的接入 截至2025年2月20日,DeepSeek已发布手机版、网页版、DeepSeek-V3版以及DeepSeek-R1版。其中,DeepSeek-R1-671b是当前参数规模最大(6 710亿参数)、性能最强的版本,具备语言理解、逻辑推理与语义整合能力,在复杂任务中准确性和稳定性更高。同时,其知识覆盖面广,有实时网络检索功能,且数据更新至2024年7月,能够胜任高精度信息处理任务,尤其适用于高复杂度的专业任务与科研场景。DeepSeek-R1-671b模型支持本地部署和通过应用程序接口(application programming interface,API)接入云端服务平台两种方式。由于该模型计算量大,对硬件配置要求高,本地部署难以满足稳定运行需求[11-12]。因此采用API接入方式,在电脑端安装硅基流动公司提供的接口程序,注册账号后,通过API接入其超级计算机平台,进行模型运算,每生成1 000个字符费用约0.011元。
2.2.5 输入指令调试 DeepSeek可能受“幻觉”现象影响,生成看似合理但实际不准确的答案[13]。为此设计输入指令时应避免模糊或多义性表述,从源头减少“幻觉”[14]。经反复实验与调试,确定输入指令分两步。第1步:命令DeepSeek分析护理个案,“你是一位护理领域专家,请对我提供的护理个案做详细分析”。第2步,命令DeepSeek基于个案信息回答具体问题。例如,对“该患者为何要进行肺功能检查”,输入指令为:“该患者为何要进行肺功能检查?(仅基于个案信息,不臆测,只回答问题本身即可)”。通过边界设置,可避免过度推测或解读,减少模型“幻觉”,提升作答相关性、评分效率与评分一致性[15]。
采用SPSS 26.0软件进行数据统计分析。计量资料符合正态分布时用独立样本t检验,不符合正态分布时用秩和检验;计数资料用χ2检验比较组间差异。统计学显著性水平设定为P<0.05为有统计学意义[16]。
两组得分的正态分布检验结果显示,所有维度得分均不符合正态分布,因此采用秩和检验。数据分析显示,DeepSeek在全面性、条理性和总分方面得分均高于答案解析(P<0.05),在准确性、实用性和简洁性方面得分均低于答案解析(P<0.05),见表1。DeepSeek在准确性、全面性、实用性、简洁性和总分维度的标准差大于答案解析(P<0.05),见表2。
表1 DeepSeek与答案解析得分比较[分,M(P25,P25)]
表2 DeepSeek与答案解析得分标准差比较(分,
±s)
两组得分均不符合正态分布,因此采用秩和检验。经Bonferroni校正,DeepSeek组在“简洁性-条理性”和“全面性-准确性”两个维度的比较中P>0.05,差异无统计学意义,其余各维度间的比较差异有统计学意义(均P<0.05)。答案解析组仅在“简洁性-全面性” “简洁性-准确性”及“条理性-准确性”3个维度的比较中差异有统计学意义(均P<0.05),其余维度间的比较差异无统计学意义,见表3。DeepSeek组的H值(255.520)略高于答案解析组(246.633)。
表3 DeepSeek与答案解析组内得分比较
以准确性维度得分≥4为“回答正确”,答案解析总体准确率为100%,DeepSeek总体准确率为85.8%,差异有统计学意义(χ2=18.3,P <0.001),见表4。
表4 DeepSeek与答案解析答题正确率比较
DeepSeek在全面性和条理性维度得分高于答案解析,差异具有统计学意义。分析其原因,主要包括两方面。一是DeepSeek-R1-671b模型数据库更新至2024年7月,具备联网检索功能,结合深度学习算法和大规模文本预训练,能够高效获取护理学各学科的相关数据,因此在全面性维度上得分高于答案解析[17]。例如,在一例急性心肌梗死护理个案中,DeepSeek回答涵盖患者病史、症状、诊断步骤、护理目标、治疗干预和护理评估6个方面。与答案解析相比,治疗干预部分增加药物治疗、患者生活方式干预及心理护理等内容,能更好地满足护理实践多维度需求。二是DeepSeek强大语言理解和推理能力使其能准确解读问题含义,抓住关键信息进行合理推理,在大规模文本数据中提取有效信息,确保回答逻辑性和条理性。因此,DeepSeek凭借信息检索、语言理解和推理优势,在全面性和条理性维度得分优于答案解析[18]。
DeepSeek在准确性、实用性和简洁性维度得分低于答案解析,差异具有统计学意义,其总体准确率也低于答案解析。分析其原因,主要包括3方面。一是DeepSeek从数据库提取信息,进行分析并得到答案,对于开放式护理个案问题,其回答易过度解读或与题目关联性较弱[19]。例如,在一例急性心肌梗死护理个案中,DeepSeek提供大量病理机制背景信息,却缺少具体护理措施和临床干预,导致实用性得分较低。而答案解析中多为实际护理干预和临床操作,实用性维度得分高。二是某些问题存在多种解读方式,DeepSeek在生成答案时有时偏向理论层面的多角度解读,缺乏针对临床场景的具体决策,导致准确性得分低于答案解析[20]。此外,DeepSeek的答案有时过于理论化,未能充分考虑临床情境、患者实际需求及操作的可行性,进而影响了实用性得分[21]。三是DeepSeek为确保全面性,倾向提供更详细的信息,将多个相关知识点和背景信息融入生成答案,未能有效简化内容,导致简洁性得分较低[22]。相比之下,答案解析通常经严格审核和精练,更加准确、实用且简洁[23]。
DeepSeek在准确性、全面性、实用性、简洁性和总分维度标准差大于答案解析,表明其得分波动大,稳定性较差。DeepSeek基于大规模数据训练,数据多样性可能导致模型处理不同类型问题时表现不一致[24]。尽管其具备强大推理能力,但其推理依赖于大规模数据训练,而非对问题的深入理解,处理有歧义或多种解读方式的问题时,DeepSeek的理解可能偏离题目核心,影响答案准确性。其输出常包含多维度详细信息,易使回答简洁性差,得分波动大。相比之下,答案解析通常经精练,答案简洁且符合实际护理需求,得分波动小。因此,尽管DeepSeek在信息处理和推理能力方面具有优势,但面对复杂和歧义性问题时,得分波动性较答案解析更大[25]。
DeepSeek在准确性、全面性和条理性维度平均分均超过4分,总分平均21.883分,高于答案解析,表明其能有效处理护理个案问题且在多个维度表现突出。DeepSeek具备数据检索、信息提取和分析功能,能帮助护理人员提升工作效率,推动护理服务智能化发展。护理教育者可利用DeepSeek辅助教学,临床护士可将其用于辅助决策,科研人员则可借助其进行数据分析与资料整理。此外,DeepSeek能整合医学、护理学、心理学及中医学等多学科知识,解决跨学科问题[26]。然而,DeepSeek应作为辅助工具,非决策主导者,确保护理人员保持独立判断,避免过度依赖[27]。同时,DeepSeek可能面临信息泄露风险,护理人员使用时应加强隐私保护,防止泄露医疗信息和患者隐私。未来应为护理人员提供专业的DeepSeek应用培训,确保使用安全[28]。
DeepSeek在护理个案理解与作答中表现良好,具备较强的护理学知识理解能力,可作为护理教育和临床决策辅助工具。但其应用存在一定挑战,如过度依赖、隐私泄露等问题。本研究仍存在一定局限:一是主要依靠两名专家参考教材“标准答案”进行人工评分,可能存在一定主观偏倚;二是仅从5个维度评分,尚无法完全捕捉模型在处理复杂临床决策时的细微逻辑差异。未来研究可进一步优化评价体系,邀请更多元化的临床专家参与,并引入基于真实循证指南的多维度指标,从而更客观、更深入地评估大语言模型在临床一线环境下的适用性与实际效果。
作者贡献:王东丽负责研究设计、论文撰写;邵帅负责提供指导、论文修订;丁磊负责数据收集与分析;陆玉梅、严颖、丁菊红参与数据分析、论文审核。
利益声明:所有作者均声明不存在利益冲突。
1 邱锡鹏.解剖大型语言模型:原理、应用及影响[J].探索与争鸣,2023(5):10-12.
2 龚中楠,赵俊强,任文杰,等.大语言模型在护理教育领域应用的范围综述[J].中国医学教育技术,2025,39(5):588-594.
3 闾海荣,江瑞,张学工,等.DeepSeek与医学大语言模型:技术创新与医疗服务模式重构[J].医学信息学杂志,2025,46(2):1-7.
4 王绍源,杨东航,任宇东.大语言模型在护理领域的应用场景与伦理探讨[J].护理学杂志,2025,40(5):108-113.
5 SHOOL S,ADIMIS,SABOORIAMLESHIR,etal.A systematic review of large language model(LLM)evaluations in clinicalmedicine[J].BMCmedical informatics and decision making,2025,25(1):117.
6 GOODMAN K E,ROBINSON M L,SHAMSSM,et al.Identification of long-term care facility residence from admission notes using large languagemodels[J].JAMA network open,2025,8(5):e2512032.
7 王涛,张华,蒙莉萍,等.护理综合案例分析[M].北京:科学出版社,2019.
8 徐文博,陈凤敏,王超,等.GPT-4大语言模型对护理知识理解的测试研究 [J].护理学杂志,2024,39(19):93-96.
9 袁建文,李科研.关于样本量计算方法的比较研究[J].统计与决策,2013(1):22-25.
10 DAIZ,WANG F,SHEN C,et al.Accuracy of large languagemodels for literature screening in thoracic surgery:diagnostic study[J].Journal of medical internet research,2025,27(3):e67488.
11 庄世正,刘澎涛,李璇,等.DeepSeek本地部署方案研究与探索[J].网络新媒体技术,2025,14(3):1-9.
12 陈行.基于Deepseek-R1大模型本地部署知识问答方法比较与分析——以建筑业数据分析为例[J].住宅与房地产,2025(15):13-17.
13 PUGH S L,CHANDLER C,COHEN A S,et al.Assessing dimensions of thought disorder with large language models:the tradeoff of accuracy and consistency[J].Psychiatry research,2024,341(11):116119.
14 DUMIT J,ROEPSTORFF A.AIhallucinations are a feature of LLM design,not a bug[J].Nature,2025,639(8053):38.
15 LEE JH,SHIN J.How to optimize prompting for large languagemodels in clinical research[J].Korean journalof radiology,2024,25(10):869-873.
16 李康,贺佳.医学统计学[M].北京:人民卫生出版社,2024.
17 WILLIAMSC Y K,SUBRAMANIAN C R,ALISS,et al.Physician-and large language model-generated hospital discharge summaries[J].JAMA network open,2025,185(7):818-825.
18 刘漫,沈鹏熠,张茹梦.人工智能技术在医疗护理中的应用研究 [J].中国农村卫生事业管理,2025,45(3):177-182.
19 洪学海,史峰.AI大模型驱动智库高质量发展的思考——基于开源DeepSeek R1大模型应用的部分实证[J].智库理论与实践,2025,10(4):1-8.
20 孙中海,赖小琴,颜怿炜.DeepSeek医院私有化部署的实现与应用探索[J].中国卫生信息管理杂志,2025,22(3):456-463.
21 马红燕,周晓,张碧瑶,等.DeepSeek大语言模型的处方合理性评估中的实用性[J/OL].医药导报,1-13[2025-08-12].https://link.cnki.net/urlid/42.1293.R.20250528.1116.002.
22 黄慧瑛,欧阳汉栋,林胜钊.探讨DeepSeek在护理工作中的应用场景及面临的挑战和应对策略[J].广州医药,2025,56(5):591-598.
23 PATIL A,SERRATO P,CHISVO N,et al.Large language models in neurosurgery:a systematic review andmeta-analysis[J].Acta neurochirurgica,2024,166(1):475.
24 HARTMAN V,ZHANG X,PODDAR R,et al.Developing and evaluating large language model-generated emergency medicine handoff notes[J].JAMA network open,2024,7(12):e2448723.
25 陈昌茂,张瑶,谭韦池,等.基于DeepSeek大语言模型的医院智能数据分类分级探索及应用[J].中国数字医学,2025,20(6):30-36.
26 闫温馨,刘珏,梁万年.DeepSeek赋能全科医学:潜在应用与展望[J].中国全科医学,2025,28(17):2065-2069.
27 王绍源,李梦.从ChatGPT4.0到DeepSeek-R1:人工智能在医疗卫生领域应用的革新场景和伦理治理范式转变[J/OL].中国医学伦理学,1-9[2025-08-12].https://link.cnki.net/urlid/61.1203.R.20250704.1632.014.
28 刘金枝,刘万鹏,高跃.DeepSeek类生成式人工智能助推医患命运共同体的构建研究[J].中国医学教育技术,2025,39(5):583-587.
Evaluation of DeepSeek’s Comprehension Ability in Nursing Case Analysis and Its Application Prospects
X