DeepSeek护理个案理解能力测试与应用展望

大语言模型（large languagemodel，LLM）基于深度学习技术，通过海量数据训练，具备文本信息理解、生成与推理能力［1］。近年来LLM快速发展，代表性模型有ChatGPT、Gemini、豆包、文心一言和DeepSeek等。与国外LLM相比，DeepSeek更适应中文语言环境，能够更好地理解中文语境与文化背景，从而更精准地满足我国本土化需求［2］。与其他国产LLM相比，DeepSeek处理连续性任务更稳定，文本生成更自然，推理能力更强［3］。在中国知网以“DeepSeek”为主题进行检索，自2025年1月20日DeepSeek－R1发布至2025年5月31日，已有1 711篇相关文献发表，其中学术期刊论文652篇，表明DeepSeek已成为人工智能领域研究热点之一。目前，LLM已广泛应用于机器翻译、软件开发、创意写作、教育辅导等领域，其在护理学领域也正得到快速推广与发展。为确保其在护理教育、临床等场景中应用的准确性与安全性，应先行对其护理知识掌握情况进行评估与验证［4］。有研究［5］表明LLM在护理基础知识理解与应用方面表现优异；但是对于LLM在复杂临床情境中的个案分析与高阶推理能力，相关研究仍较少。通过评估LLM对护理个案的理解和推理能力，可判断其在临床辅助决策、患者教育等高风险场景中的潜在价值［5－6］。本研究评估DeepSeek模型护理个案答题表现，为其在护理教育及临床辅助决策中的应用提供参考。

2 资料与方法

2.1 资料来源

以科学出版社出版的《护理综合案例分析》［7］为资料来源。该书收录140余例临床案例，涵盖基础护理学、内科护理学、外科护理学、妇产科护理学、儿科护理学等护理学科，每个案例设3～5个情境化开放性问答题。案例纳入标准：题干完整，问题有明确参考答案；内容与临床护理实践相关，能反映护理工作中的实际问题。排除标准：题干模糊，无法理解含义；缺乏答案解析或答案争议较大；与临床护理实践不相关。最终纳入28个案例，共120道题目。

2.2 研究方法

2.2.1 评价指标利用DeepSeek解答纳入题目。从准确性、全面性、实用性、简洁性和条理性5个维度评价DeepSeek生成答案与答案解析。每个维度1—5分，1分为最差，5分为最佳。5个维度得分相加为总分，总分范围为5～25分，得分越高表示答题质量越高［8］。由两名具有副主任护师职称的专家独立评分。两名评分者从事护理专业年限分别为15年和17年，其中1名为硕士研究生导师。各维度最终得分取二者评分均值。如果准确性维度得分≥4分且未出现关键性理解错误，判定为“回答正确”；如果得分＜4分，则判定为“回答不正确”。总体准确率＝正确题目数／纳入总题数×100%。

2.2.2 样本量计算使用PASS15软件进行样本量计算，采用配对样本t检验（t－Test Inequality模型），设定Power为0.8，α为0.05，得出所需样本量为100［9］。本研究纳入120道题目，超过最低样本量要求。

2.2.3 盲法为减少评分主观性，每道题由两名评分者独立评分。将DeepSeek生成答案与答案解析随机标记为“答案A”和“答案B”。评分者不知晓答案来源，独立阅读案例及答案进行评分，以确保公正客观。如果两名评分者单项评分差距达到2分及以上，邀请第3名评分者参与评价，并以3人平均分作为最终得分，提高准确性和可靠性［10］。

2.2.4 DeepSeek模型的接入截至2025年2月20日，DeepSeek已发布手机版、网页版、DeepSeek－V3版以及DeepSeek－R1版。其中，DeepSeek－R1－671b是当前参数规模最大（6 710亿参数）、性能最强的版本，具备语言理解、逻辑推理与语义整合能力，在复杂任务中准确性和稳定性更高。同时，其知识覆盖面广，有实时网络检索功能，且数据更新至2024年7月，能够胜任高精度信息处理任务，尤其适用于高复杂度的专业任务与科研场景。DeepSeek－R1－671b模型支持本地部署和通过应用程序接口（application programming interface，API）接入云端服务平台两种方式。由于该模型计算量大，对硬件配置要求高，本地部署难以满足稳定运行需求［11－12］。因此采用API接入方式，在电脑端安装硅基流动公司提供的接口程序，注册账号后，通过API接入其超级计算机平台，进行模型运算，每生成1 000个字符费用约0.011元。

2.2.5 输入指令调试 DeepSeek可能受“幻觉”现象影响，生成看似合理但实际不准确的答案［13］。为此设计输入指令时应避免模糊或多义性表述，从源头减少“幻觉”［14］。经反复实验与调试，确定输入指令分两步。第1步：命令DeepSeek分析护理个案，“你是一位护理领域专家，请对我提供的护理个案做详细分析”。第2步，命令DeepSeek基于个案信息回答具体问题。例如，对“该患者为何要进行肺功能检查”，输入指令为：“该患者为何要进行肺功能检查？（仅基于个案信息，不臆测，只回答问题本身即可）”。通过边界设置，可避免过度推测或解读，减少模型“幻觉”，提升作答相关性、评分效率与评分一致性［15］。

2.3 统计学方法

采用SPSS 26.0软件进行数据统计分析。计量资料符合正态分布时用独立样本t检验，不符合正态分布时用秩和检验；计数资料用χ2检验比较组间差异。统计学显著性水平设定为P＜0.05为有统计学意义［16］。

3 结果

3.1 DeepSeek与答案解析组间得分比较

两组得分的正态分布检验结果显示，所有维度得分均不符合正态分布，因此采用秩和检验。数据分析显示，DeepSeek在全面性、条理性和总分方面得分均高于答案解析（P＜0.05），在准确性、实用性和简洁性方面得分均低于答案解析（P＜0.05），见表1。DeepSeek在准确性、全面性、实用性、简洁性和总分维度的标准差大于答案解析（P＜0.05），见表2。

3.2 DeepSeek与答案解析得分组内比较

两组得分均不符合正态分布，因此采用秩和检验。经Bonferroni校正，DeepSeek组在“简洁性－条理性”和“全面性－准确性”两个维度的比较中P＞0.05，差异无统计学意义，其余各维度间的比较差异有统计学意义（均P＜0.05）。答案解析组仅在“简洁性－全面性” “简洁性－准确性”及“条理性－准确性”3个维度的比较中差异有统计学意义（均P＜0.05），其余维度间的比较差异无统计学意义，见表3。DeepSeek组的H值（255.520）略高于答案解析组（246.633）。

3.3 DeepSeek与答案解析答题正确率比较

以准确性维度得分≥4为“回答正确”，答案解析总体准确率为100%，DeepSeek总体准确率为85.8%，差异有统计学意义（χ2＝18.3，P ＜0.001），见表4。

4 讨论

4.1 DeepSeek答题优势分析

DeepSeek在全面性和条理性维度得分高于答案解析，差异具有统计学意义。分析其原因，主要包括两方面。一是DeepSeek－R1－671b模型数据库更新至2024年7月，具备联网检索功能，结合深度学习算法和大规模文本预训练，能够高效获取护理学各学科的相关数据，因此在全面性维度上得分高于答案解析［17］。例如，在一例急性心肌梗死护理个案中，DeepSeek回答涵盖患者病史、症状、诊断步骤、护理目标、治疗干预和护理评估6个方面。与答案解析相比，治疗干预部分增加药物治疗、患者生活方式干预及心理护理等内容，能更好地满足护理实践多维度需求。二是DeepSeek强大语言理解和推理能力使其能准确解读问题含义，抓住关键信息进行合理推理，在大规模文本数据中提取有效信息，确保回答逻辑性和条理性。因此，DeepSeek凭借信息检索、语言理解和推理优势，在全面性和条理性维度得分优于答案解析［18］。

4.2 DeepSeek答题不足分析

DeepSeek在准确性、实用性和简洁性维度得分低于答案解析，差异具有统计学意义，其总体准确率也低于答案解析。分析其原因，主要包括3方面。一是DeepSeek从数据库提取信息，进行分析并得到答案，对于开放式护理个案问题，其回答易过度解读或与题目关联性较弱［19］。例如，在一例急性心肌梗死护理个案中，DeepSeek提供大量病理机制背景信息，却缺少具体护理措施和临床干预，导致实用性得分较低。而答案解析中多为实际护理干预和临床操作，实用性维度得分高。二是某些问题存在多种解读方式，DeepSeek在生成答案时有时偏向理论层面的多角度解读，缺乏针对临床场景的具体决策，导致准确性得分低于答案解析［20］。此外，DeepSeek的答案有时过于理论化，未能充分考虑临床情境、患者实际需求及操作的可行性，进而影响了实用性得分［21］。三是DeepSeek为确保全面性，倾向提供更详细的信息，将多个相关知识点和背景信息融入生成答案，未能有效简化内容，导致简洁性得分较低［22］。相比之下，答案解析通常经严格审核和精练，更加准确、实用且简洁［23］。

4.3 DeepSeek得分稳定性分析

DeepSeek在准确性、全面性、实用性、简洁性和总分维度标准差大于答案解析，表明其得分波动大，稳定性较差。DeepSeek基于大规模数据训练，数据多样性可能导致模型处理不同类型问题时表现不一致［24］。尽管其具备强大推理能力，但其推理依赖于大规模数据训练，而非对问题的深入理解，处理有歧义或多种解读方式的问题时，DeepSeek的理解可能偏离题目核心，影响答案准确性。其输出常包含多维度详细信息，易使回答简洁性差，得分波动大。相比之下，答案解析通常经精练，答案简洁且符合实际护理需求，得分波动小。因此，尽管DeepSeek在信息处理和推理能力方面具有优势，但面对复杂和歧义性问题时，得分波动性较答案解析更大［25］。

4.4 DeepSeek模型在护理领域应用展望

DeepSeek在准确性、全面性和条理性维度平均分均超过4分，总分平均21.883分，高于答案解析，表明其能有效处理护理个案问题且在多个维度表现突出。DeepSeek具备数据检索、信息提取和分析功能，能帮助护理人员提升工作效率，推动护理服务智能化发展。护理教育者可利用DeepSeek辅助教学，临床护士可将其用于辅助决策，科研人员则可借助其进行数据分析与资料整理。此外，DeepSeek能整合医学、护理学、心理学及中医学等多学科知识，解决跨学科问题［26］。然而，DeepSeek应作为辅助工具，非决策主导者，确保护理人员保持独立判断，避免过度依赖［27］。同时，DeepSeek可能面临信息泄露风险，护理人员使用时应加强隐私保护，防止泄露医疗信息和患者隐私。未来应为护理人员提供专业的DeepSeek应用培训，确保使用安全［28］。

5 结语

DeepSeek在护理个案理解与作答中表现良好，具备较强的护理学知识理解能力，可作为护理教育和临床决策辅助工具。但其应用存在一定挑战，如过度依赖、隐私泄露等问题。本研究仍存在一定局限：一是主要依靠两名专家参考教材“标准答案”进行人工评分，可能存在一定主观偏倚；二是仅从5个维度评分，尚无法完全捕捉模型在处理复杂临床决策时的细微逻辑差异。未来研究可进一步优化评价体系，邀请更多元化的临床专家参与，并引入基于真实循证指南的多维度指标，从而更客观、更深入地评估大语言模型在临床一线环境下的适用性与实际效果。

作者贡献：王东丽负责研究设计、论文撰写；邵帅负责提供指导、论文修订；丁磊负责数据收集与分析；陆玉梅、严颖、丁菊红参与数据分析、论文审核。

利益声明：所有作者均声明不存在利益冲突。

1 邱锡鹏.解剖大型语言模型：原理、应用及影响［J］.探索与争鸣，2023（5）：10－12.

2 龚中楠，赵俊强，任文杰，等.大语言模型在护理教育领域应用的范围综述［J］.中国医学教育技术，2025，39（5）：588－594.

3 闾海荣，江瑞，张学工，等.DeepSeek与医学大语言模型：技术创新与医疗服务模式重构［J］.医学信息学杂志，2025，46（2）：1－7.

4 王绍源，杨东航，任宇东.大语言模型在护理领域的应用场景与伦理探讨［J］.护理学杂志，2025，40（5）：108－113.

5 SHOOL S，ADIMIS，SABOORIAMLESHIR，etal.A systematic review of large language model（LLM）evaluations in clinicalmedicine［J］.BMCmedical informatics and decision making，2025，25（1）：117.

6 GOODMAN K E，ROBINSON M L，SHAMSSM，et al.Identification of long－term care facility residence from admission notes using large languagemodels［J］.JAMA network open，2025，8（5）：e2512032.

7 王涛，张华，蒙莉萍，等.护理综合案例分析［M］.北京：科学出版社，2019.

8 徐文博，陈凤敏，王超，等.GPT－4大语言模型对护理知识理解的测试研究［J］.护理学杂志，2024，39（19）：93－96.

9 袁建文，李科研.关于样本量计算方法的比较研究［J］.统计与决策，2013（1）：22－25.

10 DAIZ，WANG F，SHEN C，et al.Accuracy of large languagemodels for literature screening in thoracic surgery：diagnostic study［J］.Journal of medical internet research，2025，27（3）：e67488.

11 庄世正，刘澎涛，李璇，等.DeepSeek本地部署方案研究与探索［J］.网络新媒体技术，2025，14（3）：1－9.

12 陈行.基于Deepseek－R1大模型本地部署知识问答方法比较与分析——以建筑业数据分析为例［J］.住宅与房地产，2025（15）：13－17.

13 PUGH S L，CHANDLER C，COHEN A S，et al.Assessing dimensions of thought disorder with large language models：the tradeoff of accuracy and consistency［J］.Psychiatry research，2024，341（11）：116119.

14 DUMIT J，ROEPSTORFF A.AIhallucinations are a feature of LLM design，not a bug［J］.Nature，2025，639（8053）：38.

15 LEE JH，SHIN J.How to optimize prompting for large languagemodels in clinical research［J］.Korean journalof radiology，2024，25（10）：869－873.

16 李康，贺佳.医学统计学［M］.北京：人民卫生出版社，2024.

17 WILLIAMSC Y K，SUBRAMANIAN C R，ALISS，et al.Physician－and large language model－generated hospital discharge summaries［J］.JAMA network open，2025，185（7）：818－825.

18 刘漫，沈鹏熠，张茹梦.人工智能技术在医疗护理中的应用研究［J］.中国农村卫生事业管理，2025，45（3）：177－182.

19 洪学海，史峰.AI大模型驱动智库高质量发展的思考——基于开源DeepSeek R1大模型应用的部分实证［J］.智库理论与实践，2025，10（4）：1－8.

20 孙中海，赖小琴，颜怿炜.DeepSeek医院私有化部署的实现与应用探索［J］.中国卫生信息管理杂志，2025，22（3）：456－463.

21 马红燕，周晓，张碧瑶，等.DeepSeek大语言模型的处方合理性评估中的实用性［J／OL］.医药导报，1－13［2025－08－12］.https：／／link.cnki.net／urlid／42.1293.R.20250528.1116.002.

22 黄慧瑛，欧阳汉栋，林胜钊.探讨DeepSeek在护理工作中的应用场景及面临的挑战和应对策略［J］.广州医药，2025，56（5）：591－598.

23 PATIL A，SERRATO P，CHISVO N，et al.Large language models in neurosurgery：a systematic review andmeta－analysis［J］.Acta neurochirurgica，2024，166（1）：475.

24 HARTMAN V，ZHANG X，PODDAR R，et al.Developing and evaluating large language model－generated emergency medicine handoff notes［J］.JAMA network open，2024，7（12）：e2448723.

25 陈昌茂，张瑶，谭韦池，等.基于DeepSeek大语言模型的医院智能数据分类分级探索及应用［J］.中国数字医学，2025，20（6）：30－36.

26 闫温馨，刘珏，梁万年.DeepSeek赋能全科医学：潜在应用与展望［J］.中国全科医学，2025，28（17）：2065－2069.

27 王绍源，李梦.从ChatGPT4.0到DeepSeek－R1：人工智能在医疗卫生领域应用的革新场景和伦理治理范式转变［J／OL］.中国医学伦理学，1－9［2025－08－12］.https：／／link.cnki.net／urlid／61.1203.R.20250704.1632.014.

28 刘金枝，刘万鹏，高跃.DeepSeek类生成式人工智能助推医患命运共同体的构建研究［J］.中国医学教育技术，2025，39（5）：583－587.

【作者机构】	南通大学附属南通第三医院重症医学科
【分类号】
【基金】	南通大学临床医学专项科研基金（项目编号：2024HY016）。

DeepSeek护理个案理解能力测试与应用展望

目录

文内图表