基于生成式人工智能的医学视频创作路径探究

韩晶1,2, 杨海平3, 曾怡佳2, 吴露星2

【作者机构】 1中国科学技术信息研究所; 2北京万方数据股份有限公司; 3南京大学信息管理学院
【分 类 号】 TP18;R-05
【基    金】 国家新闻出版署智慧出版与知识服务重点实验室课题(项目编号:ZHCB202405)
全文 文内图表 参考文献 出版信息
基于生成式人工智能的医学视频创作路径探究

基于生成式人工智能的医学视频创作路径探究

韩 晶1,2 杨海平3 曾怡佳2 吴露星2

(1中国科学技术信息研究所 北京 100038 2北京万方数据股份有限公司 北京 100038 3南京大学信息管理学院 南京 210023)

〔摘要〕 目的/意义 探讨利用生成式人工智能创作医学视频的技术路径,为医学视频低成本专业化生产提供方法论支撑。方法/过程 以《全冠固定修复手术》视频为例,使用DeepSeek生成标准化拍摄脚本,借助生成式人工智能工具制作手术演示视频,由医学专家审核内容准确性,确保符合临床规范。结果/结论 生成式人工智能技术可显著缩短制作周期,且生成内容通过专家评审,能够满足教学需求。该方法为医学视频创作提供了高效、经济的解决方案,但需结合人工审核以规避风险,未来可推广至更多医学教学场景。

〔关键词〕 生成式人工智能;技术路径;医学视频;学术传播

1 引言

随着信息技术的迅猛发展,学术传播逐步从简单的“纸质内容电子化”阶段演进到“全媒体融合传播”新阶段[1]。在医学教育领域,高质量学术视频正逐渐成为临床教学和技能培训中不可或缺的重要载体[2]。然而,医学视频制作长期面临两大现实制约:专业摄像设备的高门槛,有限的拍摄预算。生成式人工智能(generative artificial intelligence,GAI)技术的突破为此提供了创新解决方案——通过文本生成、图像生成、视频生成技术协同,可显著降低制作门槛。本研究以牙科临床教学为例,探索GAI在《全冠固定修复手术》视频创作中的全路径应用,包括脚本自动生成、视觉智能合成等环节,针对GAI生成内容的潜在风险提出增加医学知识溯源、强化人工审核与质控、规范学术视频GAI标注等机制,为医学视频的低成本专业化生产提供方法论支撑。

2 GAI生成医学视频创作路径

2.1 脚本自动生成

学术视频脚本自动生成主要依赖于学术文本结构化解析和专业语言适配转换两大核心技术,基于Transformer架构的大语言模型通过深度语义解析、结构化重组、口语化转换、多模态适配等流程自动生成脚本[3]。以《全冠固定修复手术》视频为例,传统模式下脚本撰写时要与手术医生、摄像师反复沟通,确定医学知识准确性与拍摄可行性,耗时耗力。而GAI生成的脚本可自动给出牙体预备、印模制取等关键步骤的医学描述与分镜头建议,显著降低跨专业协作成本。

2.1.1 标准步骤拍摄脚本 以DeepSeek为例,提问为“请写一份全冠固定修复手术视频的拍摄脚本”,得到标题为“全冠固定修复手术全过程详解”的视频脚本,包含 10 个标准步骤,涵盖手术关键环节,且包括镜头编号、步骤名称、时长、内容等拍摄脚本所需的大部分基本信息。DeepSeek还给出了以下参考要素:目标受众为“口腔医学生、口腔医生、对全冠修复感兴趣的人群”,视频总时长为10~15分钟,视频风格为“专业、清晰、简洁”,拍摄设备参考为“高清摄像机、口内摄像机、显微摄像机”。在此基础之上,对脚本进行多重审核,依据最新临床诊疗指南,确保每个操作步骤符合标准化诊疗规范。

2.1.2 分镜头详细脚本 为进一步提升教学效果,针对各核心操作步骤提出细化要求。以“牙体预备”环节为例,提问为“请详细描写牙体预备的镜头,要明确写出每个镜头切换”。DeepSeek的回复中,牙体预备环节包括10个具体镜头,详细说明从诊室环境展示到预备效果检查的拍摄要点,以及各分镜头景别。在此基础之上,确定分镜头脚本是否完整呈现了关键步骤,尤其是技术参数(如预备量、边缘形态)等,结合文字与视觉标注,确保教学精准性。

2.2 视觉智能合成

在医学手术视频制作中,视觉素材剪辑不仅要保证内容的完整性和准确性,还要符合临床教学的专业规范。传统的剪辑流程通常依赖人工逐帧筛选素材,耗时耗力且容易遗漏关键细节。随着AI剪辑技术的发展,智能化工具(如Adobe Premiere AI)已能够显著提升医学视频的制作效率,同时确保学术严谨性。

2.2.1 自动识别镜头语言 采用4k高清摄像机与全画幅交换式特种微距镜头双机位拍摄,通过AI多机位自动编辑系统智能解析脚本意图,自动识别并匹配所需的镜头类型(如全景、特写、手术细节特写等),如当AI检测到“车针接触牙体”时,自动切换至微距镜头(放大20倍),使成片更符合医学教学逻辑的视觉叙事结构[4]

2.2.2 动态生成字幕 利用AI语音转写与内容定位功能将讲解音频实时转换为文字稿(支持中英文混合识别),并自动标记高频术语。利用字幕同步功能将讲解音频转写成文本,自动生成Srt字幕文件,通过语音波形匹配精准对齐时间轴,依据对视频画面场景、情感氛围以及节奏变化的理解优化生成的文字,确定其呈现形式和时机,如字体、颜色、大小、出现位置与时间等,实现动态文字与视频内容的精准匹配[5-6],字幕与图文添加环节的制作时间从3小时缩短至30分钟。最后,使用智能调色功能分析主讲人肤色与场景光照,一键优化画面质感。通过智能化剪辑工具,实现了医学视频剪辑从“劳动密集型”向“智能驱动型”制作流程的转型,见表1。

表1 医学视频制作效率对照

环节传统流程耗时(小时)智能化流程耗时(小时)效率提升(%)素材粗剪4175多机位编辑20.575字幕与图文添加30.583调色与包装20.385合计112.379

2.2.3 虚拟数字人合成技术 采用图像合成与唇形匹配技术,生成形象逼真、动作自然的虚拟数字术者。该技术的核心优势在于:基于单次术者生物特征数据采集,即可高效合成后续的难点讲解内容,显著降低传统多场景、多批次拍摄所需的时间和经济成本。

2.3 人工审核与质控

为确保GAI生成内容的科学性与合法性,建立3级人工审核机制。一是技术审核(初审),由医学影像工程师核查生成内容的技术参数(如视频帧率、分辨率)是否符合相关国际标准(如《医学数字成像和通信3.0》);二是专业审核(二审),由至少两名副主任医师及以上职称专家对关键医学内容进行背靠背盲审,重点审核操作流程是否符合最新临床指南(如《全冠修复技术操作规范》);三是伦理审核(三审),由医学伦理委员会评估患者隐私保护措施(如生成案例是否包含可识别信息)及风险告知完整性等问题。以《全冠固定修复手术》为例,在二审中,医师指出视频样例中的4处错误:一是视频00∶01处手术名称“上排右侧大牙牙冠佩戴”应为“右侧上牙合后磨牙牙冠修复手术”,“佩戴”应为“修复”;二是视频00∶15处“取下排牙牙模”应为“取下牙合牙牙模”;三是视频00∶31处“材料凝固后取下”应为“材料凝固后取出”;四是视频00∶38处“进行上排牙取模”应为“取上牙合牙牙模”。在三审中,医学伦理委员会提出应在视频片头增加“封面图片由可灵AI生成”标注;视频每一帧均应增加“此视频拍摄脚本由DeepSeek生成”标注,并在视频结尾标注参考文献;保留GAI生成内容与专家修正记录并存的修改轨迹。通过脚本生成-视觉合成-专家审核闭环实现质量控制,最终生成满足教学需求的牙科手术视频。

3 GAI生成医学视频存在的风险与应对措施

3.1 GAI生成医学视频存在的风险

3.1.1 信息失实 一是由于训练数据的局限性和知识理解偏差,GAI易出现“幻觉”现象[7]。例如,模型可能误将全冠边缘应位于“龈下0.5 mm”生成“龈上1 mm”,原因包括:训练数据含过时文献(如20世纪80年代的龈上修复标准)或术语歧义(“边缘位置”的语境差异),此类错误可导致修复体微渗漏,引发继发龋等临床并发症。二是GAI在复杂病例和个体差异应对方面较为乏力。尽管《全冠固定修复手术》视频样例成功演示了标准流程,但GAI在处理患者口腔解剖结构高度变异(如牙冠短小、牙龈生物型特殊、邻牙倾斜)、基牙条件复杂(如大面积充填体、根管治疗后牙体脆弱)或需要特殊修复设计(如咬合重建)等非标准化场景时面临挑战[8]。三是GAI在毫米级精细操作还原方面存在局限。其在《全冠固定修复手术》牙体预备(如肩台修整精度、轴面聚合度控制)和修复体就位(边缘密合度检查、咬合调牙合)等关键环节生成的动态影像,往往因过度“顺滑”而缺失真实操作中的触觉反馈和谨慎感,难以准确再现术者手感与组织响应间的微妙互动,导致重要临床细节和风险警示信息丢失[9]。四是GAI在确保多模态信息时序严格对齐、语义绝对一致方面仍有困难[10]。《全冠固定修复手术》视频要求解说语音、动态画面、字幕与图文标注以及音效精准同步,否则会严重干扰学习者的注意力,造成信息接收混乱,甚至误解操作要点。

3.1.2 版权隐患 医学视频GAI创作面临显著的训练数据版权风险。模型训练依赖的海量数据常存在来源合法性存疑(如未经授权的手术录像)、采集范围越界或数据篡改等问题,不仅侵犯数据所有者权益,更可能导致模型输出偏差。如果训练数据中包含未经授权的内容,可能引发严重的数据产权纠纷[11]。为解决版权隐患问题,万方数据虚拟数字人版权协议中明确规定:“本人承认本人在本节目中及由本人提供的相关信息资料(文字、图片、视频、音频、形象、肖像、声音等各种形式的内容)训练合成的虚拟数字人形象视频中的言论不侵犯任何第三方知识产权以及其他合法权益。”

3.1.3 学术伦理 GAI会输出虚假学术内容,如虚构手术步骤,严重扰乱学术秩序。一些学者可能利用生成式人工智能炮制虚假的研究成果,骗取科研经费,使真正需要资金支持的科研项目无法开展[12]。概括而言,GAI生成医学视频面临3大伦理困境:创作主体模糊导致著作权争议、人机贡献边界不清影响成果归属、多方协作中GAI参与度差异引发作者认定混乱,这些问题直接挑战学术评价体系的客观性和科研诚信建设[13-14]

综上,GAI的大规模推广主要面临以下两方面挑战与制约。一方面,GAI的应用可能长期被限制在基础技能教学、标准化流程演示和科普宣传等相对“安全”的领域。其在临床决策教学、复杂手术技巧等高价值、高风险场景的应用将受到严格制约,削弱其作为革命性教学工具的潜力[15-16]。另一方面,制作成本的重心可能从拍摄环节转向高强度的专业审核、版权清算、伦理合规与后期修正环节。这种依赖稀缺且昂贵的医学专家、法律专家、伦理委员会资源的模式,可能大幅抵消GAI在自动化生成环节带来的效率优势,成为阻碍其规模化、低成本推广的瓶颈[17]

3.2 应对措施

3.2.1 增加医学知识溯源机制 构建动态更新的医学知识库,锚定权威数据,实时对接基于循证医学原则构建的数据库,如临床决策支持系统UpToDate、ClinicalKey等,确保所有生成内容均能追溯至最新临床指南(如《全冠修复技术操作规范》)。通过知识图谱关联技术实现自动标注,如“龈下边缘预备”强制关联《牙体预备学》具体章节,确保关键术语引用预定义文献。建立错误-修正-优化正向循环,将所有用户反馈的医学错误自动录入案例库,触发模型微调。持续研发高精度仿真、多模态对齐、小样本学习等技术,建立医学可靠性分级标准[18]

3.2.2 强化人工审核机制 在GAI应用中,应明确不同主体的审核职责,构建分级审核机制。视频服务提供商应对GAI生成内容进行显著标识,并审核输入/输出数据,杜绝违规内容。建立合法合规的数据获取与版权管理体系,推广标准化授权协议模板,探索区块链确权。制定GAI医学视频伦理指南,明确内容真实性要求、著作权归属规则、责任主体认定流程。建议在医学领域实施专项强化和动态反馈优化措施,见图1。由于审核人员的专业素养直接影响审核效果,应加强审核人员培训,内容可包括学术研究方法、知识产权保护、数据安全等,并匹配住院医师、副主任医师、科室主任+医学伦理委员会的三级审核架构,准确判断手术操作的规范性和创新术式的安全性[19]

图1 GAI生成医学视频错误处理流程

3.2.3 规范学术视频的GAI生成标注 学术视频GAI生成标注应包含:视频主题、作者信息、GAI模型及数据来源等基础信息,以及关键知识点和引用出处。建立透明的GAI参与度标识和内容溯源系统,加入强制性风险披露制度,如须标注引用临床指南版本及GAI生成内容的修改轨迹,包括专家修正记录。将于2025年9月1日正式实施的《人工智能生成合成内容标识办法》,定义了人工智能生成合成内容的范围,包括利用GAI技术生成的文本、图片、音频、视频、虚拟场景等信息。可以采用在视频画面中添加水印、字幕或者在视频描述中详细说明的方式进行标注。标识分为显式和隐式两种:显式标识是用户可明显感知的文字、声音或图形提示;隐式标识则是嵌入文件数据中不易被用户感知的技术措施[20]

4 结语

本研究系统论证了生成式人工智能技术在医学视频创作中的应用路径与实践价值。以《全冠固定修复手术》为范例,构建“脚本生成-视觉合成-专家审核”的标准化工作流程,证实GAI技术可显著提升制作效率,同时保障专业质量。研究提出3种风险防控措施,通过知识溯源、人工审核和GAI生成标注等方法,有效解决信息失实、版权隐患和学术伦理等核心问题。

作者贡献:韩晶负责研究设计、论文撰写;杨海平负责提供指导;曾怡佳负责论文修订;吴露星负责视频制作、论文修订。

利益声明:所有作者均声明不存在利益冲突。

参考文献

1 常远. 学术期刊的发展与挑战:新媒体传播与数字化转型[J]. 传媒论坛,2024,7(2):84-87.

2 田成禄,田雨琪,付亚萍,等. 学术期刊在融媒体时代的数字化转型与新技术应用特征[C].广州:第二十一届(2023)全国核心期刊与期刊国际化、网络化研讨会,2023.

3 李玉晓.人工智能技术在融合媒体系统中的研究与应用[J].广播电视信息,2023,30(6):54-56.

4 陈焱松. GAI 技术在人工智能电影创作中的应用策略研究[J]. 现代电影技术,2023(9):39-45.

5 冯梦然,余兰亭.人工智能背景下网络新闻与传播专业影视后期剪辑课程教学改革研究[J]. 电子元器件与信息技术,2025,9(1):55-57,61.

6 李宇星.人工智能时代主流媒体如何应对全新挑战[J]. 记者摇篮,2024(1):78-80.

7 李百晓,董小菲. 生成式人工智能对短视频创作的影响及版权保护[J]. 中国出版,2024(21):62-67.

8 李娜,郭磊,王杰,等. 智慧口腔正畸助手设计与原型实现[J]. 医学信息,2022,35(13):34-38.

9 陈湘,邓然,吴川清.生成式人工智能大型语言模型在医学教育实践的探讨[J].临床急诊杂志,2024,25(6):310-314.

10 齐卫颖.人工智能艺术创作基本问题审思 [J]. 中国电视,2023(9):69-76.

11 林雨佳.生成式人工智能对信息治理的挑战与应对[J]. 苏州大学学报(社会科学版),2025,46(2):104-115.

12 沈芳君. 生成式人工智能的风险与治理[J]. 浙江大学学报(人文社会科学版),2024,54(6):73-91.

13 高洁,仇珺,曹猛,等. 口腔医学教育领域人工智能技术应用现状与发展[J]. 牙体牙髓牙周病学杂志,2025,30(3):175-179.

14 张丽艳,黄丽霞,楼亨通. 基于CiteSpace的国内人工智能与医学教育融合热点的可视化分析[J]. 临床医学工程,2025,32(2):225-228.

15 黄明芳,侯青涵,张韦. 生成式人工智能在医学教育领域的应用现状与未来趋势[J]. 医学与社会,2025,38(1):29-34,47.

16 郑阳. 医疗人工智能的关键技术及应用[J]. 医学信息,2021,34(2):19-22.

17 吴敏敏,王鑫钰,王伟炳. 医学人工智能的技术发展和场景应用[J]. 复旦学报(医学版),2025,52(3):470-474.

18 张俊祥,李传富,吕维富. 人工智能在医学教育,科研和临床实践中的应用前景与挑战[J].中华全科医学,2024,22(7):1085-1089.

19 杨晓妍,苏泽灏,孙雅婧.人工智能赋能医学新活力——智能科学与技术学科交叉人才培养探索 [J]. 华西医学,2024,39 (12):1943-1947.

20 人工智能生成合成内容标识办法[EB/OL].[2025-04-22].https://www.gov.cn/zhengce/zhengceku/202503/co ntent_7014286.htm.

Exploration of Medical Video Creation Path Based on Generative Artificial Intelligence

HAN Jing1,2YANG Haiping3ZENG Yijia2WU Luxing2

1Institute of Scientific and Technical Information of ChinaBeijing 100038,China2Wanfang Data Co.Ltd.Beijing 100038,China3School of Information ManagementNanjing UniversityNanjing 210023,China

AbstractPurpose/Significance To explore the technological path of using generative artificial intelligence (GAI) to create medical videos,and to provide methodological support for low-cost and specialized production of medical videos. Method/Process Taking the video of “full crown fixed repair surgery” as an example,DeepSeek is used to generate standardized shooting scripts,and GAI tools are used to create surgical demonstration videos. The accuracy of the contents is reviewed by medical experts to ensure compliance with clinical standards. Result/Conclusion GAI technology can significantly shorten the production cycle,and the generated content has passed expert review and can meet teaching needs. This method provides an efficient and economical solution for medical video creation,but it needs to be combined with manual review to avoid risks. In the future,it can be promoted to more medical teaching scenarios.

Keywordsgenerative artificial intelligence (GAI);technological path;medical video;scholarly communication

〔中图分类号〕R-058

〔文献标识码〕A

〔DOI〕10.3969/j.issn.1673-6036.2025.08.011

〔修回日期〕 2025-07-02

〔作者简介〕 韩晶,馆员,发表论文6篇。

〔基金项目〕 国家新闻出版署智慧出版与知识服务重点实验室课题(项目编号:ZHCB202405)。

X