多特征融合的中医古籍医案命名实体识别研究
作者:
作者单位:

(1.安徽中医药大学医药信息工程学院 合肥 230012;2.安徽中医药大学中医学院 合肥 230012;3.安徽中医药大学新安医学与中医药现代化研究所 合肥 230012)

作者简介:

张璐瑶,实验师,发表论文3篇;通信作者:束建华,教授,硕士生导师。〔基金项目〕 中央财政中医药事业传承与发展专项经费资助基金项目(项目编号:RZ2200001383);安徽省高校协同创新项目(项目编号:GXXT-2023-071);安徽省高等学校科学研究重大项目(项目编号:2024AH040143)。

通讯作者:

中图分类号:

基金项目:

中央财政中医药事业传承与发展专项经费资助基金项目(项目编号:RZ2200001383);安徽省高校协同创新项目(项目编号:GXXT-2023-071);安徽省高等学校科学研究重大项目(项目编号:2024AH040143)。


Named Entity Recognition of Traditional Chinese Medicine Ancient Records Based on Multi-feature Fusion
Author:
Affiliation:

(1.School of Medical Informatics Engineering, Anhui University of Chinese Medicine,Hefei 230012,China;2.School of Chinese Medicine, Anhui University of Chinese Medicine, Hefei 230012,China;3.Institute of Xin’an Medicine and Modernization of Traditional Chinese Medicine, Anhui University of Chinese Medicine, Hefei 230012,China)

Fund Project:

  • 摘要
  • 图/表
  • 访问统计
  • 参考文献
  • 相似文献
  • 引证文献
  • 资源附件
  • 文章评论
    摘要:

    目的/意义 构建中医古籍医案命名实体语料库,提升通用领域命名实体识别模型在中医古籍医案领域的识别精度与适用性。方法/过程 制定中医古籍医案命名实体标注规范,并据此对2 384则新安医案进行人工标注。构建RoBERTa-BiLSTM-CRF中医古籍医案命名实体识别模型,利用RoBERTa预训练语言模型生成具有语义特征的字向量,利用BiLSTM-CRF模型学习序列全局语义特征并解码输出最佳标签序列。引入词典和规则特征,增强模型对实体边界和类别的感知能力。结果/结论 模型在所建立的新安医案命名实体语料库上展现了良好的识别效果。融合领域术语词典与规则特征后,模型的综合F1值提升至72.8%。

    Abstract:

    Purpose/Significance To construct a named entity corpus of traditional Chinese medicine (TCM) ancient records, and to improve the recognition accuracy and applicability of the general domain named entity recognition (NER) model in the field of TCM ancient records. Method/Process Annotation standards for entities in TCM ancient records are formulated, and 2 384 Xin’an medical records are annotated. A RoBERTa-BiLSTM-CRF model is developed, and word vectors with semantic features are generated using the RoBERTa pre-trained language model. The BiLSTM-CRF model is used to learn the global semantic features of sequences and decode and output the optimal label sequence.Dictionary and rule features are incorporated to enhance the model’s capability to recognize entity boundaries and categories. Result/Conclusion The model shows a good recognition effect on the named entity corpus of Xin’an medical cases. Integration of domain terminology dictionaries and rule-based features improves the overall F1 score to 72.8%.

    参考文献
    相似文献
    引证文献
引用本文

张璐瑶,束建华,王鹏,等.多特征融合的中医古籍医案命名实体识别研究[J].医学信息学杂志,2024,45(11):50-58

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:
  • 最后修改日期:2024-07-27
  • 录用日期:
  • 在线发布日期: 2024-12-10
  • 出版日期:

扫码关注

官方微信