面向医学科技文献分类的语义特征增强研究
作者:
作者单位:

(中国医学科学院/北京协和医学院医学信息研究所 北京 100020)

作者简介:

宫小翠,助理研究员,发表论文10余篇;通信作者:安新颖,博士,研究员。

通讯作者:

中图分类号:

基金项目:

中国医学科学院/北京协和医学院医学信息研究所/图书馆青年人才培养专项(项目编号:2024YT14)。


Study on Semantic Feature Enhancement for Medical Literature Classification
Author:
Affiliation:

(Institute of Medical Information,Chinese Academy of Medical Sciences & Peking Union Medical College,Beijing 100020,China)

Fund Project:

  • 摘要
  • 图/表
  • 访问统计
  • 参考文献
  • 相似文献
  • 引证文献
  • 资源附件
  • 文章评论
    摘要:

    目的/意义 构建大批量医学科技文献自动分类方法,以应对医学科技文献快速增长给文献分类和利用带来的新挑战。方法/过程 以医学论文为研究对象,利用《医学主题词表》同义词和语义层级结构,增强概念信息的语义特征,采用双向编码器表征模型进行微调训练和测试评估,并与随机森林算法的分类结果进行对比。结果/结论 十折交叉验证结果显示,该分类方法精确率、召回率、F1值分别达到 95.42%、93.61%、94.47%,优于随机森林算法及其他未进行特征增强的方法,其准确、有效,具有可应用性。

    Abstract:

    Purpose/Significance To build an effective automatic classification method for a large number of medical literatures, so as to cope with the new challenges brought by the rapid growth of medical literatures for their classification and utilization. Method/Process Taking medical literatures as data source, the study utilizes the synonyms and hierarchical structure of the medical subject headings (MeSH) to enhance the semantic features of concept information, uses bidirectional encoder representations from transformers (BERT) for fine-tuning and testing, and compares the classification results with random forest (RF).Result/Conclusion The results of the ten-fold cross-validation method show that the precision, recall and F1 score of this medical literature classification method are 95.42%,93.61%,94.47%,which are better than the classification results of RF and other methods without feature enhancement, and show accuracy, effectiveness and applicability.

    参考文献
    相似文献
    引证文献
引用本文

宫小翠,安新颖.面向医学科技文献分类的语义特征增强研究[J].医学信息学杂志,2025,46(3):36-41, 67

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:
  • 最后修改日期:2024-10-25
  • 录用日期:
  • 在线发布日期: 2025-04-15
  • 出版日期:

扫码关注

官方微信