融合多策略的中文科技文献机构名称规范化研究与实践
作者:
作者单位:

(中国医学科学院/北京协和医学院医学信息研究所 北京100020)

作者简介:

刘燕,助理研究员,发表论文6篇;通信作者:侯丽,研究员。

通讯作者:

中图分类号:

R-058

基金项目:

中国工程科技知识中心建设项目“医药卫生专业知识服务系统”(项目编号:CKCEST-2022-1-6);国家社科青年基金项目“基于语义增强的医学学术出版创新融合研究”(项目编号:18CTQ024)。


Study and Practice on Institution Name Normalization of Chinese Scientific and Technical Literature Based on Multiple Strategies
Author:
Affiliation:

(Institute of Medical Information, Chinese Academy of Medical Sciences & Peking Union Medical College, Beijing 100020,China)

Fund Project:

  • 摘要
  • 图/表
  • 访问统计
  • 参考文献
  • 相似文献
  • 引证文献
  • 资源附件
  • 文章评论
    摘要:

    分析中文科技文献中机构著录项的组织特点和中文机构名称的命名特点,详细阐述常见机构名称规范化方法、中文科技文献机构名称规范化处理流程,提出利用字符串匹配词典和规则过滤等方法提取规范化的机构名称,并基于机构-作者共现关系,计算作者共现率,结合绝对共现量和共现率阈值实现机构实体的消歧,能够有效匹配同一机构的不同表现形式。

    Abstract:

    The paper analyzes the organization characteristics of institution description items in Chinese scientific and technical literature and the naming characteristics of Chinese institutions, expounds the common methods of institution name normalization and the process of institution name normalization for Chinese scientific and technical literature,and proposes that the methods of extracting the normalized institution names by using the methods of string matching, dictionary-based and rule-based filtering, calculating the co-occurrence rate of authors based on the co-occurrence relationship between institutions and authors, and disambiguating the institution entities through the number of absolute co-occurrence and the co-occurrence rate threshold, which can effectively match different forms of an institution.

    参考文献
    相似文献
    引证文献
引用本文

刘燕,孙月萍,侯丽.融合多策略的中文科技文献机构名称规范化研究与实践[J].医学信息学杂志,2022,43(12):32-38

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:
  • 最后修改日期:2022-06-17
  • 录用日期:
  • 在线发布日期: 2023-01-29
  • 出版日期:

扫码关注

官方微信