融合多策略的中文科技文献机构名称规范化研究与实践
  修订日期:2022-06-17  点此下载全文
引用本文:刘燕,孙月萍,侯丽.融合多策略的中文科技文献机构名称规范化研究与实践[J].医学信息学杂志,2022,43(12):32-38
摘要点击次数:
全文下载次数:
作者单位
刘燕 中国医学科学院/北京协和医学院医学信息研究所 北京100020 
孙月萍 中国医学科学院/北京协和医学院医学信息研究所 北京100020 
侯丽 中国医学科学院/北京协和医学院医学信息研究所 北京100020 
基金项目:中国工程科技知识中心建设项目“医药卫生专业知识服务系统”(项目编号:CKCEST-2022-1-6);国家社科青年基金项目“基于语义增强的医学学术出版创新融合研究”(项目编号:18CTQ024)。
中文摘要:分析中文科技文献中机构著录项的组织特点和中文机构名称的命名特点,详细阐述常见机构名称规范化方法、中文科技文献机构名称规范化处理流程,提出利用字符串匹配词典和规则过滤等方法提取规范化的机构名称,并基于机构-作者共现关系,计算作者共现率,结合绝对共现量和共现率阈值实现机构实体的消歧,能够有效匹配同一机构的不同表现形式。
中文关键词:机构名称规范  科技文献  作者共现  实体挖掘
 
Study and Practice on Institution Name Normalization of Chinese Scientific and Technical Literature Based on Multiple Strategies
Abstract:The paper analyzes the organization characteristics of institution description items in Chinese scientific and technical literature and the naming characteristics of Chinese institutions, expounds the common methods of institution name normalization and the process of institution name normalization for Chinese scientific and technical literature,and proposes that the methods of extracting the normalized institution names by using the methods of string matching, dictionary-based and rule-based filtering, calculating the co-occurrence rate of authors based on the co-occurrence relationship between institutions and authors, and disambiguating the institution entities through the number of absolute co-occurrence and the co-occurrence rate threshold, which can effectively match different forms of an institution.
keywords:institution name normalization  scientific and technical literature  author co-occurrence  entity mining
查看全文  查看/发表评论  下载PDF阅读器

京公网安备 11010502037823号

美女meinvmeinvmeinvmeinvmeinv