基于融合矩阵的文本相似度计算实现检索结果聚类
作者:
作者单位:

(1.中国医科大学附属盛京医院图书馆 沈阳 110004;2.中国医科大学医学健康管理学院 沈阳 110122)

作者简介:

赵悦阳,副研究馆员,发表论文13篇。

通讯作者:

中图分类号:

R-058

基金项目:

辽宁省社会科学规划基金资助项目(项目编号:L20BTQ003)。


A Fusion Matrix-based Study on Text Clustering of Document Retrieval Results
Author:
Affiliation:

(1.Library of Shengjing Hospital of China Medical University, Shenyang 110004,China;2.School of Health Management, China Medical University, Shenyang 110122,China)

Fund Project:

  • 摘要
  • 图/表
  • 访问统计
  • 参考文献
  • 相似文献
  • 引证文献
  • 资源附件
  • 文章评论
    摘要:

    目的/意义 弥补医学文本语义表示方面的不足,实现PubMed数据库检索结果聚类。方法/过程 采用Jaccard系数和TF-IDF构建融合矩阵方法,建立短语间、文档间、短语与文档内容间的相似性关系融合矩阵,训练聚类算法,将PubMed数据库检索结果集合分组,随后生成类别标签,描述每一类簇文档的含义。结果/结论 基于融合矩阵的聚类效果较好,提取出描述类别的高频词能很好地区分类别含义,对检索结果文本聚类任务有效。

    Abstract:

    Purpose/Significance To solve the deficiencies in the semantic representation of medical texts, and to realize the clustering of the retrieval results of the PubMed database.Method/Process The paper proposes a method to construct a fusion matrix by using the Jaccard coefficient and TF-IDF. Similarity relations between phrases, documents, and the contents of phrases and documents are combined to construct a fusion matrix, and several clustering algorithms are trained to group a collection of documents from the PubMed database. Category annotations are created to describe the meaning of each category of clustered documents.Result/Conclusion Experimental results show that the fusion matrix-based clustering is superior in grouping the document sets, and the extracted high-frequency words in the category descriptions distinguish the meanings of the categories well, so the fusion matrix design is effective for clustering descriptions of academic texts.

    参考文献
    相似文献
    引证文献
引用本文

赵悦阳,崔雷.基于融合矩阵的文本相似度计算实现检索结果聚类[J].医学信息学杂志,2024,45(3):58-64

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:
  • 最后修改日期:2023-12-29
  • 录用日期:
  • 在线发布日期: 2024-04-15
  • 出版日期:

扫码关注

官方微信