摘要
目的/意义 提出基于期刊被引频次和云模型的外文电子期刊资源分级评价方法,为医学院校图书馆资源建设提供依据。方法/过程 以某机构作者所发表论文中引用每种期刊的总次数表示期刊的相对质量,建立质量表示矩阵,并在此基础上生成单个期刊的质量云。将生成的质量云与标准云进行相似度比较,对期刊的重要性等级进行评价。结果/结论 利用云模型算法及相似度计算方法可得到每种期刊的分级结果及不确定性程度,为医学院校图书馆资源选择和订购提供依据。
关键词:
被引频次
医学院校图书馆
外文电子期刊
重要性评级
云模型
相似度
文献信息资源是高校图书馆的立馆之基,是图书馆支撑学校学科发展、人才培养、科学研究等的最核心要素之一 。在医学院校文献信息资源体系中,外文电子期刊因其学术价值高、时效性强、获取便捷以及搜索功能完善等特点,成为不可或缺的组成部分,且使用文献资源经费占比最高,其数量规模和成本支出均呈现出持续增长的趋势。此外,与其他学科相比,医学领域外文电子期刊的总数和高质量期刊种数均处领先地位,如SCI收录期刊中医学类期刊数量位居各学科之首。因此,对医学电子期刊进行重要性分级评价,筛选出本机构需求较高的期刊进行订购,显得尤为重要。期刊刊载论文的总被引频次能够客观反映期刊的受关注程度,是分析特定范围期刊使用者实际需求的重要指标,也是进行期刊重要性评价与期刊资源建设的重要基础 。
国外已开展一系列项目评价电子资源,其中较有影响力的如欧洲委员会EQUINOX项目所构建的图书馆电子服务绩效评价和质量管理绩效指标体系 、美国研究图书馆协会的电子计量项目E-Metrics 、网络电子资源在线利用统计项目COUNTER 。国内学者肖珑等 首次系统归纳电子资源的评价指标,包括电子资源内容、检索系统及功能、使用情况、价值与成本核算、出版社/数据商的服务和存档6个方面。随后,国内学者在国内外研究理论与实践的基础上构建电子资源评价指标体系 ,并引入多种评价方法,如层次分析法 [9-10] 、灰色关联分析 、网络分析法 、综合评价法。目前,有关电子期刊评价的研究主要存在以下特点:一是多以数据库为研究对象,难以从期刊层面进行针对性评价;二是多通过评价指标体系评价,但指标权重的确定存在一定主观性。
云模型在质量评价方面已有较多探索。时扬等 在慕课课程质量评估指标体系基础上,建立质量标准云分类评价慕课课程质量;甘露情等 通过建立不同竞争力等级的标准云,对共享单车企业产品的竞争力进行评价;国外多位学者 [15-18] 利用云模型建立用于信任度评分的信任云,通过信任云对受信任对象进行分类。相较于其他质量评价方法,云模型一方面可以实现定量和定性之间的转换,另一方面能够体现评价的不确定性和模糊性程度 。因此,选择云模型作为质量评价方法,对外文电子期刊进行分级评价,具有一定的客观性和准确性,能够为医学院校图书馆选择本校读者最需要的外文电子资源提供参考依据。
以医学院校图书馆外文电子期刊的重要性评级为研究对象。针对特定医学院校图书馆,不同医学期刊的重要程度存在差异。尽管无法精确评测每种期刊的利用绩效及其对机构的重要程度,但本文根据医学外文电子期刊的特点,设计以期刊刊载论文的被引频次为基础、基于云模型的医学外文电子期刊分级评价模型,该模型适用于对大量被引频次相似的同类医学期刊进行质量评级,并评价其不确定性程度,从而比较客观地反映医学期刊对于特定机构的重要程度。
采用某医学院校作者所发表的论文中引用每种医学期刊的总次数表示期刊的相对质量,并基于云模型对期刊的重要性等级进行评价。研究框架包括两部分:一是基于引用频次统计的医学期刊质量表示,二是基于云模型的医学期刊质量评价,见 图1 。在第1部分中,首先通过设定合理的检索条件,获取施引文献集合;其次解析施引文献中的引文引用格式,准确抽取引用期刊的名称;最后,统计施引文献引用相应期刊文献的次数,将不同的被引频次作为期刊间共同的质量特征。同时,统计不同被引频次下该期刊相应的施引文献数量,构建外文电子期刊质量表示矩阵,完成对外文电子期刊质量的量化表示。在第2部分中,首先利用正向正态云发生器建立期刊等级质量云(journal degree quality cloud,JDQC);其次利用逆向正态云发生器生成单个外文电子期刊对应的数字特征以及评价云图;最后通过将单个期刊质量云(single journal quality cloud,SJQC)与对应的期刊等级质量云进行云相似度计算,得出每一种外文电子期刊的质量评级及其不确定性程度。
图1 引用视角下基于云模型的医学院校图书馆外文电子期刊分级评价框架
3.2.1 统计施引文献引用相应期刊文献的次数 具体流程包括构建施引文献集合、解析引用格式、提取引用关键信息以及匹配期刊名称等,见 图2 。解析参考文献引用格式后,通过正则表达式提取引用中的关键信息,得到一篇施引文献中所有引文所在的期刊名称集合。重复此步骤,得到多篇施引文献对应的期刊名称集合,以及施引文献-被引期刊映射表。利用医学院校图书馆(预备)订购的外文电子期刊目录,与施引文献-被引期刊映射表中的期刊名称进行匹配。若匹配成功,则统计施引文献引用相应期刊文献的次数,并将其作为期刊间的共同质量特征,构建外文电子期刊质量表示矩阵。
3.2.2 构建外文电子期刊质量表示矩阵 以期刊被引频次作为质量特征构建质量表示矩阵。一方面是考虑到被引频次能够较公平地评价每个期刊;另一方面,通过限制质量特征的数量,可以优化质量表示矩阵的构建过程。首先,统计施引文献引用相应期刊文献的次数范围,作为质量特征集合,即确定全部被引频次中的最大值和除0以外的最小值。其次,统计期刊文献被单篇施引文献引用的次数,并将被引频次乘以对应施引文献的数量,生成初步外文电子期刊质量表示矩阵{CF 1 ,CF 2 ,CF 3 ,...,CF [
{
"name": "text",
"data": "n"
}
] },其中CF [
{
"name": "text",
"data": "n"
}
] 表示引用频次为 的施引文献数量。最后,对初步生成的质量表示矩阵进行归一化处理,即将矩阵中的数据取值范围处理为[0,100],得到最终的外文电子期刊质量表示矩阵。
3.3.1 云模型 我国李德毅院士等 于1995年在概率论和模糊数学的基础上提出云模型。云模型用于表示某个定性概念与其定量表示之间的不确定性转换,通过建立定性和定量之间的相互映射关系解决不确定问题。云由许多云滴组成,每个云滴代表该定性概念在数域空间中的一次具体实现,且这种实现带有不确定性。云的数字特征包括期望值(Ex)、熵值(En)和超熵值(He)。期望值表示云滴在论域空间分布的期望;熵值是一种不确定性的度量;超熵值则是对熵的一种度量,即熵的熵,反映论域中代表定性概念的所有点的不确定度的凝聚性。
3.3.2 建立JDQC (1)确定JDQC定量论域U中云滴 的取值范围。依据施引文献引用相应期刊文献的次数确定取值范围,将期刊等级分为超核心S级、核心A级、常用B级、偶用C级4个质量级别 ,分别对应JDQC_S、JDQC_A、JDQC_B、JDQC_C。(2)确定JDQC定量论域U上定性概念集合C。其中,C={超核心S级;核心A级;常用B级;偶用C级}。(3)建立JDQC定性概念和云滴定量值间的映射关系。即根据云滴 的取值范围确定每个质量级别的取值范围。(4)生成JDQC的数字特征(Ex,En,He)。主要通过双边约束法实现,根据区间范围计算质量云的数字特征。若区间范围为[B min ,B max ],则双边约束法相对应的数字特征计算公式 如下。其中,B min 和B max 分别为区间的最小值与最大值; 为可根据变量模糊阈进行调整的常数。
3.3.2 生成SJQC 与生成JDQC相同,在生成SJQC时,也需首先明确定量论域U上的定性概念C和云滴 。SJQC的定量论域U中云滴 指施引文献引用相应期刊文献的次数,定性概念C指期刊的引用质量。在此基础上,生成SJQC的关键步骤在于确定其数字特征,具体计算公式 如下:
其中,Ex [
{
"name": "text",
"data": "i"
}
] 表示第 个期刊被引频次期望值; 表示云滴的数量,Ew [
{
"name": "text",
"data": "ij"
}
] 表示第 个期刊被引用频次中对应的第 个施引文献引用的值;En [
{
"name": "text",
"data": "i"
}
] 表示第 个期刊被引频次的熵值; 表示第 个期刊被引频次的样本方差,即第 个期刊被引频次的中心次数与其他被引频次的关联程度;He [
{
"name": "text",
"data": "i"
}
] 表示第 个期刊被引频次的超熵值。
3.3.3 计算JDQC与SJQC间的相似度 基于期望曲线的方法比较两个云图 。第1步:定义SJQC的边界。对于逆向正态云而言,存在“3En规则”,即99.74%的云滴落在[Ex-3En,Ex+3En]区间,位于此区间外的云滴则被称为小概率事件,不会影响云模型的整体特征。因此,只需要通过分布在该区间内的云滴来计算云相似度。SJQC的边界为boundary(SJQC)=[Ex [
{
"name": "text",
"data": "i"
}
] -3En [
{
"name": "text",
"data": "i"
}
] ,Ex [
{
"name": "text",
"data": "i"
}
] +3En [
{
"name": "text",
"data": "i"
}
] ]。第2步:定义JDQC与SJQC间的重叠关系。存在两种重叠情况,一种是没有重叠,另一种是有重叠。当JDQC和SJQC存在重叠时,存在两种情况,一是包含关系,二是交叉关系。交叉关系意味着二者之间存在至少一个交点,具体交点计算方式如公式(6)所示。存在包含关系的JDQC与SJQC间重叠部分的面积overlap的计算方式如公式(7)所示。其中, 为标准正态分布概率密度函数,通过x 0 的值可以得到Z 1 和Z 2 ,结合标准正态分布表可求得相交面积overlap。第3步:计算JDQC与SJQC间的相似度。根据JDQC和SJQC的重叠关系,相似度计算可以分3种情况讨论。一是假设JDQC和SJQC之间为包含关系,JDQC对应的期望曲线 1 ,SJQC对应的期望曲线 2 ,则二者的云相似度计算方式如公式(8)所示。其中 ( )为正态分布的概率密度函数。二是假设JDQC和SJQC之间存在一个交点,则二者的云相似度计算方式如公式(9)所示。其中,μ为JDQC和SJQC的交集的确定性程度,即云滴 所对应的确定度;α为云模型“3En”规则的确定性程度,α的值为e -4.5 。三是假设JDQC和SJQC之间存在两个交点,则二者的云相似度计算方式如公式(10)所示。
实证研究数据来源于Web of Science核心合集,限制发文作者单位为海军军医大学,限制发表时间为2023年1月1日—11月15日,检索得到2 070篇施引文献。
通过解析2 070篇施引文献的68 475篇参考文献引用格式,统计施引文献引用的期刊数为8 175种。随机选择20种期刊作为评价对象,见 表1 。构建外文电子期刊质量表示矩阵。第1步:确定质量特征集合。通过统计期刊文献被单篇施引文献引用的次数确定质量特征集合。统计得出20种期刊文献被单篇施引文献的引用频次最大值为25,即有25个质量特征, =25。外文电子期刊质量特征分别为{CF 1 ,CF 2 ,...,CF 25 }。第2步:外文电子期刊质量的初步表示。分别按照[1,25]的被引频次统计期刊的施引文献数量,再用得到的施引文献数量乘以对应的被引频次,得到外文电子期刊的质量得分,初步表示电子期刊质量。第3步:生成外文电子期刊质量矩阵。对初步表示矩阵进行优化,保证矩阵输入云模型后生成结果的可读性和易理解性,见 表2 对应的CF 1 初始值为该期刊被同一篇文章引用一次的文章数量;矩阵值为经过归一化数据处理后的标准值。
表2
外文期刊质量表示结果(部分)
注:3种期刊CF13、CF16、CF17、CF18、CF19、CF20、CF22、CF24和CF25对应的值均为0。
4.2.1 建立JDQC 通过分析外文电子期刊质量矩阵中云滴数据的分布特征以及调整模型参数确定超核心S级、核心A级、常用B级、偶用C级4个JDQC的取值范围分别为(20,100]、(15,20]、(5,15]、[0,5],对应的数字特征为JDQC_S(60,13.33,1)、JDQC_A(17.5,0.833,0.2)、JDQC_B(10,1.667,1)、JDQC_C(2.5,0.833,0.2),设置云滴数为2 000,对应的标准云图,见 图3
4.2.2 生成SJQC 通过逆向云发生器算法生成SJQC相对应的数字特征,见 表3 ,各刊对应的质量云,见 图4
4.2.3 相似度计算 计算JDQC与JDQC期望曲线相交重叠部分的面积,得到外文电子期刊与不同等级的JDQC之间的相似度,见 表4 。就该机构人员的利用情况而言, 属于JQDC_B的概率为70%,属于JQDC_A的概率为50%,可划为B类期刊,但存在一定的不确定性; 属于JQDC_S的概率为2%,属于JQDC_A的概率为95%,属于JQDC_B的概率为60%,可划为A类期刊,尽管 属于其他类别的概率也很高,但其属于A类期刊的不确定性较小; 、 属于JDQC_B的概率均为90%,不确定性较小; 属于JDQC_B的概率为50%,不确定性较大; 属于JDQC_C的概率为60%,不确定性小。
在此基础上,采用专家评分法对实验结果进行验证。由于评分主体的差异,会给出不同的分级结果,这同样体现了一定程度的不确定性。然而,作为一种定性评价方法,专家评分法具有较高的准确率,通过遴选该机构的专家,对所分析的期刊进行重要性等级(S级、A级、B级、C级)评分,并将这些评分结果与云模型分级结果进行比较。结果显示,二者之间的相关性为0.833。但是仍有一些期刊的评价存在较高的不确定性,例如 期刊的等级划分存在一定的争议。这些争议能够为后续资源的选择提供更多的参考依据。此外,比较专家评分结果、期刊的影响因子以及该机构作者的引用频次,为了方便与其他指标进行相关性比较,采用JDQC数字特征中的Ex值代表不同等级的评分结果,见 表5 。对表中数据进行归一化处理,并进行相关性分析,得出期刊影响因子与机构被引频次的相关性为0.27;专家评分结果与期刊影响因子、机构被引频次的相关性分别为0.16和0.72。
实证表明,基于云模型的外文电子期刊分级评价模型可以较直观准确地反映期刊对机构的重要程度。对外文电子期刊的重要性等级进行带有不确定性概率的定量评价,能够较好地解决电子期刊与本机构适配度评价的问题,具备一定的通用性。
本文基于引用频次表示外文电子期刊的质量,通过逆向云发生器生成对应的SJQC,根据质量表示矩阵中的数据特征以及反复实验的结果,确定JDQC的等级划分及数据范围,并生成JDQC;最终通过计算SJQC与JDQC之间的相似度划分外文电子期刊的等级,并给出不确定性建议,为医学院校图书馆采购相应的数据库资源提供参考,具备一定的理论意义和实践价值。需要注意的是,虽然本文的质量表示指标较为客观,但相对单一,且实证研究中纳入的数据量较少。后续研究将不断扩充评价指标,增加实证分析的数据量,以期达到更加全面准确的资源评价效果。
作者贡献 :王珂莹负责论文撰写;李栎负责研究设计、实证数据收集与处理、论文审核与修订。