用户工具

站点工具


zh:notes:important_citation_semi

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录 前一修订版
后一修订版
前一修订版
zh:notes:important_citation_semi [2021/12/09 13:28]
pzczxs [Semi-Supervised Learning on Computer Science]
zh:notes:important_citation_semi [2022/11/08 07:35] (当前版本)
pzczxs [Citation information]
行 1: 行 1:
 ====== Important Citations Identification with Semi-Supervised Classification Model ====== ====== Important Citations Identification with Semi-Supervised Classification Model ======
 ===== Citation information ===== ===== Citation information =====
-Xin An, Xin Sun, Shuo Xu, 2021. [[https://​doi.org/​10.1007/​s11192-021-04212-6|Important ​citations identification ​with semi-supervised classification model]]. //​Scientometrics//​.+Xin An, Xin Sun, and **Shuo Xu**2022. [[https://​doi.org/​10.1007/​s11192-021-04212-6|Important ​Citations Identification ​with Semi-Supervised Classification Model]]. //​Scientometrics//​, Vol. 127, No. 11, pp. 6533-6555
 ===== Requirements ===== ===== Requirements =====
   * Python3   * Python3
行 9: 行 9:
 ===== Datasets ===== ===== Datasets =====
 ==== Dataset I ==== ==== Dataset I ====
-数据集I来源于[[https://​aaai.org/​ocs/​index.php/​WS/​AAAIW15/​paper/​view/​10185/​10244|Valenzuela et al. (2015)]],收集和预处理步骤与[[https://​doi.org/​10.1177/​0165551521991034|An et al. (2021)]]([[:​zh:​notes:​important_citation|Note]])相同,共收集456对已标注施引-被引文献对,8085对未标注施引-被引文献对。+Dataset ​I来源于[[https://​aaai.org/​ocs/​index.php/​WS/​AAAIW15/​paper/​view/​10185/​10244|Valenzuela et al. (2015)]],收集和预处理步骤与[[https://​doi.org/​10.1177/​0165551521991034|An et al. (2021)]]([[:​zh:​notes:​important_citation|Note]])相同,共收集456对已标注施引-被引文献对,8085对未标注施引-被引文献对。
  
   * 原始数据和标注数据在<​color red>​data_for_semi/​Valenzuela_information.xlsx</​color>​;   * 原始数据和标注数据在<​color red>​data_for_semi/​Valenzuela_information.xlsx</​color>​;
行 17: 行 17:
  
 ==== Dataset II ==== ==== Dataset II ====
-数据集II来源于[[https://​doi.org/​10.1002/​asi.23179|Zhu et al. (2015)]],收集和预处理步骤与[[https://​doi.org/​10.1177/​0165551521991034|An et al. (2021)]]([[:​zh:​notes:​important_citation|Note]])相同,共收集112篇施引文献,2685对已标注施引-被引文献对。其中施引文献共涉及10种不同学科,82篇来自//​Computer Science//​学科。+Dataset ​II来源于[[https://​doi.org/​10.1002/​asi.23179|Zhu et al. (2015)]],收集和预处理步骤与[[https://​doi.org/​10.1177/​0165551521991034|An et al. (2021)]]([[:​zh:​notes:​important_citation|Note]])相同,共收集112篇施引文献,2685对已标注施引-被引文献对。其中施引文献共涉及10种不同学科,82篇来自//​Computer Science//​学科。
  
   * 原始数据和标注数据在<​color red>​./​data_for_semi/​Zhu_information.xls</​color>​;   * 原始数据和标注数据在<​color red>​./​data_for_semi/​Zhu_information.xls</​color>​;
行 25: 行 25:
 Pre-processing steps are same as those in [[https://​doi.org/​10.1177/​0165551521991034|An et al. (2021)]]。 Pre-processing steps are same as those in [[https://​doi.org/​10.1177/​0165551521991034|An et al. (2021)]]。
  
-===== Feature ​engineering ​=====+===== Feature ​Engineering ​=====
 Six groups of features in in [[https://​doi.org/​10.1177/​0165551521991034|An et al. (2021)]] are utilized here. Six groups of features in in [[https://​doi.org/​10.1177/​0165551521991034|An et al. (2021)]] are utilized here.
  
行 83: 行 83:
  
 ==== 特征重要性对比 ==== ==== 特征重要性对比 ====
-基于Zhu数据集<​color red>​Zhu_data.xlsx</​color>​。 +基于数据集<​color red>​Zhu_data.xlsx</​color>​保持结构特征组(G2)不变,将其他组特征分别加入模型中,通过<color red>gridsearch.py</​color>​优化模型参数,在五折交叉验证下观察使用不同特征组的平均AUC-PR和AUC-ROC数值的变化,以此对各特征贡献进行评估,相应运行代码同前述监督学习。
- +
-保持结构特征组(G2)不变,将其他组特征分别加入模型中,通过gridsearch优化模型参数,在五折交叉验证下观察使用不同特征组的平均AUC-PR和AUC-ROC数值的变化,以此对各特征贡献进行评估,相应运行代码同前述监督学习。+
  
 ===== Discussion ===== ===== Discussion =====
行 99: 行 97:
  
 ==== 案例分析 ==== ==== 案例分析 ====
-随机选取Zhu数据集中<​color green>​id=Z002</​color>​的施引文献进行案例分析,以验证数据集II的重要引文标注模式与数据集I不同,即存在施引文献作者认为不重要的引文,但实际对施引-被引之间的知识扩散重要。+随机选取[[:​zh:​notes:​important_citation_semi#​dataset_ii|Dataset II]]中<​color green>​id=Z002</​color>​的施引文献进行案例分析,以验证[[:​zh:​notes:​important_citation_semi#​dataset_ii|Dataset ​II]]与[[:​zh:​notes:​important_citation_semi#​dataset_i|Dataset I]]采用了不同的重要引文标注模式,即存在施引文献作者认为不重要的引文,但实际对施引-被引之间的知识扩散重要。
  
-~~DISCUSSION~~+~~DISCUSSION:closed~~
  
zh/notes/important_citation_semi.1639027735.txt.gz · 最后更改: 2021/12/09 13:28 由 pzczxs