用户工具

站点工具


zh:notes:important_citation_semi

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录 前一修订版
后一修订版
前一修订版
zh:notes:important_citation_semi [2021/12/09 13:22]
pzczxs [Dataset II]
zh:notes:important_citation_semi [2022/11/08 07:35] (当前版本)
pzczxs [Citation information]
行 1: 行 1:
 ====== Important Citations Identification with Semi-Supervised Classification Model ====== ====== Important Citations Identification with Semi-Supervised Classification Model ======
 ===== Citation information ===== ===== Citation information =====
-Xin An, Xin Sun, Shuo Xu, 2021. [[https://​doi.org/​10.1007/​s11192-021-04212-6|Important ​citations identification ​with semi-supervised classification model]]. //​Scientometrics//​.+Xin An, Xin Sun, and **Shuo Xu**2022. [[https://​doi.org/​10.1007/​s11192-021-04212-6|Important ​Citations Identification ​with Semi-Supervised Classification Model]]. //​Scientometrics//​, Vol. 127, No. 11, pp. 6533-6555
 ===== Requirements ===== ===== Requirements =====
   * Python3   * Python3
行 9: 行 9:
 ===== Datasets ===== ===== Datasets =====
 ==== Dataset I ==== ==== Dataset I ====
-数据集I来源于[[https://​aaai.org/​ocs/​index.php/​WS/​AAAIW15/​paper/​view/​10185/​10244|Valenzuela et al. (2015)]],收集和预处理步骤与[[https://​doi.org/​10.1177/​0165551521991034|An et al. (2021)]]([[:​zh:​notes:​important_citation|Note]])相同,共收集456对已标注施引-被引文献对,8085对未标注施引-被引文献对。+Dataset ​I来源于[[https://​aaai.org/​ocs/​index.php/​WS/​AAAIW15/​paper/​view/​10185/​10244|Valenzuela et al. (2015)]],收集和预处理步骤与[[https://​doi.org/​10.1177/​0165551521991034|An et al. (2021)]]([[:​zh:​notes:​important_citation|Note]])相同,共收集456对已标注施引-被引文献对,8085对未标注施引-被引文献对。
  
   * 原始数据和标注数据在<​color red>​data_for_semi/​Valenzuela_information.xlsx</​color>​;   * 原始数据和标注数据在<​color red>​data_for_semi/​Valenzuela_information.xlsx</​color>​;
行 17: 行 17:
  
 ==== Dataset II ==== ==== Dataset II ====
-数据集II来源于[[https://​doi.org/​10.1002/​asi.23179|Zhu et al. (2015)]],收集和预处理步骤与[[https://​doi.org/​10.1177/​0165551521991034|An et al. (2021)]]([[:​zh:​notes:​important_citation|Note]])相同,共收集112篇施引文献,2685对已标注施引-被引文献对。其中施引文献共涉及10种不同学科,82篇来自//​Computer Science//​学科。+Dataset ​II来源于[[https://​doi.org/​10.1002/​asi.23179|Zhu et al. (2015)]],收集和预处理步骤与[[https://​doi.org/​10.1177/​0165551521991034|An et al. (2021)]]([[:​zh:​notes:​important_citation|Note]])相同,共收集112篇施引文献,2685对已标注施引-被引文献对。其中施引文献共涉及10种不同学科,82篇来自//​Computer Science//​学科。
  
   * 原始数据和标注数据在<​color red>​./​data_for_semi/​Zhu_information.xls</​color>​;   * 原始数据和标注数据在<​color red>​./​data_for_semi/​Zhu_information.xls</​color>​;
行 25: 行 25:
 Pre-processing steps are same as those in [[https://​doi.org/​10.1177/​0165551521991034|An et al. (2021)]]。 Pre-processing steps are same as those in [[https://​doi.org/​10.1177/​0165551521991034|An et al. (2021)]]。
  
-===== Feature ​engineering ​=====+===== Feature ​Engineering ​=====
 Six groups of features in in [[https://​doi.org/​10.1177/​0165551521991034|An et al. (2021)]] are utilized here. Six groups of features in in [[https://​doi.org/​10.1177/​0165551521991034|An et al. (2021)]] are utilized here.
  
行 33: 行 33:
 在[[:​zh:​notes:​important_citation_semi#​dataset_i|Dataset I]]的基础上开展后续实验工作。 在[[:​zh:​notes:​important_citation_semi#​dataset_i|Dataset I]]的基础上开展后续实验工作。
 ==== Supervised Learning ==== ==== Supervised Learning ====
-基于Valenzuela已标注数据<​color red>​Valenzuela_data.csv</​color>​。 +基于标注数据<​color red>​Valenzuela_data.csv</​color>​运行<​color red>​gridsearch.py</​color>​,以下各实验均应用GridSearch,五折交叉验证优化SVM、RF模型参数。
- +
-运行<​color red>​gridsearch.py</​color>​,以下各实验均应用GridSearch,五折交叉验证优化SVM、RF模型参数。+
 <code bash> <code bash>
 > python ./​gridsearch.py > python ./​gridsearch.py
行 45: 行 43:
 </​code>​ </​code>​
 ==== Semi-Supervised Learning ==== ==== Semi-Supervised Learning ====
-基于Valenzuela已标注数据<​color red>​Valenzuela_data.csv</​color>​和未标注数据<​color red>​Valenzuela_unlabeled_data.csv</​color>​。 +基于标注数据<​color red>​Valenzuela_data.csv</​color>​和未标注数据<​color red>​Valenzuela_unlabeled_data.csv</​color>​运行<​color red>​semi_supervised.py</​color>​,将已标注数据划分为5折,修改相应参数,分别在阈值为0.95,0.90,0.85,0.80,0.75,0.70下,对每一折数据执行代码,得到不同阈值下SVM和RF的平均PR和ROC。各实验均使用<​color red>​gridsearch.py</​color>​优化模型参数。
- +
-运行<​color red>​semi_supervised.py</​color>​,将已标注数据划分为5折,修改相应参数,分别在阈值为0.95,0.90,0.85,0.80,0.75,0.70下,对每一折数据执行代码,得到不同阈值下SVM和RF的平均PR和ROC。各实验均使用<​color red>​gridsearch.py</​color>​优化模型参数。+
 <code bash> <code bash>
 > python ./​semi_supervised.py > python ./​semi_supervised.py
行 58: 行 54:
  
 ===== Experiment II ===== ===== Experiment II =====
-在Dataset II的基础上开展后续实验工作。+[[:​zh:​notes:​important_citation_semi#​dataset_ii|Dataset II]]的基础上开展后续实验工作。
 ==== Supervised Learning ==== ==== Supervised Learning ====
-基于Zhu已标注数据<​color red>​Zhu_data.xlsx</​color>​。 +基于标注数据<​color red>​Zhu_data.xlsx</​color>​,开展相关实验工作。代码同[[:​zh:​notes:​important_citation_semi#​supervised_learning|Supervised Learning]] in [[:​zh:​notes:​important_citation_semi#​experiment_i|Experiment I]]
- +
-代码同前述监督学习+
  
 ==== Semi-Supervised Learning ==== ==== Semi-Supervised Learning ====
-zhu数据集按10%,15%,20%,25%,30%的比例分别划分伪未标注数据,保证标注数据和伪未标注数据的类别比例相同。+将数据集按10%,15%,20%,25%,30%的比例分别划分伪未标注数据,保证标注数据和伪未标注数据的类别比例相同。
 <code python> <code python>
 > from sklearn.model_selection import StratifiedShuffleSplit > from sklearn.model_selection import StratifiedShuffleSplit
行 74: 行 68:
 </​code>​ </​code>​
  
-根据Experiment I,SVM在75%置信度半监督性能达到最高,RF在95%置信度半监督性能达到最高。因此,采取SVM-75%阈值,RF-95%阈值进行本节实验。相应运行代码同前述半监督学习。+根据[[:​zh:​notes:​important_citation_semi#​experiment_i|Experiment I]],SVM在75%置信度半监督性能达到最高,RF在95%置信度半监督性能达到最高。因此,采取SVM-75%阈值,RF-95%阈值进行本节实验。相应运行代码同前述半监督学习。
  
-运行<​color red>​Zhu_semi_results_comparison_figure.py</​color>​,绘制Zhu数据集不同划分比例下半监督学习果对比图。+运行<​color red>​Zhu_semi_results_comparison_figure.py</​color>​,绘制不同划分比例下半监督学习果对比图。
 <code bash> <code bash>
 > python ./​Zhu_semi_results_comparison_figure.py > python ./​Zhu_semi_results_comparison_figure.py
 </​code>​ </​code>​
 ==== Semi-Supervised Learning on Computer Science ==== ==== Semi-Supervised Learning on Computer Science ====
-在Zhu数据集<​color red>​Zhu_data.xlsx</​color>​中的//​Computer Science//​学科的数据集上进行半监督实验。+数据集<​color red>​Zhu_data.xlsx</​color>​中的//​Computer Science//​学科的数据集上进行半监督实验。
 <code python> <code python>
 > computer_science = Zhu_data[Zhu_data['​discipline'​]=='​CS'​] > computer_science = Zhu_data[Zhu_data['​discipline'​]=='​CS'​]
行 89: 行 83:
  
 ==== 特征重要性对比 ==== ==== 特征重要性对比 ====
-基于Zhu数据集<​color red>​Zhu_data.xlsx</​color>​。 +基于数据集<​color red>​Zhu_data.xlsx</​color>​保持结构特征组(G2)不变,将其他组特征分别加入模型中,通过<color red>gridsearch.py</​color>​优化模型参数,在五折交叉验证下观察使用不同特征组的平均AUC-PR和AUC-ROC数值的变化,以此对各特征贡献进行评估,相应运行代码同前述监督学习。
- +
-保持结构特征组(G2)不变,将其他组特征分别加入模型中,通过gridsearch优化模型参数,在五折交叉验证下观察使用不同特征组的平均AUC-PR和AUC-ROC数值的变化,以此对各特征贡献进行评估,相应运行代码同前述监督学习。+
  
 ===== Discussion ===== ===== Discussion =====
行 105: 行 97:
  
 ==== 案例分析 ==== ==== 案例分析 ====
-随机选取Zhu数据集中<​color green>​id=Z002</​color>​的施引文献进行案例分析,以验证数据集II的重要引文标注模式与数据集I不同,即存在施引文献作者认为不重要的引文,但实际对施引-被引之间的知识扩散重要。+随机选取[[:​zh:​notes:​important_citation_semi#​dataset_ii|Dataset II]]中<​color green>​id=Z002</​color>​的施引文献进行案例分析,以验证[[:​zh:​notes:​important_citation_semi#​dataset_ii|Dataset ​II]]与[[:​zh:​notes:​important_citation_semi#​dataset_i|Dataset I]]采用了不同的重要引文标注模式,即存在施引文献作者认为不重要的引文,但实际对施引-被引之间的知识扩散重要。
  
-~~DISCUSSION~~+~~DISCUSSION:closed~~
  
zh/notes/important_citation_semi.1639027339.txt.gz · 最后更改: 2021/12/09 13:22 由 pzczxs