这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录 前一修订版 后一修订版 | 前一修订版 | ||
zh:notes:important_citation_semi [2021/12/09 13:25] pzczxs [Supervised Learning] |
zh:notes:important_citation_semi [2022/11/08 07:35] (当前版本) pzczxs [Citation information] |
||
---|---|---|---|
行 1: | 行 1: | ||
====== Important Citations Identification with Semi-Supervised Classification Model ====== | ====== Important Citations Identification with Semi-Supervised Classification Model ====== | ||
===== Citation information ===== | ===== Citation information ===== | ||
- | Xin An, Xin Sun, Shuo Xu, 2021. [[https://doi.org/10.1007/s11192-021-04212-6|Important citations identification with semi-supervised classification model]]. //Scientometrics//. | + | Xin An, Xin Sun, and **Shuo Xu**, 2022. [[https://doi.org/10.1007/s11192-021-04212-6|Important Citations Identification with Semi-Supervised Classification Model]]. //Scientometrics//, Vol. 127, No. 11, pp. 6533-6555. |
===== Requirements ===== | ===== Requirements ===== | ||
* Python3 | * Python3 | ||
行 9: | 行 9: | ||
===== Datasets ===== | ===== Datasets ===== | ||
==== Dataset I ==== | ==== Dataset I ==== | ||
- | 数据集I来源于[[https://aaai.org/ocs/index.php/WS/AAAIW15/paper/view/10185/10244|Valenzuela et al. (2015)]],收集和预处理步骤与[[https://doi.org/10.1177/0165551521991034|An et al. (2021)]]([[:zh:notes:important_citation|Note]])相同,共收集456对已标注施引-被引文献对,8085对未标注施引-被引文献对。 | + | Dataset I来源于[[https://aaai.org/ocs/index.php/WS/AAAIW15/paper/view/10185/10244|Valenzuela et al. (2015)]],收集和预处理步骤与[[https://doi.org/10.1177/0165551521991034|An et al. (2021)]]([[:zh:notes:important_citation|Note]])相同,共收集456对已标注施引-被引文献对,8085对未标注施引-被引文献对。 |
* 原始数据和标注数据在<color red>data_for_semi/Valenzuela_information.xlsx</color>; | * 原始数据和标注数据在<color red>data_for_semi/Valenzuela_information.xlsx</color>; | ||
行 17: | 行 17: | ||
==== Dataset II ==== | ==== Dataset II ==== | ||
- | 数据集II来源于[[https://doi.org/10.1002/asi.23179|Zhu et al. (2015)]],收集和预处理步骤与[[https://doi.org/10.1177/0165551521991034|An et al. (2021)]]([[:zh:notes:important_citation|Note]])相同,共收集112篇施引文献,2685对已标注施引-被引文献对。其中施引文献共涉及10种不同学科,82篇来自//Computer Science//学科。 | + | Dataset II来源于[[https://doi.org/10.1002/asi.23179|Zhu et al. (2015)]],收集和预处理步骤与[[https://doi.org/10.1177/0165551521991034|An et al. (2021)]]([[:zh:notes:important_citation|Note]])相同,共收集112篇施引文献,2685对已标注施引-被引文献对。其中施引文献共涉及10种不同学科,82篇来自//Computer Science//学科。 |
* 原始数据和标注数据在<color red>./data_for_semi/Zhu_information.xls</color>; | * 原始数据和标注数据在<color red>./data_for_semi/Zhu_information.xls</color>; | ||
行 25: | 行 25: | ||
Pre-processing steps are same as those in [[https://doi.org/10.1177/0165551521991034|An et al. (2021)]]。 | Pre-processing steps are same as those in [[https://doi.org/10.1177/0165551521991034|An et al. (2021)]]。 | ||
- | ===== Feature engineering ===== | + | ===== Feature Engineering ===== |
Six groups of features in in [[https://doi.org/10.1177/0165551521991034|An et al. (2021)]] are utilized here. | Six groups of features in in [[https://doi.org/10.1177/0165551521991034|An et al. (2021)]] are utilized here. | ||
行 56: | 行 56: | ||
在[[:zh:notes:important_citation_semi#dataset_ii|Dataset II]]的基础上开展后续实验工作。 | 在[[:zh:notes:important_citation_semi#dataset_ii|Dataset II]]的基础上开展后续实验工作。 | ||
==== Supervised Learning ==== | ==== Supervised Learning ==== | ||
- | 基于标注数据<color red>Zhu_data.xlsx</color>,开展相关实验工作。代码同监督学习。 | + | 基于标注数据<color red>Zhu_data.xlsx</color>,开展相关实验工作。代码同[[:zh:notes:important_citation_semi#supervised_learning|Supervised Learning]] in [[:zh:notes:important_citation_semi#experiment_i|Experiment I]]。 |
==== Semi-Supervised Learning ==== | ==== Semi-Supervised Learning ==== | ||
- | 将zhu数据集按10%,15%,20%,25%,30%的比例分别划分伪未标注数据,保证标注数据和伪未标注数据的类别比例相同。 | + | 将数据集按照10%,15%,20%,25%,30%的比例分别划分伪未标注数据,保证标注数据和伪未标注数据的类别比例相同。 |
<code python> | <code python> | ||
> from sklearn.model_selection import StratifiedShuffleSplit | > from sklearn.model_selection import StratifiedShuffleSplit | ||
行 68: | 行 68: | ||
</code> | </code> | ||
- | 根据Experiment I,SVM在75%置信度半监督性能达到最高,RF在95%置信度半监督性能达到最高。因此,采取SVM-75%阈值,RF-95%阈值进行本节实验。相应运行代码同前述半监督学习。 | + | 根据[[:zh:notes:important_citation_semi#experiment_i|Experiment I]],SVM在75%置信度半监督性能达到最高,RF在95%置信度半监督性能达到最高。因此,采取SVM-75%阈值,RF-95%阈值进行本节实验。相应运行代码同前述半监督学习。 |
- | 运行<color red>Zhu_semi_results_comparison_figure.py</color>,绘制Zhu数据集不同划分比例下半监督学习结果对比图。 | + | 运行<color red>Zhu_semi_results_comparison_figure.py</color>,绘制不同划分比例下半监督学习效果对比图。 |
<code bash> | <code bash> | ||
> python ./Zhu_semi_results_comparison_figure.py | > python ./Zhu_semi_results_comparison_figure.py | ||
</code> | </code> | ||
==== Semi-Supervised Learning on Computer Science ==== | ==== Semi-Supervised Learning on Computer Science ==== | ||
- | 仅在Zhu数据集<color red>Zhu_data.xlsx</color>中的//Computer Science//学科的数据集上进行半监督实验。 | + | 仅对数据集<color red>Zhu_data.xlsx</color>中的//Computer Science//学科的数据子集上进行半监督实验。 |
<code python> | <code python> | ||
> computer_science = Zhu_data[Zhu_data['discipline']=='CS'] | > computer_science = Zhu_data[Zhu_data['discipline']=='CS'] | ||
行 83: | 行 83: | ||
==== 特征重要性对比 ==== | ==== 特征重要性对比 ==== | ||
- | 基于Zhu数据集<color red>Zhu_data.xlsx</color>。 | + | 基于数据集<color red>Zhu_data.xlsx</color>,保持结构特征组(G2)不变,将其他组特征分别加入模型中,通过<color red>gridsearch.py</color>优化模型参数,在五折交叉验证下观察使用不同特征组的平均AUC-PR和AUC-ROC数值的变化,以此对各特征贡献进行评估,相应运行代码同前述监督学习。 |
- | + | ||
- | 保持结构特征组(G2)不变,将其他组特征分别加入模型中,通过gridsearch优化模型参数,在五折交叉验证下观察使用不同特征组的平均AUC-PR和AUC-ROC数值的变化,以此对各特征贡献进行评估,相应运行代码同前述监督学习。 | + | |
===== Discussion ===== | ===== Discussion ===== | ||
行 99: | 行 97: | ||
==== 案例分析 ==== | ==== 案例分析 ==== | ||
- | 随机选取Zhu数据集中<color green>id=Z002</color>的施引文献进行案例分析,以验证数据集II的重要引文标注模式与数据集I不同,即存在施引文献作者认为不重要的引文,但实际对施引-被引之间的知识扩散重要。 | + | 随机选取[[:zh:notes:important_citation_semi#dataset_ii|Dataset II]]中<color green>id=Z002</color>的施引文献进行案例分析,以验证[[:zh:notes:important_citation_semi#dataset_ii|Dataset II]]与[[:zh:notes:important_citation_semi#dataset_i|Dataset I]]采用了不同的重要引文标注模式,即存在施引文献作者认为不重要的引文,但实际对施引-被引之间的知识扩散重要。 |
- | ~~DISCUSSION~~ | + | ~~DISCUSSION:closed~~ |