用户工具

站点工具


zh:notes:important_citation

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录 前一修订版
后一修订版
前一修订版
zh:notes:important_citation [2021/02/08 20:05]
pzczxs [提取引用语境信息]
zh:notes:important_citation [2022/01/27 08:23] (当前版本)
pzczxs 讨论状态变化了
行 16: 行 16:
     *xlwt     *xlwt
   *[[http://​www.xpdfreader.com/​|XPDF]]   *[[http://​www.xpdfreader.com/​|XPDF]]
-  *R+  *[[https://​rstudio.com/​|R]]
   *[[:​zh:​notes:​install_parscit|ParsCit]]   *[[:​zh:​notes:​install_parscit|ParsCit]]
 +  *[[https://​www.mysql.com/​|MySQL]]
  
 ===== Dataset ===== ===== Dataset =====
行 49: 行 50:
 利用Parscit对TXT格式数据进行解析,Parscit解析数据在<​color red>​./​data/​ParsCit/</​color>​,提取标题、作者、摘要、参考文献等信息,然后对一些解析错误进行人工修正。 利用Parscit对TXT格式数据进行解析,Parscit解析数据在<​color red>​./​data/​ParsCit/</​color>​,提取标题、作者、摘要、参考文献等信息,然后对一些解析错误进行人工修正。
 <code bash> <code bash>
-> cd ParsCit/bin +> cd ParsCit 
-> ./citeExtract.pl -m extract_all ​../demodata/​sample2.txt sample2.txt.out+> ./run_parscit.sh valenzuela_txt 
 +./run_parscit.sh zhu_txt
 </​code>​ </​code>​
  
行 66: 行 68:
 ==== 使用NLTK对引用语境和摘要进行文本预处理 ==== ==== 使用NLTK对引用语境和摘要进行文本预处理 ====
 运行<​color red>​preprocess.py</​color>​,使用NLTK工具包对所有的引用语境、摘要等文本信息进行预处理,包括去除所有的标点、数字、HTML,并进行分词、词性标注、词形还原、停用词过滤等,得到清洗后的引用语境、摘要等文本信息 运行<​color red>​preprocess.py</​color>​,使用NLTK工具包对所有的引用语境、摘要等文本信息进行预处理,包括去除所有的标点、数字、HTML,并进行分词、词性标注、词形还原、停用词过滤等,得到清洗后的引用语境、摘要等文本信息
-<​code ​shell>+<​code ​bash>
 > Python ./​preprocess.py > Python ./​preprocess.py
 </​code>​ </​code>​
行 72: 行 74:
 ===== Feature Engineering ===== ===== Feature Engineering =====
 ==== CIM特征 ==== ==== CIM特征 ====
-将施引文献及其参考文献的标题、摘要及引用关系等信息输入CIM模型中,生成.psi和.symKL文件+The database SQL files: <color red>​acl_subset.sql</​color>​ and <color red>​zhu.sql</​color>​. These SQL files share the same table structure.  
 + 
 +To import the related information from the file <color red>​data/​pre_title.xls</​color>​ to MySQL database by running <color red>​AclExcelImporter.java</​color>​ in the package <color red>​cn.edu.bjut.ui</​color>​ of the project <color red>​DataConverter</​color>​. 
 + 
 +To import the related information from the file <color red>​data/​zhu_data_0924.xlsx</​color>​ to MySQL database by running <color red>​ZhuExcelImporter.java</​color>​ in the package <color red>​cn.edu.bjut.ui</​color>​ of the project <color red>​DataConverter</​color>​. 
 + 
 +To convert the data to the format of CIM model by running <color red>​ToCIM.java</​color>​ in the package <color red>​cn.edu.bjut.ui</​color>​ of the project <color red>​DataConverter</​color>​. Note that the parameter "​data/​CIM/​acl"​ for Valenzuela'​s dataset and "​data/​CIM/​zhu"​ for Zhu's dataset. 
 + 
 +To run <color red>​CIM.java</​color>​ in the package <color red>​cn.edu.bjut.ui</​color>​ of the project <color red>​CIM</​color>​,several files will be saved in the directory <color red>​data/​acl</​color>​ and <color red>​data/​zhu</​color>​respectivelyNote that the parameter "​data/​acl"​ for Valenzuela'​s dataset and "​data/​zhu"​ for Zhu's dataset. 
 + 
 +To run <color red>​FromCIM.java</​color>​ in the package <color red>​cn.edu.bjut.ui</​color>​ of the project <color red>​DataConverter</​color>,​ two files <color red>.symKL</​color>​ and <color red>​.psi</​color>​ will be saved in the directory <color red>​data</​color>​. Note that the parameter "​data/​CIM/​acl"​ for Valenzuela'​s dataset and "​data/​CIM/​zhu"​ for Zhu's dataset.
  
 ==== 结构特征 ==== ==== 结构特征 ====
行 89: 行 101:
 ==== 作者重叠特征 ==== ==== 作者重叠特征 ====
 运行<​color red>​author_overlap.py</​color>,​ 将姓氏、名字和中间名的首字母组合成每个作者的标识符来识别和区分作者,使用Jaccard系数来度量施引文献作者集与被引文献作者集之间的相似度,导出到Excel文件中。 运行<​color red>​author_overlap.py</​color>,​ 将姓氏、名字和中间名的首字母组合成每个作者的标识符来识别和区分作者,使用Jaccard系数来度量施引文献作者集与被引文献作者集之间的相似度,导出到Excel文件中。
-<​code ​shell>+<​code ​bash>
 > Python ./​author_overlap.py > Python ./​author_overlap.py
 </​code>​ </​code>​
行 95: 行 107:
 ==== 线索词特征 ==== ==== 线索词特征 ====
 运行<​color red>​cue_words.py</​color>,​ 线索词列表在<​color red>​./​data/​cue_words.xls</​color>​,通过正则表达式匹配来统计出现在引文中的重要线索词和不重要线索词的数量,​ 导出到Excel文件中。 运行<​color red>​cue_words.py</​color>,​ 线索词列表在<​color red>​./​data/​cue_words.xls</​color>​,通过正则表达式匹配来统计出现在引文中的重要线索词和不重要线索词的数量,​ 导出到Excel文件中。
-<​code ​shell>+<​code ​bash>
 > Python ./​cue_words.py > Python ./​cue_words.py
 </​code>​ </​code>​
行 101: 行 113:
 ==== 相似度特征 ==== ==== 相似度特征 ====
 运行<​color red>​cos_simi_tfidf.py</​color>​,使用TF-IDF将引用语境与被引文献摘要进行向量化表示,然后通过余弦相似度计算被引文献的摘要与施引文献中的引用语境之间的相似性,导出到Excel文件中。 运行<​color red>​cos_simi_tfidf.py</​color>​,使用TF-IDF将引用语境与被引文献摘要进行向量化表示,然后通过余弦相似度计算被引文献的摘要与施引文献中的引用语境之间的相似性,导出到Excel文件中。
-<​code ​shell>+<​code ​bash>
 > Python ./​cos_simi_tfidf.py > Python ./​cos_simi_tfidf.py
 </​code>​ </​code>​
行 110: 行 122:
 ==== GridSearch优化模型参数 ==== ==== GridSearch优化模型参数 ====
 运行<​color red>​gridsearch.py</​color>​,应用GridSearch,五折交叉验证优化SVM、RF模型参数。 运行<​color red>​gridsearch.py</​color>​,应用GridSearch,五折交叉验证优化SVM、RF模型参数。
-<​code ​shell>+<​code ​bash>
 > Python ./​gridsearch.py > Python ./​gridsearch.py
 </​code>​ </​code>​
行 116: 行 128:
 ==== SVM、RF、CNN模型PR曲线 ==== ==== SVM、RF、CNN模型PR曲线 ====
 运行<​color red>​pr.py</​color>,​ 将SVM、RF、CNN模型在Valenzuela'​s Dataset和Zhu'​s Dataset上的PR性能曲线绘制到同一张图上。 运行<​color red>​pr.py</​color>,​ 将SVM、RF、CNN模型在Valenzuela'​s Dataset和Zhu'​s Dataset上的PR性能曲线绘制到同一张图上。
-<​code ​shell>+<​code ​bash>
 > Python ./pr.py > Python ./pr.py
 </​code>​ </​code>​
行 122: 行 134:
 ==== SVM、RF、CNN模型ROC曲线 ==== ==== SVM、RF、CNN模型ROC曲线 ====
 运行<​color red>​roc.py</​color>​,将SVM、RF、CNN模型在Valenzuela'​s Dataset和Zhu'​s Dataset上的ROC性能曲线绘制到同一张图上。 运行<​color red>​roc.py</​color>​,将SVM、RF、CNN模型在Valenzuela'​s Dataset和Zhu'​s Dataset上的ROC性能曲线绘制到同一张图上。
-<​code ​shell>+<​code ​bash>
 > Python ./roc.py > Python ./roc.py
 </​code>​ </​code>​
行 130: 行 142:
  
 应用配对样本t检验,检验不同特征组之间结果是否存在显著差异。 应用配对样本t检验,检验不同特征组之间结果是否存在显著差异。
-<​code ​shell>+<​code ​bash>
 > from scipy import stats > from scipy import stats
 > stats.ttest_rel(G1,​G2) > stats.ttest_rel(G1,​G2)
 </​code>​ </​code>​
 +
 +~~DISCUSSION:​closed~~
zh/notes/important_citation.1612785934.txt.gz · 最后更改: 2021/02/08 20:05 由 pzczxs