这是本文档旧的修订版!
Xin An, Jinghong Li, Shuo Xu, Liang Chen, and Wei Sun, 2021. An Improved Patent Similarity Measurement based on Entities and Semantic Relations. Journal of Informetrics.
安装好模块后,进入python环境,下载wordnet资源:
> import nltk > nltk.download('wordnet') > nltk.download("wordnet_ic")
code_review: 
├─ TFH_Annotated_Dataset 
│	├─ 4036723.ann 
│	├─ 4036723.txt 
│	├─ 4040113.ann 
│	├─ 4040113.txt 
│	├─ … 
│	└─ … 
├─ gen_similarity_matrix.py 
├─ gen_similarity_score.py 
├─ gen_weight.py 
├─ save_ERE.py 
├─ ot.c 
├─ ot.m 
├─ ot_mex.c 
├─ ot_mex.mexw64 
├─ word_sim_dict.pickle 
└─ readme.md 
测试数据来源:https://github.com/awesome-patent-mining/TFH_Annotated_Dataset
该数据集来自硬盘驱动器领域的薄膜磁头子领域,总共包含1010个相关专利的标题摘要(.txt)及其相应的标注信息(.ann)。
下载以上数据,并保存在TFH_Annotated_Dataset文件夹下,下面将根据论文所提出的方法计算数据集专利之间的相似度。
评论