这是本文档旧的修订版！

An Improved Patent Similarity Measurement

Citation Information

Xin An, Jinghong Li, Shuo Xu, Liang Chen, and Wei Sun, 2021. An Improved Patent Similarity Measurement based on Entities and Semantic Relations. Journal of Informetrics.

Requirements

Python 3模块：
- Pandas: pip install pandas
- NLTK: pip install nltk
- NetworkX: pip install networkx

安装好模块后，进入python环境，下载wordnet资源：

> import nltk
> nltk.download('wordnet')
> nltk.download("wordnet_ic")

Matlab 2018b以上版本，并配置好python环境，可参考：https://zhuanlan.zhihu.com/p/47655091

Content Tree

code_review:
├─ TFH_Annotated_Dataset
│ ├─ 4036723.ann
│ ├─ 4036723.txt
│ ├─ 4040113.ann
│ ├─ 4040113.txt
│ ├─ …
│ └─ …
├─ gen_similarity_matrix.py
├─ gen_similarity_score.py
├─ gen_weight.py
├─ save_ERE.py
├─ ot.c
├─ ot.m
├─ ot_mex.c
├─ ot_mex.mexw64
├─ word_sim_dict.pickle
└─ readme.md

Data Source

测试数据来源：https://github.com/awesome-patent-mining/TFH_Annotated_Dataset

该数据集来自硬盘驱动器领域的薄膜磁头子领域，总共包含1010个相关专利的标题摘要(.txt)及其相应的标注信息(.ann)。

下载以上数据，并保存在TFH_Annotated_Dataset文件夹下，下面将根据论文所提出的方法计算数据集专利之间的相似度。

硕风徐徐

侧边栏

目录

An Improved Patent Similarity Measurement

Citation Information

Requirements

Content Tree

Data Source

评论

硕风徐徐

用户工具

站点工具

侧边栏

目录

An Improved Patent Similarity Measurement

Citation Information

Requirements

Content Tree

Data Source

评论

页面工具