用户工具

站点工具


zh:notes:patent_similarity

这是本文档旧的修订版!


An Improved Patent Similarity Measurement

Citation Information

Xin An, Jinghong Li, Shuo Xu, Liang Chen, and Wei Sun, 2021. An Improved Patent Similarity Measurement based on Entities and Semantic Relations. Journal of Informetrics.

Requirements

  • Python 3模块:
    • Pandas: pip install pandas
    • NLTK: pip install nltk
    • NetworkX: pip install networkx

安装好模块后,进入python环境,下载wordnet资源:

> import nltk
> nltk.download('wordnet')
> nltk.download("wordnet_ic")

Content Tree

code_review:
├─ TFH_Annotated_Dataset
│ ├─ 4036723.ann
│ ├─ 4036723.txt
│ ├─ 4040113.ann
│ ├─ 4040113.txt
│ ├─ …
│ └─ …
├─ gen_similarity_matrix.py
├─ gen_similarity_score.py
├─ gen_weight.py
├─ save_ERE.py
├─ ot.c
├─ ot.m
├─ ot_mex.c
├─ ot_mex.mexw64
├─ word_sim_dict.pickle
└─ readme.md

Data Source

测试数据来源:https://github.com/awesome-patent-mining/TFH_Annotated_Dataset

该数据集来自硬盘驱动器领域的薄膜磁头子领域,总共包含1010个相关专利的标题摘要(.txt)及其相应的标注信息(.ann)。

下载以上数据,并保存在TFH_Annotated_Dataset文件夹下,下面将根据论文所提出的方法计算数据集专利之间的相似度。

zh/notes/patent_similarity.1610530490.txt.gz · 最后更改: 2021/01/13 17:34 由 pzczxs