这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录 前一修订版 后一修订版 | 前一修订版 | ||
zh:notes:patent_similarity [2021/01/13 17:42] pzczxs [Step 2: 计算专利相似度矩阵] |
zh:notes:patent_similarity [2022/01/27 08:23] (当前版本) pzczxs 讨论状态变化了 |
||
---|---|---|---|
行 2: | 行 2: | ||
===== Citation Information ===== | ===== Citation Information ===== | ||
- | Xin An, Jinghong Li, Shuo Xu, Liang Chen, and Wei Sun, 2021. An Improved Patent Similarity Measurement based on Entities and Semantic Relations. //Journal of Informetrics//. | + | Xin An, Jinghong Li, Shuo Xu, Liang Chen, and Wei Sun, 2021. [[https://doi.org/10.1016/j.joi.2021.101135|An Improved Patent Similarity Measurement based on Entities and Semantic Relations]]. //Journal of Informetrics//, Vol. 15, No. 2, pp. 101135. |
===== Requirements ===== | ===== Requirements ===== | ||
行 16: | 行 16: | ||
> nltk.download("wordnet_ic") | > nltk.download("wordnet_ic") | ||
</code> | </code> | ||
- | *Matlab 2018b以上版本,并配置好python环境,可参考:https://zhuanlan.zhihu.com/p/47655091 | + | *Matlab 2018b以上版本,并配置好Python环境,可参考:https://zhuanlan.zhihu.com/p/47655091 |
===== Content Tree ===== | ===== Content Tree ===== | ||
code_review: \\ | code_review: \\ | ||
行 71: | 行 71: | ||
</code> | </code> | ||
- | 2)每两个单词之间的相似度都是基于 WordNet 计算而得,而通过 API 频繁调用 WordNet 会导致程序计算效率低下,因此用`word_sim_dict.pickle` 文件记录已经计算过的单词之间的相似度。该数据集第一次运行程序时,计算1010个专利两两之间的相似度矩阵大约需要四五天时间,当把所有需要通过 WordNet 比较的单词相似度记录下来后,只要不修改 WordNet 的设定,以后重跑时可以直接读取单词的相似度,只需花费几小时即可。 | + | 2)每两个单词之间的相似度都是基于WordNet计算而得,而通过API频繁调用WordNet会导致程序计算效率低下,因此用<color red>word_sim_dict.pickle</color>文件记录已经计算过的单词之间的相似度。该数据集第一次运行程序时,计算1010个专利两两之间的相似度矩阵大约需要四五天时间,当把所有需要通过WordNet比较的单词相似度记录下来后,只要不修改WordNet的设定,以后重跑时可以直接读取单词的相似度,只需花费几小时即可。 |
==== Step 3: 计算序列结构权重 ==== | ==== Step 3: 计算序列结构权重 ==== | ||
行 81: | 行 81: | ||
==== Step 4: 计算专利相似度 ==== | ==== Step 4: 计算专利相似度 ==== | ||
- | 运行文件<color red>gen_similarity_score.py</color>计算专利相似度,结果保存在<color red>similarity_weighted.xlsx</color>以及<color red>similarity_nonweighted.xlsx</color>文件中,前者基于step 3的权重,后者基于相同权重。 | + | 运行文件<color red>gen_similarity_score.py</color>计算专利相似度,结果保存在<color red>similarity_weighted.xlsx</color>以及<color red>similarity_nonweighted.xlsx</color>文件中,前者基于Step 3的权重,后者基于相同权重。 |
<code python> | <code python> | ||
行 91: | 行 91: | ||
该数据集该步骤会花费大约十个小时。 | 该数据集该步骤会花费大约十个小时。 | ||
+ | ~~DISCUSSION:closed~~ |