Zheng Wang, Shuo Xu, and Lijun Zhu, 2018. Semantic Relation Extraction Aware of N-Gram Features from Unstructured Biomedical Text. Journal of Biomedical Informatics, Vol. 86, pp. 59-70.
所有的数据文件经过特征提取后,应当形成特征文件和关系(Relationship)文件。
This file is line-based.原始数据文件是按行组织的文件,每一行是一篇概念上的文档,形如:
第一篇文本 第二篇文本
每一行都又若干段组成,每一段代表一个候选实体对所对应的特征。候选实体对之间用\t隔开,形如:
第一个实体对对应的特征\t第二个实体对对应的特征……
每一个候选实体对的特征之间以一个空格隔开,形如:
特征1 特征2 特征3……:Relationship
如果这个候选实体对被标注为某种关系的实例,则在候选实体对后方加上一个英文冒号和实例名称(Relationship)。
每个特征和关系名称(Relationship)中间不许有空格。如果特征是由多个Token组成的,则用英文下划线_连缀。
关系文件是特征文件中可能出现的一切关系(Relationship)的集合。它的每一行是一个关系,形如:
Relationship1 Relationship2 ……
本文为完成实验共提供了四个模型:Rel-LDA,Rel-TNG,Type-LDA和Type-TNG,共三个文件。其中,Rel-TNG和Type-TNG在同一份代码的不同分支中,需要使用Git进行切换。所有的模型都可以在目录下使用如下命令生成如“模型名称-1.0-SNAPSHOT-jar-with-dependencies.jar”这样的文件,这个过程可能多次由于网络问题中断:
mvn assembly:assembly -DskiptTests
运行Rel-LDA和Rel-TNG模型可以使用如下命令(请注意空格):
java -Xmx4G -jar Rel-LDA-1.0-SNAPSHOT-jar-with-dependencies.jar 特征文件路径 循环次数 输出文件路径 关系数量 symetricDirichletParam 关系文件路径 种子文档数量(float) 每多少次保存一次 用于计算困惑度的文档的数量(float)
运行Type-LDA和Type-TNG模型可以使用如下命令(比Rel-LDA和Rel-TNG模型多了“实体类型数量”):
java -Xmx4G -jar Rel-LDA-1.0-SNAPSHOT-jar-with-dependencies.jar 特征文件路径 循环次数 输出文件路径 关系数量 实体类型数量 symetricDirichletParam 关系文件路径 种子文档数量(float) 每多少次保存一次 用于计算困惑度的文档的数量(float)
执行上述命令后,会在指定路径输出以下几个文件:
除了上述文件之外,每个模型的文件中还包括Evaluator.java文件,使用者可以改写这个文件以获得更进一步的模型输出内容。其中包括: