用户工具

站点工具


zh:notes:rel_type_tng

这是本文档旧的修订版!


Semantic Relation Extraction Aware of N-Gram Features from Unstructured Biomedical Text

Requirements

  • JDK 1.8 +
  • Maven
  • Git

Data Preprocessing

所有的数据文件经过特征提取后,应当形成特征文件和关系(Relationship)文件。

Feature File特征文件

This file is line-based.原始数据文件是按行组织的文件,每一行是一篇概念上的文档,形如:

第一篇文本
第二篇文本

每一行都又若干段组成,每一段代表一个候选实体对所对应的特征。候选实体对之间用\t隔开,形如:

第一个实体对对应的特征\t第二个实体对对应的特征……

每一个候选实体对的特征之间以一个空格隔开,形如:

特征1 特征2 特征3……:Relationship

如果这个候选实体对被标注为某种关系的实例,则在候选实体对后方加上一个英文冒号和实例名称(Relationship)。

每个特征和关系名称(Relationship)中间不许有空格。如果特征是由多个Token组成的,则用英文下划线_连缀。

zh/notes/rel_type_tng.1536586720.txt.gz · 最后更改: 2018/09/10 21:38 由 pzczxs