这是本文档旧的修订版!
所有的数据文件经过特征提取后,应当形成特征文件和关系(Relationship)文件。
This file is line-based.原始数据文件是按行组织的文件,每一行是一篇概念上的文档,形如:
第一篇文本 第二篇文本
每一行都又若干段组成,每一段代表一个候选实体对所对应的特征。候选实体对之间用\t隔开,形如:
第一个实体对对应的特征\t第二个实体对对应的特征……
每一个候选实体对的特征之间以一个空格隔开,形如:
特征1 特征2 特征3……:Relationship
如果这个候选实体对被标注为某种关系的实例,则在候选实体对后方加上一个英文冒号和实例名称(Relationship)。
每个特征和关系名称(Relationship)中间不许有空格。如果特征是由多个Token组成的,则用英文下划线_连缀。