《大词林》是一个开放域命名实体知识库自动构建系统,系统从Web搜索结果、在线百科和命名实体字面等多个信息源挖掘命名实体的类别,并从Apriori关联项、后缀上位词、分类层次化和词汇分布表示等多个角度学习获取类别之间的层次化关系。

实体上位词抽取过程
实体上位词抽取过程

《大词林》以《同义词词林(扩展版)》为骨架,不断添加命名实体及其层次化类别信息,自动构建开放域命名实体知识库。

系统特点:

1、以有向图的形式展现命名实体的层次化类别及关系,支持用户查询任意命名实体;
2、以层次化结构展现知识库体系,供用户浏览整个知识库。

目前,《大词林》中包括:约250万命名实体;类别共约15万个;平均每个命名实体有1.32个不同粒度的类别;上下位关系超过330万。

上下位关系
上下位关系