史上最大实体关系抽取数据集清华发布

新功率史上最⼤实体关系抽取数据集清华发布

切削液废水本⽂转载⾃：AI科技评论

AI 科技评论按，在去年的 EMNLP2018 上，由孙茂松教授领导的清华⼤学⾃然语⾔处理实验室发布了⼀个⼤规模精标注关系抽取数据集 FewRel。据了解，这是⽬前最⼤的精标注关系抽取数据集。

该数据集包含 100 个类别、70,000 个实例，全⾯超越了以往的同类精标注数据集。FewRel 不仅可以应⽤在经典的监督/远监督关系抽取任务中，在新兴的少次学习（few-shot learning）任务上也有极⼤的探索价值和⼴阔的应⽤前景。

团队还发布了论⽂《FewRel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation》，该论⽂由清华⼤学⾃然语⾔处理实验室的博⼠⽣韩旭、姚远，本科⽣朱昊、于鹏飞、王⼦云共同合作完成。⽂章对 FewRel 数据集的构造原理给出了详细解释，感兴趣的童鞋可以点击下⾯的论⽂地址阅读原⽂：•FewRel ⽹站地址：thunlp.github.io/fewrel.html

•论⽂地址：/anthology/D18-1514

关系抽取（relation extraction）是⾃然语⾔处理中的⼀项重要任务，其通过从纯⽂本中抽取关系事实，来构建和扩充知识图谱（knowledge graph）。例如，从句⼦「马云创办了阿⾥巴巴」中，可以抽取出

关系事实（马云, 创始⼈, 阿⾥巴巴），其中马云和阿⾥巴巴被称为实体（entity），⽽创始⼈则是他们的关系（relation）。关系抽取是知识获取的重要途径，对于理解⾃然语⾔和理解世界知识意义重⼤。

⽬前的关系抽取模型⾯临着⼀个极⼤的问题：训练数据不⾜。相⽐计算机视觉中的相关任务，语⾔相关的标注更加困难，需要标注者掌握相应的知识。就如下表 1 中所⽰，已有精标注关系抽取数据集在关系数量和实例数量上都较少，这极⼤限制了关系抽取的发展。

表 1：常⽤精标关系抽取数据集对⽐

FewRel 是以 Wikipedia 作为语料库，以 Wikidata 作为知识图谱构建的。

蚀刻标牌

图 1: Wikidata 和 Wikipedia（图来⾃ Wikidata 和 Wikipedia 官⽹）

喷淋吸收塔

Wikipedia 作为互联⽹上的⾃由百科全书，因其巨⼤的体量和蕴含的丰富知识⽽备受 NLP 学者青睐。与其相对应的知识图谱 Wikidata，则是 Wikipedia 中知识的结构化。⽬前 Wikidata 中已有超过 5000 万个实体，千余种关系。

pcti

清华⼤学⾃然语⾔处理实验室数据集团队⾸先利⽤这两者构造了⼀个远监督的数据集。那么，什么是远监督？知识图谱中已经包含了许多实体以及他们之间的关系，我们可以假设，若两个实体 h 和 t 间有关系 r，⽽⼀个句⼦中同时出现了 h 和 t，则该句⼦表达了它们之间的关系 r。通过这种⽅法可以⾃动获得⼤规模的标注数据，然⽽这⼀数据是充满噪声的，

和 t，则该句⼦表达了它们之间的关系 r。通过这种⽅法可以⾃动获得⼤规模的标注数据，然⽽这⼀数

据是充满噪声的，⼏乎⽆法直接⽤来训练模型。在远监督数据集的基础上，去掉出现重复实体对的句⼦，去掉少于 1000 个样本的类，最终留下 122 类，共 122,000 个实例，然后进⾏⼈⼯标注。

在这⼀过程中，每个实例都会有多个标注员进⾏标注，通过冗余保证标注质量。在此之后再进⾏⼀轮质量筛选，最后留下 100 类，共 70,000 句⾼质量标注的关系抽取数据。最终数据集中，每句的平均长度为 24.99，⼀共出现 124,577 个不同的单词/符号。丙二醇单甲醚

据了解，FewRel 的意义不仅仅是⼀个⼤规模的数据集。因为关系数量的众多，学界可以在 FewRel 上进⾏更多维度的探索，其中很重要的⼀个⽅向就是少次学习（few-shot learning）。⼈可以接触很少的例⼦⽽学会认知⼀种新的事物，从这⼀点出发，深度学习模型能否具备从少量样本中快速学习的能⼒呢？⽬前在 CV 领域已有了很多这⽅⾯的尝试，但在 NLP 当中，尤其是关系抽取上，还缺乏类似的探索。尤其因为以往的关系抽取数据集关系数量和实例数量较少，⽽通常 few-shot 模型需要在⼤规模数据上预训练，需要在类别较多的数据上做 sample 评测，所以很难开展相关⼯作。

FewRel 的出现打开了少例关系抽取的⼤门，其名字中的 Few 也正是取⾃ Few-shot。通过下⾯的表 2 我们可以看

到，FewRel 与 CV 中的 few-shot 数据集 mini-ImageNet 具有相同的规模，可见其⾜以⽀撑相关的研究。

表 2：FewRel 与两个 CV 中 Few-Shot 数据集对⽐

除此之外，FewRel 还可以帮助科研⼈员进⾏需要较多关系类别的相关研究，终⾝学习（lifelong learning）就是其中⼀个⽅向。⽬前⼤部分关系抽取模型都是在预先定义好的类别中进⾏探索，⽽我们知道，世界知识是不断增长的，关系数量也不是停滞的，如何让⼀个模型能不断接收新的训练样本，同时不⾄遗忘之前的知识，是⼀个⼗分值得探索的课题。⽽相关实验需要有⼤量关系类别的精标数据，FewRel 正好满⾜条件。

据了解，未来 FewRel 团队还将公开其构建数据集时所使⽤的基于 Wikipedia 的远监督数据，将远监督数据与精标数据相结合，研究⼈员可以进⼀步探索远监督的降噪机制，以及如何使⽤两种数据进⾏半监督学习。

由于精标数据可以被视作「种⼦」，远监督数据可以被看作巨⼤的语料库，FewRel 还可以⽤在主动

学习（active learning）和⾃启动算法（bootstrapping）⽅⾯的研究中。然⽽，近⼏年来，在关系抽取领域少有⼈进⾏类似探索，其原因就是数据集的缺乏。伴随着 FewRel 的出现，相信接下来这些重要⽅向的研究必然会有所推进。

本文发布于:2024-09-21 12:39:13，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/3/190704.html

上一篇：ETL实现增量抽取的几种方式

下一篇：oracle到mysql,oracle到oraclel的多表批量数据迁移,定期任务抽取数据。。。