实体关系抽取

2024-02-29 1185阅读

温馨提示:这篇文章已超过387天没有更新,请注意相关的内容是否还可用!

文章目录

  • 有监督关系抽取
  • 半监督关系抽取
    • 远程监督
    • Bootstrapping
    • 无监督关系抽取

      本文将重点放在了无监督关系抽取上,无监督关系抽取有监督和半监督限制更少,能应用的领域也更多。

      实体关系抽取发展

      实体关系抽取

      有监督关系抽取

      有监督的关系抽取方法将关系抽取任务看作分类问题.通常需要预先了解语料库中所有可能的目标关系的种类,并通过人工对数据进行标注,建立训练语料库.使用标注数据训练的分类器对新的候选实体及其关系进行预测、判断.

      在给定实体对的情况下,根据句子上下文对实体关系进行预测,执行流程为:

      • 预先定义好关系的类别。

      • 人工标注一些数据。

      • 设计特征表示。

      • 选择一个分类方法。(SVM、NN、朴素贝叶斯)

      • 评估方法。

        其优点为准确率高,标注的数据越多越准确。缺点为标注数据的成本太高,不能扩展新的关系。

        半监督关系抽取

        前面的监督学习效果虽好,但有标注数据集的获取困难。因此可以借助半监督学习的方法,此处又分为远程监督学习和Bootstrapping方法两种。

        所谓远程监督方法就是知识库与非结构化文本对齐来自动构建大量训练数据,减少模型对人工标注数据的依赖,增强模型跨领域适应能力。Bootstrapping是通过在文本中匹配实体对和表达关系短语模式,寻找和发现新的潜在关系三元组。

        远程监督

        该方法认为若两个实体如果在知识库中存在某种关系,则包含该两个实体的非结构化句子均能表示出这种关系。如在某知识库中存在“创始人(乔布斯,苹果公司)”。那么就认为出现乔布斯和苹果公司的句子就是表述创始人这项关系。因此可构建训练正例:乔布斯是苹果公司的联合创始人和CEO。

        远程监督流程为:

        • 从知识库中抽取存在关系的实体对。
        • 从非结构化文本中抽取含有实体对的句子作为训练样例。

          远程监督可以利用丰富的知识库信息,减少一定的人工标注,但它的假设过于肯定,如乔布斯被赶出苹果公司。这句话表达的就不是创始人的例子,因此会引入大量的噪声,存在语义漂移现象。同时由于是在知识库中抽取存在的实体关系对,因此很难发现新的关系。

          Bootstrapping

          这个方法在很多任务中都有提到,其执行流程为:

          • 从文档中抽取出包含种子实体的新闻,如:

            • 姚明老婆 叶莉 简历身高曝光

              X 老婆 Y 简历身高曝光

            • 姚明 与妻子 叶莉 外出赴约

              X 与妻子 Y 外出赴约

            • 将抽取出的Pattern去文档集中匹配

              小猪 与妻子 伊万 外出赴约

              根据Pattern抽取出的新文档如种子库,迭代多轮直到不符合条件

              该方法的优点为构建成本低,适合大规模的构建,同时还可以发现新的(隐含的)关系。缺点为对初始给定的种子集敏感,存在语义漂移现象,结果的准确率较低等。

              无监督关系抽取

              事先确定关系类型是有监督和半监督机器学习的关系抽取方法的局限性之一,而在大规模的语料中无法预知所有的实体关系类型。

              无监督的机器方法是自底向上从大规模的语料库中抽取实体之间的关系。该方法首先通过基于聚类(cluster)的 思想将上下文信息相似性的实体对聚成一类,然后选取合适的词语标记关系,之后自动地抽取实体之间的语义关系.

              无监督的机器学习关系抽取一般流程如下:

              1. 获取命名实体识别及其上下文的信息;
              2. 聚类具有相似性的命名实体对;
              3. 选择核心词汇标注各类的语义关系.
VPS购买请点击我

免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度,360,搜狗等多加搜索引擎自动关键词搜索配图,如有侵权的图片,请第一时间联系我们,邮箱:ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

目录[+]