大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

用LLM一键生成百万级领網域知识图谱!中科大新框架入选ACL 2024

2024-11-12 简体 HK SG TW

今天小编分享的科学经验:用LLM一键生成百万级领網域知识图谱!中科大新框架入选ACL 2024,欢迎阅读。

现在,用 LLM 一键就能生成百万级领網域知识图谱了?!

来自中科大 MIRA 实验室研究人员提出一种通用的自动化知识图谱构建新框架SAC-KG,提升效果 be like:

当使用 ChatGPT 作为基础模型时,SAC-KG 达到了 89.32% 的准确率和 81.25% 的领網域特异性,相对于 SOTA 方法提升了 20%。

一直以来,知识图谱构建技术始终是研究热点。

不过对构建领網域知识图谱来说,由于需要大量的专家知识和人工干预,其实际应用受到严重限制。

对此,最近基于大语言模型(LLM)的构建方法成为了一种新趋势。但仍存在一些问题,严重影响所构建领網域知识图谱的可信度。

针对上述痛点,研究团队进一步提出了 SAC-KG,相关论文已发表在 CCF-A 类人工智能顶级会议 ACL 2024 Main。并开发部署领網域知识图谱自动构建平台 SAC-KG,支持输入大规模领網域语料,一键生成高质量领網域知识图谱。

SAC-KG 是如何工作的

由于大语言模型出色的语义理解能力和生成能力,基于 LLM 的方法成为了一种新趋势。通过利用 LLM 中存储的先验知识,从原始语料中提取三元组。

然而,基于 LLM 的方法仍面临一些问题。输入中的上下文噪声和输出中的知识幻觉会导致错误或不相关的三元组生成,从而严重影响所构建领網域知识图谱的可信度。

为了解决上述问题,该研究提出了一种全新的自动化知识图谱构建通用框架 SAC-KG,利用大语言模型作为领網域知识图谱的自动化构建专家,在给定领網域语料的情况下,以自动化、精确性和可控性为目标提取三元组。

该框架包含三个组件:生成器、验证器和剪枝器。

生成器

首先,生成器包括领網域语料检索器和开放知识图谱检索器,分别为指定的实体从领網域语料库和开放知识图谱中检索最相关信息。

其中,领網域语料检索器提供最相关的文本语料作为 LLM 的输入,减少上下文噪声的引入;开放知识图谱检索器提供与实体最相关的三元组作为示例,帮助控制模型的输出格式。

LLM 的输入包括与实体相关的上下文、三元组示例以及相应的提示,输出为生成的以指定实体为头实体的三元组。

验证器

由于 LLM 存在知识幻觉,可能生成错误三元组,因此由验证器负责检测并过滤掉由 LLM 生成的错误三元组。

这一过程分为两个步骤:错误检测和错误纠正。

在错误检测阶段,验证器会执行三种检查并进行标记:

数量检查:如果生成的三元组数量少于阈值(默认是 3 个),则标记为 " 数量不足 "。

格式检查:如果三元组不符合预定义格式,则标记为 " 格式错误 ";如果头实体不匹配预定义实体,则标记为 " 头实体错误 ";如果头实体和尾实体相同,则标记为 " 头尾矛盾 "。

冲突检查:验证器会检测三元组中的逻辑冲突。例如,确保一个人的出生时间早于死亡时间,且年龄不为负数。

在错误纠正阶段,根据检测到的错误类型提供相应的提示,并重新让 LLM 生成正确的输出。例如,如果是 " 格式错误 ",会提示模型 " 请严格按照格式要求重新生成,注意三元组的格式 "。

剪枝器

知识图谱的生长过程可以看作一棵树的逐层增长,从浅到深逐步获取领網域知识,意味着下一层三元组的头实体是上一层三元组的尾实体。

在经过验证器验证后,将得到的正确三元组整合到生成的新层图谱中,并继续生成下一层三元组。

然而,并不是所有三元组都需要继续生成下一层。例如," ( 稻米 , 最佳生长温度 ,20-25 摄⽒度 ) " 是正确的三元组,但尾实体 "20-25 摄氏度 " 不需要作为下一层的头实体进行进一步生成。

为了提高知识图谱的可控性,该研究引入剪枝器,这是一个在开源知识图谱 DBpedia 上微调的 T5 二分类模型。输入为每个正确三元组的尾实体,输出为 " 生长 " 或 " 修剪 ",表示是否需要继续生成下一层图谱。

训练剪枝器时,从 DBpedia 收集训练数据,将部分头实体作为 " 生长 " 类的代表,尾实体则作为 " 修剪 " 类的代表。通过这些实体文本和对应标签进行微调。

实验及结果主实验

在同一领網域的知识图谱自动构建中,研究团队使用GPT-4进行自动和高效的评估。

如表 1 所示,SAC-KG 表现优异,超越了多个基线模型。

四个基线模型包括 OpenIE6、StanfordOIE、DeepEx 和 PIVE,其中前两者为基于规则的三元组抽取方法,而 DeepEx 结合了 Bert 模型与规则技术,PIVE 则直接使用 ChatGPT 构建知识图谱。

SAC-KG 在知识图谱构建上始终优于这些方法,尤其在准确率和领網域特异性上表现突出。

当使用 ChatGPT 作为基础模型时,SAC-KG 达到了 89.32% 的准确率和 81.25% 的领網域特异性,显著优于基于规则的方法,相对于 SOTA 方法提升了 20%。

消融实验

消融实验中,研究团队每次迭代中计算这些指标,以获得更细致的结果。

他们将没有开放知识图谱检索器的 SAC-KG 记作 SAC-KGw/oprompt,没有领網域语料检索器的记作 SAC-KGw/otext,没有验证器的记作 SAC-KGw/overifier,没有修剪器的记作 SAC-KGw/opruner。

如表 2 所示,SAC-KG 中的任一组件缺失都会导致整个框架性能下降。

特别是,修剪器和开放知识图谱检索器对 SAC-KG 的性能影响更为显著。这两个组件分别控制生成方向和添加示例,表明在知识图谱构建过程中提升可控性的重要性。

研究团队进一步可视化了 SAC-KG 每个消融版本生成的前三层知识图谱。如图所示,完整的 SAC-KG 版本表现出最佳的整体结果,且每一层中的错误三元组数量没有显著差异。这一现象表明,在领網域知识图谱的迭代生成过程中,错误传播并不明显。相反,去除了文本处理模块(SAC-KGw/o text)和剪枝模块(SAC-KGw/o pruner)的版本显示出明显的错误传播,导致在第三层生成的错误三元组数量显著增加。而去除了提示模块(SAC-KGw/o prompt)和验证模块(SAC-KGw/o verifier)的版本仅能提取较少的三元组,这意味着语言模型在缺乏示例和错误纠正过程的情况下难以从领網域语料中总结知识。这些结果进一步证实了框架内每个组件对构建过程的重要贡献。

OIEbenchmarks

SAC-KG 在传统的开放信息抽取任务中的有效性和广泛适用性通过多个开源基准数据集的实验得到了验证。

实验结果显示,SAC-KG 在这些传统 OIE 基准数据集上,显著优于现有的最先进方法。

特别是,在与基于规则的方法(如 OpenIE6 和 StanfordOIE)和基于大规模语言模型的方法(如 DeepEx 和 PIVE)的比较中,SAC-KG 始终达到最佳结果,证明了其在传统 OIE 任务中的有效性和鲁棒性。

小结

针对大规模领網域知识图谱构建成本高、精度低这一复杂的实际问题,本研究提出了基于大模型的迭代式领網域 / 常识图谱通用构建框架。

该框架实现了多源领網域语料中的精准知识检索,并结合开源图谱实现了自适应提示机制,通过模拟树生长过程,成功构建了百万级的高质量领網域图谱。

论文发表在 CCF-A 类人工智能顶级会议 Annual Meeting of the Associationfor Computational Linguistics(ACL 2024 Main)。

论文作者第一作者陈瀚铸是中国科学技术大学 2021 级硕博连读生,师从王杰教授,主要研究方向为知识图谱与大语言模型,数据合成等。曾获 KDDCup 全球高校团队第一等荣誉。

论文地址:

https://aclanthology.org/2024.acl-long.238.pdf

开放构建平台:

http://8.149.242.106:5000(可试用)

—  完  —

投稿请发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們