大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

如何讓大模型感知知識圖譜知識?螞蟻聯合實驗室:利用多詞元并行預測給它“上課”

2025-02-25 简体 HK SG TW

今天小編分享的科學經驗:如何讓大模型感知知識圖譜知識?螞蟻聯合實驗室:利用多詞元并行預測給它“上課”,歡迎閱讀。

如何讓大模型感知知識圖譜知識?

螞蟻聯合實驗室:利用多詞元并行預測給它 " 上課 "。

大語言模型的飛速發展打破了許多自然語言處理任務間的壁壘。通常情況下,大語言模型以預測下一個詞元(Token)為訓練目标,這與許多自然語言處理任務十分契合。

但對于知識圖譜而言,實體作為最基本的數據單元,往往需要多個自然語言詞元才能準确描述,這導致知識圖譜與自然語言之間存在明顯的粒度不匹配。

為了解決這一問題,螞蟻團隊提出了一種基于大語言模型的多詞元并行預測方法 K-ON,其利用多詞元并行預測機制能夠一次生成對所有實體的評估結果,進而實現語言模型實體層級的對比學習。

其結果收錄于 AAAI 2025 Oral。論文一作目前在浙江大學攻讀博士。

實驗結果表明,本文方法在多個數據集上的知識圖譜補全任務中均優于現有方法。

基于多詞元并行預測的實體對比學習

詞元是語言模型所能處理的最基本元素,通常需要數個詞元組成的文本标籤才能準确描述和鑑别知識圖譜中的實體。雖然為每個實體創建一個新的詞元并在微調過程中學習這些詞元的表示不失為一種替代方案,但這種方式訓練調優成本較高,且可能會對大模型的性能產生負面影響,通用性也受到限制。

本文探讨了如何高效利用多個詞元描述知識圖譜中的實體以解決知識圖譜相關問題的方法。首先,直接優化經典的序列預測損失可能會導致大模型缺乏對知識圖譜實體的認識,從而出現生成知識圖譜中不存在的實體的問題;且考慮到知識圖譜中實體的數量,将所有實體以文本上下文的方式輸入給大模型顯然也是不現實的。

以上圖為例,假設任務是給定不完整三元組以預測目标實體 Matt Damon。左圖中使用常規連續單詞元預測方式生成結果需要多個子步驟,且無法直接處理多個實體。因此,現有大多數知識圖譜相關方法僅将大模型應用于簡單任務上,如驗證三元組的正确性或從有限數量的候選實體中選擇正确答案。

相比之下,本文提出的 K-ON 方法使用 K 個輸出層并行預測多個實體不同位置詞元的概率,這與目前 DeepSeek 等大模型中使用的多詞元預測技術有着一定的相似性,且本文方法進一步借助了實體層級的對比學習在模型輸出層上累加知識圖譜知識。

K-ON 完成知識圖譜補全任務的方法論

如下圖所示,K-ON 并行評估知識圖譜候選實體分數的過程可分為五步:

( 1 ) 與現有微調大模型的方法相似,K-ON 将知識圖譜補全問題以文本指令的方式輸入大模型;

( 2 ) 經大模型 Transformer 模塊處理後的輸出狀态被輸入至 K-ON 模塊中,該模塊由多個原大模型輸出層 MLP 構成,對應為要預測實體的不同位置的詞元;

( 3 ) 接着,K-ON 使用 Conditional Transformer 混合不同位置的信息,并考慮到詞元前後的順序依賴性;

( 4 ) 然後,使用低秩适應技術(LoRA)将原大模型評分層構造為 K 個新的評分層,從而把上一步的輸出結果轉換為對實體 K 個連續詞元的概率預測分布;

( 5 ) 最後便可以從不同位置的概率預測分布中抽取各實體詞元對應的概率值,進而一次評估所有候選實體的分數。

在獲取候選實體分數後,便可使用知識圖譜表示學習領網域中最為常用的對比學習損失使大模型掌握知識圖譜中實體的分布:

此處 pe、 pej 分别代表正樣本和負樣本的分數,均由 K-ON 模塊并行生成。除了實體層級的對比學習外,本文還進一步考慮使用詞元序列對齊使多詞元并行預測的結果與原本大模型單步連續預測的結果相接近。為實現這一目标,本文首先引入常用的單步預測損失以在訓練語料上微調原輸出層參數:

這裡的下标 k 指代組成實體的詞元的序号。

接着便可令 K-ON 模塊中一次評估的 K 個詞元的概率分布與常規連續單詞元預測得到的 K 個概率分布對齊:

此處上标 k-on、llm 分别指代 K-ON 和常規連續預測所得到的分數。

最後,訓練 K-ON 完成知識圖譜補全任務的基本流程可總結如下:

實驗結果:效率更高、成本更低、效果更好

下表展示 K-ON 在知識圖譜補全任務上的實驗結果,除傳統方法外,本文還與同樣基于大模型的方法以及多模态方法進行了比較。不難看出,K-ON 在所有數據集及指标上均取得了優于現有方法的結果,且與一些使用額外影像數據的方法相比,仍具有一定優勢。

下圖中進一步分析了 K-ON 中随着 K 值的增加,模型各方面性能的變化,這裡 K 的取值直接決定了單個實體最多可以由多少詞元表達。如圖所示,當 K 取值過小時,由于表達能力不足,K-ON 取得的實驗結果很差,但增加至 8 以後帶來的性能提升已不明顯,而模型可訓練參數量卻穩步上升。

值得注意的是,推理所用單步時間及總訓練時間受 K 值影響不大,這說明了 K-ON 多詞元并行預測的高效性。

不僅如此,本文還對 K-ON 所實現的實體層級的對比學習進行了分析,如下圖所示。可以看出,在幾乎不對訓練效率造成影響的前提下,K-ON 可輕易實現涉及上千個負樣本實體的對比學習,但負樣本數量并不是越多越好,将其設為 128 個左右便可取得最優結果。

本文提出了一種多詞元并行預測方法,通過實體層級的對比學習使大模型能夠感知知識圖譜知識。充分的實驗結果表明,本文方法在知識圖譜相關任務上具有顯著性能優勢,并且較常規大模型方案具有更高的訓練與推理效率。

論文地址:

https://arxiv.org/pdf/2502.06257

螞蟻有 18 篇技術論文被收錄

當地時間 2 月 25 日,AAAI 2025 将在美國賓夕法尼亞州費城舉辦,會議為期 11 天,于 3 月 4 日結束。AAAI 由國際人工智能促進協會主辦,為人工智能領網域的頂級國際學術會議之一,每年舉辦一屆。AAAI 2025 共有 12957 篇有效投稿,錄用 3032 篇,錄取率為 23.4%。

螞蟻有 18 篇技術 Paper 收錄,其中 3 篇 Oral,15 篇 Poster,研究領網域涉及增強大模型隐私保護、提高推理速度與推理能力、提升大模型訓練效率、降低模型幻覺等。

—  完  —

投稿請工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

一鍵關注 點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們