大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

多樣任務真實數據,大模型在線購物基準Shopping MMLU開源

2024-11-21 简体 HK SG TW

今天小編分享的科學經驗:多樣任務真實數據,大模型在線購物基準Shopping MMLU開源,歡迎閲讀。

誰是在線購物領網域最強大模型?也有評測基準了。

基于真實在線購物數據,電商巨頭亞馬遜終于 " 亮劍 " ——

聯合香港科技大學、聖母大學構建了一個大規模、多任務評測基準Shopping MMLU,用以評估大語言模型在在線購物領網域的能力與潛力。

一直以來,想要完整建模在線購物相當復雜,主要痛點是:

多任務性:在線購物中存在多樣的實體(例如商品、屬性、評論、查詢關鍵詞等)、關系(例如關鍵字和商品的匹配度,商品和商品之間的兼容性、互補性)和用户行為(浏覽、查詢、和購買)。

對這些實體、關系和行為和聯合建模與理解構成一個復雜的多任務(multi-task)學習問題。

少樣本性:在線購物平台會不斷面臨新用户、新商品、新商品品類等帶來的冷啓動(cold-start)場景。在冷啓動場景下,在線購物平台需要解決少樣本(few-shot)學習問題。

不過,諸如 GPT,T5,LLaMA 等的大語言模型(LLM)已經展現出了強大的多任務和少樣本學習能力,因而有潛力在在線購物領網域中得到廣泛應用。

而為了進一步找出最強、最具潛力的 LLM,測試基準 Shopping MMLU 應運而生——

與現有數據集相比,Shopping MMLU 覆蓋了更多的能力(四項)和任務(57 個)。

同時,基于 Shopping MMLU,亞馬遜舉辦了 KDD Cup 2024 數據挖掘競賽,吸引了全球超過 500 支隊伍參賽。

廣泛的能力和任務覆蓋

為了全面、充分評估大語言模型在在線購物領網域中的能力,研究首先分析了在線購物領網域的獨特性:

特定領網域的短文本:在線購物中存在大量的特定領網域名詞,例如品牌、產品名、產品線等。此外,這些特定領網域名詞往往出現于短文本中,例如查詢關鍵詞、屬性名 - 值對等。因此,在缺乏上下文的短文本中理解特定領網域名詞,是在線購物領網域的一個獨特挑戰。

商品的隐含知識:大部分商品都隐含特定的知識,例如 AirPods 使用藍牙連接,不需要轉接線;碳纖維制品一般重量很輕等。如何準确理解不同商品隐含的知識并且進行推理,是在線購物領網域的另一個獨特挑戰。

異質且隐式的用户行為:在線購物平台上存在多種多樣的用户行為,例如浏覽、查詢、加購物車、購買等。這些行為大部分都不以語言表達,因此如何全面理解這些異質的用户行為,是在線購物所必須解決的問題。

多語言任務:在線購物平台往往在不止一個地區運營,因此需要模型能同時理解多種語言描述下的商品和用户問題。

基于以上分析,研究構造了 Shopping MMLU,覆蓋四項在線購物能力,共計 57 個任務:

在線購物概念理解

在線購物知識推理

用户行為理解

多語言能力

下表可見,Shopping MMLU 相比現有數據集覆蓋了更多的能力和任務。

能力和任務構成如下圖所示。

Shopping MMLU 大部分由真實的亞馬遜在線購物數據構造,并且經過人工檢驗,盡可能排除低質量數據,例如标注錯誤,缺乏必要信息等。

部分問題示例如下。

主流大語言模型成績單

研究選取了共27 個主流大語言模型進行實驗分析,其中包括:

閉源模型(Claude-3, Claude-2, GPT)

開源通用領網域模型(LLaMA2、LLaMA3、QWen、Mistral)

開源特定領網域模型(eCeLLM,經過在線購物領網域數據進行微調)

實驗結果如下表所示。

研究發現,雖然閉源模型仍然處于領先(例如 Claude-3 Sonnet 整體排名第一),但開源模型已經能夠趕上閉源模型的性能(例如 QWen 和 LLaMA3)。

此外,特定領網域模型 eCeLLM 并未在同參數量級下取得最好成績,説明 Shopping MMLU 是一個有相當難度的評測基準,無法通過簡單的微調取得好成績。

如何打造在線購物領網域大模型

基于 Shopping MMLU,研究分析常用的大模型增強手段,進一步探究如何打造強大的在線購物領網域大模型。

首先,如下圖所示,模型在不同能力和任務上的得分高度正相關。這説明了在線購物領網域的不同任務之間存在共同的知識,可以使用大語言模型進行整體性的建模和能力提升。

其次,如下圖所示,模型的 Shopping MMLU 得分和模型在通用大模型基準測試的得分(Open LLM Leaderboard)同樣高度相關。

另外,随着同一個模型家族内模型增大,其 Shopping MMLU 得分同樣增加。

這表明大語言模型的通用能力可以很好地遷移到在線購物領網域中,構造特定領網域大模型的基礎是強大的通用能力。

随後,研究分析了微調對模型在 Shopping MMLU 得分的影響。

通用領網域的微調一般對模型在 Shopping MMLU 上有提升。不過,這一結論也與基礎模型的能力,微調的數據質量等因素存在關系。

例如,在 LLaMA2-70B 上,研究觀察到經過微調的 LLaMA2-70B-chat 得分低于 LLaMA2-70B,而在 LLaMA3-70B 上沒有觀察到這一現象。

可能的原因是,相對較小的微調數據使得 LLaMA2-70B 過拟合,導致通用能力的部分丢失,進而導致 Shopping MMLU 上得分下降。

反之,LLaMA3 使用了更高質量的微調數據,所以能夠保留通用能力,同時增強模型回答問題的能力,得到更高的分數。

特定領網域微調(如 eCeLLM)并未能在 Shopping MMLU 上取得最高得分。

為了探究其中原因,研究測試了 eCeLLM 與其基礎模型在通用能力上的對比。結果表明,經過特定領網域微調的 eCeLLM 相比其基礎模型的通用能力一般有所下降。

這可能是導致 eCeLLM 未能取得最高得分的原因,也同時強調了通用能力對于對特定領網域的重要性。

總結

Shopping MMLU 是一個針對大語言模型和在線購物領網域設計的評測指标。其包含廣泛的任務和能力覆蓋(4 項重要能力,共計 57 個任務),可以全面評估大語言模型在在線購物領網域的能力和潛力。

Shopping MMLU 基于亞馬遜的真實購物數據打造,經過人工篩選,保證數據質量。基于 Shopping MMLU,研究展開了大量實驗分析,為這一領網域後續的研究和實際應用提供了有價值的結論。

目前,Shopping MMLU 以及其對應的資源全部開源并将持續維護,方便研究人員和開發者進行深入探索和應用。

Shopping MMLU 的數據以及對應評測代碼已經于 GitHub 公開。

同時,為了構造開放、開源的評測體系,研究基于 Shopping MMLU 建立了一個排行榜。

官方表示,Shopping MMLU 歡迎新模型加入排行榜,如果有興趣的話可以于 GitHub 上與 Shopping MMLU 維護者進行聯系。

論文:

https://arxiv.org/pdf/2410.20745

數據及評測代碼:

https://github.com/KL4805/ShoppingMMLU

KDD Cup 2024 Workshop 及獲獎隊伍解法:

https://amazon-kddcup24.github.io/

評估榜單:

https://huggingface.co/spaces/KL4805/shopping_mmlu_leaderboard

—  完  —

投稿請發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點這裏關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們