大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

00後國人論文登Nature,大模型對人類可靠性降低

2024-10-05 简体 HK SG TW

今天小編分享的科學經驗:00後國人論文登Nature,大模型對人類可靠性降低,歡迎閱讀。

00 後國人一作登上 Nature,這篇大模型論文引起熱議。

簡單來說,論文發現:更大且更遵循指令的大模型也變得更不可靠了,某些情況下GPT-4 在回答可靠性上還不如 GPT-3。

與早期模型相比,有更多算力和人類反饋加持的最新模型,在回答可靠性上實際愈加惡化了。

結論一出,立即引來 20 多萬網友圍觀:

在 Reddit 論壇也引發圍觀議論。

這讓人不禁想起,一大堆專家 / 博士級别的模型還不會 "9.9 和 9.11" 哪個大這樣的簡單問題。

關于這個現象,論文提到這也反映出,模型的表現與人類對難度的預期不符。

換句話說,"LLMs 在用戶預料不到的地方既成功又(更危險地)失敗 "。

Ilya Sutskever2022 年曾預測:

也許随着時間的推移,這種差異會減少。

然而這篇論文發現情況并非如此。不止 GPT,LLaMA 和 BLOOM 系列,甚至 OpenAI 新的o1 模型和 Claude-3.5-Sonnet也在可靠性方面令人擔憂。

更重要的是,論文還發現依靠人類監督來糾正錯誤的做法也不管用。

有網友認為,雖然較大的模型可能會帶來可靠性問題,但它們也提供了前所未有的功能。

我們需要專注于開發穩健的評估方法并提高透明度。

還有人認為,這項研究凸顯了人工智能所面臨的微妙挑戰(平衡模型擴展與可靠性)。

更大的模型更不可靠,依靠人類反饋也不管用了

為了說明結論,論文研究了從人類角度影響 LLMs 可靠性的三個關鍵方面:

1、難度不一致:LLMs 是否在人類預期它們會失敗的地方失敗?

2、任務回避:LLMs 是否避免回答超出其能力範圍的問題?

3、對提示語表述的敏感性:問題表述的有效性是否受到問題難度的影響?

更重要的是,作者也分析了歷史趨勢以及這三個方面如何随着任務難度而演變。

下面一一展開。

對于第 1 個問題,論文主要關注正确性相對于難度的演變。

從 GPT 和 LLaMA 的演進來看,随着難度的增加,所有模型的正确性都會明顯下降。(與人類預期一致)

然而,這些模型仍然無法解決許多非常簡單的任務。

這意味着,人類用戶無法發現 LLMs 的安全操作空間,利用其确保模型的部署表現可以完美無瑕。

令人驚訝的是,新的 LLMs 主要提高了高難度任務上的性能,而對于更簡單任務沒有明顯的改進。比如,GPT-4 與前身 GPT-3.5-turbo 相比。

以上證明了人類難度預期與模型表現存在不一致的現象,并且此不一致性在新的模型上加劇了。

這也意味着:

目前沒有讓人類确定 LLMs 可以信任的安全操作條件。

在需要高可靠性以及識别安全操作空間的應用中,這一點尤其令人擔憂。這不禁令人反思:人類正在努力創造的前沿機器智能,是否真的是社會大眾所期望擁有的。

其次,關于第 2 點論文發現(回避通常指模型偏離問題回答,或者直接挑明 " 我不知道 "):

相比較早的 LLMs,最新的 LLMs 大幅度地提高了許多錯誤或一本正經的胡說八道的答案,而不是謹慎地避開超出它們能力範圍之外的任務。

這也導致一個諷刺的現象:在一些 benchmarks 中,新的 LLMs 錯誤率提升速度甚至遠超于準确率的提升(doge)。

一般來說,人類面對越難的任務,越有可能含糊其辭。

但 LLMs 的實際表現卻截然不同,研究顯示,它們的規避行為與困難度并無明顯關聯。

這容易導致用戶最初過度依賴 LLMs 來完成他們不擅長的任務,但讓他們從長遠來看感到失望。

後果就是,人類還需要驗證模型輸出的準确性,以及發現錯誤。(想用 LLMs 偷懶大打折扣)

最後論文發現,即使一些可靠性指标有所改善,模型仍然對同一問題的微小表述變化敏感。

舉個栗子,問 " 你能回答……嗎 ?" 而不是 " 請回答以下問題…… " 會導致不同程度的準确性。

分析發現:僅僅依靠現存的 scaling-up 和 shaping-up 不太可能完全解決指示敏感度的問題,因為最新模型和它們的前身相比優化并不顯著。

而且即使選擇平均表現上最佳的表述格式,其也可能主要對高難度任務有效,但同時對低難度任務無效(錯誤率更高)。

這表明,人類仍然受制于提示工程。

更可怕的是,論文發現,人類監督無法緩解模型的不可靠性。

論文根據人類調查來分析,人類對難度的感知是否與實際表現一致,以及人類是否能夠準确評估模型的輸出。

結果顯示,在用戶認為困難的操作區網域中,他們經常将錯誤的輸出視為正确;即使對于簡單的任務,也不存在同時具有低模型誤差和低監督誤差的安全操作區網域。

以上不可靠性問題在多個 LLMs 系列中存在,包括 GPT、LLaMA 和 BLOOM,研究列出來的有32 個模型。

這些模型表現出不同的Scaling-up(增加計算、模型大小和數據)以及shaping-up(例如指令 FT、RLHF)。

除了上面這些,作者們後來還發現一些最新、最強的模型也存在本文提到的不可靠性問題:

包括 OpenAI 的 o1 模型、Antropicic 的 Claude-3.5-Sonnet 和 Meta 的 LLaMA-3.1-405B。

并有一篇文檔分别舉出了例子(具體可查閱原文檔):

此外,為了驗證其他模型是否存在可靠性問題,作者将論文用到的測試基準ReliabilityBench也開源了。

這是一個包含五個領網域的數據集,有簡單算術(" 加法 ")、詞匯重組(" 字謎 ")、地理知識(" 位置 ")、基礎和高級科學問題(" 科學 ")以及以信息為中心的轉換(" 轉換 ")。

作者介紹

論文一作Lexin Zhou(周樂鑫),目前剛從劍橋大學 CS 碩士畢業(24 歲),研究興趣為大語言模型評測。

在此之前,他在瓦倫西亞理工大學獲得了數據科學學士學位,指導老師是 Jose Hernandez-Orallo 教授。

個人主頁顯示,他曾有多段工作實習經歷。在 OpenAI 和 Meta 都參與了紅隊測試。(Red Teaming Consultancy )

關于這篇論文,他重點談到:

通用人工智能的設計和開發需要進行根本性轉變,特别是在高風險領網域,因為可預測的錯誤分布至關重要。在此實現之前,依賴人類監督是一種危險。

評估模型時,考慮人類認為的難度和評估模型的回避行為,可以更全面地描述模型的能力和風險,而不僅僅關注在困難任務上的表現。

論文也具體提到了導致這些不可靠性的一些可能原因,以及解決方案:

  在 Scaling-up 中,近幾年的 benchmarks 越來越偏向于加入更多困難的例子,或者給予所謂 " 權威 " 來源更多權重,研究員也因此更傾向于優化模型在困難任務上的表現,導致在難度一致性上慢性惡化。

在 shaping-up 中(如 RLHF),被雇傭的人傾向于懲罰那些規避任務的答案,導致模型更容易在面對自己無法解決的難題時 " 胡說八道 "。

至于如何解決這些不可靠性,論文認為,可以使用人類難度預期去更好的訓練或微調模型,又或者是利用任務難度和模型自信度去更好的教會模型規避超出自身能力範圍的難題,等等。

對此,你有何看法?

文章:

https://www.nature.com/articles/s41586-024-07930-y

參考鏈接:

[ 1 ] https://x.com/lexin_zhou/status/1838961179936293098

[ 2 ] https://huggingface.co/datasets/lexin-zhou/ReliabilityBench

[ 3 ] https://lexzhou.github.io/

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們