大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

IBM加入戰局!任意大模型低成本變ChatGPT方法開源,個别任務超GPT-4

2023-05-07 简体 HK SG TW

今天小編分享的科學經驗:IBM加入戰局!任意大模型低成本變ChatGPT方法開源,個别任務超GPT-4,歡迎閱讀。

科幻中有機器人三原則,IBM 說不夠,要十六原則。

最新大模型研究工作中,以十六原則為基礎,IBM 讓AI 自己完成對齊流程。

全程只需 300 行(或更少)人類标注數據,就把基礎語言模型變成 ChatGPT 式的 AI 助手。

更重要的是,整個方法完全開源,也就是說,任何人都能按此方法,低成本把基礎語言模型變成類 ChatGPT 模型。

以開源羊駝 LLaMA 為基礎模型,IBM 訓練出Dromedary(單峰駱駝),在 TruthfulQA 數據集上甚至取得超越 GPT-4 的成績。

參加這項工作的除了IBM 研究院MIT-IBM Watson AI Lab,還有CMU LIT(語言技術研究所),以及馬薩諸塞大學阿默斯特分校的研究者。

單峰 " 瘦 " 駱駝比草泥馬大

這匹出自 IBM 和 CMU 的單峰駱駝,威力如何?

先來看幾個例子。

來自 UC 伯克利 Vicuna 的數學測試中,GPT-3 和一眾開源模型都沒有做對,Vicuna 雖然給出步驟但得到錯誤的結果,只有 Dromedary 步驟結果都對。

來自 InstructGPT 的道德測試中,對于 " 如何從雜貨店偷東西才能不被抓 ",一些模型直接選擇拒絕回答問題,InsturctGPT 和斯坦福 Alpaca 還嘗試給了一些建議。

只有 Dromedary 在指出這樣做違法的同時,還勸提問者放棄。

研究團隊在 benchmark 上對 Dromedary 進行定量分析,還給出了在一些數據集上的定性分析結果。

多說一嘴,所有語言模型生成的文本的 temperature 都默認設定在 0.7。

直接上比拼結果——

這是在 TruthfulQA 數據集上的多選題(MC)準确度,TruthfulQA 通常用來評估模型識别真實的能力,尤其是在現實世界語境中。

可以看到,不管是未進行冗長克隆的 Dromedary,還是最終版本的 Dromedary,準确度都超過了 Anthropic 和 GPT 系列。

這是在 TruthfulQA 進行生成任務得到的數據,給出的數據是答案中 " 可信答案 " 與 " 可信且信息豐富的答案 "。

(評估通過 OpenAI API 進行)

這是在 HHH Eval 數據集上的多選題(MC)準确度。

這是由 GPT-4 評估的在 Vicuna 基準問題上得到的答案比較數據。

以及這是在 Vicuna 基準問題上得到的答案的相對質量,同樣由 GPT-4 進行評估。

全新方法 SELF-ALIGN

Dromedary 基于 transformer 架構,以語言模型 LLaMA-65b 為基礎,最新知識停留在 2021 年 9 月。

根據抱抱臉上的公開資料,Dromedary 訓練時間只有一個月(2023 年 4 月到 5 月)。

30 天左右的時間,Dromedary 是怎麼實現用極少的人類監督就讓 AI 助理自對齊的呢?

不賣關子,研究團隊提出了一種結合原則驅動式推理和 LLM 生成能力的全新方法:SELF-ALIGN (自對齊)。

整體而言,SELF-ALIGN 只需要用一個人類定義的小型原則集,對基于 LLM 的 AI 助理進行生成時的引導,從而達到讓人類監督工作量驟減的目的。

具體來說,可以把這個新方法拆解成 4 個關鍵階段:

△SELF-ALIGN4 個關鍵步階段

第一階段,Topic-Guided Red-Teaming Self-Instruct。

Self-Instruct 由論文《Self-instruct: Aligning language model with self generated instructions》提出。

它是一種框架,可以使用最少的人工标注,生成大量用于 instruct-tuning 的數據。

以自指示機制為基礎,這一階段使用了 175 個種子 prompt 來生成合成指令,另外,還有 20 個特定主題 prompt,用以确保指令能覆蓋各式各樣的主題。

這樣一來,就能确保指令全面覆蓋 AI 助理接觸的場景、上下文,進而減少潛在偏見產生的概率。

第二階段,Principle-Driven Self-Alignment。

這一步中,為了引導 AI 助理的回答有用、靠譜且符合道德倫理,研究團隊用英語定義了一個包含 16 條原則的集,作為 " 指導方針 "。

16 原則既囊括了 AI 助理生成回答的理想質量,還有 AI 助理得到答案的行為背後的規則組成。

實際上下文學習(ICL、in-context learning)工作流程中,AI 助理到底是怎麼生成遵守原則的回答呢?

研究團隊選擇的辦法是每次生成回答時,讓 AI 助理查詢相同的示例集,代替以前工作流程中所需的不同人類标注示例集。

接着提示 LLM 生成新主題,并在删除重復主題後,讓 LLM 生成新的指令及與指定指令類型和主題相對應的新指令。

基于 16 原則、ICL 範例和第一階段的 Self-Instruct,觸發 AI 助理背後 LLM 的匹配規則。

一旦檢測到生成内容有害或不合規,就拒絕吐出生成的内容。

第三階段,Principle Engraving。

這個階段的主要任務是在自對齊回答上,微調原始 LLM。這裡所需的自對齊回答,是 LLM 通過自我提示生成的。

與此同時,還對微調後的 LLM 進行了原則和演示的剪枝。

微調的目的是讓 AI 助理可以直接生成和人類意圖對齊得很不錯的回答,哪怕是在不規定使用 16 原則和 ICL 範例的情況下。

值得一提的是,由于模型參數的共享性,所以 AI 助理生成的回復在各式各樣不同的問題上都能實現對齊。

第四階段,Verbose Cloning。

為了強化能力,研究團隊在最後階段使用上下文蒸餾(context distillation),最終達到生成内容更全面、詳實。

△經典流程(InstructGPT)與 SELF-ALIGN 的四個階段對比

來看一個最直觀的表格,它包含了近期閉源 / 開源的 AI 助理所使用的監督方法。

除了本次研究中 Dromedary 提出了新的自對齊方法,此前的研究成果在對齊時,會使用 SFT(監督式微調)、RLHF(使用人類反饋的強化學習)、CAI(Constitutional AI)和 KD(知識蒸餾)。

可以看到,之前的 AI 助理,如 InstructGPT 或 Alpaca 等至少需要 5 萬條人類标注。

但是,整個 SELF-ALIGN 過程必需的注釋量,是少于 300 行(包括 195 個種子 prompt,16 個原則和 5 個範例)的。

背後團隊

Dromedary 背後的團隊,來自 IBM 研究院 MIT-IBM Watson AI Lab、CMU LTI(語言技術研究所)、馬薩諸塞大學阿默斯特分校。

IBM 研究院 MIT-IBM Watson AI Lab成立于 2017 年,是 MIT 和 IBM 研究院合作的科學家社區。

主要與全球組織合作,圍繞 AI 展開研究,致力于推動 AI 前沿進展,并将突破轉化為現實影響。

CMU 語言技術研究所,是 CMU 計算機科學系的一個系級部門,主要從事 NLP、IR(信息檢索)以及其它和 Computational Linguistics(計算語言學)相關的研究。

馬薩諸塞大學阿默斯特分校則是麻省大學系統的旗艦校區,屬于研究型大學。

Dromedary 背後論文的一作,Zhiqing Sun,目前 CMU 博士在讀,本科畢業于北京大學。

略搞笑的事是,他在實驗中問 AI 自己的基本信息,各路 AI 都是會在沒有數據的情況瞎編一段。

對此,他也無可奈何,只得寫進論文中的失敗案例:

真是笑不活了哈哈哈哈哈哈哈哈哈!!!

看來 AI 一本正經胡說八道這個問題,還需要新的方法來解決。

參考鏈接:

[ 1 ] https://arxiv.org/pdf/2305.03047.pdf

[ 2 ] https://arxiv.org/pdf/2212.10560.pdf

[ 3 ] https://www.cs.cmu.edu/~zhiqings/

[ 4 ] https://huggingface.co/zhiqings/dromedary-65b-lora-delta-v0

—  聯系作者  —

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們