阿裡林俊旸：大模型對很多人來說不夠用，打造多模态Agent是關鍵

今天小編分享的科學經驗：阿裡林俊旸：大模型對很多人來說不夠用，打造多模态Agent是關鍵，歡迎閱讀。

在過去一年中，通義千問系列模型持續開源。

不僅頻繁放出多種版本，涉及不同的規模和模态，成績在大模型競技場中也名列前茅。

比如目前最大的 72B 模型，表現就勝過了 Llama 2-70B 和 MoE 開源模型 Mixtral。

而縱觀整個大模型行業，開源開放也正促進着 AIGC 新應用的湧現。

過去一年，通義千問團隊都做了什麼，又有哪些經驗值得開源模型開發者參考？

中國 AIGC 產業峰會上，阿裡高級算法專家林俊旸給出了他的答案。

林俊旸參與了通義千問大模型的研發、開源、與外部系統融合等探索工作，還曾參與超大規模預訓練模型系列 M6、通用統一多模态預訓練模型 OFA 等大模型的打造。

為了完整體現林俊旸的思考，在不改變原意的基礎上，量子位對演講内容進行了編輯整理，希望能給你帶來更多啟發。

中國 AIGC 產業峰會是由量子位主辦的行業峰會，20 位產業代表與會讨論。線下參會觀眾近千人，線上直播觀眾 300 萬，獲得了主流媒體的廣泛關注與報道。

演講要點

開源大模型要更深地融入整個生态，才能給用戶帶來便捷的使用體驗。

除了基礎模型 Benchmark 之外，多語言、長序列和 Agent 能力，也是衡量大模型表現的關鍵指标。

大語言模型發展下去，終将變成多模态模型，因為一個非常智能的模型，不僅要有語言能力，還應該融入對視覺語音方面的理解。

以下為林俊旸演講全文：

融入生态，讓大模型使用更加便捷

相信國内朋友都聽說過通義千問的開源模型，我們從去年 8 月份開始一直開源，到現在我們開源的系列模型已經非常多了，剛開始先從 7B、14B 開始開源，直到現在 1.5 系列的 72B 版本，用戶使用下來的感覺還不錯。

當然，我們的 1.5 系列模型，涵蓋的規模非常全，除了 72B 還有 0.5B、1.8B 這樣的小規模版本，最新還有一個小的 MoE 的模型，大概是 14B 的參數量，激活參數量大概是 2.7B。

我們的模型現在在 LMSYS chatbot Arena，也就是人工評測上面取得比較不錯的成績，在剛開始登榜的時候，我們是開源的第一名，剛剛才被千億參數的 Command-R-Plus 給超越。

如果只在相同規模中比較，那麼截止到現在（4 月 17 日），我們的 72B 模型還是最好的。

除此之外，我們也聽從了開發者的建議，發布了 32B 模型，因為開發者反饋說 72B 模型太大，14B 又好像還不夠用。

最新推出的這個 32B 模型也取得了比較不錯的成績，跻身到了前 15 的行列，表現非常接近 72B 的模型，跟 MoE 架構的 Mixtral 相比也具有一定優勢。

而除了不斷提高模型的表現，最近幾個月我們還做了一些不太一樣的事情，就是讓千問系列模型更好地去融入大模型生态，讓用戶使用起來更加便捷。

具體的舉措有這樣幾點，第一是千問的代碼已經融入了 Hugging Face 的官方代碼當中，大家使用通義千問 1.5 的模型時就不需要再用 Transformer code 來調用了。

除此之外，我們很多三方框架都做了比較好的支持，包括 LLama.cpp、vLLM，現在還有像 Ollama 也非常方便，都可以一鍵使用我們的模型。

如果你用 LM Studio，也可以從中使用我們的 GGUF 的模型。如果想對我們模型進行微調的話，其實可以用到比如說 Axolotl 以及國内的 LlaMA-Factory 等工具。

多語言和長文本能力是關鍵指标

接下來我會給大家詳細介紹一下我們模型的構成以及模型當前表現水平。

首先要看 Base Language Model 是一個什麼樣的水平，因為只有基礎語言模型的表現好了，才能實現對齊，去進一步做一個比較好的模型。

我們各個 Size 都做了對比，其中 72B 的模型在各個 Benchmark 上的表現都比較有競争力。

當然，我們現在開源模型跟 GPT-4 還會有差距，但是相比于此前的 Llama2-70B 以及 Mixtral，都有比較明顯的優勢。

很長一段時間，如果大家關注 Hugging Face Open LLM Leaderboard，會發現其實有很多模型是基于我們的 72B 模型微調出來的，因為海外朋友很多非常喜歡微調這個模型，然後登到這個榜上去。

同時我們不僅僅有 7B 及以上的大模型，也有小一些的模型，又叫做 Small Language Model 這一塊，我們最小的模型參數量是 0.5B，也就是 5 億。

我們還有像 1.8B、4B 這些規模的模型，跟 Phi-2、Gemma-2B 等模型相比的話，我們的模型都非常有競争力。

另外一個方面是多語言的能力，我們此前的模型在 Qwen1 的時候，沒有對多語言進行檢測，但本質上是多語言的模型。

大家可能會有一些想法，比如說阿裡訓出來的模型就是中文的模型，或者是中英雙語的模型，其實不是這樣，我們最近對多語言能力做一些檢測，發現它的表現還不錯，所以我們進一步在這個基礎上做了多語言方面的對齊。

在 12 個比較大的語言上面去跟 GPT-3.5 相比，我們的模型表現都比較有競争力。

如果大家關注社交媒體，會看到有很多朋友在使用我們的多語言的能力。

從目前收到的一些反饋來看，它的越南語能力還不錯，還有人跟我說，孟加拉語也還可以。

最近還出現了一個模型東南亞語言模型 Salior，它是基于 Qwen1.5 繼續訓練然後微調出來的。

而在小模型方面，有反饋說在法語上的表現不錯，家如果看 ChatBot Arena 法語榜上，Qwen1.5 表現也是非常有競争力的。

在長序列方面，目前我們看 32K 長度上的表現是比較穩定的，有些模型 Size 甚至可以通過外推的方式推的更長，接下來的版本也會有更長的上下文視窗。

我們除了做簡單的大海撈針的實驗之外，也對一些針對序列評測的榜單做評估，發現我們的 Chat 模型在長序列方面，是可以做一些使用方面的東西。

下一個部分就是常說的 Post-training，今天大家對大模型感興趣，主要也是因為 Post-training 讓大模型的潛力爆發出來，能夠成為一個 Assistant 來幫助我們。

我們在 Post-training 做了非常長時間的工作，包括 SFT（指導監督微調），主要是在數據方面做了一些比較扎實的工作。

我們最近在 DPO 方面也做了比較多的工作，之後如果有機會會通過技術報告的方式跟大家分享更多相關的細節。我們做完這些之後，會發現模型在一些評測上面的表現更有競争力。

除了人工評測之外，還有像 MT-Bench 和 Alpaca-Eval 這樣的測試，我們模型的表現也都非常有競争力，尤其是 Alpaca-Eval。

另一方面我們講 Agent 方面的能力，這是我們一直非常關心的。

但我們剛開始給 Qwen 系列模型做 SFT 的時候，發現模型不太具備 Agent 相關的能力。

解決的方式是做更多的數據标注，時間長了之後，經驗越來越豐富，就可以做一些 Agent 相關的任務了。

下一站是多模态 Agent

今天我們還會關心另外一個問題，就是 " 大 " 模型對于很多人來說是不夠用的。

因為大模型發展下去，終将變成多模态的模型，因為一個非常智能的模型，應該能夠融入對視覺語音方面的理解。

過去幾年的時間裡，我們在多模态領網域也做了比較多的工作，再把之前的一些經驗融入進來，就有了 Qwen-VL 系列模型。

Qwen-VL 系列模型的訓練方法也相對來說比較簡單，分為三個階段。

首先是非常扎實對齊的預訓練，實現視覺和語言模型的對齊，讓我們的語言模型能夠睜開雙眼看世界，能夠理解視覺方面的信息。

接下來是能力的注入和對齊，我們 VL 核心開發同學，他有一天剛好去醫院，對醫院密密麻麻拍了一個照問它說肚子疼去哪裡，模型把相關信息都能準确識别出來。

這是今天 VL 模型跟過去不一樣的點，今天對 OCR 的識别比以往做的好很多。

在這個基礎上我們想做更加冒險的事情，比如說打造 VL 方面的 Agent，如果能成功的話，将會非常有吸引力。

比如說，如果想對手機螢幕進行操作，如果看到的是一堆代碼，那麼操作起來将會非常困難，而對人來說不管怎麼看、不管顏色、Logo 怎麼變我們都能理解，螢幕上面有哪些東西我們都能做出正确選擇。

所以我們也讓模型進行了一些嘗試，發現它能準确識别出來這些位置，所以我相信随着 VL 模型水平不斷提升，在 Agent 方面的潛力會越來越大。

如果讓我們模型看見世界，能不能讓它聽見呢？方法也非常簡單，簡單說就是把 Audio Encoder 接入我們的模型，再基于剛才所說的幾個階段進行訓練，就能得到非常好的效果。

而能夠聽見聲音的大模型，可以做的事情非常多。

比如我在海外旅遊，到了某個國家去，不太會說當地的語言，希望有一款產品能幫我進行翻譯。

而在這種產品背後需要解決幾個問題，需要先對語音進行識别，然後再進行機器翻譯，這個過程其實非常麻煩。

但有了大模型之後，這樣的任務只需要一個 prompt 就能解決，并且還能翻譯成不同的語言，只需要跟模型互動就可以了。

除此之外，還有對自然聲音和音樂的理解，ASR 模型只能理解人的說話并轉成文字，但現實中的聲音包括自然聲音以及音樂等多種類型。

而我們的模型可以做音樂的賞析，聽到一段聲音就能寫出一首詩，可以看到大語言模型在多模态方面潛力十足。

另外，今年非常重要的一個趨勢是大模型與視頻的結合，我們下一步會做出更多模态，其中視頻就是一個重點。

最後我做一個簡單的總結，我們現在的 Base 模型和 Chat 模型每一次都會推出幾個版本，最新的模型就在幾個小時前，還推出了 code 專項模型，叫做 CodeQwen 1.5，是一個 7B 規模的模型，在代碼方面的 Benchmark 表現比較突出，大家可以去嘗試。

接下來我們會去做進一步的 Scaling，包括模型本身和數據的 scaling，接下來還有模态方面的 scaling，也就是接入更多的模态。

我們最終的目标是實現一個非常強大的大預言模型，能夠理解各種模态的信息，甚至實現不同模态的輸入和輸出。所以，接下來大家可以持續關注我們的進展。

— 完 —

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~