今天小編分享的科學經驗:效果達OpenAI同規模模型96%,發布即開源!國内團隊新發大模型,CEO上陣寫代碼,歡迎閱讀。
國内自研大模型迎來新面孔,而且發布即開源!
最新消息,多模态大語言模型 TigerBot 正式亮相,包含 70 億參數和 1800 億參數兩個版本,均對外開源。
由該模型支持的對話 AI 同步上線。
寫廣告語、做表格、糾正語法錯誤,效果都不錯;也支持多模态,能生成圖片。
評測結果顯示,TigerBot-7B 已達到 OpenAI 同樣大小模型綜合表現的 96%。
△公開 NLP 數據集上的自動評測,以 OpenAI-instruct GPT-6B-SFT 為基準,歸一化并平均各模型的得分情況
而更大規模的 TigerBot-180B 或是目前業内開源的最大規模大語言模型。
此外,團隊還一并開源100G 預訓練數據、監督微調 1G 或 100 萬條數據。
基于 TigerBot,開發者在半天内就能打造出自己的專屬大模型。
目前 TigerBot 對話 AI 已邀請内測,開源代碼數據等已上傳至 GitHub(詳細鏈接見文末)。
如上這些重磅工作,來自一支最初只有 5 人的小團隊,首席程式員 & 科學家就是 CEO 本人。
但這個團隊,絕非師出無名。
從 2017 年起,他們就在 NLP 領網域開始創業,專長垂直領網域搜索。最擅長對數據重度以來的金融領網域,和方正證券、國信證券等有過深入合作。
創始人兼 CEO,有着 20 多年從業經驗,曾任 UC 伯克利客座教授,手握 3 篇最佳頂會論文和 10 項技術專利。
如今,他們決心從專長領網域走向通用大模型。
而且一開始便從最底層的基礎模型做起,3 個月内完成 3000 次實驗迭代,還有底氣将階段性成果對外開源。
不禁讓人好奇,他們是誰?想要做哪些事?如今已經帶來了哪些階段性成果?
TigerBot 是什麼?
具體來看,TigerBot 是一款國產自研的多語言任務大模型。
覆蓋生成、開放問答、編程、畫圖、翻譯、頭腦風暴等 15 大類能力,支持子任務超過 60 種。
而且支持插件功能,能讓模型聯網,獲取到更加新鮮的數據和信息。
它的定位更偏向辦公場景,提出改善人們工作流、提高效率的目标。
比如讓它來幫我寫一條 Apple Vision Pro 的新聞快訊,效果有模有樣:
或者寫一個論文大綱,條理清晰、結構合理:
編程也沒問題,并且支持英文對話。
如果讓它畫圖的話,每次都會生成 3 張不一樣的,可以自己挑選。
這次發布,TigerBot 一共推出了兩種 size:70 億參數(TigerBot-7B)和 1800 億參數(TigerBot-180B)。
團隊将目前取得的階段性成果——模型、代碼、數據,通通開源。
開源模型包括三個版本:
TigerBot-7B-sft
TigerBot-7B-base
TigerBot-180B-research
其中 TigerBot-7B-base 的表現優于 OpenAI 同等可比模型、BLOOM。TigerBot-180B-research 或是目前業内開源的最大規模模型(Meta 開源 OPT 的參數量為 1750 億、BLOOM 則為 1760 億規模)。
開源代碼包括基本訓練和推理代碼,雙卡推理 180B 模型的量化和推理代碼。
數據包括 100G 預訓練數據,監督微調 1G 或 100 萬條數據。
根據 OpenAI InstructGPT 論文在公開 NLP 數據集上的自動評測,TigerBot-7B 已達到 OpenAI 同樣大小模型的綜合表現的 96%。
而這一版本還只是 MVP(最小可行性模型)。
這些成果主要得益于團隊在 GPT 和 BLOOM 基礎上,在模型架構和算法上都做了更進一步的優化,也是 TigerBot 團隊過去幾個月來的主要創新工作,讓模型的學習能力、創造力和生成可控上都有明顯提升。
具體如何實現?往下看。
性能提升同時降低成本
TigerBot 帶來的創新主要有以下幾個方面:
提出指令完成監督微調的創新算法提升模型可學習性
運用 ensemble 和 probabilistic modeling 的方法實現可控事實性和創造性
在并行訓練上突破 deep-speed 等主流框架中的内存和通信問題,實現千卡環境下數月無間斷
針對中文語言更不規則的分布,從 tokenizer 到訓練算法上做了更适合的優化
首先來看指令完成監督微調方法。
它能讓模型在只使用少量參數的情況下,就能快速理解人類提出了哪類問題,提升回答的準确性。
原理上使用了更強的監督學習進行控制。
通過 Mark-up Language(标記語言)的方式,用概率的方法讓大模型能夠更準确區分指令的類别。比如指令的問題是偏事實類還是發散類?是代碼嗎?是表格嗎?
因此 TigerBot 涵蓋了 10 大類、120 類小任務。然後讓模型基于判斷,朝着對應方向優化。
帶來的直接好處是調用參數量更少,同時模型對新數據或任務的适應能力更好,即學習性(learnability)提高。
在同樣 50 萬條數據訓練的情況下,TigerBot 的收斂速度比斯坦福推出的 Alpaca 快 5 倍,在公開數據集上評測顯示性能提升 17%。
其次,模型如何更好平衡生成内容的創造性和事實可控性,也非常關鍵。
TigerBot 一方面采用ensemble的方法,将多個模型組合起來兼顧創造性和事實可控性。
甚至可以根據用戶的需求,調整模型在二者之間的權衡。
另一方面還采用了 AI 領網域經典的概率建模(Probabilistic Modeling)方法。
它能讓模型在生成内容的過程中,根據最新生成的 token,給出兩個概率。一個概率判斷内容是否應該繼續發散下去,一個概率表示生成内容離事實内容的偏離程度。
綜合兩個概率的數值,模型會在創造性和可控性上做一個權衡。TigerBot 中這兩個概率的得出由專門數據進行訓練。
考慮到模型生成下一個 token 時,往往無法看到全文的情況,TigerBot 還會在回答寫完後再進行一次判斷,如果最終發現回答不準确,便會要求模型重寫。
我們在體驗過程中也發現,TigerBot 生成回答并不是 ChatGPT 那樣逐字輸出的模式,而是在 " 思考 " 後給出完整答案。
△ChatGPT 和 TigerBot 回答方式對比
而且由于 TigerBot 的推理速度很快,能夠支撐模型快速重寫。
這裡就要說到 TigerBot 在訓練和推理上的創新了。
除了思考到模型底層架構的優化,TigerBot 團隊認為工程化水平在當下大模型時代也很重要。
一方面是因為要考慮運營效率——随着大模型趨勢持續,誰能更快迭代模型非常關鍵;另一方面當然還要考慮算力的經濟性。
因此,他們在并行訓練方面,突破了 deep-speed 等主流框架中的若幹内存和通信問題,實現了千卡環境下訓練數月無間斷。
這使得他們每月在訓練上的開銷,能夠節省數十萬。
最後,針對中文連續性強、多義歧義情況多等問題,TigerBot 從 tokenizer 到訓練算法上,都做了相應優化。
總結來看,TigerBot 實現的技術創新,全都發生在當下大模型領網域中最受關注的領網域内。
不僅是底層架構的優化,還考慮到了落地層面的用戶需求、開銷成本等問題。并且整個創新過程的速度非常快,是 10 人左右小團隊在幾個月時間内實現。
這對團隊本身的開發能力、技術見解、落地經驗都有非常高的要求。
所以,到底是誰帶着 TigerBot 突然殺入大眾視野?
虎博科技是誰?
TigerBot 的幕後開發團隊,其實就藏在它本身的名字裡——虎博科技。
它成立于 2017 年,也就是人們常說的 AI 上一輪爆發期内。
虎博科技給自己的定位是 " 一家人工智能技術驅動的公司 ",專注于 NLP 技術的應用落地,願景是打造下一代智能且簡單的搜索體驗。
具體實現路徑上,他們選擇了對數據信息最為敏感的領網域之一——金融。自研了垂直領網域内智能搜索、智能推薦、機器閱讀理解、總結、翻譯等技術,推出了智能金融搜索和問答系統 " 虎博搜索 " 等。
公司創始人兼 CEO 為陳烨,是一位世界級 AI 科學家。
他博士畢業于威斯康辛大學麥迪遜分校,曾任加州大學伯克利分校客座教授,到現在為止從業已有 20 餘年。
他先後在微軟、eBay、雅虎擔任主任科學家和研發總監等要職,主導研發了雅虎的行為定向系統、eBay 的推薦系統以及微軟搜索廣告競拍市場機制等。
2014 年,陳烨加入大眾點評。之後美團點評合并,他任美團點評高級副總裁,分管集團廣告平台,助力集團年廣告收入從 1000 萬提升至 40 多億。
學術方面,陳烨曾三次獲得頂會最佳論文獎(KDD 和 SIGIR),在 SIGKKD、SIGIR、IEEE 等人工智能學術會議上發表 20 篇論文,擁有 10 項專利。
2017 年 7 月,陳烨正式創立虎博科技。成立 1 年後,虎博便快速拿下超億元融資,目前公司披露融資總額達 4 億元。
7 個月以前,ChatGPT 橫空出世,AI 在時隔 6 年以後,再次颠覆大眾認知。
即便是陳烨這樣在 AI 領網域内創業多年的技術專家,也用 " 從業以來前所未有的震撼 " 來形容。
而在震撼之外,更多還是激動。
陳烨說,看到 ChatGPT 後,幾乎不用思考或決定,内心的呼喚讓他一定會跟進趨勢。
所以,從 1 月份開始,虎博正式成立了 TigerBot 的初始開發團隊。
不過和想象中不太一樣,這是一支極客風格非常鮮明的團隊。
用他們自己的話來說,致敬矽谷 90 年代經典的 "車庫創業" 模式。
團隊最初只有 5 個人,陳烨是首席程式員 & 科學家,負責最核心的代碼工作。後面成員規模雖有擴充,但也只控制在了 10 人,基本上一人一崗。
為什麼這樣做?
陳烨的回答是:
我認為從 0 到 1 的創造,是一件很極客的事,而沒有一個極客團隊是超過 10 個人的。
以及純技術科學的事,小團隊更犀利。
的确,TigerBot 的開發過程裡,方方面面都透露着果斷、敏銳。
陳烨将這個周期分為三個階段。
第一階段,也就是 ChatGPT 爆火不久後,團隊迅速掃遍了 OpenAI 等機構過去 5 年内所有相關文獻,大致了解 ChatGPT 的方法機制。
由于 ChatGPT 代碼本身不開源,當時相關的開源工作也比較少,陳烨自己上陣寫出 TigerBot 的代碼,然後馬上開始跑實驗。
他們的邏輯很簡單,讓模型先在小規模數據上驗證成功,然後經過系統科學評審,也就是形成一套穩定的代碼。
在一個月時間内,團隊就驗證了模型在 70 億規模下能達到 OpenAI 同規模模型 80% 的效果。
第二階段,通過不斷吸取開源模型和代碼中的優點,加上對中文數據的專門優化處理,團隊快速拿出了一版真實可用的模型,最早的内測版在 2 月便已上線。
同時,他們還發現在參數量達到百億級别後,模型表現出了湧現的現象。
第三階段,也就是到了最近的一兩個月内,團隊在基礎研究上實現了一些成果和突破。
如上介紹的諸多創新點,就是在這一時期内完成的。
同時在這一階段内整合更大規模算力,達到更快的迭代速度,1-2 個星期内,TigerBot-7B 的能力便快速從 InstructGPT 的 80% 提升到了 96%。
陳烨表示,在這個開發周期内,團隊始終保持着超高效運轉。TigerBot-7B 在幾個月内經歷了 3000 次迭代。
小團隊的優勢是反應速度快,早上确定工作,下午就能寫完代碼。數據團隊幾個小時就能完成高質量清洗工作。
但高速開發迭代,還只是 TigerBot 極客風格的體現點之一。
因為他們僅憑 10 個人在幾個月内肝出來的成果,将以全套 API 的形式向行業開源。
如此程度的擁抱開源,在當下趨勢尤其是商業化領網域内,比較少見。
畢竟在激烈競争中,構建技術壁壘是商業公司不得不面對的問題。
那麼,虎博科技為什麼敢于開源?
陳烨給出了兩點理由:
第一,作為一名 AI 領網域内的技術人員,出于對技術最本能的信仰,他有一點熱血、有一點煽情。
我們想要以世界級的大模型,貢獻于中國創新。給行業一個可用的、底層基礎扎實的通用模型,能讓更多人快速訓練出專業大模型,實現產業集群的生态打造。
第二,TigerBot 接下來還會繼續保持高速迭代,陳烨認為在這種賽跑的局面下,他們能保持身位優勢。即便是看到有人以 TigerBot 為底層開發出了性能更好的產品,這對于行業内來說又何嘗不是一件好事?
陳烨透露,接下來虎博科技還會持續快速推進 TigerBot 的工作,進一步擴充數據來提升模型性能。
" 大模型趨勢就像淘金熱 "
在 ChatGPT 發布 6 個月以後,随着一個個大模型橫空出世、一家家巨頭火速跟進,AI 行業格局正在被快速重塑。
盡管當下還相對混沌,但大致來看,基本上會分為模型層、中間層、應用層三層。
其中模型層決定底層能力,至關重要。
它的創新程度、穩定程度、開放程度,直接決定了應用層的豐富程度。
而應用層的發展是大模型趨勢演進的外化體現;更是 AIGC 願景裡,人類社會生活走向下一階段的重要影響因素。
那麼,在大模型趨勢的起點,如何夯實底層模型基礎,是行業内必須思考的事。
在陳烨看來,目前人類才只開發了大模型 10-20% 的潛力,在 fundamental 層面還有非常大的創新和提升空間。
就好像曾經的西部淘金熱,最初要找到金礦在哪裡一樣。
所以在這樣的趨勢和行業發展要求下,虎博科技作為國產領網域創新代表,高舉開源大旗,迅速起跑、追趕世界最前沿技術,确實也為行業内帶來了一股與眾不同的氣息。
國產 AI 創新正在高速狂奔,未來一段時間内,相信我們還會看到更多有想法、有能力的團隊亮相,為大模型領網域注入新的見解、帶來新的改變。
而這,或許就是趨勢轟轟烈烈演進過程中,最迷人之處了。
福利時刻:
>