今天小編分享的互聯網經驗:王小川發布開源大模型Baichuan2,稱中英文全面超越美國Llama 2,歡迎閲讀。
搜狗創始人、百川智能創始人兼 CEO 王小川(來源:受訪者提供)
随着 8 月底百川大模型對外開放,王小川團隊加速研發新產品。
钛媒體 App 獲悉,9 月 6 日下午,人工智能(AI)大模型公司 百川智能在北京發布最新 70 億、130 億參數的兩款 Baichuan2 系列開源大模型 Baichuan2-7B、Baichuan2-13B,文科理科能力全面提升,支持中、英等數十種語言,應用于學術研究、互聯網、金融等領網域。
相比一代,Baichuan2 數學能力提升 49%,代碼能力提升 46%,安全能力提升 37%,邏輯能力提升 25%,語義理解能力提升 15%,均處于開源模型最好水平。
百川智能創始人兼 CEO 王小川表示,70 億參數的 Baichuan2-7B 在中英文主流任務全面超越 Meta 研發的開源大模型 Llama2-13B。随着國内 Baichuan2 開源大模型的發布,再用 Llama 2 作為大家一個開源模型的時代已經過去了。
" 我們現在可以獲得一個比 Llama2 更加友好、能力更強的這樣一個開源模型,能夠去幫助我們扶持中國整個大模型生态發展。那麼除了開源模型之外,下次我們再閉源裏面可能會有一個新的突破,希望能夠在大模型領網域為中國社會經濟發展帶來我們的貢獻。" 王小川表示。
清華大學計算機系教授、中國科學院院士張钹表示,盡管中國已經發布了眾多參數規模從幾十億到幾百億的大型模型和相應的企業,但這些模型大多應用于工業領網域,學術研究的應用卻相對較少,尤其大模型幻覺問題嚴重。百川開源大模型在學術研究上的應用顯得尤為重要和緊迫,這有助于我們更深入地解釋和理解大模型技術。
" 我們必須深入探讨和明确這些(可解釋、幻覺)問題,只有這樣,我們才能更好地發展中國的大模型產品。" 張钹稱。
據悉,百川智能創立于今年 4 月 10 日,由搜狗創始人王小川、前搜狗 COO 茹立雲聯合成立,旨在打造中國版的 OpenAI,構建中國最好的大模型底座,并在教育、醫療等領網域應用落地。截至目前,百川智能已公布首輪 5000 萬美元融資。
過去 149 天,百川智能平均每 28 天發布一款大模型,已連續推出 70 億、130 億參數的兩款開源大模型 Baichuan-7B、Baichuan-13B,以及今年 8 月公布的 530 億參數、面向 B 端用户的閉源通用大模型 Baichuan-53B,在寫作、文本創作等領網域能力已達到行業較好水平。
王小川此前對钛媒體 App 表示,開源大模型裏面,百川智能在中文領網域現在就可以替代,在某些應用中已經超越閉源的 GPT 模型,未來其開源模型能力一定會超越 Meta Llama 2。他強調,未來可能 80% 的場景會用到開源模型。而百川智能目前已完成了 " 開源 + 閉源 " 大模型并行布局,希望做到中國最好的、對标 GPT 的模型。
據悉,截至目前,百川開源大模型已經在開源社區總下載量超越 500 萬。其中,Hugging Face 首周下載量達百萬,近一個月的下載量 337 萬。而且在 Github 上,baichuan 系列模型是星标月漲幅最快的中國大模型。
企業端,截至目前,已經又超過 200 家企業已申請百川大模型開源和商業授權,并已将百川模型投入實際生產場景。企業涵蓋互聯網、軟體和信息技術、金融、法律、教育、制造業、企業服務等眾多領網域,客户包括阿裏雲、騰訊、火山引擎、京東科技、順豐科技、浪潮、中國農業銀行、蔚來汽車等。
今年 8 月 31 日,百川智能旗下產品 " 百川大模型 " 等 10 餘款大模型產品完成備案,成為中國首批面向公眾提供類似 ChatGPT 服務的 AI 大模型產品。
此次,百川智能公布的最新開源大模型 Baichuan2 系列,文科理科全面提升,擁有 2.6TB 訓練的超大規模語料,數據方面規模大、覆蓋全、質量優,篇章、段落、句子質量打分,支持細顆粒采樣,訓練則是高效、穩定、可預測,安全方面實施了安全價值觀對齊,實現了多階段多目标的強化學習。同時,百川 Baichuan2 系列開源大模型提供更透明、更開放,公布了 3000 億 -2.6 萬億 tokens 的模型訓練中間過程,助力大模型研究。
另外,王小川還宣布,中國計算機學會(CCF)和百川聯合成立大模型研究基金,旨在推動圍繞大模型不同階段、不同維度等相關技術研究,支持醫療、開放世界 Agent。而且,百川智能還将與亞馬遜雲科技成立 AI 黑客松活動,在醫療健康、遊戲娛樂兩大賽道支持 AI 大模型研究,冠軍獎勵超過 20 萬元。
合作夥伴方面,百川智能與阿裏雲、高通、英博數科、瀚博半導體、火山引擎、寒武紀、華為等公司合作落地百川大模型。
王小川早前向钛媒體 App 透露,百川智能将在今年第四季度發布千億參數模型,預計明年一季度前後推出 " 超級應用 "。
(本文首發钛媒體 App,作者|林志佳)