今天小編分享的互聯網經驗:蜜度推出自研行業大模型蜜巢系列,預計年底将公布千億級基座模型,歡迎閱讀。
蜜度參展 2023 年世界人工智能大會(來源:钛媒體 App 編輯拍攝)
随着人工智能(AI)大模型熱潮以及中國支持 AI 產業發展,國内 AI 企業發現新機遇。
钛媒體 App 獲悉,7 月 6 日至 8 日舉行的 2023 世界人工智能大會(WAIC)期間,語言智能科技企業上海蜜度信息技術有限公司(MIDU,以下簡稱 " 蜜度 ")發布自主研發的 3 個行業領網域 AI 大模型,應用于出版、媒體、政務、教育等行業。
具體包括用于輔助寫作、新聞稿件輔助生成的蜜巢知識問答與内容生成大語言模型,是首個軟硬體一體國產化知識問答與内容生成大語言模型;國内首個智能校對領網域大語言模型 " 蜜度文修 ";蜜巢智能輿情分析大語言模型,以及旗下生成式 AI(AIGC)應用產品 " 蜜小豆 "、" 文稿通 " 等。
蜜度首席技術官(CTO)劉益東對钛媒體 App 表示,此次發布的三款行業垂直領網域大語言模型,參數量在幾十億左右,優勢在于語料質量高、公司對數據積累和理解能力較強、有豐富的經驗更好落地服務客戶等。目前,蜜巢系列行業大模型已逐步嘗試部署在政務、媒體等内容生產強需求場景當中。
據悉,蜜度成立于 2009 年,是一家以 AI 技術為核心的語言智能科技企業,專注于多模态多語言智能科技,利用跨模态檢索(CMR)、多語言校對(MLC)、計算機視覺(CV)、自然語言處理(NLP)、知識圖譜(KG)等技術,為政府和企業各類辦公場景提供智能應用軟體產品,以及全方位的智能應用解決方案。
天眼查信息顯示,蜜度公司股東中有北京微夢創科創業投資管理公司,持股比例 21.57%。同時,去年 9 月 6 日,蜜度宣布與華為昇騰深度合作,目前蜜度已使用華為雲基礎設施產品展開業務商業落地。
劉益東于 2009 年參與創辦蜜度,現任蜜度 CTO,主要負責公司技術研究與應用工作,推動 AI 技術應用落地。劉益東畢業于哈爾濱工業大學,獲計算機專業工學學士學位、軟體工程碩士學位,而且擁有 18 年互聯網行業從業經驗、10 年大數據研發經驗。
劉益東認為,此次蜜度發布大模型產品并不是 " 蹭熱點 ",而是有很多行業數據積累形成的技術產品落地。他告訴钛媒體 App,蜜度自 2015 年起專注于語言智能技術方向,在多模态、中文互聯網數據積累上有一定優勢,尤其是行業數據、客戶理解積累上優勢明顯,有數據内容和生成場景。
具體來說,蜜度自主研發的蜜巢知識問答與内容生成大語言模型,專注于政府與企業内部定制化内容生成的場景,模型能夠實時基于用戶所輸入的文檔進行知識增強,并對文檔中的相關知識進行定制化的知識問答與内容生成,真正實現 " 千文千面,千人千面 " 式内容生成,打造屬于每個人自己的知識問答與内容生成大模型。同時該模型适配華為全棧國產軟硬體一體化生态,可在專網環境本地部署使用,提供更加高效、穩定和安全的定制化内容生成衣務。
而蜜度文修是蜜度自研的國内首個專為智能校對領網域打造的垂直大語言模型,以大語言模型(LLM)為技術底座,通過運用高質量數據學習多種特色子任務,大幅度提升中文校對和潤色能力的智能化程度。不僅輔助專業用戶提高校對質量、提升校對速度、降低差錯率,在新聞出版、媒體、政務、央企國企、教育等行業實現快速落地。
值得一提的是,去年 WAIC 大會期間,蜜度就展示了 AI 影像生成、智能文本校對的技術能力,比如智能文本校對語音助手 " 蜜小校 " 等產品。
劉益東直言,過去半年間,團隊一直致力于打造優質數據構建、數據訓練輸出能力,以此形成 ChatGPT、DALL · E 2 這類產品的對話互動、高質量影像生成的優質體驗。而與 GPT 不同的是,蜜巢大語言模型更多用于政務、媒體行業等垂直領網域,并非 ChatGPT 這種千億級通用大模型。
對于企業使用私有雲造成大模型難迭代的話題,劉益東向钛媒體 App 透露,相對于阿裡、字節等大公司的基座大模型,蜜度更多是把企業自身的公開數據進入蜜巢大模型知識層中,做一些簡單的知識問答、命題寫作等方案,然後在企業自身環境中去部署蜜巢大語言模型,注入企業自身的知識庫 " 内循環 " 更新迭代,而不是做定制化大模型方案。
算力是當前 AI 大模型發展的重要挑戰,英偉達顯卡成為大模型的 " 入場券 "。劉益東表示,目前蜜度擁有的算力可以支撐十億級大模型自主訓練。而從長期布局,蜜度主要将控制參數規模、控制算力成本,另外擴展雲端數據中心這種臨時性算力方案,以解決未來更大參數、龐大規模訓練等需求響應。據悉,自去年開始,蜜度和華為 AI 算力產品深度合作,而華為的算力也在支持蜜度做國產化大模型,整個產品更自主可控。
劉益東認為,當前 AI 大模型行業應用仍面臨三重挑戰:一是客戶場景能不能支持這種投入產出比;二是大模型在雲端的能力能否實現過程的安全可控,讓客戶放心;三是服務好一個垂直的垂直行業,需要關注不同方面的個性化需求,通用大模型很難全面滿足。
劉益東向钛媒體 App 透露,基于當前十億級參數的垂直領網域大模型基礎,以及開源生态發展、大模型基座模型訓練、算力能力增長等因素,接下來蜜度團隊将全面打造蜜巢行業基座大語言模型,預計 2023 年底前,蜜巢将實現百億級别參數、千億級 Token 以及聚焦行業場景的泛化能力。
" 我們還是會聚焦目标市場,以給客戶提供優質 AI 產品跟服務為己任,這是我們公司的定位。我們都在探索垂直行業的大模型工作,希望能在現有需求基礎上,能迅速把 AI 大模型商業化并形成規模效應。" 劉益東表示,蜜度希望其大模型產品能為中國數字經濟做出一定貢獻。(本文首發钛媒體 App,作者|林志佳)
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App