今天小編分享的互聯網經驗:大模型之争,訊飛星火準備好了,歡迎閲讀。
距離科大訊飛董事長劉慶峰所説,10 月 24 日 " 超過 "ChatGPT 的時間點,還有不到 70 天。
Chatgpt 從今年年初開始帶起一陣持續至今的國產大模型狂熱。熱錢流向這裏,推着年輕或已遠離商業競争多年的技術領袖出山自立門户,也推着行駛多年的火車頂着巨大的勢能變軌。究其原因,所有人都認定這是一場新革命的開始。
科大訊飛是這些競争者中特殊的一個。
這是一家成立 24 年,超過 1 萬名員工的老牌公司。但它在技術上又離這場關于人工智能的革命很近。
科大訊飛是國内與 Transformer 框架糾纏最深的公司之一,語音識别、圖文識别、機器翻譯——這些科大訊飛最關心的領網域,在多年前已經無可置疑地基于 Transformer 框架而建立。
巨大的數據積累則是這些技術沉澱的另一面。科大訊飛擁有數十 TB 的行業語料,每天有超過 10 億人次用户互動的活躍應用。
這讓劉慶峰顯得非常自信。在 5 月 6 日科大訊飛正式發布訊飛星火認知大模型的發布會現場,劉慶峰提到了今年訊飛星火認知大模型技術更新的三個關鍵裏程碑節點:
6 月 9 日,訊飛星火将突破開放式問答、多輪對話能力明顯提升、數學能力再更新。
8 月 15 日,代碼能力更新以及多模态互動能力提升。
10 月 24 日,将實現通用模型對标 ChatGPT,中文超越 ChatGPT 的當前版本,英文能做到相當水平,并在教育、醫療等領網域做到業界領先。
現在這個目标走到中段。
訊飛星火認知大模型 V2.0 來了
在大模型能力的諸多維度中,代碼能力是支撐認知大模型智慧的關鍵維度。根據 OpenAI 構建的代碼能力公開測試集 HumanEval,星火認知大模型 V1.5 Python 語言的效果只有 41 分,而這也是星火認知大模型 V2.0 中最亮眼的能力提升。
比如最基礎性的,星火認知大模型 2.0 可以實現以自然語言輸入來生成日常常見的 " 長度不少于 8 位,必須包含大小寫、數字及特殊符号 " 的密碼識别函數。
圖源:科大訊飛
更復雜一點,星火認知大模型 V2.0 可以實現用 Python 畫紅色的心形線或者畫出馬鞍面方程三維立體圖并設定漸變色,或者直接用代碼生成貪吃蛇小遊戲。
圖源:科大訊飛
但對于大部分人來説更直觀的,或許是一個直接從視頻轉成 gif 的演示。
" 使用 python 處理視頻星火 .m4v,提取其中第 2 到 10 秒,把畫面縮小一半,加速 5 倍,保存成 gif 圖片。"
科大訊飛研究院院長劉聰對星火認知大模型 2.0 輸入了這樣一段只要有編程基礎知識就能理解的句子,然後很快在檔案夾裏得到了所要求的那個 gif 檔案。這個實用功能可以非常快速的把任何一段視頻變成表情包。
在測試集 HumanEval 中,星火認知大模型 2.0 在 Python 語言的效果評分達到了 61 分。在代碼生成、代碼補齊、代碼糾錯、代碼解釋、單元測試生成五個維度的代碼能力上相比星火認知大模型 1.5 有了單項最高 28% 的能力增長,并且在代碼生成和代碼補齊兩項能力上超過 ChatGPT。
而在同一測試集 Java、JS、C++ 語言上的代碼表現,星火認知大模型 V2.0 也都超過了 40 分,代碼水平逐漸接近 ChatGPT。根據劉慶峰所説,訊飛星火代碼各維度的能力将在今年 10 月 24 日超越 ChatGPT,明年上半年對标 GPT-4。
代碼能力度量一個大模型在思維能力上的深度。但對于星火認知大模型來説,它的迅速迭代并不只是為了與更先進的大模型對标,也是為了 " 超腦 2030 計劃 " 奠定基礎。
科大訊飛在 2022 年雲年會上啓動了這個讓機器人走進每個家庭的 " 訊飛超腦 2030 計劃 "。劉慶峰将其比作科大訊飛的一場 " 登月計劃 ",他認為如果沒有陪伴機器人進入每一個家庭,人類社會的美好未來是不可能實現的。
圖源:科大訊飛
這個戰略性目标的核心技術就是多模态能力。這也是星火認知大模型 V2.0 在代碼能力之外,另一個核心的能力提升方向。
星火認知大模型 V2.0 現在具有生成人物、風景等各類照片,生成班級手抄報,或者根據古詩詞 " 作畫 " 的多模态能力。并且在圖片輸入的理解能力方面,星火認知大模型 V2.0 可以在一幅景致復雜的照片中辨認出一輛 SUV,或是辨别出一幅圖片中的狗是一只柯基。
值得注意的是,劉聰在發布會現場以一張復雜的家庭場景照片考驗星火認知大模型 V2.0,後者不只是可以 " 讀出 " 整張照片的内容,也準确識别出這個雜亂場景中一盆綠色盆栽在圖片中所描繪空間中的具體位置。這種感知和認知能力對未來像家庭陪伴機器人這樣的新物種出現有非常重要的意義。
圖源:科大訊飛
" 多模态能力是賦能行業的剛需,也是實現通用人工智能的必經之路 ",劉慶峰強調," 多模态能力也是科大訊飛既定的人工智能技術長期戰略。"
從代碼能力走向 iFlyCode1.0
新華社研究院近日發布的一份國產大模型報告中,星火認知大模型在一個對标接受過高等教育的人類水平,按基礎能力指數、智商指數、情商指數、工具提效指數四大測評維度進行權重設計的測試集中,在智商評估、工作效率兩個維度測試項分數最高,總體評分壓過文心一言等國產主流大模型,位列測評榜第一。
各種不同維度的大模型橫評測試中,參與者越來越多。今年上海人工智能大會(WAIC)上展出的大模型就超過了 30 個。在那之前,5 月中關村論壇上發布的《中國人工智能大模型地圖研究報告》顯示,參數在 10 億規模以上的國產大模型在當時已發布了 79 個,這一數字在 7 月破百。所謂的 " 百模大戰 " 至少在競争者數量上已經名副其實。
星火認知大模型 V2.0 發布的同一天(8 月 15 日),《生成式人工智能服務管理暫行辦法》開始實行,也意味着這場 " 百模大戰 " 将從上遊的大模型基礎能力競争,轉入一種更激烈的產品層面競争。
星火認知大模型 V2.0 的能力也以更多應用的形式,更具體的呈現出來。
對于開發者來説,大模型的代碼能力最終需要放在開發環境裏才有意義。基于星火認知大模型 V2.0 的代碼能力,訊飛星火發布了一款智能編程助手的應用級產品—— iFlyCode1.0。
圖源:科大訊飛
劉聰用曾在科大訊飛在去年全球 1024 開發者節期間展示過的,用兩個手指捏合寫字的 " 凌空手寫 " 功能來展示了 iFlyCode1.0 的強大能力。只需要以自然語言的形式輸入 Prompt(提示詞),iFlyCode1.0 就可以提供具體分步實現的步驟,同時提供需要導入的 package(軟體包)。整個過程不需要手寫一行代碼,本來至少需要半天的開發過程,現在通過 iFlyCode1.0 只需要幾分鍾就可以完成。
劉慶峰表示,在發布會之前,科大訊飛研發效能平台已經用 2000 多名内部開發人員作為樣本,對 iFlyCode1.0 的開發效率做了周期一個月左右的内測,結果顯示在一些典型場景中,iFlyCode1.0 代碼采納率達 30%,編碼效率提升 30%,綜合效率提升 15%。
星火認知大模型 2.0 的多模态能力則促成了科大訊飛在 AIG 上的應用更新——訊飛智作 2.0。
訊飛智作目前已經是一個擁有超過 375 萬總用户量,生產出超過 2100 萬個視頻作品的 AIGC 内容生產平台。在背後的大模型能力更新後,訊飛智作 2.0 能夠更精确的理解用户的創作意圖,滿足多元的視頻制作需求。
圖源:科大訊飛
劉聰發布會現場用訊飛智作 2.0 做了一個介紹黃山毛峰茶葉的視頻,在輸入對于視頻的内容要求後,訊飛智作 2.0 會自己尋找關于茶葉的產地、包裝、色澤等特點的準确信息。整個過程非常快,并且極大降低了視頻創作的技術門檻。
平行的兩條進化路線
2010 年科大訊飛推出訊飛雲平台(後為訊飛開放平台)與訊飛輸入法後,曾經提出了一個 " 漣漪效應 " 的觀點。
" 漣漪效應 " 是説人工智能相關技術被人們所使用的這個過程是一點點擴散的。當使用者越來越多,數據和反饋也會變多,系統誤差在大量數據的修正中變得越來越小,就像水紋向外的震蕩一樣。
" 漣漪效應 " 這個在十多年前看來非常直覺性的觀念,在星火認知智能大模型這件事上有一個更明确的描述。
"1+N"。
科大訊飛将教育、辦公、醫療等場景看作 "N",星火認知智能大模型則是放在 "N" 之前的 "1"。OpenAI 去年 11 月 30 日發布 ChatGPT 後僅僅 15 天(12 月 15 日),科大訊飛就啓動了 "1+N" 認知智能大模型的專項突破瓶頸。
也就是説,星火認知大模型從最初開始就有兩條并行的進化過程。
一條是抽象層面的能力進化。
星火認知大模型的 V1.0 版本更像一個不錯的文科生。基于科大訊飛本身在 NLP 領網域的技術積累,星火認知大模型 V1.0 已經能夠較好地完成中英文論文、品宣文案等豐富内容形式的撰寫。但除了文本生成和語言理解,星火認知大模型 V1.0 在知識問答、邏輯推理、數學能力、代碼能力、多模态方面的素質仍亟待進化。
星火認知大模型 V1.5 開始逐漸 " 文理雙修 " ——它可以做高考數學試卷了。相比 V1.0 版本,星火認知大模型 V1.5 在文本生成、語言理解、邏輯數學能力和代碼能力方面有最高 10% 的能力提升,在知識問答方面的提升則達到 24%。邏輯能力是星火認知大模型 V1.5 相比之前提升最大的能力維度,它已經迭代出了不錯的多輪對話能力。
直到星火認知大模型 V2.0,其在多模态以及代碼能力上的迭代并不是無迹可尋。多模态是 AI 理解世界的長期方向,而生成式 AI 的需求普及意味着寫代碼這件事本身勢必會一步步降低門檻。
除了模型能力的迭代,星火認知大模型的另一條進化路線在于產業。
教育產業是科大訊飛軟硬體體系的核心場景之一,訊飛的智慧課堂(暢言智慧課堂)已經在全國 1200 多萬師生中廣泛使用。星火認知大模型 2.0 的能力提升也快速反應到了這裏。
圖源:科大訊飛
青少年教育開始實現以素養培養為核心的教育三新(新課标、新教材、新高考)改革,這對教師提出了在教學設定上的變化和挑戰。為此科大訊飛推出了星火教師助手,後者在星火認知大模型 V2.0 的理解能力基礎上,可以根據學科内容進度完成單元教學設計、課堂活動設計,甚至一鍵生成課件。
劉慶峰表示,在上海、廣東、安徽等一線教師試點體驗後,結果顯示星火教師助手可以提升 50% 以上的單元教學規劃和課件制作效率,教學活動豐富度也提升了 20% 以上。
作為口語陪練老師的星火語伴此次更新到了 2.0 版本,主題對話數量從 73 個提升到了 393 個,多模态能力下的虛拟人沉浸式陪練機制進一步加強。并且相比之前,星火語伴 2.0 新增了 CET、雅思、托福的智能評價反饋以及新的情景交流功能,後者支持圖片、文檔自定義情景。
而星火認知大模型 V2.0 強勢的代碼能力則會成為學校的教育數字基座。對教育場景理解最深,但并不具備代碼編譯能力的教職人員可以把教育數字基座作為自己的開發助手,來搭建最适合學生的教育應用。根據上海、湖北等試點學校的應用成效,教育應用的開發周期和投資成本都大幅度降低。
圖源:科大訊飛
劉慶峰也表示,代碼能力不僅應用于訊飛教育數字基座,也廣泛應用于醫院、大學、企業、政府等不同的機構,通過 iFlyCode 都可以實現快速搭建和低成本迅速呈現。
" 這就是我們説的通用人工智能為什麼會深刻改變今天以人力和時長為主要邏輯的商業模式,實現整個產業的徹底的颠覆和更新 "。
而随着星火認知大模型在教育、醫療、工業、辦公等領網域落地應用,一個更廣袤的開發者生态正在形成。從 6 月 9 日星火認知大模型 V1.5 發布至今,新增了 7862 款星火助手,有 4109 多個助手開發者團隊加入進來。而在科大訊飛的人工智能開放平台角度,目前已經有 500 多項能力開放給各領網域的創業者和合作夥伴去調用以構建各種新的應用。
" 在通用人工智能上,一定還是要堅持我們價值創造的根本,那就是要有能看得見摸得着的場景,能規模化推廣的應用和產品,同時能夠用統計數據來證明我們的應用成效。" 劉慶峰在不久前的一場論壇上表示。
這條關于產業的進化道路可能是科大訊飛更加看重的。而這麼多場景的可能性,被更具像化的集成到一款新發布的 " 星火一體機 " 上。
一個更具體的方案
《生成式人工智能服務管理暫行辦法》的實行意味着大模型競争從基礎能力轉向產業,而對于人工智能安全可控的訴求則變成了進入這場競争的前提。
安全可控、場景驅動和專屬定制則是科大訊飛認為大模型在未來進入產業時需要具備的三個關鍵要素,而星火一體機則是為此準備的一個國產軟硬體一體化私有專屬大模型解決方案。
劉慶峰介紹,星火一體機能夠實現模型訓練和推理的一體化部署,并且針對星火模型的訓練算法和推理應用進行了硬體定制,大大降低使用成本。其可以應用于問答、對話、知識圖譜、推薦等多個領網域。提供從底層算力、AI 框架、訓練算法到應用效果的全棧 AI 能力,針對企業個性化的需求來定制企業專屬大模型。
圖源:科大訊飛
在場景寬度上,星火一體機基于科大訊飛在多行業積累的場景落地經驗,内置了辦公、代碼、運維、客服、營銷、采購等 10 多個場景包,支持對話開發、任務編排、插件執行、知識接入、提示工程等 5 種定制優化模式,并将持續拓展更多專業場景和模式優化。
在核心的安全可控方面,星火認知大模型針對污語料和幻覺問題形成立體化的 " 内容安全機制 ",保障大模型進入行業之後的内容安全;華為将會作為科大訊飛的合作夥伴保障算力安全。星火一體機基于昇騰 AI 硬體、昇思 AI 開源框架,提供業界領先的大模型訓練、推理能力,為大模型全流程創新提供堅實的自主創新算力底座。
" 中國人工智能的發展,尤其是擁抱這次通用人工智能,絕不僅僅是單個企業、單個科研院所的工作和使命,而是整個社會的機會。" 劉慶峰表示," 而在這個過程中,生态的發展決定了產業的繁榮,也是我們一直在孜孜不倦追求的事情。"