今天小編分享的互聯網經驗:獵戶星空董事長傅盛:大模型沒有那麼神秘,歡迎閱讀。
8 月 21 日,2024 世界機器人大會在北京開幕,獵豹移動董事長兼 CEO、獵戶星空董事長傅盛,進行了題目為《端模合一:大模型賦能機器人的創新實踐》的演講:
在演講中,傅盛從大模型落地機器人產業的實踐出發,認為大模型也沒有那麼神秘,但大模型要足夠大、足夠多的數據,才會突然有一天湧現出、頓悟出它的智能。要對人形機器人的技術復雜度懷着充分的敬意,落地還要很長時間。不過人形機器人不一定非得像人,但得有雙手。
以下為演講實錄:
今天非常榮幸有機會在這裡跟大家分享一些我們從事機器人行業尤其人工智能行業應該有 7 年多了一些心得和技術變化的體會。
其實獵豹移動經歷了三個周期。
第一個周期,最早把金山毒霸這款工業產品變成免費的互聯網產品;
第二個周期,全球化,2012 年的時候做了全球的工序列軟體,并且有兩年的時間使得用戶量在全球範圍内達到了 6 億的月度活躍,80% 來自于海外,所以在 2014 年就在紐交所上市了;
第三個周期,2016 年看到了人工智能的興起就是以 AlphaGo 為代表的人工智能 1.0 的興起,當時就有一個判斷,我認為人工智能會使機器人這個行業從傳統的工業場景走到服務業場景,最後走進千家萬戶,所以獵豹移動又投資創辦了獵戶星空作為一家獨立的公司更好的實現自己在機器人方面的探索。
到今天不知不覺已經 7 年多了時間了。
今年剛剛更新的公司的 Slogan:在 AGI 時代,成為全球領先的新質生產力工具的提供商。我們從最早創立的時候做殺毒軟體、工具軟體,機器人其實都是看成工具,我們這個團隊的能力和基因也是來自于工具,現在整個公司有 4 個業務板塊,今天主要是機器人業務,我們的第四大業務。
先講一下這波人工智能對于整個行業的影響或者基礎的理論,相信大家比較熟悉了,其實有一個我很喜歡的科普作家,他在去年的時候就說人工智能這次的崛起可能是人類科技史上非常重要的一年就是 " 奇迹年 ",這個出現就像當年牛頓 " 萬有引力 " 那一年,和 1905 年愛因斯坦的 " 相對論 ",因為這波大語言模型帶來的端到端真正的創新範式的影響對于全行業、全社會都是巨大的改變。
前不久阿裡巴巴的首席科學家說這波 AI 使得科研從過去的假設科研會變成端到端的科研,也就是說未來是越多的數據就能及時得出結論,不再需要中間進行假設、公式等等,我們可以看到 AI 不僅在機器人行業,在各個行業都發生着重大範式的變化。
語義理解等到機器人懂語言這件事就是一個重大改變,我記得在 AI1.0 時代當時覺得機器人能下圍棋能識别影像已經很厲害了,但是一直等到 ChatGPT 出來的時候才意識到語言的理解和影像的理解根本是兩個維度的難度,當時在 2016、2017 年大家認為自動駕駛很快會實現,語言會實現,事實上在那波浪潮以後,其實人工智能整個的技術天花板大概有幾年沒有真正突破的,一直到 ChatGPT 出現,所以語言實際上是人類真正獨立于其它物種的核心智能,真正識别也好,圖象識别、語音識别,動物也都有這樣的能力,但是語言尤其是描述虛拟事物的語言是人和其它動物真正的核心區别。
當然 OpenAI 的出現,很多人問我一個問題為什麼 OpenAI 能做成,我覺得更多是走了一條不同的路徑,與其說 OpenAI 是技術積累的勝利,不如說是技術信仰的勝利,它是真正從過去規則模式變成自己學習的模式,這之前為了語言的理解,教了計算機很多規則,只有 OpenAI 堅信不需要教它規則,讓它讀足夠多的文本就能夠出現智能,這件事在當時看起來即便在矽谷,我跟很多大廠的研究員都交流過,他們都認為 OpenAI 這條路肯定走不通,但是 ChatGPT 出現的時候,對于整個行業的影響都是巨大的,不是一個技術積累的勝利,人工智能真正的底層模型一直到 Transformer 的時候大家都在一條路上,後來谷歌用 Transformer 做了 BERT 以後,大家都認為 BERT 已經是非常驚豔的一個模型了,但是只有 OpenAI 堅信其實可以用更大的數據、更大的參數做一個完全生成式的模型而不是判别式模型,這條路開始是一個小的分支,後來等到 ChatGPT 出現的時候,大家才意識到這條路是完全可以做到的,這背後就像一個大航海一樣,哥倫布的三個小船到了美洲,之後很多船就可以到美洲,本質上路徑并沒有那麼難,但是想到這條路徑是最難的。
這個也是和 1.0 時代最大的區别,1.0 時代對一個系統只要喂數據就會出現一定情況的智能,但是随着數據的增多,智能就到了一個瓶頸,真正 2.0 時代管它叫頓悟,一開始說 OpenAI 真正牛的地方在于一開始這個系統是很差的,喂了很多數據都顯的特别笨,突然有一天就像小孩子放在身邊,跟着父母半年、一年突然有一天開口叫媽媽的時候,他的語言能力一下子突飛猛進了,在前面的寂寞期是最難的,所有人不看好又不斷的燒錢,它的首席科學家一直在說不夠智能就是因為數據不夠。
那天跟我們的團隊交流了一下,BERT 作為當時來看很大參數的質量模型,大概也就幾千萬上億的參數,等到 ChatGPT 直接到一千億參數,產生了完全的質變,後來各種證明這波的人工智能大模型最大的不同就是要足夠大、足夠多的數據才會突然有一天湧現出、頓悟出它的智能,但是也沒有那麼神秘。
我前兩天去香港大學,他們剛剛成立了一個人工智能的學院,把計算機系、統計系等等這些都給合在一起,讓馬教授當院長,他是我們的獨董經常和他有很多交流,他的一個觀點就是很多人把大模型神秘化了,它是一個非常好的工具但是并沒有那麼神秘。
第二個所謂會產生意識毀滅人類這件事要麼不懂,要麼是别有用心,希望更多的讓小公司不要參與是最好的,即便在美國很多大公司把這個事情描繪的要毀滅人類一樣,但是事實上就是一個好用的工具,如果最簡化的理解看成一個大号的計算器,它的本質就是計算下一個詞的概率,這個詞的概率不斷的出現,出了這麼多詞以後居然是一個非常連貫的語句能夠完成邏輯和推理,這事原理非常簡單就是下個詞不斷的概率統計,但是卻能夠湧現出職能,到今天為止這裡面的細節原理都是不知道的,所以李飛飛有句話說 " 大模型是個灰盒 ",也不完全是黑盒,大概我們知道神經元的不斷連接就可以產生智能,但是中間究竟每個智能是如何產生的,今天是個灰盒,因為過于復雜,我們業内有句話今天訓大模型就像煉丹一樣,一直等到爐子打開的時候才知道這個丹到底煉沒煉好,其實缺乏對過程的理解。
回顧 OpenAI 來看,OpenAI 真正走出一條與眾不同的道路然後實現了創新,但是我想說 OpenAI 并不一定是通過 AGI 的唯一道路,今天大語言模型到底能不能通往 AGI 大家又開始出現了分歧,很多人說大語言模型是一個問答模型,本質上是個概率統計,所以很難產生足夠的規劃能力,吳文達最近說要用 Agent 技術要把更多的人類知識合規化和大模型結合,大模型是眾多工具中的一個,但是能不能走向 AGI 現在有人在打問号。
包括 Meta 的首席科學家楊立昆不斷在說大語言模型的天然結構使得它很難實現 AGI,其實馬毅教授,他是華人中人工智能界非常泰鬥級的人物了,因為他的論文被引用次數是非常多的,他們團隊正在致力于 Transformer 的白盒化,能夠把過程真正的給理解,這樣的話才能知道這一千多億的神經元裡哪些是效率很低的,不需要的,可以重新設計結構,我們看到這個科技樹又在不斷的分杈。
除了 OpenAI 在做的一千多億上萬億,GPT4 是 1 點幾萬億的模型之外,更多出現了很多小參數的模型,幾十億參數、幾億參數的,這也是一個非常重要的分歧,我們在去年 3 月的時候我就認為不是只有一條路能夠走通,比如說最好的創業公司融了最多的錢,但是會有一群愛好者、黑客還有教授、學者、其它公司就說能不能再走一條不一樣的路,既然智能是湧現的,是不是只有一千億參數才能湧現智能,是不是一百億參數也可以湧現智能,你往那邊想造一個愛因斯坦解決全世界的問題,但是另一個觀點認為我們其實很多工作不需要愛因斯坦。
如果家裡換燈泡是請愛因斯坦來換,當然人已經不在了,其實旁邊的胡師傅換燈泡效果又快又好。整個社會是一個多元結構的,是一個金字塔型的結構,所以在基層其實需要更多的平民化大模型的出現。
今天可以看到在過去根據時間來看,現在出現的很多大模型都是在小參數量下,我們會發現世界上最大幾家公司尤其像蘋果、微軟都在不斷發布很小參數量的模型,蘋果發布了一億多參數的模型,微軟發布了 7 億參數的模型,其實他們為什麼不斷的發布小參數模型,因為這個可能直接跑在端上直接變成終端的一部分,而不再是雲端的一部分,這帶來的產品變革和科技變革可能它的意義更大。
我們去年也訓了一個模型是 14B 的,很重要一個方面是訓練 100B 的錢花很多,另一個點我們當時考慮以後我們的機器人一定要端上自己跑一個模型,這個模型就能實現實時的處理,而不需要跑到雲端,既解決數據隐私的問題又解決快速響應的問題,我們的思路一直是在一個小參數量的模型上進行嘗試,看看能不能把它的推理能力做到在這個領網域内不錯。
其實很多工作一個合格的大學生甚至專科生就夠了,我們國家為什麼只需要一半人上辦學,其實很多工作作為一個技術工種不需要了解那麼多豐富的知識也能做好。我們提出了端模一體,根據今天做的產品尤其在機器人行業,根據機器人應用場景選擇你的模型,要麼是一個小參數模型,要麼是本地和服務端相互協調的,優勢第一是推理成本很低,最近有 Copilot PC,很多人都買,微軟給大家展示的場景就是你的電腦上直接跑了一個模型,再也不需要調 API,也不需要付費了,一個晚上給你不停的幹活,響應很快。
由于參數小了,所以一個 4090、3090 都能秒秒鍾吐出幾百個 token 和傳統程式的響應速度可以媲美,安全可靠,你的數據不會送到雲端,這樣的話解決一個大家都非常擔憂的隐私問題。
我們可以看到今天的巨頭為端模一體做了很多工作,比如蘋果,我們都知道蘋果前不久開了一個發布會,這可能是蘋果歷史上唯一一次沒有發布任何新的硬體產品但是股價漲的最多的發布會,就發布了一個 IOS18,就是一個 Siri,Siri 裡就是一個語音的互動,前面發布其它產品的時候股價一直在跌,我整個晚上全程監控,等到 Siri 上場的時候就開始漲了,第二天大漲 7%,第三天又漲了 3%,一個 3 萬億美金的公司因為發布了一個本地化模型的產品,大概漲了 3000 億美金的市值,其實裡面提的最多的就是今天的 iPhone 15 pro max 就能跑一個在本地的模型,這個本地模型可以處理所有的郵件、聊天内容,甚至實現真正無縫連接的個人助理。
舉了一個例子,明天你媽要來機場了,你得接她,因為它從郵件裡讀出來的,但是蘋果用了大量的篇幅告訴大家我雖然可以給你處理的這麼好,但是對于你的隐私是高度關注的,首先我用的是端上的模型,這個模型處理大部分的數據,第二個如果端上模型能力不夠的時候再給服務端,服務端是一個加密的存儲,我都不知道數據是什麼。
第三個如果要用 ChatGPT 的話,會給你一個提示,是否要把這個内容給 ChatGPT 處理。再一個為了模型調整端,微軟發布了 Copilot PC 這是微軟歷史上第一次搭載為 inter 的 CPU,為什麼選用高通的 CPU,在其他主流性能和主流芯片有所優勢之外,最重要的是有一個 40T tops 的 AI 芯片,有一個專門小的主力模塊,高達 40T 的 tops 算力專門處理 AI 相關的算力,這樣的話在未來模型不再需要消耗 CPU,也不需要消耗 GPU,一個專用的 NUP 就解決了本地模型的處理問題,能夠實現非常快的響應。
我們認為端模一體未來一定是互動革命和生產力革命兩件事,互動革命我們以前大部分工作都是圍着機器,我們學寫程式,是讓機器理解我們的需求然後實現它的代碼,我們怎麼做 PPT,怎麼用 office,也是讓機器真正把我們的 idea 變成一個文檔,今天已經開始出現了很多了機器圍着人轉,我需要一個什麼文檔,不需要了解哪個辦公軟體怎麼用的,你去幫我生成,所有的設備都會被重做一遍,這次蘋果為什麼發布一個軟體產品,引發了那麼大的反響,相當于蘋果被重新設計了,iPhone 被重新設計了,可能以後螢幕更多是展示的視窗,而語言才是真正和它交流的視窗。自然語言是我們最熟悉和方便的表達方式,我們不需要學習任何的界面就能夠很好的使用機器,而在以前我們是不可以的,所有的東西或多或少都要學習,以前連個健康碼都要學習,老人不懂怎麼調出健康碼就寸步難行。
第二個就是生產力革命,這波電能能夠轉成通用智能,今天講 Robot,其實在英語裡不是人的概念,它實際上就是勞動力的概念,就是一個勞動力、奴役的意思,能幫我們解決更多問題。今天已經看到了很多企業開始出現了互動革命,比如說 Meta 最近那款眼鏡,在有大語言模型之前,這個眼鏡其實大家一直雞肋型產品,但是現在能夠幫助盲人識别紅綠燈,能告訴他怎麼走。
三星也發布了 AI 手機,你跟别人打電話時自動就翻譯了,生產力革命聯想這樣的企業這麼長時間,今年财報大漲,很大一部分來自于 Copilot PC,以前 PC 也是生產力工具,但是生產力工具必須一直圍着 PC,只要離開了就不工作,你要不停的輸指令,以後可能晚上的時候跟 PC 說今天給我把所有網上的信息找好,分門别類的存在各種文檔,交待 5 分鍾你就睡了,然後它就開始幹,我們想象一個這樣的場景。
這是我們投了一家公司叫秒播,其實就是用 AI 實現真正的一鍵開播,一個直播間完全感覺不到是 AI 做的,和一個真實直播間一樣,但是它的成本比起小姐姐便宜多了,這個公司的收入漲的非常快。
我們要做好新質生產力工具,做好機器人就要把大模型和機器人緊密的結合,國外有一個基金說以後機器人就是一個新的物種,它的 CPU、GPU 對應我們的大腦,它的大語言模型就像我們上過大學一樣,能讓你的智能進行展現,人吃的知識來自于書,但是機器人來自自己的學習,能源我們是食物,它就是電力,我們是在這個行業内因為做的早,其實把當時的語音、語義、導航這些東西都做過一遍,但是今天發現大一統的大模型能夠解決大部分問題。
我們很早提出來機器人不應該是一個自動化的機器,AI 在裡面應該是一個很大的比重,今天看起來這個公式也不過時,我們認為 AI 是一個底層的邏輯再加軟體、硬體這樣服務才是一個大模型機器人。
我們最近在做的工作就是把過去其實在 4、5 年前機器人就開始慢慢的量產,最近在做的工作是把大模型和這個端結合起來,叫做大模型機器人,變成端模一體,當有了大模型做成大腦的時候就會發現整個智能水平、規劃能力都大幅度的提升。
我們在 2016 年的時候做服務機器人,當時就預見到人工智能會是很大的變革,事實上坦率的講在 ChatGPT 大語言模型出來之前,即便我們做的所謂的人工智能體系都是一個預設任務,你進一個餐廳要把菜譜輸給它,匹配很多問答隊,每個工作都特别繁重然後叫 " 人工智障 ",這是我女兒給我的評價,她說老爸你做這個人工智障機器人,我們當時在商場放了不少機器人,她就沒事調戲一下,問個咖啡在哪兒都可以,一問到别的問題聽不懂,因為那個時候就是一個定制化的,針對一個場景定制非常多的問答隊,但是今天有了大語言模型以後,首先這個定制工作量大幅度降低,今天去一個餐廳再也不需要匹配問答隊了只要把菜譜看一下甚至不用,如果授權大眾點評号給它,它就立刻知道這個餐廳的特色是什麼,你想推薦什麼菜品,有什麼優惠券,自主決策。
以前很多東西移動都要寫代碼去完成,今天大模型是可以根據環境做自主決策的,現寫一段代碼完成一個工作,這在以前都是很難想象的。
今天有三大類七個產品品種,我們叫 AI 勞動協作,我在我的視頻号上說對人形機器人的技術復雜度懷着充分的敬意的,這個東西的落地還是要很長時間,但是我認為不一定非得像人,但是得有雙手,雙臂的這件事很快就會開始在很多場景落地,其實在這之前基礎做過類似于調咖啡這樣的企業,那個時候還是比較程式化的,現在是可以做成智能化的,還有巡檢,真正的勞動協作,在一些場景把人過去的煩瑣勞動去掉。
再一個是營銷接待,我們覺得這個機器人促銷這件事由于有了大語言模型真能做到多快好省的,再一個大家都知道遞送機器人,這個已經比較成熟了,大家在酒店、餐廳都看過,但是由于有了大模型的加持,未來會更加智能服務的更好。我們在冬奧會上,當時谷愛凌還喝過它的手衝咖啡,我們當時為了降低這款機器人的成本,雙臂都是和我們投資的公司一起定制的,我們的目标是能夠讓它的成本比一個高級的咖啡機還便宜,然後它的手衝這部分能夠真正及時的,以後要兌什麼口味或者怎麼衝就完全能夠執行了,現在目前的還是一個程式化的,我們正在做這方面的工作。
這個場景就是真正讓機器人實現了巡檢,我一直在想我們做機器人這個行業不用想着替代人,因為有一些人有一些地方不可替代的,比如說服務的溫暖、靈活的機制可能是很長時間替代不了的,但是可以找到一些人特别不擅長的但是又很需要的工作,這才是服務機器人很重要的點,巡檢這樣的事對于一個人來說工作非常煩瑣而且機容易疏漏,但是機器人做的很好。
巡檢這件事就是 AI 更适合了,人一本本看了後面忘了前面,但是 AI 可以大批量的快速的一小時能掃 10 萬冊,掃完以後對哪本書在哪裡都能記住,人要找書的時候它可以帶着,因為它的記憶是永不消退的,人是很容易忘記的,我記得以前大學去圖書館拿卡片慢慢找,找本書累死了,這其實是一個挺大的場景尤其在國外,前兩年去美國有一個美術圖書館也在嘗試用我們的機器人,美國在社區裡都有圖書館,這是一個很大的場景。
結合投資那家 AI 直播公司做了一個走播機器人,這個機器人在餐廳裡來回走,如果在直播間問它帶我看一下你的生蚝區,就會跟你講我們家生蚝又便宜又新鮮。
這家餐廳以前是先請小姐姐,後來店長自己上去播,每個月大概播個幾千塊錢的營業額,在直播這個頻道,後來用了走播機器人以後,一天能到幾千塊錢,不是在所謂的替代,而是找一些方面比人更擅長的,比如說一天可以從頭播到尾,小姐姐播兩三個小時就得下播了,因為體力和嗓子扛不住了,第二個就算不來人情緒也很飽滿,很多直播間其實平時沒有人的,但是主播還得很情緒飽滿,否則來個人的時候會一下子就跳走,第三個就是用戶每個問題都認真回答,而且用口播的方式,所以這個提效是非常明顯的最近我們在跟幾個大的餐飲連鎖都在合作。
現在我們跟全國最大的連鎖酒店正在做打通系統,這種遞送類機器人叫做忙時送餐,閒時攬客,以前沒有大語言模型前這個功能要做起來是非常復雜的,但是現在就完全可以做到了,甚至可以和機器人直接說,現在沒什麼事到門口宣傳一下新菜品,它就立刻可以去了,這就是智能化一個進步。
這是拿創始人的聲音定制了,機器人講就是他的聲音,他沒有空的時候機器人幫他講解回答問題。我們在海外也開始了,尤其在日本有一個安樂廳的日本的朝鮮烤肉,上百家已經開始使用我們的機器人了,會持續的增加。
首先當年我們特别重視智能化,所以我們機器人作業系統是純安卓開源一個作業系統,而且兼容了各種體系,所以代理商在上面做開發是非常容易的,包括剛剛大家看到的日語界面都是自己定制的,可以自己做開發。第二個由于有了大語言模型,以前我們海外的機器不太敢開語音功能,工作量太大了,還得招一批懂日語的人做定制,現在有了大語言模型天然就是一個翻譯機,我們在使用 14B 的模型專門把日語加強,我們在日語現在的排行榜開源模型裡是排第一的,所以它的互動能力跟你對話的能力很快就能夠快速的形成一個高水準接近人的能力。
我們做機器人行業不僅要着眼中國也要放眼全球,今年跑過日本和韓國,當時日本有一個中國的工程師跟我說,最讓我感動的是一幫東芝、松下白發蒼蒼的工程師來采中國機器人的時候,他覺得這時候是特别驕傲的。因為今天中國進入這麼快的發展,其實硬體供應鏈的體系高性價比,價格便宜但是質量又很好,再加上今天中國互聯網儲備的各種軟體人才和人工智能人才,其實我在 2017 年的時候創辦獵戶星空在想,如果真的要做好人工智能機器人,這件事只能是中國的企業能做成全球最有競争力的,美國硬體方面供應鏈是有問題的,很多還得跑到深圳來做板子。
日本、歐洲其實在人工智能和互聯網領網域是落後的,真正大模型機器人比拼的是硬體、軟體 + 服務等等全套能力的綜合,這點中國企業就可以在全球走到最前面,今天已經看到這樣的端倪了,現在海外的收入已經開始超越了國内,但是還有很多的事情要做,包括建更多的渠道,讓我們的產品變的更好用,讓我們的能力變的更強,但是我堅信下一個時代,除了 AI Phone、AI PC,現在汽車也是 AI 化的,新能源車之所以有這麼大的颠覆,這麼大的格局的改變,核心不是新能源,而是智能化水平的提升無論是智駕的水平還是座艙互動的水平,這都是在以前那些寫代碼那些人最擅長的,而不是結構上最擅長的,所以這波車也是有巨大的變化,我相信機器人也會這樣,由于有了大模型,機器人這個行業的确可以開始走進千家萬戶,走進各個場景,讓我們的生活真的因為身邊有更多的機器人幫我們服務而變的更好。
今天就講這些,謝謝大家!