CAAI 會士張钹院士：從人工智能三要素走向四要素之路

今天小編分享的教育經驗：CAAI 會士張钹院士：從人工智能三要素走向四要素之路，歡迎閱讀。

來源 | 專知，管理智慧

咨詢合作 | 13699120588

本文來源于《光明日報》（2024 年 05 月 25 日 10 版），原題《探索之路：人工智能發展的回顧與展望》

2024 年 4 月，中國科學院院士、清華大學計算機系教授、清華大學人工智能研究院名譽院長、CAAI Fellow 張钹，做客清華大學 " 人文清華講壇 "，以《走進 " 無人區 "，探索人工智能之路》為題做了一場演講。5 月 25 日，《光明日報》刊發了這一演講的整理全文。

張钹院士從人工智能的兩條路徑、人工智能的三個階段、深度學習的不安全性、邁向通用人工智能的四個步驟、基礎模型的三大出路等方面，娓娓道來。

他認為，目前比較成功的 AI 工具，其強大性主要來源于兩個 " 大 "，一是大模型，二是大文本。而從大語言模型邁向通用人工智能需要四個步驟。第一步是跟人類進行互動、與人類對齊，第二步是多模态生成，第三步是與數字世界互動，體現是 AI 智能體。第四步是與客觀世界互動，體現是具身智能。

但我們說通往通用人工智能這個目标，至少需要邁出以上四步，并不是說，完成這四步就意味着實現了通用人工智能。

他認為，第一代人工智能的目标是讓機器像人類一樣思考。第二代人工智能最大的問題是不安全、不可信、不可控、不可靠、不易推廣。第一代和第二代人工智能的模型、算法都有很多缺陷。而迄今為止，人工智能尚無較為成型的理論，更多是模型和算法，因此，必須大力發展科學完備的人工智能理論，在此基礎上，才能發展出安全、可控、可信、可靠和可擴展的人工智能技術。

對目前的人工智能技術而言，雖然提高了效率和質量，但系統越信息化和智能化，也就意味着越不安全。他表示，第一代人工智能運用了知識、算法、算力三個要素，其中最主要的是知識。第二代人工智能則主要用了數據、算法和算力三個要素。為了克服人工智能的固有缺點，唯一的辦法是把知識、數據、算法和算力這四個要素同時運用。

他認為，在未來只有少數工作可能會被人工智能取代。人工智能是探索 " 無人區 "，其魅力就在于它永遠在路上。" 我們不能因為它的進展而過于樂觀，也不必因為它的挫折而沮喪，我們需要的是堅持不懈地努力。"

以下為演講整理稿全文：

1978 年成立的清華大學人工智能與智能控制教研組

人工智能的兩條路徑

迄今為止，全世界對于 " 什麼是智能 " 尚無統一認識，但經過多年的探索，人工智能已然走出了兩條道路。一條道路是行為主義學派，另一條道路是内在主義學派。

其中，行為主義學派主張用機器模拟人類的智能行為。" 智能 " 與 " 智能的行為 " 是兩個完全不同的概念。" 智能 " 在我們大腦裡，人類至今仍對其知之甚少；" 智能的行為 " 則是智能的外部表現，可以進行觀察和模拟。因此，行為主義學派人工智能追求的目标是機器行為與人類行為的相似性，而非内部工作原理的一致性。目前人工智能的主流是機器智能，這種人工智能與人類的智能只存在行為相似，并非完全一致。内在主義學派主張必須用機器模拟人類大腦的工作原理，即類腦計算。這兩個學派按照不同的思路對人工智能進行探索，前者主張除人類這條道路外，機器或其他方法也可以走出一條智能道路；後者主張走向智能道路只能依靠人類。目前這兩種思路都處于探索階段。

人類對人工智能道路的探索始于 1956 年。當時在美國召開了人工智能研讨會，來自數學、計算機科學、認知心理學、經濟學和哲學等不同領網域的 10 位專家經過八周的讨論定義了人工智能。他們主張通過符号推理、符号表示來做一個能像人那樣思考的機器。在這次會議上，紐維爾（Newell）和西蒙（Simon）演示了一個名為 " 邏輯學家 " 的程式。該程式用機器證明了數學原理第二章中的部分原理，數學定理證明與推理相似，這表明機器能做類似推理的工作。最終，" 人工智能 " 在這個會議上獲得了定義。

1978 年，清華大學成立了人工智能與智能控制教研組，這是中國最早的人工智能教學與科研機構。教研組有三十餘位教師參與，其中絕大部分來自自動控制領網域，而非人工智能。1978 年，教研組招收了第一批碩士生，1985 年開始招收第一批博士生，已能夠開展一些與人工智能相關的教學工作，但科研工作進展不大。1982 年至 1984 年，教研組進行調查研究，訪問了西南、東北等地大量研究所及工廠。結合所見所聞，教研組确定了以智能機器人作為主要研究方向。

1985 年清華大學建立智能機器人實驗室，1986 年國家設立 "863" 發展計劃，該計劃将智能機器人作為一個主題。清華大學參加了第一屆智能機器人主題的 "863" 高技術研究，從第一屆到第四屆均作為專家部門參加委員會。到了第五屆，清華大學成為開展智能機器人研究的組長部門，1997 年，成為空間機器人研究的組長部門。" 智能技術與系統 " 國家重點實驗室自 1987 年開始籌建，1990 年正式成立。

在這些工作的基礎上，相關研究得以開展。當時首先建立了兩個理論。一是問題求解的商空間理論和粒計算理論，在國際上影響很大。2005 年，清華大學發起、組織了國際粒計算會議，每年一次，延續至今。二是在人工神經網絡方面做了很多早期工作。

人工智能的三個階段

1956 年至今，人工智能的發展分為三個階段，分别是第一代人工智能、第二代人工智能和第三代人工智能。

第一代人工智能的目标是讓機器像人類一樣思考。思考是指推理、決策、診斷、設計、規劃、創作、學習等。無論做管理工作還是技術工作，都需要兩方面的能力，一是在某個領網域具有豐富的知識和經驗，二是具有很強的推理能力。其中推理是指運用知識的能力，換言之，是從已有知識出發，推出新的結論、新的知識的能力。

基于以上分析，人工智能的創始人提出了 " 基于知識與經驗的推理模型 "，該模型的核心是若要實現機器思考，只需将相應的知識放入計算機即可。例如，如果要讓計算機像醫生一樣為患者診斷，只需要把醫生的知識和經驗放到知識庫裡，将醫生看病的推理過程放入推理機制之中，計算機就能為患者實施機器診斷。這一推理模型的核心思想是知識驅動，通過計算模型來實現讓機器像人類那樣思考。該模型最大的缺點是缺乏自學能力，難以從客觀世界學習知識，所有知識都源于人類灌輸。因此，第一代人工智能永遠無法超越人類。

第二代人工智能源于第一代人工智能的低潮期，主要基于人工神經網絡。1943 年，人工神經網絡模型提出，它主要模拟人類腦神經網絡的工作原理。第二代人工智能面臨的主要問題是感性知識的傳授。第一代人工智能主要在符号主義指導下進行，目的是模拟人類的理性行為。但人類除了理性行為外，還有大量的感性行為，而感性行為要用人工神經網絡進行模拟。

我們常說知識是人類智慧的源泉，知識是理性行為的基礎，這裡的知識來自教育，主要指理性知識、分析問題的方法等。但感性的知識難以用語言傳授，也無法從書本上獲得。每一個人最初得到的感性知識是對自己母親的認識。但，具體是什麼時候開始對母親有所認識的？又是怎樣實現這種認識的？這些問題到現在仍難以解答。

所有感性知識都在不斷觀察、不斷傾聽的過程中學習累積，第二代人工智能深度學習沿用了這個方法。例如，過去我們主要通過編程的方法告訴計算機馬、牛、羊的具體特征，現在則将網上大量馬、牛、羊的照片做成訓練樣本，讓計算機進行觀察和學習即可。學習完畢，再把剩下的樣本作為測試樣本去測試它，識别率能達到 95% 以上。觀察和傾聽的過程通過人工神經網絡進行，将識别的問題作為分類問題，利用人工神經網絡來分類。通過神經網絡進行學習的過程稱為深度學習，基于深度學習能夠進行分類、預測和生成等。

但是第二代人工智能的所有數據（影像、語音等）均來自客觀世界，它的識别只能用于區别不同的物體，并不能真正地認識物體。所以第二代人工智能最大的問題是不安全、不可信、不可控、不可靠、不易推廣。

第三代人工智能的基本思路是必須發展人工智能理論。迄今為止，人工智能尚無較為成型的理論，更多是模型和算法，且第一代和第二代人工智能的模型、算法都有很多缺陷。因此，必須大力發展科學完備的人工智能理論，在此基礎上，才能發展出安全、可控、可信、可靠和可擴展的人工智能技術。

對目前的人工智能技術而言，雖然提高了效率和質量，但系統越信息化和智能化，也就意味着越不安全。第一代人工智能運用了知識、算法、算力三個要素，其中最主要的是知識。第二代人工智能則主要用了數據、算法和算力三個要素。為了克服人工智能的固有缺點，唯一的辦法是把知識、數據、算法和算力這四個要素同時運用。目前得到較多運用的 AI 工具（大語言模型），就能夠充分利用知識、數據、算法、算力這四個要素。清華大學團隊提出了第三代人工智能的三空間模型，将整個感知、認知系統進行連接，為發展人工智能理論提供了非常好的條件。

深度學習的不安全性

在研究過程中，研究者發現了人工智能深度學習的不安全性。

其中一個典型案例是：研究者制作了雪山和狗的對比圖，先讓計算機和人看雪山，二者都能判定為雪山，但是只要在圖片上添加一點噪聲，人看雪山仍是雪山，計算機卻會将雪山看成一條狗。這個案例說明，人工智能目前基于深度學習的模式識别跟人類的視覺完全不同，盡管它能夠像人類那樣區分雪山和狗，但實際上它既不認識狗，也不認識雪山。

這裡面的關鍵問題是——什麼是狗？應該如何定義一條狗？人類通常通過視覺來進行區分，主要看狗的外形，但什麼是狗的外形？狗有各種形态、各種姿勢，為什麼人類的視覺能夠在千變萬化的外形裡确定目标是狗？這個問題的答案，到現在為止尚未弄清楚。最早的計算機識别狗時，狗變換了位置後計算機就不能識别了，這是位移的不變性，這個問題現在已經解決。

但是尚未解決的問題還有很多。例如，計算機能夠識别固定尺寸的狗，但是把狗變大或變小後都難以識别，這是大小的不變性。現在計算機只能通過局部紋理來區分狗和雪山。因此，如果将雪山圖上的某個紋理改成皮毛紋理，即便雪山的形狀保持不變，計算機仍會把雪山誤認為是狗。所以說，到目前為止，人工智能的深度學習仍然不夠安全可靠。

大語言模型的 " 大模型 " 與 " 大文本 "

目前比較成功的 AI 工具，其強大性主要來源于兩個 " 大 "，一是大模型，二是大文本。

第一個大模型的 " 大 " 是大的人工神經網絡，人工神經網絡可以用來分類、學習數據中間的關聯關系，也可以用來預測。這個巨大的人工神經網絡叫 " 轉換器 "。AI 工具的能力強大，離不開深度神經網絡的強大。原來的神經網絡是逐字輸入，現在一次能夠輸入 2000 多字（一個 token，粗略地講相當于一個漢字）。人類從 1957 年到 2013 年花了 56 年時間探究文本的語意表示問題，現在的文本不是用符号表示，而是用語意向量表示，這也是最重要的一個突破。

過去計算機處理文本只能把它當作數據處理，現在可以把它當成知識來處理，即向量表示。此外，還提出了 " 自監督學習 "。過去供計算機學習的文本都要做預處理、預先标注，此項工作量太大，所以無法支撐計算機大量學習。自監督學習是指原來的文本不經過任何處理就可以被計算機學習，用前面的文本預測後面的詞，輸入後預測下一個，被預測的内容又把再下一個變成輸入，有些類似于接龍式學習方式。

第二個 " 大 " 是大文本。計算機實現自監督學習後，所有文本不用經過任何預處理就可以學習，文本也由原來的 GB 量級發展為 TB 量級。現在比較成功的人工智能大約學習了 40TB 以上，相當于一千多萬本牛津辭典，并且這個學習過程并非死讀，而是理解其中的内容。這就使得我們進入了生成式人工智能時代。無論是第一代還是第二代人工智能，都受到三個限制——特定領網域用特定模型完成特定任務。" 三個特定 " 是所謂的 " 窄人工智能 "，即專用人工智能。

目前比較成功的 AI 工具能夠通過其強大的語言生成能力讓人類在與它對話時沒有領網域限制，這是人工智能的重大進步。另外，生成多樣性的輸出是目前 AI 工具的重要特征。它有多樣化的輸出就有可能創新，因為輸出多樣化，難以保證每個輸出都正确，所以越希望它能輸出有創造性，就越要允許它犯錯誤。我們在日常使用一些 AI 工具時也會發現，有時 AI 對問題的回答非常機智聰明，有時則是明顯的胡說八道，這就是多樣化輸出的結果。

目前 AI 工具產生了兩個重大突破，一是生成語意連貫的類似人類的文本，二是在開領網域實現了人機自然語言對話。大語言模型是向通用人工智能邁出的一步，有西方專家認為這是通用人工智能的曙光，但它并不是通用人工智能，人類走向通用人工智能依然任重道遠。

走向通用人工智能必須滿足三個條件。第一，系統必須與領網域無關。目前較為成功的 AI 工具在對話、自然語言處理的問題上做到了與領網域無關，但在處理其他大量問題上仍難以實現這一目标。第二，系統與任務無關，即什麼任務都會做。目前 AI 工具能進行對話、四則運算、作詩、寫代碼等多種任務，但仍難以完成復雜環境下的復雜任務。第三，尚需建立一個統一的理論。因此，人工智能還有很長的路要走。

邁向通用人工智能的四個步驟

從大語言模型邁向通用人工智能需要四個步驟。第一步是跟人類進行互動、與人類對齊，第二步是多模态生成，第三步是與數字世界互動，第四步是與客觀世界互動，。我們并不是說，完成這四步就意味着實現了通用人工智能，而是說通往通用人工智能這個目标，至少需要邁出以上四步。

第一步是與人類對齊。目前 AI 工具輸出的内容不一定正确，若要解決這個問題，必須依靠人類幫助它克服，使之與人類對齊。從 AI 工具的應用實踐來看，它的錯誤需要人類幫助糾正，而且它的錯誤糾正速度和迭代速度都很快。與此同時，我們要看到輸出内容的錯誤仍然存在，但我們如果想要它具有創造性，就要允許它犯錯誤。

第二步是多模态生成。現在已經可以用大模型生成影像、聲音、視頻、代碼等各種模态的内容。随着技術的進步，鑑别一個内容是由機器生成還是人工完成将會變得越來越困難，這為 " 造假 " 提供了非常好的機會。" 造假 " 又名 " 深度造假 "，即用深度學習的辦法 " 造假 "。試想一下，如果以後網絡上 95% 的文本都由 AI 生成，那麼我們還能通過網絡獲取真知與真相嗎？比方說，當一件事情發生後，網絡上出現一片支持或者反對意見，這些意見究竟是來自多數人的真實表達，還是來自少數人操縱 AI 歪曲事實？如何有效防止 AI 工具操縱輿論、混淆視聽，這是需要我們嚴肅考慮的。

目前人工智能領網域已經實現了三項突破，即開領網域生成語意連貫的類似人類的文本。其中，語意連貫是最重要的突破，這個突破後就有了影像的突破。因為影像只要求在空間上連貫即可，而視頻則進一步要求時空上的連貫。我們在語言上進行突破，緊接着會有影像的突破，影像突破後肯定還會有視頻的突破。在這個發展過程中，計算的資源要求和硬體都會變得越來越多。

随着人工智能的發展，很多人注意到了 " 湧現 " 現象。例如，當系統規模沒有達到一定程度時，生成的圖畫很糟糕、水平較差，但當規模達到一定程度，生成的大多數圖畫突然間就變得質量很高。這個過程稱為 " 湧現 "，" 湧現 " 是從量變到質變的過程。到目前為止，全世界範圍内都還無法完全理解 " 湧現 " 現象出現的原因。

第三步是 AI 智能體。大語言模型邁向通用人工智能必須與數字世界進行連接，首先在數字世界裡具體操作，從而解決問題、感知自己成果的優劣，并進行反饋。這個工作對促進大模型的性能向前發展有很大益處。

第四步是具身智能。具身智能，即具有身體的智能。智能光有腦還不夠，還必須具有身體，這樣才能動口又動手。所以，大語言模型邁向通用人工智能，必須通過機器人與客觀世界連在一起。

基礎模型的出路在哪裡？

當下，信息產業的發展非常迅猛，原因在于建立了相關理論，在理論指導下制作的硬體和軟體都是通用的。過去，信息產業領網域内出現了一些具有世界影響力的大型企業，應用推廣相應技術并實現信息化，整個鏈條發展非常迅速。

但是，人工智能產業的發展缺乏理論，只有算法和模型，而根據算法和模型建立的硬體和軟體全是專用的。" 專用 " 即意味着市場很小，到現在為止，人工智能產業還沒有產生具有世界影響力的大型企業，所以人工智能產業必須跟垂直領網域深度結合才有可能發展。不過，目前情況也在發生變化，具有一定通用性的基礎模型的出現，肯定會影響產業發展。

2020 年，全世界人工智能產業達到 10 億美元以上的獨角獸企業一共有 40 家，2022 年變成 117 家，2024 年初達到 126 家，從這個情況來看，它是逐步增長的。到現在為止，中國有 100 甚至 200 家企業在做大模型。

這麼多人做基礎模型，他們未來的出路在哪裡？

第一個出路是向各行各業轉移，做各個垂直領網域的大模型。現在很多行業都在考慮這個問題，例如石油行業考慮石油行業的大模型，金融行業考慮金融行業的大模型，所以将來做通用大模型的數量将越來越少，大多數做大模型的人才會轉向各個垂直領網域。

第二個出路是最重要的，即經過微調應用在產業裡。換言之，提供公開的大模型軟體，讓大家開發應用。

第三個出路是跟其他技術結合，發展新的產業。國外很多獨角獸企業都将 AI 工具與其他技術結合，發展新產業，有的是向各個行業轉移，還有的專門做影像、視頻、語音等。國内一些大模型現在也已經取得了比較好的發展。

基于此，勢必要推動人工智能領網域的產業變革。今後無論做硬體還是做軟體，一定要放到基礎模型的平台當中。過去是在一個零基礎的計算機中制作軟體，效率很低，而現在平台已經學習超過一千萬本牛津辭典，能力水平至少相當于一個高中生，若将同樣的工作放到基礎模型的平台上進行将會事半功倍，所以采用這個平台是不可阻擋的趨勢。而這些 " 高中生 " 則來源于大模型企業提供的公開平台。

大模型的局限性

大模型的所有工作都由外部驅動，在外部提示下進行。它缺乏主動性，在外部提示下做某事時，主要基于概率預測的方法，所以會出現一些人類沒有的缺點，即輸出的質量不可控。并且它不知道是非對錯，所以它的輸出也不可信。與此同時，它受外部影響太大，只能聽從指令來完成相應的事情。但人類則是完全不同的，即使這件事是由别人安排完成，人也能夠在自己的意識控制下進行，所以是可控、可信的。

由此可見，目前的人工智能并不知道自己的所作所為。AI 工具尚不能準确分辨對錯，且現在還難以主動進行自我迭代，仍舊需要在人類的操作下進行。未來的人工智能最多成為人類的助手，在人類的監控下進行操作，只有少數工作可以完全交給機器獨立完成。

有研究機構曾做過關于人工智能對各行各業影響的統計，列出了大量行業，在未來這些行業中只有少數工作可能會被人工智能取代。可見，人工智能對各行各業都有重大影響，但大多數是幫助人類提高工作質量和效率，而非取代人類進行工作。

人工智能是探索 " 無人區 "，其魅力就在于它永遠在路上。我們不能因為它的進展而過于樂觀，也不必因為它的挫折而沮喪，我們需要的是堅持不懈地努力。（END）

華夏基石 · AI 啟航論壇

誠邀您的參與，掃碼即可獲取活動詳情：

喜歡這篇文章

請為我點贊和在看