今天小編分享的教育經驗:吳恩達最新演講:AI智能代理工作流的趨勢(觀點解讀與演講全文),歡迎閱讀。
作者 | 吳恩達
來源 | 管理智慧
咨詢合作 | 13699120588
文章僅代表作者本人觀點,圖片來源于網絡
吳恩達指出,随着 AI 技術的發展,AI 代理被視為一個能顯著提升軟體開發效率和質量的工具。
他通過展示 AI 代理如何在主動型工作流中超越單獨模型的局限,以及多代理系統如何通過協作來解決復雜問題,強化了這一觀點。
他認為,在未來,我們将看到 AI 代理在各種工作流程中發揮更大的作用,并且這些代理的性能和應用範圍将不斷擴大。
對此,人們需要學會重新設定與 AI 合作的期望,并充分利用 AI 代理快速迭代的優勢。
吳恩達還預測了 AI 工作流程的擴展,并讨論了人類需要适應與 AI 代理互動的新方式。
吳恩達介紹了 AI 智能代理工作流的四種設計模式:
反思(Reflection):LLM 檢查自己的工作,以提出改進方法。
工具使用(Tool use):LLM 擁有網絡搜索、代碼執行或任何其他功能來幫助其收集信息、采取行動或處理數據。
規劃(Planning):LLM 提出并執行一個多步驟計劃來實現目标(例如,撰寫論文大綱、進行在線研究,然後撰寫草稿 ......)。
多智能體協作(Multi-agent collaboration):多個 AI 智能代理一起工作,分配任務并讨論和辯論想法,以提出比單個智能體更好的解決方案。
關鍵結論及其論據支撐:
結論 1: 主動型工作流中的 AI 代理可以產生比傳統工作流更好的結果。
論據 :
吳恩達個人實際操作時觀察到的效果出人意料。
GPT-3.5 在主動型工作流中表現得甚至比 GPT-4 還好,盡管 GPT-4 在零次提示下有更高的成功率。
結論 2: 多代理協作是提高 AI 性能的有效策略。
設計模式包括代碼代理和批判代理的合作,這種模式易于實施且通用。
實驗顯示多代理通過協作編寫代碼、測試和迭代可以生成復雜的程式。
結論 3: AI 代理的運用将擴大人工智能可執行任務的範圍。
吳恩達期待由于代理工作流程的存在,今年 AI 能完成的任務集會大幅拓展。
已經存在的不同設計模式(反思、工具使用、規劃和多代理協作)表明,AI 代理的應用正變得越來越精細和廣泛。
結論 4: 快速迭代在 AI 代理的使用中是關鍵,甚至可能比慢速迭代的更高質量模型結果更好。
LLM 快速生成 Token 對于多代理工作流程至關重要,因為需要不斷迭代。
即使是質量較低的 LLM,只要迭代速度足夠快,也可能產生比慢速生成 Token 的更高質量模型更好的結果。
結論 5: 人們需要适應耐心等待 AI 代理完成任務的方式。
目前人們習慣于搜索引擎式的即時回應,但與 AI 代理的合作需要時間來產生最佳結果。
這種适應是提高與 AI 代理合作效率的必要步驟。
下面是演講全文:
《Agentic Reasoning》
我很期待與大家分享我對 AI 代理的看法,這是一個我認為所有從事 AI 開發的人都應該關注的令人興奮的趨勢,同時我也對其他的内容感到興奮。
接下來的演示會是怎樣呢?現在我們大多數人使用 AI 代理的方式就像一個小企業那樣,帶着一種非主動性的工作流程,你輸入一個問題它就生成答案。這有點像你讓一個人寫一篇論文,然後說 " 請坐到鍵盤前,從頭到尾打出這篇論文,而且不許用退格鍵 "。
盡管這很難,但 LLM 實際上做得相當好。相比之下,在主動型工作流中,情況可能是這樣的:AI 會說," 寫一個論文提綱。你自己需要做進一步的調研嗎?那我們開始吧。然後寫第一稿,再讀你自己的第一稿,考慮哪些部分需要修改,然後修改你的草稿,如此反復。"
這種工作流程更加迭代,你可能需要 AI 做一些思考,然後修改文章,再做一些思考,這個過程重復多次。而許多人沒有意識到的是,這實際上能得到顯著更好的結果。
我自己實際操作這些主動型工作流時,也非常驚訝它們的效果。
除非你想要一個案例研究,我的團隊使用一種名為 " 人類智能基準測試 " 的代碼标準來分析數據,這個标準是由 OpenAI 幾年前發布的。
這裡面包含了編碼問題,比如 " 給定一個非空整數列表,返回所有奇數元素或未偶數位置上的元素的總和 "。結果是你的代碼片段就像這樣。
今天我們很多人會使用零次提示,意思是我們告訴 AI" 寫代碼 " 并讓它在第一部分運行,比如誰調用了代碼,我知道人類不會那樣寫代碼,我們應該把代碼打出來。也許你可以做到,但我做不到。事實證明,如果你使用 GPT-3.5 零次提示,它的成功率是 48%,而 GPT-4 的表現則好得多,成功率達到 67.7%。
但如果你采用一個主動型工作流環繞 GPT-3.5,實際上它甚至比 GPT-4 做得還好。如果你将這種類型的工作流環繞在 GPT-4 周圍,它也表現得很好。
你會注意到,在主動型工作流中 GPT-3.5 實際上比 GPT-4 的表現更好。我認為這意味着非常重要的後果,我認為這将改變我們所有人構建應用程式的方法。所以 " 代理 " 這個術語被廣泛地讨論,許多咨詢報告都在談論 AI 的未來等等。
我想更具體地與大家分享我觀察到的廣泛設計模式和代理。這是一個非常混亂、無序的領網域,有大量的研究和開源項目。有很多事情正在發生,但我試圖将其歸類得更具體一些。經歷了代理反思這個工具,我認為我們中的許多人都在使用它,它确實有效。我認為這是公認的技術。當我使用它們的時候,我幾乎總能讓它們正常工作。
計劃和多代理協作,我認為這些更是新興的内容。當我使用它們時,有時我會對它們的效果感到震驚。但至少在目前,我感覺我不能總是可靠地讓它們工作。
所以讓我通過幾張幻燈片來介紹這四種設計模式。如果你們中的一些人回去讓你們的工程師使用它們,我認為你們很快就會獲得生產力的提升。
所以關于反思,這裡有一個例子。假設我要求一個系統,請為我編寫一個特定任務的代碼。然後我們有一個代碼代理,只是一個你提示編寫代碼的 LLM,比如定義一個任務函數。
自我反思的一個例子是,如果你随後用類似的提示向 LLM 提問,例如這裡有一段代碼是為一個任務準備的,然後将剛剛生成的完全相同的代碼反饋給它,并仔細檢查代碼的正确性和效率。
對他們來說,這是一個很好的建設性反饋。結果表明,同一個 LLM 在你提示它編寫代碼後,可能會發現第五行的問題并修復它。如果你現在拿它自己的反饋提示它,它可能會生成一個第二版的代碼,可能比第一版的代碼工作得更好,雖然不能保證,但這足夠經常發生,值得在很多應用程式中嘗試。
為了預示即将使用的内容。如果你讓它運行單元測試,如果它沒通過單元測試,那你就問它為什麼沒通過單元測試?
進行這樣的對話。我們将找出為什麼沒通過單元測試,所以嘗試改變一些東西,最終提出解決方案。
順便說一句,對于那些想要了解更多關于這些技術的人,我對每個部分都有很高的評價,在底部有一個推薦閱讀部分,整個圖表是更多參考資料。
我猜我描述的代理系統是一個你提示它的單一代碼代理?
這個想法的一個自然演變是,不是一個單一的代碼代理,你可以有兩個代理,其中一個是代碼代理,另一個是批判代理。這些可能是相同的基礎 LLM 模型,但你以不同的方式提示它們。
我們說,一個你是專家級的編碼者,編寫代碼。
另一個說,你是專家級的代碼審查員,審查代碼。
這種工作流程實際上很容易實施。
我認為這是一個非常通用的技術,對于很多工作流程來說,這将大幅提升你的 LLM 性能。
第二個設計模式是使用工具。
你們中已經有人見過 LLM 系統使用工具了,左邊是 Copilot 的截圖,右邊是從 GPT-4 中提取的東西。
但是今天的 LLM,如果你問,最好的咖啡機是什麼?
你可以進行網絡檢索,對于某些問題,LLM 會生成代碼并運行代碼。
事實證明,有許多不同的工具被許多不同的人用于分析,收集信息以采取行動,提高個人生產力。
事實證明,早期的許多工具在計算機視覺社區的使用,因為在大型語言模型出現之前,他們不能對影像做任何事情。
因此,唯一的選擇是讓 LLM 生成一個可以操作影像的函數調用,例如生成影像或進行對象檢測等。因此,如果你真正看一下文獻,就會發現有趣的是,工具使用方面的大部分工作似乎都源于視覺。因為 LLM 之前對影像視而不見,GPT-4v 和,以及 Lava 等等。這就是工具的使用,它擴展了 LLM 的能力。
第三個,就是計劃。
對于那些還沒真玩過很多規劃算法的人來說,, 我覺得很多人都在談論 ChatGPT 時刻,你會發現,哇,無法想象人工智能代理能夠這樣做。
我認為如果你沒有使用過規劃算法,很多人都會有一種人工智能代理。我無法想象人工智能代理會這樣做。
因此,我運行了現場演示,其中出現了一些故障,并且人工智能代理圍繞故障重新規劃。事實上,我有過很多這樣的時刻,哇,我不敢相信我的人工智能系統能夠自主地做到這一點。
但是,我改編自一篇擁抱 GPT 論文的例子,你說,請生成一張女孩的影像。其中女孩正在讀書,并且它發布的内容與影像中的男孩相同,例如 .jpeg,請用一個男孩描述新影像。
今天有了人工智能代理,你可以做出決定,我需要做的第一件事是确定男孩的姿勢。然後,找到正确的模型,也許在 huggingFace 上來提取姿勢。接下來,你需要找到一個後期影像模型來合成一個女孩的圖片如下所示,然後使用,影像轉文本,最後使用文本轉語音。
今天,我們實際上有一些代理,我不想說他們工作可靠,他們有點挑剔,他們并不總是工作,但當它工作時,它實際上是相當驚人的。通過代理循環,有時您也可以從早期的故障中恢復。
所以我發現自己已經在我的一些工作中使用研究代理,我想要進行一項研究,但我不喜歡,谷歌搜索自己并花很長時間。我應該發送給研究人員,幾分鍾後回來看看有什麼結果。而且,有時有效,有時無效,對嗎?但這已經是我個人工作流程的一部分。
4.Multiagent collaboration
最終的設計模式,多智能體協作。
這是有趣的事情之一,但是,它的效果比你想象的要好得多。
左邊是一篇名為 " 聊天 " 的論文的截屏,它是完全開放的,實際上是開源的。你們中的許多人都看到了在我的筆記型電腦上運行的 Chat Dev 開源演示的華麗的社交媒體公告。
GhatDev 所做的就是一個多代理系統的例子,你提示一個 LLM,有時扮演一個軟體引擎公司的 CEO,有時扮演產品經理,有時扮演測試員。
通過提示讓代理告訴他們,你現在是 CEO,你現在是軟體工程師來來建立群代理。他們實際上會花幾分鍾編寫代碼?測試它。迭代。然後生成一個極其復雜的程式 .
他們合作進行了一次長時間的對話,所以如果你告訴它,請開發一個遊戲,開發目标,更多的關鍵遊戲。他們實際上會花幾分鍾編寫代碼,測試它,評分,然後生成一個及其復雜的程式。
有時它不起作用,有時它很驚人。但這項技術真的越來越好。而且,這只是設計模式之一,事實證明,多代理辯論。你有不同的代理,例如,可能讓 ChatGPT 和 Gemini 互相辯論,也會帶來更好的性能。讓多個代理一起工作,也是更強大的設計模式。
所以總結一下,我認為這些模式是顯而易見的。我認為如果我們在我們的工作中使用這些模式,我們中的許多人都可以很快得到提升。
我認為,代理推理設計模式将會很重要。這是我的最後一張幻燈片。
我預計,由于代理工作流程 !,今年人工智能可以完成的任務集将大幅拓展。
人們實際上很難适應的一件事是,當我們提示 LLM 時,我們希望立即得到答復。
事實上,十年前,當我在谷歌與他們讨論這個問題時,我們稱之為大盒子搜索類型,我們需要輸入一個很長的提示詞,這是我未能成功推動的原因之一,因為當你進行網絡搜索時,你期望在半秒内就會有一個回應,對吧?這就是人性。
我們喜歡那種即時抓取,即時反饋。
但對于很多代理流程,我認為我們需要學會将任務委托給 AI 代理,并耐心地等待幾分鍾,甚至幾小時才能得到回應。
但就像我看到很多新手經理将事情委托給别人,然後 5 分鍾後檢查一樣,對吧?
這并不高效。我認為這真的很難。
我們也需要用一些 AI 代理來做到這一點。
另一個重要的趨勢是,快速 Token 生成很重要,因為通過這些代理工作流程,我們會一遍又一遍地迭代。
因此,LLM 正在生成 Token。因此,能夠比任何人讀取的速度更快地生成 Token 真是太棒了。
我認為,與來自更好的 LLM 的較慢的 Token 相比,即使是質量稍低的 LLM 快速生成更多的 Token 也可能會產生良好的結果。
也許,這有點争議,因為它可能會讓你多次繞過這個循環。有點像我在第一張幻燈片上使用 GPT-3 和代理架構展示的結果。
坦白說,我真的很期待 Claude 5, Claude 4、 GPT-5 和 Gemini 2.0 以及許多人正在構建的所有其他精彩模型。
我的一部分感覺是,如果您期待在 GPT-5 Zero-Shot 上運行您的東西,您知道,您可能能夠在某些應用程式上比您通過代理推理想象的更接近該性能水平,但在早期模型上。我覺得,這是一個重要的趨勢,老實說,通向 AGI 的道路感覺像是一段旅程,而不是一個目的地。
但我認為這種類型的代理工作流程可以幫助我們在這個漫長的旅程中向前邁出一小步。謝謝。
B 站視頻觀看地址:
https://www.bilibili.com/video/BV19D421V7mc
附資料:
如何理解:AI agent(人工智能代理)
AI agent(人工智能代理)通常指的是一個軟體實體,它可以在某種程度上模拟人類智能的某些方面,執行特定任務或達成目标。這些代理可以感知環境,并在此基礎上進行決策并采取行動,從而完成既定的任務或解決問題。
要理解 AI 代理,我們可以将其比作一個有能力獨立執行任務的助手。例如,考慮一下吳恩達提到的編寫代碼的代理。假設你是一個程式員,需要編寫一個函數來處理數據。
如果沒有 AI 代理,你需要自己思考、編碼、測試和調試。而有了 AI 代理之後,你可能只需要描述你想要的結果,AI 代理就會自動生成代碼,并且可能還會對該代碼進行測試和優化。
以多代理系統為例,可以設想一個由多個專門 AI 代理組成的團隊,其中每個代理都有不同的角色和能力。以下是一些示例:
軟體開發多代理系統:你可能有一個 AI 代理負責編寫代碼(編碼代理),另一個負責檢查代碼質量(審查代理),還有一個可能專注于編寫測試用例(測試代理)。這些代理可以一起工作,相互溝通,共同開發出功能完整的軟體應用。
客服機器人:一個 AI 代理負責接聽電話,分析客戶的問題,并将其分派給最合适的服務部門。另一個 AI 代理可能是專業解決特定類型問題的,比如技術支持或訂單處理。這些代理能夠根據客戶的需求協同工作,提供有效的客戶服務。
個人助理 AI:一個 AI 代理幫助你管理日歷,安排會議;另一個代理幫你搜索網絡信息,而第三個 AI 代理可能負責運行模拟和預測,幫助你做出更好的商業決策。
通過使用 AI 代理,我們可以使復雜的流程自動化,增加效率,并允許系統以自動化的方式執行那些通常需要大量時間和專業知識的任務。AI 代理的進步也意味着它們可以學習并改進自己的性能,随着時間的推移變得更加精确和高效。
END
點擊下方卡片,預約這次直播
喜歡這篇文章
請為我點贊和在看
>