智能體可以商業化了？ - 大酷樂

今天小編分享的科技經驗：智能體可以商業化了？，歡迎閲讀。

文 | 王智遠

你用智能體嗎？類似聊天機器人的東西。

以前，了解一個行業，得看大量數據，查好多資料，現在 AI 改變了做事、生活的方式；只要問幾個問題，它就能幫我整理出清晰的計劃。

最近在看 martech 市場，信息量巨大，我告訴智能體想看全景圖，它直接幫我找到了答案，很方便。所以，智能體是最好的 AI 應用方向嗎？我不知道。

不過，百度李廠長在百度世界 2024 大會上提到：

AI 智能體時代快要來了，應用爆發點就在我們眼前；智能體可能會成為 AI 應用的主流，還會迎來爆發式的增長。這個觀點引起業界的讨論，也讓我對智能體有了更深的認識。

我一直在關注這個領網域。我覺得智能體不僅是提供提示、旅行建議、分析文檔的工具。它們更像有智慧的專家，能進行深入的交流。

智能體和傳統的問答機器不一樣，它們能和用户連續對話，一步步深入問題的核心，這是它們的強項。前幾天，我就用智能體解決了 obsidian 插件衝突的問題。

不過，進一步探索中，我發現，智能體還有很多問題需要解決。什麼問題呢？

第一個：使用距離。

使用距離？什麼意思？别人不會用嗎？不是的。準确説，是用户習慣。

智能體不僅是一個聊天機器人，更像一個超級大腦，我們用聊天的方式跟它交流，但要認識到它真的可以解決系統問題。

這個過程，不是簡單的一問一答那麼簡單，是可以讓思考更上一層樓，讓效率翻一倍。

舉個身邊的例子：

前幾天，有個朋友在群裏説要做 PPT。咱們以前做 PPT，基本上兩種方法。第一種非常老土，不用 AI，自己把内容整理好，結構搭起來，然後動手做，這種方法雖然踏實，但費時費力，效率不高。

第二種呢，用 AI 幫忙，先給個提示詞，再給 AI 一些背景資料，讓它根據提示詞和資料來輔助你整理後，再給新的提示詞，讓它幫我們把内容做得更結構化，最後，用這些内容去做 PPT。

這種方法效率提升了，但還缺少點人性化的互動。智能體呢，它更高級，屬于第三種方法。

我們可以直接跟它説：接下來有個做 PPT 的任務，你跟我着一起完成。我先給你一些資料，你學習下，然後，學習過程中，給我提出問題，類似于問我要多少頁？每頁突出什麼？

如此循環漸進的像一個合作夥伴，不僅理解了需求，還能提出建設性意見，同時又節省了寫提示詞的時間，還能達到我們想要的目的。

所以，智能體真的很能幹活兒。它是三維思考的。

想用好它，我們得有點項目思維、或者任務思維，這樣才能發揮巨大作用；但是，很多人還在用二維思維，你問我答的方式，如果一直這樣想，用智能體的速度和效率就上不去。

比起使用距離，第二個關于 API 的問題要廠商們思考下。

事情是這樣：

前兩天百度上搜比亞迪，看到官網用了智能體，我就跟它説：" 幫我找找比亞迪内飾的照片。" 結果，你猜怎麼着？它給我生成了四張圖。

我差點笑出聲，這不是搞笑嗎？我要生成圖嗎？當然不是。我更希望它能直接從官網上給我調出照片來。

緊接着，我帶着疑問，又試了豆包、騰訊元寶，想讓他們幫我 P 個圖。結果都差不多，我發現他們對 P 圖的理解跟我不一樣。

我理解的 P 圖是用 Photoshop 那樣去掉背景，但他們好像把 P 圖理解成生成新照片。

這個問題可能出在智能體本身。因為，它們現在還做不到那種專業的修圖效果，背後缺少某種插件或能力模塊；只有當能調用這些模塊時，才能幫我修圖。

為什麼大公司都做不到智能體處理一整套任務呢？

因為，一個智能體要完成一個復雜的工作流，背後不是靠一個生成模塊就能搞定的，它要調動很多數據和應用程式。

打個比方：

你去餐廳吃飯，不需要知道廚師是怎麼做菜的，菜就端到你面前了。但其實，廚師得用各種材料，比如白菜、辣椒、調料，把它們放到鍋裏一炒，菜就出來了。

智能體也是這樣，得調用各種 API，API 像菜單一樣，集合所有的服務和請求，讓不同的軟體能夠互相交流合作，最後才能達到想要的效果。

現在，很多網站和 APP 都有自己的 API，API 不統一，不标準化，這導致智能體沒有足夠的接口可以用，限制了它的發展。

還有，以前沒有統一的底層開發框架，技術團隊開發智能體時得從零開始，現在阿裏、百度都做了統一開發框架，解決了底層數據處理、模型訓練、監控部署的問題，但中小型軟體服務商還是不多。

因此，也就限制了其他能力模塊的發展。

當然，這也是個好機會，因為如果有人能在細分場景下，利用自己對特定業務場景的了解，開發出一個更符合一線需求的智能體，那就有機會成功。

比如：

你在教育賽道很多年，憑借個人對教育技術和孩子學習需求的理解，開發一個智能體，幫孩子提升學習進度和測試成績，就能賺到錢。

所以，API 的問題需要時間和更多中小開發者入局。

能寫出這些想法，自然不會錯過開發智能體的好機會；開發中，我發現一個第三個問題：能力泛化。

什麼意思呢？

起初，我設計占卜師智能體，目的讓它進行占卜。沒想到，它不僅能占卜，還能算命，甚至能總結文章。

我以為提示詞沒寫清楚。後來，試了其他智能體，發現也有類似情況。你可以嘗試看看，連官方出的 Kimi 也存在這個問題。

為什麼會這樣？

我認為智能體知識可以分為兩部分：一部分通用知識，像我們學的基礎知識，這是智能體必須掌握的。

另一部分則是針對特定行業的，随着行業人士的使用，智能體也能跟着學習。這有點像能力的二八法則：80% 的能力是基礎的，剩下 20% 在實際工作中邊幹邊學。

實際上，過去一年，大廠都在訓練大型語言模型，這些大模型的本質，是通過海量數據訓練得到的，目的是生成最有可能的回答，而不是專注于特定能力或任務。

這種泛化能力，讓智能體在多任務中表現不錯，因為這些任務都涉及語言處理和推理，這意味着，要進行任務微調，就必須做任務分離。

而開發多個智能體，是一種過程性的解決方案。

你想想看，各大平台現在都在嘗試将智能體做垂直細分，專注于特定領網域或任務，比如法律助手、醫療問診、學習輔助等。

這種趨勢也表明，未來肯定會有更多人根據不同需求，選擇和使用專門化的智能體，推動 AI 更深入地融入日常生活和工作場景。這是第一點。

第二點，目前市面上缺少專業的智能體開發者，能培養的也很少，我想去，居然還找不到；要不，廠牌們考慮下開個班吧？

現在的開發者，很多是對 AI 感興趣的人，他們在設計智能體時，主要是用提示詞來引導模型的行為。

但是，提示詞這種東西，像個軟性的約束，并不能真正限制智能體能幹什麼，這種設計方式，很容易讓智能體 " 越界 "。

你想想看，我設計一個占卜師智能體，占卜本身可能 " 順便 " 會提供點兒心理咨詢，甚至還會推薦人生規劃；這種能力的模糊性，不是我不願意解決，而是目前工具和方法還不夠成熟，我很難精準控制。

就像禅宗裏説的：" 少即是多（Less is more）"。少比多難，少不是減少，是聚焦，得用技術聚焦。

還有一點：現在智能體缺少明确場景。這聽起來像廢話。但你有沒有想過，這些場景究竟從哪裏來？

釘釘總裁不窮説過一句話：

"AI 得從下面開始，先讓懂行的人用起來。" 只有對 AI 有需求、願意嘗試的人開始用了，才能慢慢積累出真正有用的場景，找到 AI 真正的價值。

我覺得，就算智能體慢慢融入了醫療、法律、金融這些領網域，它還是停留在 " 看起來懂，但不專業 " 的階段。

因為現在大多數人還是把智能體當成 " 聊天工具 "，聊天工具是什麼？即弄個董宇輝文案、搞個媽媽式唠叨，這不能幫助行業。

如果這種情況一直這樣下去，最後的結果就是，大家還是只把它當聊天工具玩，沒法真正用到工作中；這樣的話，别説提高行業效率了，這不僅是對智能體的浪費，更是錯過了行業變革的機會。

所以，一個簡單的結論即：我們要思考清楚，哪類智能體做工具？哪類做平台？需要什麼樣的開發者來開發智能體？

這三個問題回答清楚，智能體才會在場景中發揮作用。

看到這，别誤會，我不是説通用智能體不行，确實有它們的好處。

垂直單一的智能體可能比較局限，但能處理多種任務處理就厲害了，因為能同時搞定好幾個工作流程，不僅速度快，而且思考的過程也更清楚、更靠譜。

而且，這些智能體還能處理各種類型數據，在很多場景下都能派上用場。

在公司裏，這種能幹多種事情的智能體，已經開始發揮作用了，比如：RPA 技術，現在已經被看作是智能體的一個工具。

這種通用智能體在營銷、生產管理、運營自動化這些地方也有很多可能。

最近特别火的一個話題就是：智能體在手機界面上的應用。大家都覺得，将來它們會成為重要的用户界面入口，就像人一樣，能自動操作界面，根據需要自動用 APP 完成任務。

騰訊的 AppAgent 和阿裏的 MobileAgent 項目，或者手機廠商發布會上展示的 " 一句話點單 " 的功能，這些都是很好的例子。

我相信，在電腦、手機、自動駕駛這些領網域，将來這種多功能的智能體會有很多應用場景，比如：接管系統級操作，或者用通用智能體管理子智能體等等。

我也看到，很多智能體在一些特定場景中的開發和工程化潛力，但是，話説回來，智能體的使用和能不能商業化，是兩回事。

你想想看，如果一個公司用了被随意開發的智能體，然後問它另一個公司的情況，它也回答了，豈不是很荒謬？

所以，不能光看宏觀叙事，還是要扎根行業去思考，希望大公司能多想想行業的實際問題。

比如：智能體怎麼幫一個職員做決定，怎麼規劃某個工作流程，怎麼提供真正管用的解決方案。

我説的行業，更準确地是行業裏在用、想用智能體的人，因為只有這些人，才能會不斷給智能體特定知識；換句話説：智能體學習了他們的東西，它才會進步。

你覺得呢？