亞馬遜雲科技王曉野：針對業務場景更換大模型，而不是一個模型試驗不同場景

今天小編分享的科技經驗：亞馬遜雲科技王曉野：針對業務場景更換大模型，而不是一個模型試驗不同場景，歡迎閱讀。

9 月 11 日 -14 日，由钛媒體與 ITValue 共同主辦的 2024 ITValue Summit 數字價值年會在三亞舉行。此次峰會主題為 "Ready For AI"，交流經驗教訓，交叉行業思考，推動創新交易，以創新場景為基礎，共同探索 AI 驅動下數字經濟時代的全新機遇，共同打造一場數字經濟時代的 AI 創新探索盛宴。

大會上，亞馬遜雲科技大中華區產品部技術專家團隊總監王曉野發表了 "GenAI 驅動場景創新，釋放業務價值 " 的主題演講。

他表示，企業應當針對業務場景了解模型的能力，而不是基于不變的模型不斷嘗試不同的場景。" 今天所有的大模型，我們都認為它是三頭六臂，但一定要從企業最想要的功能出發去選擇，這個三頭六臂有的練的是鐵頭功，另一個練的是麒麟臂，一定要匹配最需要的模型。"

此外，數據基礎非常重要，王曉野提到，大模型系統先天就具有幻覺現象，無論是模型也好，還是與模型一起構建的系統也好，從數據的視角看，系統永遠是 " 垃圾入垃圾出 "，或許讓企業真正發揮業務價值的答案，就在數據裡。

最後他表示，企業在選擇大模型合作夥伴時，需要有兩個方面的能力，一方面是基礎技術能力，雲廠商從整個算力到數據能力，以及人員支持上能與企業共創。

" 從雲廠商的視角看，此時此刻是技術變革的轉捩點，這是前所未有的重塑業務的最佳時機。" 他說。

以下為王曉野演講内容，經钛媒體整理：

近些年來雲計算爆發，越來越多的企業擁抱雲計算，推動了從數據到算力，乃至于雲計算整體的發展。過去的模型被生成式模型逐漸替代，它在很多的場景下比小模型有更好的表現。

2024 年 IDC 預測全球 40% 的企業會在 AI 上投資，到了 2025 年是 68.6%。現在各位有沒有這樣的感覺，AI 是不是到了像之前的元宇宙一樣，走到向下行或者這一波浪潮結束的階段。

給出答案之前，先來看看我們的合作夥伴法拉利。法拉利在使用 AI 技術定制化汽車的顏色，以及賦能幾千名維修人員，同時生成式 AI 也廣泛加速汽車模拟場景的 AI 應用。

回到剛才提的問題，如果說 2023 年大家處于 FOMO（Fear of Missing Out）的狀态，追着我們問，什麼是大模型，大模型能做什麼，我們能在什麼場景用。到了 2024 年，客戶跟我們談得最多的是實際的問題，這個模型後還能不能再便宜一點，能不能用其他的模型替換。這一年 AI 話題雖然被讨論了很多，但還只是一個開始，相信下一個時代，由于技術的改變，各行各業會更積極地擁抱 AI。

我們很早以前就推薦給廣大企業，擁抱生成式 AI 的路徑。即從業務場景開始，再準備數據，必經的過程是企業對自己的數據進行定制，最重要的是後面的工程化和應用集成，并服務到業務中。這個過程不是一蹴而就，需要持續地迭代。直到今天這個過程完全沒有變。

大模型的關鍵，在于匹配場景

我想強調的一件事情，還是從場景出發，企業自身的場景，而且反復迭代。今天所有的大模型，我們都認為它是三頭六臂，但一定要從企業最想要的功能出發去選擇，這個三頭六臂有的練的是鐵頭功，另一個練的是麒麟臂，一定要匹配您最需要的模型。

以亞馬遜雲科技自身來講，我們自身應用 AI 的場景是不一樣的，我們推出了生成式 AI 快速總結客戶評價；如果想給一個小姑娘買聖誕禮物，我們推出專業的 AI 購物助手；在藥房的場景下，可以從非結構化的處方信息快速提取用藥信息，幫助藥房撿藥，告訴病人如何使用藥品。每個場景背後都不是相同的模型。

雖然有些場景看似眼熟，但細分關注的信息和需要的能力不一樣。比如翻譯，文章翻譯和實時翻譯，推理的速度要求不一樣，在時效性要求高的場景下，企業要關注的是模型是否能以比較低的成本高速響應需求，滿足場景。

再如以前的翻譯可能關注準确性，但是在企業廣泛出海的情況下，關注的是對于當地文化的理解，企業在本地運營語言翻譯既要合規，同時具有當地文化特色。我們的合作夥伴 NOTTA 是專注于做會議轉錄的公司，利用大模型将業務快速擴展到 50 多個國家。

在智能運營場景，對于用戶聲音、客戶評論情感的分析，以及對應詞條背後邏輯關聯的梳理。SHULEX 致力于賦能品牌出海，對于用戶的流程有 10% 以上的效果提升。

在品牌宣傳營銷場景，我們看重的是模型的個性化、豐富程度。例如賽狐 ERP，利用大模型生成文案，同時可以控制生成關鍵詞，不僅實現文案生成效率的提升，還植入亞馬遜雲科技檢索的關鍵詞。

在客服場景，我們也需要不同方向的能力。第一，知識内部的高度總結，需要模型能夠在抽取信息之上有比較好的總結。例如華通證券應用大模型大大縮短了客戶響應時間。對于虛拟助理場景，我們關注的是結合用戶信息、過往互動，判定他是采購一個新的產品還是做投訴，華寶新能用自己的客服機器人進行識别，輕松識别是做售前關懷還是售後支持。

對于風控場景，我們看到的是模型對于内容的理解，以及對于審核标準的執行，今天多模态的模型，除了文字、語言，還有類似遊戲聊天視窗發的影像。連續多模态語意的理解，這是過去模型做得不太好的地方，目前沐瞳科技實現了 90% 以上的辱罵識别率。

講了這麼多場景匹配，核心的觀點是我們認為不會有一個模型一統天下，我們希望通過 Amazon Bedrock 這樣的產品，讓絕大多數的用戶了解到不同領網域的模型，在國内中文的語境和出入境合規的場景下，需要本地模型的支持，我們也在積極的跟國内企業合作，選擇最适合企業的模型匹配他們的場景。

Ready for AI，數據先行

在模型之外，數據的重要性不言而喻。

無論是模型也好，還是跟模型一起構建的系統也好，從數據的視角看，這個系統來說永遠是 " 垃圾入垃圾出 "，無論是訓練模型還是通過知識庫，喂給系統什麼樣的數據出來就是什麼樣的效果。

今天生成式模型原理上存在幻覺，或許讓企業真正發揮業務價值的答案，就在數據裡。

從 Data for AI 看，企業額外投入的是這幾個層面：第一，迭代模型視角，有沒有足夠的能力為模型準備優秀的數據，有沒有建立數據的閉環；第二，在整個模型應用的過程中，數據如何高效提供給業務，比如知識庫可以檢索公開數據，調用海量的知識。假設今天搜索場景高并發的情況下，能不能提供在線服務和線下海量互動生成的數據循環回來，為模型服務的數據能力是否具備。這些場景都是企業需要投入和思考的。

如何應用數據定制企業自身的獨立特點？我們可以做 PE（Prompt Engineering ) ，可以做 RAG，可以微調。很多人走了認知上的彎路，這不是我們技能上出了問題，是整個行業都在摸索、共創、探索。

剛才提到數據服務 AI，如果沒有做好元數據管理，企業有什麼數據不知道怎麼用，那就是一個挑戰，也可以說是新的機會。過去我們只能基于表格或者數據庫整理數據，通過人工梳理的元數據，今天有非常多的數據用到模型的能力，重新定義元數據管理。

舉個例子，在汽車自動駕駛領網域，駕駛數據實際上只有 1% 真正可以用來做模型訓練，或者是對模型訓練的結果有用。多模态對場景的理解是非常好的機會。全球已經有非常多的數據廠商都走向這個方向，包括做數據集成，他們已經推出生成式管理。Data for AI 這件事在數據管理上又是一個新的機會。

回到數據能力，數據能力好意味着什麼？有幾個例子，第一個是 WPS，基于過去 PPT 生成模板，在短短的幾個月内幫他們實現兩個場景，一個是文本的潤色翻譯，二是 PPT 自動生成，大模型完成大綱生成和詳細描述，背後的模板生成都是常年積累下來的數據。

當企業構建一個應用時，我建議大家加強數據技術的能力，同時要關注選擇什麼樣的項目。不知道如何立項時，從自己的客戶，無論是内部、外部，還有自己的場景出發，背後還有非常重要的一些事情，人員的技能。

對于生成式 AI，要求的技能完全不一樣，包括工程化的技能、生成式的圖片，如何管理隐私數據的保護，這些事情過去都是要做的，只是生成式 AI 的要求更高，對企業需要投入的資金，以及能力、精力提出了前所未有的标準。

亞馬遜雲科技不僅從雲產品技術上服務客戶，我們還有非常多的團隊，有以年為周期的聯合實驗室，有專業數據的應用科學家和模型科學家一起研究，積累了對模型能力的了解，對數據能力的了解，以及工程化能力。

舉一個西門子的案例，西門子之所以在很早就取得了成果，第一，多年前我們已經有非常強的合作，構建了西門子内部大平台，才有了後面的數據 RAG，也非常符合今天的主題，"Ready For AI"。第二是大語言模型，我們成立了共建部門，并且發布了西門子 " 小禹 " 機器人，服務于西門子。

快速總結成功企業的經驗，一是要針對業務場景了解模型的能力，而不是本着不變的模型不斷地試不同的場景。第二是數據的基礎非常重要，第三，如果說選擇合作夥伴，需要有兩個方面的能力，一方面是基礎技術能力，雲廠商從整個算力到數據能力，以及人員支持上與企業共創。同時，我相信我們的企業在未來的投入的比例上，數據、人才和背後整個公司對于 AI 數量的投入占到未來企業精力 50% 以上。

從雲廠商的視角看，此時此刻是技術變革的轉捩點，這是前所未有的重塑業務的最佳時機。借用法拉力的話結束今天的演講，最偉大的法拉利永遠是沒有設計出來、制造出來的下一款。

以上是我的分享，謝謝！