今天小編分享的科技經驗:亞馬遜推出新一代基礎模型 Nova:主打性價比,預告影像和視頻模型,歡迎閱讀。
亞馬遜的新模型來了。
當地時間周二的 re:invent 大會上,在上午的 Keynote 環節,前亞馬遜雲科技(AWS)首席執行官、現任亞馬遜公司 CEO 安迪 · 賈西(Andy Jassy)限時返場。在大約 10 分鍾的演講裡,賈西介紹了亞馬遜在生成式 AI 領網域的應用進展,并發布了亞馬遜的新一代基礎模型—— Amazon Nova。
去年 4 月,亞馬遜推出了第一代大模型 Titan,只有語言單一模态。如果說 Titan 只是小試牛刀,那今天的 Amazon Nova 系列模型,是亞馬遜的真本事和大動作。到底做文生文、文生圖,還是圖生視頻……對亞馬遜來說,這個選擇不存在的。因為,Nova 系列主打 Any to Any,任意模态輸入、任意模态輸出。并且在 Benchmark 評測上,也均為 SOTA 大模型,幾乎可以打敗所有相同量級和市場定位的基礎模型。
你可能要問,剛追加了 40 億美元投資 Anthropic 及其 Claude,就發了自研的王炸 Nova。亞馬遜怎麼想的?尤其是怎麼看待自己與模型生态夥伴的關系?
前亞馬遜雲科技(AWS)首席執行官、現任亞馬遜公司 CEO 安迪 · 賈西(Andy Jassy)發布 Nova 系列基礎模型。|圖片來源:亞馬遜雲科技
安迪 · 賈西(Andy Jassy)自問自答這一問題,他表示,在亞馬遜内部構建的 AI 應用中,使用模型的多樣性令人驚訝。開發者也是這樣,希望有更低的延遲、更低的成本、具備微調能力、能更好地協調不同知識庫以固定數據,還想要實現很多自動化協調操作(也就是所謂的智能行為),或者想要獲得更好的影像和視頻效果等等。為了滿足開發者多樣性的需求,亞馬遜雲科技的模型策略,就是給予開發者盡可能多的自主選擇的權利。
「我們一直都在汲取同一個教訓——永遠不會出現一種工具能在某個領網域一統天下的情況。就像數據庫領網域,10 年來,大家會使用各種各樣的關系型數據庫或者非關系型數據庫。在分析領網域也是如此,曾經大家覺得 TensorFlow 會成為唯一的 AI 框架,而一直強調會有很多不同框架出現,最終 PyTorch 成為了最受歡迎的那個,模型方面同樣呈現這樣的情況。」
讓開發者可以按照自己期望的任意試驗、組合運用模型,這是大模型時代,亞馬遜的答案。
01 Amazon Nova:成本更低,能力更強
會上,安迪 · 賈西公布了 Nova 系列的六種大模型,其中包括四種生成文本的基礎模型,以及生成影像和視頻的兩種視覺内容生成模型。
首先是體量最輕的 Micro 模型,其屬于「僅文本模型」,只支持輸入文本然後輸出文本,這也是 Nova 系列中響應速度最快、性價比最高的模型。賈西稱,在 Amazon 内部的開發者最喜歡在許多簡單任務中使用它。
賈西表示,在 11 個 Benchmark 測試中,Nova Mirco 的表現與 Meta LLaMa 3.1 8B 相當甚至更優,在 12 個 Benchmark 測試中與 Google Gemini 1.5 Flash-8B 相比表現更優。該模型的響應速度達到每秒 210 個 Tokens,非常适合需要快速響應的應用。
接下來三種支持多模态輸入,并輸出文本内容的多模态模型。
其中 Lite 模型同樣是一種低成本的多模态模型,可以快速處理影像、視頻和文本輸入,并輸出文本内容。
賈西表示,在 19 項 Benchmark 測試中,Nova Lite 有 17 項表現優于或等于 OpenAI 的 GPT-4o Mini;在 21 項基準中,有 17 項優于或等于 Google 的 Gemini 1.5 Flash-8B;在 12 項基準中,有 10 項優于或等于 Anthropic 的 Claude Haiku 3.5。此模型在視頻、圖表和文檔理解任務上也有不錯表現表現。
Pro 模型則是一種高性能多模态模型,可以針對多種任務提供最佳的準确性、速度和成本組合。
在 20 項 Benchmark 測試中,Nova Pro 有 17 項優于或等于 OpenAI 的 GPT-4o;在 21 項 Benchmark 測試中,有 16 項優于或等于 Google 的 Gemini 1.5 Pro。
最後也是最強的是,是 Nova Premier,該模型可以用于復雜推理任務,也可作為定制模型蒸餾的最佳「教師」。
賈西沒有給出 Premier 的跑分對比,但從介紹中我們不難推斷:該模型對标的是 OpenAI 9 月發布的 Orion 系列模型。
根據賈西,Amazon Nova Micro、Lite 和 Pro 目前已經全面上市,而 Amazon Nova Premier 計劃在 2025 年第一季度推出。
除了性能以外,賈西表示這些模型還有其他亮點,首先,它們的成本效益很高,相較于 Amazon Bedrock 中的其他優秀模型產品,能便宜大約 75%。此外,它們的速度很快,在延遲方面表現優異,是所能見到的速度較快的模型。
已經上市的模型不僅集成在 Amazon Bedrock 中,還與 Amazon Bedrock 裡的所有功能進行了深度整合。這意味着開發者可以對模型進行微調,或利用 Bedrock 的知識庫、RAG 等對模型增強,或者利用 Bedrock 的蒸餾功能來将大模型的智能「轉移到」更小的模型,從而提高效益并降低延遲。
除了四種生成文本的模型,賈西還預告了兩個生成視覺内容的新模型。
首先是 Amazon Nova Canvas,這是一款最先進的影像生成模型,可以根據文本或影像提示生成專業級的影像。它還提供了一些便捷功能,例如使用文本輸入編輯影像,以及調整配色方案和布局的控制選項。該模型還内置了支持安全和負責任 AI 使用的功能,包括水印功能(可追溯影像來源)和内容審核功能(限制潛在有害内容的生成)等。
在第三方進行的人類對比評估中,Amazon Nova Canvas 的表現優于 OpenAI DALL-E 3 和 Stable Diffusion。下面是由 Amazon Nova Canvas 生成的一系列圖片:
然後是 Amazon Nova Reel,這是一款最先進的視頻生成模型,可通過文本和影像輕松創建高質量視頻,非常适合廣告、營銷或培訓内容創作。用戶可以通過自然語言提示控制視覺風格和節奏,包括鏡頭運動、旋轉和變焦。在第三方進行的人類對比評估中,Amazon Nova Reel 生成的視頻質量和一致性優于 Runway 的 Gen-3 Alpha。
與 Canvas 類似,Nova Reel 也内置了安全和責任 AI 功能,包括水印和内容審核。目前支持生成 6 秒的視頻,未來幾個月将擴展到最長 2 分鍾的視頻生成。
賈西還分享了 Nova 接下來的計劃,首先是在明年開發出上述模型的第二代版本。此外,還會在第一季度推出一個語音到語音的模型,并在明年年中推出一個任意(any)到任意(any)的模型。也就是多模态輸入到多模态輸出的模型,這意味着用戶可以輸入文本、語音、影像或視頻等多種形式的内容,并相應地輸出文本、語音、影像或視頻。
從 Titan 到 Nova,連發兩個大模型的 亞馬遜雲科技,難免會有人擔心與眾多大模型開發商合作的 亞馬遜雲科技 正在改變其模型策略。
賈西顯然意識到了,他在會上自問自答講述了 亞馬遜雲科技 的立場:
「或許大家會問,該如何看待亞馬遜雲科技的模型策略?畢竟我們與眾多模型提供商有着深入的合作關系,同時自己也研發了一些模型。我想說的是,大家可以這樣來看待:我們一直以來的目标就是為大家提供選擇,旨在呈現最廣泛且最優質的功能,這必然意味着會有多樣化的選擇。」
亞馬遜雲科技首席執行官 Matt Garman 介紹,在 Amazon Bedrock 上,開發者可以根據自身需要選擇亞馬遜或者任意生态夥伴的模型。|圖片來源:亞馬遜雲科技
02 全球最大的電商平台,用生成式 AI 幹什麼?
除了發布新的大模型,會上,安迪 · 賈西還詳細介紹了亞馬遜内部的 AI 應用案例。
作為全球最大的電商平台,也作為亞馬遜雲科技的「第一客戶」,亞馬遜在過去一年嘗試為多項業務引入 AI 提效,解決用戶面臨的問題。其中典型的場景如下:
零售業務中獲得更優質的推薦以及個性化推薦;
為履約中心的揀貨員規劃最佳路徑,從而更快地把商品送到客戶手上;
将其應用在我們的 Prime Air 無人機上,期望在未來幾年内實現不到一小時就能為你送貨上門;
Amazon Go 商店的 Just Walk Out 技術、為 Alexa 提供技術支持;
提供 25 種以上的亞馬遜雲科技 AI 服務,方便開發者構建 AI 應用程式。
從亞馬遜觀察到的 AI 用例中,安迪認為,解決問題的 AI 應用(「實用 AI」)有兩種實用價值:降本增效,或者帶來新體驗。
「從全球範圍來看,那些應用 AI 最為成功的公司,主要體現在成本規避和生產力提升方面,而且很多公司在這兩方面都取得了進展。同時,你也開始看到一些完全重新構思、重塑的全新客戶體驗。」
在這兩類 AI 應用上,安迪給了亞馬遜内部的典型使用場景:
降本增效的 AI
1)智能客服
以客戶服務為例,亞馬遜的零售業務有着數億客戶,過去當他們需要聯系客戶服務時,可以聯系聊天機器人,過去這一聊天機器人采用的靜态決策樹的機器學習技術,客戶得輸入大量文字才能獲取答案。
但生成式 AI 對這個系統進行了重構後,現在客戶擁有了一個懂他 / 她的客服機器人。
比如,假如你幾天前訂購了一件商品,進入新的聊天機器人界面時,它知道你是誰、幾天前訂購了什麼、住在哪裡,而且它能通過模型預測到,如果在幾天後聯系客服,大概率是咨詢退貨相關問題。當你開始向它說明情況時,它可以迅速告知你最近的 Whole Foods 或者其他可退貨的實體店位置。并且這個模型很智能,當察覺到用戶對它給出的回復感到沮喪時,還能判斷出用戶可能需要聯系人工客服來解決問題。
在重新設計之前,這個聊天機器人的客戶滿意度就已經挺高了,但自從加入了生成式 AI 這個「智慧大腦」後,客戶滿意度提升了 500 個基點。
2)賣家工單填寫
亞馬遜在全球零售店有大約 200 萬賣家,銷售的商品中超過 60% 是由這群賣家提供的,但他們過去在往網站上架產品時,需要填寫一份很長的、包含很多資料欄的表單,從而讓終端客戶更便捷地浏覽并了解賣家的產品信息,這對賣家來說着實是個繁重的任務。
現在,亞馬遜利用生成式 AI 打造了一款全新的工具,賣家只需輸入幾個字,或者拍張照片,又或者提供一個 URL,這個工具就能幫忙填寫很多產品屬性信息,這對賣家來說輕松多了,目前已經有超過 50 萬賣家在使用這款生成式 AI 工具。
3)庫存管理
亞馬遜零售業務中的庫存管理也是一個大場景,有超過 1000 個不同的建築或節點,從而把合适的產品優化配置到距離最終客戶最近的履行中心或者建築裡,以此節省運輸時間,更快、更低成本地把商品送到你手中。但這也就意味着,要清楚某個履行中心的庫存情況,比如每個商品的庫存水平是多少、哪些商品正在被訂購、訂購的速度如何、這個履行中心是否還有更多的倉儲容量,以及是否需要将庫存轉移到其他履行中心來平衡整個倉儲網絡等問題。
為此,亞馬遜運用 Transformer 模型來解決這些問題并進行預測,當前,一個對長期需求預測的 Transformer 模型已經将預測準确性提高了 10%,區網域預測準确性也提高了超過 20%,在亞馬遜數百億美金的零售業務規模下,兩位數的效率提升意味着數以十億美元計算的成本節省。
4)機器人
在機器人場景上,亞馬遜履行中心已經部署了超過 75 萬台機器人,一系列 AI 技術幫助機器人場景優化了場地容量和傳送能力,縮短處理時間以及為客戶服務的成本。
以 Sparrow 為例,它是一款用于重新分類的機器人手臂。它需要不斷從眾多分散區網域收集物品,并将它們匯聚到容器裡。有了生成式 AI 的大腦,可以告訴 Sparrow 第一個箱子裡裝了什麼物品、要它去拿哪個物品,同時 Sparrow 得辨别出每個物品具體是什麼,還要清楚依據物品的大小、材質以及材質的柔韌性該如何抓取,并且知道能把物品放置在接收箱的哪個位置。
目前,亞馬遜在路易斯安那州什裡夫波特的履約中心推出了大約五項全新的機器人發明,已經看到處理時間提高了 25%,未來,服務成本預計也會降低 25%。
創新客戶體驗的 AI
上述這些都是亞馬遜内部在成本規避和生產力提升方面的實例,亞馬遜也看到了生成式 AI 在創造全新購物體驗方面的作用,賈西也列舉了幾個典型例子。
1)Rufus 購物智能體
第一個應用是,Rufus 購物智能體。
當客戶不确定自己想要什麼,正在糾結選擇時,可能會浏覽商品分類、查看客戶評價等,但現在 Rufus 購物智能體帶來了「真人導購」的體驗。
就像走進實體店,不确定自己想要什麼時,向銷售人員描述一下想法,他們便會推薦可能适合你的商品,繼續問「這個怎麼樣,那個怎麼樣」,他們也能快速回復你。現在,Rufus 帶來了類似的體驗。
借助 Rufus,你可以進入任何產品的詳細信息頁面、提出任何問題,Rufus 都會迅速給出答案。它能幫你對不同產品和類别進行比較,還會給出推薦,你可以提出很寬泛的問題來獲取推薦,它也會進一步詢問一些具體問題,以便更準确地把握你的意圖。比如,你對 Rufus 說:「嘿,我想要我之前一直買的那種高爾夫球杆,你能幫我找找嗎?」Rufus 就能幫你找到。你要是說:「給我查查那些還沒發貨的商品訂單狀态。」它也能幫你查到。
Rufus 相對實體銷售人員有一個優勢,那就是它不會跳槽去别的零售商工作,也不會轉行幹别的,它會一直陪着你,更好地了解你的意圖、興趣以及需求。
2)Alexa
亞馬遜 2014 年推出的 Alexa 也迎來了新的大腦。
Alexa 的目标和使命是打造全球最優秀的個人助理,随着大型語言模型和生成式 AI 的出現,這個目标正在越來越近。Alexa 在亞馬遜銷售的所有設備之間,有着 5 億個活躍節點,人們用它來娛樂、購物、獲取信息以及控制智能家居。
目前亞馬遜正在使用多個基礎模型對 Alexa 進行重構,不僅能讓 Alexa 更好地回答你的問題,還能做到一些當下很少有生成式 AI 應用程式能實現的事,那就是理解并預測你的需求,甚至能替你采取行動。賈西劇透未來幾個月可以看到相關成果。
3)Amazon Lens
亞馬遜官網還上了一個新功能叫 Amazon Lens,假設你在朋友家看到一個很喜歡的花盆,想知道這個花盆是從哪兒買的,問朋友,朋友也不知道。
或許你可以在搜索引擎裡輸入像「亞馬遜、花盆、懸挂、編織」之類的關鍵詞,也許能得到不錯的答案,但也可能一無所獲。
但現在,你可以使用 Amazon Lens,只要拍下這個物品的照片就行。Amazon Lens 會運用計算機視覺以及一個多模态模型,依據照片進行搜索查詢,直接引導你找到亞馬遜上對應的正确搜索結果,方便你輕松購買。
4)尺寸推薦
亞馬遜還構建了一個尺寸推薦的大語言模型,為網上購物帶來了新體驗。
比如買襯衫時,不确定這個品牌的尺碼是偏大還是偏小,也不清楚自己該選中号還是大号。這時,尺寸推薦的模型能分析眾多品牌之間的尺碼關系,對比出哪些品牌尺碼相近,哪些偏大或偏小,然後結合你之前購買過的商品情況,自動為你推薦合适的尺碼。
5)防守警報
賈西還介紹了在視頻領網域所做的事,比如亞馬遜和 NFL 合作的 Next Gen Stats 項目,每個賽季會收集 5 億個數據點,基于這些數據構建 AI 模型,打造了一個叫「防守警報」的功能。
它能顯示出哪個防守球員可能會衝向四分衛,還會在畫面上圈出來,極大地改變了觀眾的觀看體驗;還打造了「防守脆弱性」功能,能夠為觀眾指出進攻方應該重點攻擊的防守薄弱區網域,這些都給球迷帶來了不一樣的觀賽體驗。
朝着降本增效、帶來新體驗的方向,這些是亞馬遜内部正在使用 AI 解決實際問題的場景。安迪 · 賈西表示,在亞馬遜内部已經構建或者正在構建近 1000 個生成式 AI 應用程式。