今天小編分享的科技經驗:谷歌I/O十大重磅發布:生成式AI殺瘋全場,首發折疊屏手機,歡迎閱讀。
智東西(公眾号:zhidxcom)
作者 | ZeR0
編輯 | 漠影
智東西5月11日報道,今日凌晨,在一年一度的谷歌I/O開發者大會上,谷歌CEO桑達爾·皮查伊 (Sundar Pichai)宣布:"對于生成式AI,我們正以一種大膽而負責任的方式邁出下一步。"
生成式AI是本場大會的絕對主角。在大會開場前,谷歌先發布了一款用生成式AI設計的卡牌遊戲I/O FLIP。從影像到文本描述都是AI生成的。
開源代碼:https://github.com/flutter/io_flip
緊接着,多位谷歌高管輪番上陣,公布了一系列與生成式AI相關進展,涉及全新大模型、AI聊天機器人、搜索、辦公軟體、雲服務、安卓系統等,包括:
1、AI大模型:新一代語言模型PaLM 2擅長多語言翻譯、推理、編程,部分測試表現超過GPT-4,共有4種規格,最輕量級可部署于移動設備;多模态大模型Gemini正在訓練中。
2、AI聊天機器人:Bard已取消等候名單,向180多個國家及地區開放,新增支持韓文和日本,今年夏天将新增對中文等另外40種語言的支持;問答新增圖片輸入輸出。
3、Pixel硬體:發布Pixel 7a智能手機、谷歌首款折疊屏手機Pixel Fold、Pixel Tablet平板電腦。
4、AI搜索:谷歌生成式AI實驗版搜索引擎展示對話功能,搜索生成體驗開放注冊。
5、Workspace:對标微軟Office全家桶,讓AI寫郵件、畫圖、制表、代寫文稿。
6、谷歌雲:生成式AI協作工具Duet AI提供代碼輔助和聊天輔助功能,谷歌推出基于NVIDIA H100 GPU的A3新實例。
7、AI工具:通過構建評估工具、增加水印和元數據等方式檢測AI生成内容,用AI讓照片編輯功能更加簡單,谷歌地圖沉浸式視圖上線在即。
8、安卓:增加由生成式AI驅動的信息回復、生成式AI桌面功能。
9、3D魔鏡:推出最新Starline項目原型,幾個标準攝像頭就能產生更高質量的逼真3D影像。
10、生命研究:包括谷歌工程師在内的100多名科學家組成的聯盟宣布了世界上第一份人類泛基因組參考草案,論文登上今日國際頂級學術期刊Nature的封面。
一、PaLM 2:新一代語言模型,部分基準測試表現超過GPT-4
谷歌新一代大型語言模型PaLM 2采用谷歌最新的TPU基礎設施進行訓練,擅長數學、推理、多語言翻譯、編程。在MATH等任務的基準測試中,PaLM 2的部分性能表現超過了GPT-4。
1、多語言:PaLM 2對多語言文本進行了更多的訓練,覆蓋100多種語言。PaLM 2還通過了高級語言能力考試,達到"精通"水平。
2、推理:PaLM 2的廣泛數據集包括包含數學表達式的科學論文和網頁,因此它在邏輯、常識推理和數學方面比上一代更強。
3、編程:PaLM 2是在大量公開可用的源代碼數據集上進行預訓練的,接受了超過20種編程語言的預訓練,擅長Python、JavaScript等流行編程語言,同時也可以用Prolog、Fortran和Verilog等語言生成專門的代碼。它不僅能夠理解、生成和調試代碼,還能解釋修復錯誤背後的原因,以便開發者在世界各地進行協作。
為了方便廣泛部署,谷歌構建了4種規格的PaLM 2大模型,分别是Gecko(壁虎)、Otter(水獺)、Bison(野牛)、Unicorn(獨角獸)。
其中Gecko非常輕量級,可在移動設備上工作,并且速度足夠快,即便在離線情況下也能在設備上運行出色的互動式應用程式。
谷歌還宣布超過25款由PaLM 2驅動的新產品和新功能。
例如,谷歌健康研究團隊用醫學知識對PaLM 2進行微調,開發了Med-PaLM 2。這是第一個在美國醫療執照考試風格的問題上達到專家水平的大型語言模型,可以檢索醫學知識、回答問題、生成有用的模板、解碼醫學術語。
谷歌正在為其增加多模式功能來合成信息,比如胸部X光和乳房X光檢查等影像,希望有一天能改善病人的治療效果。Med-PaLM 2将在今年夏天晚些時候向一小部分雲客戶開放。
除了推動科學研究外,PaLM 2還幫助改進日常應用。例如,Sec-PaLM是經過安全用例訓練的PaLM 2的專門版本。通過谷歌雲,它使用AI來幫助分析和解釋潛在惡意腳本的行為,可以更好地檢測哪些腳本實際上對個人和組織構成威脅。
最近谷歌大腦和DeepMind合并成一個團隊,正專注于安全、負責地構建更強大的系統,包括仍在訓練中的其下一代基礎模型Gemini。
據悉,Gemini是多模态大模型,在工具和API集成方面效率很高,跟PaLM 2将有不同規格。
自今日起,開發者可以注冊使用PaLM 2模型,谷歌客戶可在Vertex AI中使用具有企業級隐私、安全和管理的模型。
二、Bard:引入圖片問答,新增多項導出功能
谷歌今日宣布的Bard更新涉及擴大訪問範圍、新增影像功能、優化編程功能和應用程式集成。從今日起,Bard将完全運行在PaLM 2之上。
Bard已取消等候名單,向180多個國家和地區開放,并新增對日文和韓文的支持。Bard很快将支持40種語言,包括中文。
具體功能上,Bard的聊天問答新增影像互動。
你可以問它:"新奧爾良有哪些必看景點?"Bard的回復不僅有文字,還有豐富的圖片。
你也可以向Bard輸入影像。比如上傳一張兩只小狗照片,讓Bard寫個有趣的标題。
短短幾秒鍾内,Bard就能借助Google Lens對照片進行分析,檢測狗的品種,然後起草出一些創造性的說明文字。
此外,Bard更新了編程和導出功能,包括:
1、來源引用:如果Bard引用了一段代碼或其它内容,只需點擊注釋,Bard就會在這些部分下劃線,并鏈接到源代碼或内容。
2、暗黑模式:開發者喜歡這個模式。
3、導出按鈕:開發者喜歡導出到Colab的功能,所以Bard很快将添加導出和運行代碼功能,與其合作夥伴Replit一起,從Python開始。
此外,谷歌推出了另外兩個導出操作,方便用戶将Bard的回復直接導出到Gmail和Docs中。
未來谷歌計劃将各種谷歌應用程式和服務的功能整合到Bard的體驗中。
Bard還将能夠利用網絡上的各種服務,通過外部合作夥伴進行擴展。接下來幾個月,谷歌計劃将Adobe的創意生成式AI模型家族Adobe Firefly集成到Bard中,這樣用戶就能輕松快速地将自己的創意轉化成高質量影像,然後進一步編輯或添加到Adobe Express中的設計中。
比如,向Bard輸入:"在孩子聚會上制作一個獨角獸和蛋糕的影像。"Bard幾秒鍾内就生成了符合要求的全新影像。
三、Pixel硬體產品上新:智能手機、折疊屏手機、平板電腦
谷歌還推出了Pixel 7a、Pixel Fold和Pixel Tablet平板電腦。Pixel 7a即日起可購買,Pixel Fold和Pixel Tablet的預訂現已開放。三款設備都采用了谷歌旗艦芯片Google Tensor G2。
Pixel 7a起售價499美元,包含了谷歌高端手機的許多必備功能,比如人臉解鎖、8GB内存、90Hz顯示屏、無線充電等等。Pixel 7a擁有AI驅動的Pixel Call Assist電話呼叫功能和實時翻譯、語音信息轉錄等語音功能。
Pixel Fold是谷歌首款折疊屏手機。谷歌稱它比市場上任何其他可折疊手機都要薄,擁有折疊屏手機中最好的攝像頭,打開後螢幕尺寸是7.6英寸,預定價格1799美元,并将贈送Pixel Watch。
Pixel Tablet平板電腦擁有11英寸顯示屏,預售價499美元,可與充電音箱底座搭配使用。放到音箱上時,它就相當于變成了一個帶屏智能音箱,可以作為智能家居的中控設備。
當它處于Hub模式時,點擊Google Home圖示就能訪問所有兼容的智能家居設備,包括查看視頻門鈴、調節恒溫器、打開客廳的燈等等。它也是第一款内置Chromecast的平板電腦,用戶可以從手機上播放視頻或音樂。
為了讓平板電腦和折疊屏手機更好用,谷歌宣布了50多個谷歌應用程式的更新,以更充分地利用更大的螢幕。
谷歌智能家居軟體Google Home也進行了更新,應用程式中的新設備選項卡為用戶提供了一個清晰的視圖和中央位置來管理所有智能家居設備,包括與Matter配對的設備。
四、搜索:用生成式AI改變信息組織方式
在搜索中引入生成式AI功能,有助于更快理解主題,發現新的觀點和見解,更輕松地完成任務。
比如輸入問題:"對于一個有3歲以下孩子和一只狗的家庭來說,bryce canyon和arches哪個更好?"生成式AI會迅速整理出可用的關鍵信息,還提供有相應鏈接。
同時,界面上有建議的後續問題,當你點擊這些按鈕,就會進入一個新的對話模式,然後你可以詢問更多問題。
搜索中的生成式AI還可以幫助用戶在購物時全面了解,獲得產品相關描述,包括最新的評論、評級、價格、產品圖片等等。
這種新的生成式AI購物體驗構建于谷歌購物圖(shopping Graph)上。谷歌購物圖擁有超過350億個產品列表,其產品、賣家、品牌、評論和庫存數據集不斷刷新,從而提供新鮮訊息。
谷歌在搜索實驗室進行了一個名為SGE(搜索生成體驗)的實驗,今天開放注冊,将于未來幾周在美國推出。
有了SGE,搜索廣告将繼續出現在整個頁面的專用廣告位。在這種新的體驗中,廣告商仍然有機會在他們的搜索旅程中接觸到潛在客戶。
谷歌致力于提高透明度,使廣告與自然搜索結果區别開來。當搜索廣告出現時,它們會标識清晰透明的廣告标籤,并以黑體字顯示"贊助"标籤。
五、谷歌Workspace:AI做圖繪表寫文稿
多年來,谷歌AI進步已經幫助超過30億用戶節省了時間,比如智能撰寫、智能回復、為文檔生成摘要等功能。僅在過去一年,這些AI功能就在Workspace中被使用了超過1800億次。
有了更強大的生成模型後,谷歌将在Gmail中進一步推出"幫我寫作(help me write)"功能。只要輸入你的要求,點擊創建,一份完整的草稿就寫好了,你可以在此基礎上進一步完善它。
谷歌Workspace中的Duet AI提供了Slides幻燈片和Meet視頻會議中的影像生成工具、Sheets表格中的創建自定義計劃等工具。
首先,谷歌宣布将Gmail的智能寫作體驗帶到移動設備上,增加起草回復功能。用戶僅輸入幾個詞作為提示詞,就能讓AI起草完整的郵件回復。
谷歌也将Duet AI嵌入到Slides幻燈片中。用戶輸入幾個單詞就能生成影像。
制表也更加方便。Duet AI通過自動化數據分類和自定義計劃的創建,可以幫助用戶比以往更快地分析和處理Sheets表格中的數據。
同樣的,将Duet AI整合到Meet視頻通訊軟體中,點擊幾下就能生成獨特的自定義背景。
如果你在Docs文檔中寫一份工作描述,Duet AI不僅會幫助你寫内容,還會包括智能芯片,比如位置和狀态等信息,以及比如你的公司名稱之類的一些個性化細節變量。它還提供有校對功能。
在I/O大會上,谷歌介紹了可以體驗谷歌早期功能和產品創意的實驗室(Labs),即日起可報名申請參加一系列實驗的有限名額:
1、搜索實驗室:在谷歌搜索中探索信息的新方式,如SGE(搜索生成體驗),提供AI的概述、指針和後續建議。
2、Workspace實驗室:在谷歌Workspace中創建和與AI協作的新功能,比如在谷歌Docs文檔和Gmail中編寫建議,在Sheets工作表中組織數據,在Slides幻燈片中生成文本生成影像。
3、Tailwind項目:一個AI筆記本,由你的筆記和資源驅動。
4、MusicLM:把文字描述變成音樂的工具。
六、谷歌雲Duet AI:對戰微軟Copilot,讓雲服務更好用
谷歌雲宣布推出新的生成式AI協作工具Duet AI,為雲服務用戶輔助編程,補全上下文代碼,提供變成建議,實時生成整個代碼函數,以及協助進行代碼審查和檢查。從功能來看,基本上跟微軟Copilot對标。
PaLM 2為谷歌雲Duet AI提供支持。Duet AI将為任何類型、任何技能水平的用戶提供支持,既能為開發者提供代碼建議,為數據工程師提供基于提示詞的數據洞察,也能為業務用戶創建基于聊天功能的應用程式。業務用戶借助聊天功能能夠獲得特定開發或雲相關問題的答案。
Duet AI可嵌入到谷歌雲接口中,包括集成開發環境(IDE)、谷歌雲Console乃至聊天功能。
對于希望更簡單有效地創建生成式AI應用的開發者,谷歌雲AI產品還引入了新的基礎模型和功能。為了繼續支持和激勵更多的客戶和合作夥伴,谷歌正在Vertex AI中開放生成式AI支持。
新的基礎模型可在Vertex AI中訪問:谷歌代碼生成基礎模型Codey,通過代碼生成、代碼完成和代碼聊天幫助加速軟體開發;文生圖基礎模型Imagen,可以讓客戶生成和定制工作室級影像;先進語音模型Chirp,支持語音控制、字幕和語音輔助等語音任務。這些模型均可通過API訪問,通過生成式AI Studio進行調整,并具有企業級的安全性和可靠性。
AppSheet的Duet AI将支持用戶創建智能業務應用程式,連接他們的數據,并通過自然語言将工作流構建到谷歌Workspace中。無需編程,用戶将能夠通過在AI提示引導下的聊天中描述他們的需求來構建應用程式。這可以讓開發團隊将時間集中在其他高影響力的工作上。
文本嵌入(Text Embeddings)API是一個新的API端點,支持開發者基于對文本或影像的語義理解構建推薦引擎、分類器、問答系統、相似性匹配和其他復雜的應用程式。
Vertex AI是超大規模企業中第一個将人類反饋強化學習(RLHF)作為托管服務提供的端到端機器學習平台,支持組織結合人類反饋來深度定制和改進模型性能,教會模型避免不适當的輸出。
支撐所有這些創新的是谷歌AI優化的基礎設施。谷歌宣布構建基于NVIDIA H100 GPU的新A3虛拟機,這些虛拟機與最近發布的G2虛拟機一起為訓練和服務AI模型提供了全面的GPU功能。
A3是第一個使用谷歌定制設計的200Gbps IPU的GPU實例,相比A2虛拟機可實現高達10倍的網絡帶寬,具有低尾部延遲和高帶寬穩定性。
A3超級計算機的規模提供高達26EFLOPS的AI性能。A3虛拟機也非常适合推理工作負載,與谷歌由NVIDIA A100 Tensor Core GPU*支持的A2虛拟機相比,其推理性能提升了30倍。
七、AI工具:鑑别真偽、照片編輯與沉浸式地圖
針對生成式AI會產生錯誤信息的問題,接下來幾個月内,谷歌搜索将添加一個用于核查圖片信息可信度的評估工具,提供關于相應圖片的有用背景信息,比如類似的圖片可能首次出現的時間和地點,以及它在網上的哪些其他地方被發現。
為了識别出AI生成内容,谷歌計劃很快将水印、元數據及其他技術創新集成到最新的生成模型中。元數據允許内容創建者将附加上下文與原始檔案相關聯,從而提供更多信息。谷歌将确保每一張AI生成的影像都有這個元數據。
谷歌還訓練了一個檢測合成音頻的分類器,準确率接近99%。
谷歌相冊中的魔法編輯器Magic Editor采用生成式AI,讓照片編輯變得更加簡單。它幫助用戶對照片中的特定區網域進行編輯,也可以優化整體構圖,将拍攝主體置于最佳位置。無論是更換天空背景,還是挪動照片中的人,操作都非常輕松。
谷歌地圖即将上線Immersive View沉浸式視圖功能。該功能使用計算機視覺和AI技術将數十億街景和航拍影像融合在一起,創建一個豐富的數字世界模型。用戶可以看到所需路線的所有信息,預覽自行車道、人行道、十字路口和停車位,查看空氣質量信息及路況變化。
通過新的鳥瞰圖API,開發者可以輕松将興趣點的3D鳥瞰視頻集成到自己的應用程式中,為人們提供更多關于一個地方的視覺信息。谷歌還通過Map Tiles API推出了一個實驗性的Photorealistic 3D Tiles,來幫助開發者定制3D地圖。
八、安卓:生成式AI驅動的信息回復和個性化桌面
谷歌分享了用AI技術讓安卓手機更具個性化,包括Magic Compose、電影桌面和生成式AI桌面。
Magic Compose由生成式AI提供支持,可幫助用戶在對話中添加額外的個性。它會根據你的信息上下文提供建議回復,甚至能将你寫的内容轉換成不同的風格。該功能将在夏季推出測試版。
表情桌面支持用戶用自己最喜歡的表情組合、圖案和顏色來定制設備。電影桌面采用機器學習網絡,能将用戶最喜歡的照片轉換成3D影像。生成式AI桌面使用谷歌的文本到影像擴散模型,用戶輸入自己創意想法的描述後,手機就能生成相應的獨特桌面以供選擇。
為了避免"防丢神器"被濫用于侵犯用戶安全,谷歌将在今年夏季晚些時候推出全新的"查找我的設備"體驗,在安卓上推出未知追蹤器警報。手機确定周圍有未知追蹤器在移動時,就會自動通知用戶。用戶可以查看物理禁用跟蹤器并停止更新位置,并能主動搜索附近的未知追蹤器。
谷歌将繼續将安卓帶到新的螢幕上,正在與三星合作打造一個基于安卓的全新沉浸式XR平台。
九、3D魔鏡:最新原型大降硬體成本
今日谷歌推出了最新的3D視頻會議系統Starline項目原型。該項目的演示效果非常神奇,就好像你坐在一面魔鏡前,可以跟遠隔千裡的另一個人實時交談,而鏡中人擁有宛如真人的立體感和大小,就好像那個人坐在你對面一般。
谷歌早期的Starline項目原型占據了整個房間,需要復雜的硬體,系統的規模和復雜性使其難以應用于很多辦公室中。
因此,對于其最新原型機,谷歌開發了新的AI技術,只需要幾個标準攝像頭就能產生更高質量的逼真3D影像。其原型機現在更像一個傳統的視頻會議系統,從一個餐廳攤位的大小縮小到一個平板電視,變得更容易部署和訪問。
十、AI助攻生命研究突破:世界上第一個人類泛基因組參考
包括谷歌研究中心的工程師在内,一個由來自60個機構的119名科學家組成的聯盟,在今日登上國際頂級學術期刊Nature封面的一篇論文中,宣布了第一份人類泛基因組參考草案。
目前的人類參考基因組只代表一個人在DNA上每個點的數據,與之不同的是,泛基因組參考基因組包括來自每個位置的許多個體的數據。這創造了一種更好地代表人類遺傳多樣性的新資源,使科學家和醫生能夠更準确地診斷和治療疾病,并開發新的治療方法。
為了促進該聯盟的努力,谷歌工程師幫助開發和應用深度學習方法來解決基因組學方面的挑戰。工程師們采用了用卷積神經網絡識别基因變異的開源工具DeepVariant。該聯盟利用這些改進的方法改進了泛基因組分析技術,并消除了人類基因組長而特别難以解碼的片段的測序錯誤。
谷歌的DeepConsensus使用transformer來糾正測序儀器數據中的錯誤,幫助提高了用于構建泛基因組的數據的準确性。利用DeepConsensus數據,該聯盟能夠開發出一種長讀匯編器,最終準确率超過99.999%。
論文鏈接:https://www.nature.com/articles/s41586-023-05896-x
結語:谷歌自揭AI攻略
皮查伊說,谷歌有15種產品的用戶數超過5億,其中6個產品的用戶數量超過20億,這給了谷歌很多機會來實現"組織世界上的信息,使其普遍可用和有用"的永恒使命。
展望未來,谷歌将通過4個重要方式讓AI對每個人都有幫助:1)增強知識和學習,加深人們對世界的理解;2)激發創造力和生產力;3)讓開發者和企業能夠構建自己的變革性產品和服務,賦能他人創新;4)通過負責任地構建和部署人工智能,讓每個人都能平等受益。