今天小編分享的科技經驗:大模型讓數據庫行業先撕起來了,Databricks和Snowflake:開發者們你們現在必須選邊站了,歡迎閱讀。
大模型的風已經不可避免地刮到了大數據行業,火藥味還不小。
這不快臨近了有人注意到,兩家大數據行業的 " 宿敵 "Databricks 和 Snowflake,今年雙雙把各自一年一度最重要的峰會選在了同一時段—— 6 月 26 日 -29 日舉辦。
這可是這麼多年來都沒有過的事。
不僅如此,他們還 " 不約而同 " 把今年大會的主題都往 AI 靠攏了。Databricks 直接給大會取名叫 "Data+AI Summit",官網一點進去就是一個碩大的 "Generation AI":
Snowflake 也給自己的大會加了一個很牛的定語," 全球最大的數據、App 和 AI 主題大會 ":
這說明了什麼?說明兩家公司在明目張膽逼着參會者們做選擇:你要去了他們的會,再來我們這恐怕是來不及了。
要知道這倆公司,一個在舊金山,一個在拉斯維加斯,自駕要 9 個小時,飛機也得飛 1 個半小時。參會者想兼得魚和熊掌,怕不是要折騰個夠嗆。
下面重頭戲來了,不僅時間重合,兩家公司都各自請到了重磅嘉賓來發表主題演講—— Databricks 請到的是微軟的 CEO 薩蒂亞 · 納德拉(Satya Nadella),Snowflake 則是英偉達 CEO 黃仁勳。
個個都是大佬。
有網友提醒大家,鑑于兩家公司的峰會在同一時間舉辦," 如果你還沒選邊站,那麼現在該你選擇的時候到了 "。
當然也有不乏準備兩邊跑的人。Striim 公司的產品經理 John Kutay 就計劃在兩個大會上分别發表講話,不過也 " 将評估拉斯維加斯和舊金山兩地的路程和時間 "。
有還沒做好決定的網友問他在 Databricks 上的發言内容會是啥," 我想去,但是到時候還得趕去 SF,唉。"
對此,甚至還有個網友做了個離譜的夢," 剛剛夢到所有人都在 Snowflake 的大會上感染新冠了,因為 Snowflake 不想讓我們參加 Databricks 的峰會…… "
Snowflake 和 Databricks 都是目前大數據分析公司中的佼佼者。前者于 2021 年創辦,并在 2020 年 9 月上市,上市首日收盤股價飙升 111.6%,報 253.93 美元,成為美國有史以來規模最大的軟體 IPO。
此外,Snowflake 的股東名單裡還不乏 Salesforce 和巴菲特這樣大名鼎鼎的投資方。
創辦于 2013 年的 Databricks 則是目前一級市場中的超級獨角獸,曾在 2021 年連續獲得兩輪 10 億美元級别的大額融資,估值高達 380 億美元(2021 年數據)。
一些中國從業者也更習慣叫它 " 磚廠 "。
兩家公司不僅經常被外界拿來做比較,彼此之間也總是明着暗着各種較勁。
最著名的一次喊話是在 2021 年。當時眼看着 Snowflake 靠着雲數據倉庫就做到了千億市值,Databricks 坐不住了,發了一篇文章稱其數據湖技術創下了 TPC-DS 基準測試新記錄。
重點是,Databricks 還強調了第三方研究表明其實際性能可達 Snowflake 的 2.5 倍。
接着過了十天,Snowflake做出回應,發布了自己的測試結果,同時稱 Databricks 公布的性能比較結論缺乏完整性,而且研究本身也存在缺陷。
Snowflake 創始人還強調這種基準測試沒什麼意義,在這個年代發布數據庫基準測試結果是 " 将正常的技術交流變成了缺乏完整性的營銷噱頭 "。
不甘心的 Databricks再次回應,創始人發了一篇博客,這次是更嚴重的指控:Snowflake 為了測試結果竟然改了 TPC-DS 的輸入數據。
從那之後,兩家之間的互嗆就沒有停過。
在去年和投資人 Matt Turck 的一次對話中,Databricks 的聯合創始人兼 CEO Ali Ghodsi 還不避諱地談到了與 Snowflake 的競争。
他先是商業性地誇了下 Snowflake 有着 " 可能是市場上最好的數據倉庫 ",并且 "Databricks 與 Snowflake 将共存于可能 70% 的客戶中 "。
這裡補充一點,Snowflake 主要用的是數據倉庫技術,Databricks 用的則是數據湖技術,這也是兩家技術思路最主要的不同。
接着 Ali Ghodsi 就宣傳起了自家的數據湖," 公有雲計算供應商有動力推動更多人把數據存到他們的數據湖中……我認為數據湖的範式将獲勝。"
產品性能上的你追我趕還沒完,現在 Databricks 和 Snowflake 又暗戳戳在大模型上較上勁了。
Databricks 在今年 3 月發布了一個名叫 Dolly(據說是為了向第一只克隆羊多莉致敬)的開源大語言模型,稱 " 只需 30 美元、一台伺服器和三個小時,我們就能教 Dolly 開始進行人類級别的互動 "。
這明擺着也是在針對 ChatGPT 這樣門檻更高的產品,意思就是 AI 不再是只有大型科技公司才能負擔得起的東西,不用拿多少融資,任何人都能開發出一個真正像人類的 AI。
Databricks 接着又在 4 月發布了該大語言模型的開源迭代版本 Dolly 2.0。
Snowflake 這邊也在不斷炒作大模型,在 4 月發布文章稱正在為生成式 AI 和大語言模型搭建一個以數據為中心的平台,并在文中詳細解讀了這麼做的依據和将帶來的影響。
随後的 5 月,Snowflake 宣布收購初創公司 Neeva,以在其數據雲平台中添加基于 AI 的生成搜索。
雖然在 AI 大模型方面兩家公司還沒有互踏進對方的領地,不過這次年度峰會舉辦時間的重疊已經說明了他們的态度。
有趣的是,有人在谷歌搜索 "Snowflake conference",出來的第一個結果卻是 Databricks 家的大會鏈接,其次才是 Snowflake 的。
就等于說,Databricks 買了競争對手的關鍵字,來賣自己的廣告。
我們也發現,在谷歌同時輸入 "Databricks+Snowflake" 搜索,前兩條都是廣告(這個結果是動态展示的)—— Databricks 依然在競價排名的第一位置宣傳着自己取得的成績,但第二則是一家技術服務商,在宣傳自己幫客戶遷移到 Snowflake 的服務,這個投放甚至比前面有人發現的兩家直接競價的情況更有意思,Databricks 依然可以被解讀為(在商業攻勢上)進攻性更強、更有戰鬥力的一方,但在兩家的競争中一些技術服務商也在抓緊尋找商機,而且似乎更認為轉移到 Snowflake 的需求更大…
不論如何,一場大戰又要打響了。現在大模型領網域不缺攪局者,到了 Databricks 和 Snowflake 這裡,興許就成了誰先幹掉誰的問題。