今天小編分享的科技經驗:扎克伯格最新采訪:Meta最強開源模型Llama 3憑什麼值百億美金,歡迎閲讀。
劃重點:
1 Meta發布了80億和700億參數兩個版本的Llama 3,扎克伯格預計4050億參數頂配版将在今年晚些時候推出。
2 扎克伯格預計,AI終将能夠理解并表達情感,Llama-10或未來的模型版本有望完全取代人類程式員。
3 在大模型開發過程中,扎克伯格認為出現資金不足問題前,可能會率先遇到能源瓶頸。
4 扎克伯格并不認為AI會在一夜之間出現失控的局面,并相信人類将有足夠的時間去适應。
5 扎克伯格證實,Meta可能很快就會在自研芯片上訓練大模型,但Llama-4可能還無法做到。
騰訊科技訊 4月19日消息,據國外媒體報道,美國當地時間周四,Facebook母公司Meta重磅推出了其迄今最強大的開源人工智能(AI)模型——Llama 3,意圖在激烈的行業競争中追趕領先者OpenAI。此次發布的Llama 3模型,包括80億和700億參數的兩個版本,而未來還将推出超過4000億參數的頂配版,凸顯了Meta在AI領網域的雄心壯志。
據悉,Llama 3在多項行業基準測試中表現出卓越的性能,并新增了諸多功能,如改進的推理能力等。Meta計劃将Llama 3深度整合到其虛拟助手Meta AI中,這款助手已廣泛應用于Facebook、Instagram、WhatsApp和Messenger等熱門應用,并即将迎來新一輪的更新,為用户帶來更加智能、便捷的體驗。
此外,Meta還宣布Llama 3将很快在亞馬遜AWS、谷歌雲、IBM的雲平台WatsonX、微軟雲Azure和英偉達的NIM等平台上推出,并得到了AMD、戴爾、英特爾、英偉達等硬體巨頭的支持。這一系列的合作與整合,無疑将進一步加速Llama 3在全球範圍内的普及和應用。
在Meta發布Llama 3的重要時刻,該公司首席執行官馬克·扎克伯格(Mark Zuckerberg)接受了知名科技播客主持人達瓦克什·帕特爾(Dwarkesh Patel)的專訪。他們圍繞Llama 3、通用人工智能(AGI)、能源瓶頸問題、人工智能技術的戰略意義、開源的潛在風險、元宇宙(Metaverse)等話題展開了深入的探讨。同時,扎克伯格還分享了開源100億美元模型和定制芯片源代碼的決策過程。
以下為此次專訪實錄:
01 Llama 3頂配版正在訓練中
帕特爾:馬克,非常榮幸能夠邀請你來到我們的播客節目。
扎克伯格:感謝你的邀請,帕特爾。很高興能來,我一直都很喜歡你們的播客節目。
帕特爾:太好了,謝謝!現在,讓我們先來聊聊Llama 3吧!請給我分享一些關于這個最新大模型和Meta AI的亮點和激動人心的新進展。
扎克伯格:我想大多數人可能更關注Meta AI的新版本,但實際上,我們在模型更新方面所做的努力才是重中之重。我們正在推出Llama 3。我們既将其作為開源項目提供給開發者社區,也将用它來支持Meta AI。關于Llama 3,我相信我們會有很多有趣的話題要聊。但我認為,最重要的是,現在我們相信Meta AI是最智能、最自由可用的AI助手,人們可以随時随地使用它。
此外,我們還整合了谷歌和必應的實時知識,讓AI助手能夠提供更準确、更全面的信息。我們計劃讓它在我們的應用中變得更加顯眼,比如在Facebook和Messenger的頂部,你将能夠直接使用搜索框來提出任何問題。除了這些,我們還增加了一些全新的創作功能,我認為這些功能非常酷,相信大家一定會喜歡。
尤其是動畫功能,你可以輕松地将任何圖片制作成動畫,這非常有趣。這裏有一個令人驚奇的功能,就是它能夠在你打字的同時,實時生成并更新高質量影像。你只需要輸入查詢内容,比如"給我展示一張在田野裏吃夏威夷果、喝啤酒的場景,背景裏有奶牛、有山",它就會根據你的輸入實時更新影像,這種體驗簡直太神奇了。我相信大家會喜歡這個功能。
這就是大多數人将會看到的一些明顯變化。我們正在逐步推出這些新功能,雖然目前還不是全球範圍内都可用,但我們會先從一些國家開始,并在接下來的幾周和幾個月内逐步擴大範圍。
我認為這将是一個非常大的突破,我很高興能讓大家體驗到它。但如果你想要深入了解的話,Llama 3無疑是我們最具技術趣味性的部分。我們正在訓練三個不同規模的Llama 3模型,包括80億參數、700億參數以及4050億參數版本。
目前,前兩個版本已經準備就緒,而最大規模的模型仍在訓練中。雖然今天我們不能立即發布4050億參數的版本,但我對80億和700億參數模型的表現充滿信心。它們在各自的規模上均處于行業領先地位,我們也将通過博客文章詳細公布它們的基準測試結果,讓大家能夠深入了解它們的性能。
當然,Llama 3是開源的,這意味着開發者們将有機會親自嘗試并探索它的潛力。我們還有一系列精心規劃的發布路線圖,将帶來多模态、更多語言支持以及更長的上下文視窗(Context Window,是指語言模型在生成文本時,所考慮的文本片段的大小範圍)等功能。預計在今年晚些時候,我們将推出那款令人期待的4050億參數版本。根據目前的訓練進展,它的MMLU(跨模态學習理解)得分已經接近85,我們預期它将在眾多基準測試中展現出卓越的性能。
至于700億參數的模型,它同樣表現出色。今天我們正式發布它,它的MMLU得分約為82,并在數學和推理方面取得了不俗的成績。我相信,讓用户能夠體驗到這款模型将會非常有趣和有意義。
我想強調的是,即使是80億參數的模型,其性能也幾乎與我們之前發布的Llama-2版本相媲美。這意味着,即使是"最小"的Llama-3,在功能上也幾乎與"最大"的Llama-2一樣強大。
帕特爾:在我們深入剖析這些模型之前,我想回溯一下歷史。我記得,在2022年,Meta面臨着股價的大幅下滑,當時人們對你們采購英偉達H100芯片的大筆投資充滿了疑惑。元宇宙的概念并未得到市場的廣泛認可,我猜想,你那時投資H100的決策,是出于何種考量呢?你是如何預知到這些GPU的需求的?
扎克伯格:我想,當時我們正處于Reels項目的開發階段。我們始終堅信,要預留足夠的容量來應對那些尚未預見到的創新,而Reels項目正是一個這樣的例子。我們發現,為了訓練模型,我們需要更多的GPU。這是一個巨大的轉變,因為我們的服務不再僅僅基于你所關注的人或頁面來排列内容,而是開始大力推薦所謂的"未連接内容"——那些來自你未關注的人或頁面的内容。
因此,我們可能展示的内容候選集已經從數千個激增到了數億個。這自然需要一個全新的基礎設施來支撐。我們已經在構建這樣的基礎設施,但在追趕TikTok的步伐時,我們遇到了瓶頸,無法迅速達到我們的期望。看到這種情況,我意識到:"我們必須确保自己不再陷入這種被動局面。所以,我們不僅訂購了足夠完成Reels和内容排序工作的GPU,而且訂購量還翻了一番。"我們始終堅守的原則是,未來總會有我們無法預見的新事物出現,我們必須為此做好準備。
帕特爾:你知道那會是人工智能嗎?
扎克伯格:我們原本以為這應該與訓練大模型有關。但随後我意識到,它與内容推薦更為緊密相關。經營公司,就像打遊戲,總有新的挑戰出現。當時,我全身心投入Reels和其他内容推薦功能的開發中,希望它們能發揮巨大作用。如今,Instagram和Facebook能夠向用户展示他們感興趣的内容,即使這些内容來自他們未曾關注的人,這無疑是一個巨大的飛躍。回顧過去,那個決定無疑是明智的,它源于我們曾經落後的教訓。這并不是説我們曾經"遙遙領先"過,實際上,很多決定之所以現在看來正确,是因為我們曾犯過錯誤,并從中汲取了教訓。
帕特爾:2006年,你拒絕了10億美元的收購提議,但我想,應該有一個價格,你會考慮出售Facebook,對吧?你心中有沒有一個估值,覺得"這才是Facebook真正的價值,而他們并沒有給出這個價錢?" 我知道,如果給你開出5萬億美元,你肯定會欣然接受。那麼,你如何看待這個決定,是基于怎樣的考量呢?
扎克伯格:我認為,這主要是個人選擇的問題。回首當年,我并不确定自己是否已經足夠成熟來做出這樣的決策。周圍有很多人都在讨論10億美元的價格,他們基于各種理由進行分析,比如預期的收入和規模。但這些都遠遠超出了我們當時所處的階段。説實話,我當時并沒有足夠的财務知識來參與這樣的讨論,但我内心深處對我們所做的事情有着堅定的信念。
我也做過一些簡單的分析,比如"如果我不做這個,我會去做什麼?其實,我很喜歡創造新東西,喜歡幫助人們進行溝通,喜歡了解人們的動态以及人與人之間的互動。所以,我想,如果我賣了公司,我可能又會去創造另一個類似的公司,而且我還挺滿意現在這個公司的。那麼,為什麼要賣呢?"我認為,人們做出的很多重大決定,其實都是基于我們的信念和價值觀。實際上,通過分析來準确預測未來是非常困難的。
02 通往AGI之路
帕特爾:Facebook人工智能研究所(FAIR)歷經了漫長的歲月,如今它似乎已深深嵌入到你們公司的核心之中。我想請教一下,在何時,構建通用人工智能(AGI)或你們所追求的那個宏偉目标,成為了Meta的首要任務?
扎克伯格:其實,這個轉變已經悄然發生了一段時間。大約在10年前,我們創立了FAIR。當時的初衷是,在邁向通用人工智能或其他類似目标的道路上,會有許多創新湧現,而這些創新将不斷推動我們各項業務的進步。因此,我們并沒有将FAIR作為一個獨立的產品來構思,而是作為一個研究團隊來組建。在過去的10年裏,FAIR創造了許多獨特的成果,為我們的所有產品帶來了顯著的改進。它推動了多個領網域的發展,并為這些領網域内的其他創新者提供了靈感,它也因此創造出了更多改進我們產品的技術。這讓我感到非常振奮。
近年來,随着ChatGPT的崛起以及影像創作領網域擴散模型的湧現,我們明顯感受到了一股巨大的變革之風。這些新技術令人嘆為觀止,它們将深刻影響人們與各個應用的互動方式。因此,我們決定組建第二個團隊——通用人工智能團隊,旨在将這些前沿技術融入我們的產品中,并構建能夠支撐所有不同產品的領先基礎模型。
當我們開始這一探索時,我們最初的想法是,我們所做的很多事情都具有很強的社交屬性。它幫助人們與創作者互動,幫助人們與企業溝通,也幫助企業銷售產品或提供客户服務。此外,它還可以作為智能助手,集成到我們的應用中、智能眼鏡以及虛拟現實中。因此,我們起初并不完全确定是否需要一個完整的通用人工智能來支持這些用例。然而,随着我們在這些細微之處深入工作,我逐漸意識到,實際上通用人工智能的支持是必不可少的。例如,在開發Llama-2時,我們并沒有優先考慮編碼功能,因為人們并不會在WhatsApp上向Meta AI提出大量的編碼問題。
帕特爾:現在他們會嗎?
扎克伯格:我不知道,也不确定WhatsApp、Facebook或Instagram是否會成為用户提出大量編碼問題的界面。或許是在我們即将上線的Meta.AI網站上,編碼問題會更為普遍。然而,過去18個月裏,我們驚訝地發現,編碼實際上在眾多領網域中都扮演着至關重要的角色,而不僅僅局限于編程行業。即使用户并未直接提出編碼相關的問題,對模型進行編碼訓練也有助于它們更為精确地回答問題,并在不同領網域的推理中展現出卓越的能力。以Llama-3為例,我們專注于通過大量的編碼訓練來優化它,因為這将使其在各個方面都表現出色,即便用户的主要關注點并非編碼問題。
推理能力則是另一個絕佳的例證。設想一下,當你與創作者交流,或作為企業試圖與客户互動時,這種互動遠非簡單的"你發信息,我回復"模式。它涉及一個多步驟、深層次的思考過程,需要我們思考"如何更好地實現這個人的目标?"很多時候,客户并不清楚自己真正需要什麼,或如何準确地提出問題。因此,僅僅回答問題并非人工智能的全部工作。我們需要更全面、更深入地思考,這實際上已轉化為一個推理問題。如果某個團隊在推理方面取得了重大突破,而我們仍停留在基礎的聊天機器人階段,那麼我們的產品與其他團隊所構建的產品相比,将顯得黯然失色。最終,我們意識到,為了保持領先,我們必須全力解決通用智能問題,因此我們加大了賭注和投資,以确保能夠取得這一突破。
帕特爾:那麼,能夠解決所有這些用户用例的Llama版本,是否足夠強大到可以替代這座大樓裏所有程式員的水平呢?
扎克伯格:我認為,随着時間的推移,這些技術将逐步成熟并展現出巨大的潛力。然而,關于Llama-10或未來的版本是否能完全取代程式員,這是一個復雜的問題。我并不認為我們是在試圖取代人類,而是希望通過這些工具,賦予人們更強大的能力,讓他們能夠完成更多以前難以想象的工作。
帕特爾:假設我們的程式員未來在使用Llama-10後,他們的工作效率會提升10倍嗎?
扎克伯格:我對此抱有極高的期望。我深信,人類的智能并非只由單一标準來衡量,因為每個人都擁有獨特的技能和才華。在某個時刻,人工智能可能會在某些方面超越大多數人類的能力,但這完全取決于模型的強大程度。然而,我認為這是一個逐步演進的過程,通用人工智能并非一蹴而就的事情。我們其實是在逐步為模型增加不同的能力。
目前,多模态是我們重點關注的領網域,從最初的照片、影像和文本,未來還将涉及到視頻。鑑于我們對元宇宙的濃厚興趣,3D技術也顯得尤為重要。此外,我特别關注的一個模态是情感理解,這是我在行業中鮮少看到其他團隊深入研究的領網域。畢竟,人類大腦的大部分功能都致力于理解他人、解讀表情和情感。我堅信,如果我們能夠在這方面取得突破,使人工智能能夠真正理解并表達情感,那麼人與機器之間的互動将會變得前所未有的自然和深入。
你可能會認為這僅僅是視頻或影像的範疇,但實際上,它們是人類情感表達非常專業的一個版本。因此,除了提升模型在推理和記憶方面的能力外,我們還需要關注許多其他不同的能力。我相信,在未來,我們不會僅僅滿足于将問題輸入一個查詢視窗來尋求答案。我們将會有不同的記憶存儲方式或定制模型,這些模型将更加個性化地服務于人們。這些都是人工智能所需發展的不同能力。當然,我們還需要解決模型的大小問題。我們既關心大型模型,也關心如何在有限的空間内運行小型模型。例如,如果你正在運行類似Meta AI這樣的大型服務,那麼它主要依賴于伺服器端的強大計算能力。然而,我們也期待這些先進的技術能夠融入小巧的設備中,比如智能眼鏡。由于智能眼鏡的空間非常有限,因此我們需要開發一種高效且輕量級的解決方案來适應這一環境。
帕特爾:假設我們投入100億美元,甚至最終高達1000億美元,用于在工業規模上實施智能推理,那麼這些資金将用于哪些具體用例呢?是模拟技術嗎?還是元宇宙中的人工智能應用?我們該如何有效利用數據中心來支持這些用例?
扎克伯格:根據我們的預測,智能推理将深刻改變幾乎所有的產品形态。我認為,未來我們将看到一種Meta AI通用助手產品的出現。這種產品将從傳統的聊天機器人逐漸演變而來,從簡單地回答問題,發展到能夠接收并執行更復雜的任務。這将需要大量的推理能力,同時也将引發對計算能力的巨大需求。
此外,與其他智能主體(Agent,是指人工智能系統所具備的智能能力和行為表現,包括感知、認知、推理、決策和行動等方面,從而在人機互動的環境中擔任主導角色,實現與人類的智能互動)的互動,也将成為我們工作的重要部分,無論是為企業還是創作者服務。我認為,人類不會只與一個通用的人工智能互動,每個企業都将希望擁有代表其利益的人工智能。這些人工智能不會主要用來銷售競争對手的產品,而是通過獨特的方式與企業、創作者和消費者互動。
特别值得一提的是,創作者将成為受益于此項技術的重要群體。我們平台上擁有約2億創作者,他們普遍覺得每天的時間不夠用,而他們的社區又渴望與他們互動。如果我們能夠開發出一種技術,讓創作者能夠訓練自己的人工智能,并借助它與社區保持互動,那将是非常強大的功能。
這些只是消費者用例的一部分。以我和我的妻子經營的陳-扎克伯格基金會為例,我們正在科學領網域開展許多工作,而人工智能無疑将在推動科學、醫療保健等領網域的進步中發揮關鍵作用。最終,智能推理将影響幾乎每一個產品和經濟領網域。
帕特爾:你提及了能夠執行多步驟任務的人工智能,這不禁讓我好奇,這是否意味着我們需要一個更龐大的模型來實現這一功能?比如,對于Llama-4,我們是否需要一個擁有700億參數的版本,僅需在正确的數據上進行訓練,它就能展現出驚人的能力?目前,我們的進展主要表現在哪些方面?是模型規模的擴大嗎?還是如您之前所説,是保持模型大小不變,但功能和應用場景更加多樣化?
扎克伯格:關于這個問題,我們目前可能還沒有明确的答案。但我觀察到的一個明顯趨勢是,我們有一個基礎的Llama模型,然後圍繞它構建一些特定于應用程式的代碼。這些代碼有些是針對特定用例的微調,但也有一些是關于如何讓Meta AI與谷歌、必應等工具協作以獲取實時知識的邏輯,這些并不是Llama基礎模型的一部分。在Llama-2的開發過程中,我們嘗試将一些這樣的功能融入模型,但更多是通過手工的方式。對于Llama-3,我們設定了一個目标,那就是将更多的此類功能内嵌到模型本身中。當我們開始探索更多類似智能主體的行為時,我認為其中一些功能仍然需要通過手工方式進行優化。而對于Llama-4,我們的目标是将更多的這些功能自然而然地融入模型中。
在每一步的進展中,你都能感受到未來可能的發展方向。我們開始嘗試各種可能性,圍繞模型進行各種實驗。這有助于我們更深入地理解,哪些功能應該被納入下一個版本的模型中。這樣,我們的模型就能變得更加通用,因為顯然,任何通過手工編碼實現的功能雖然可以解鎖一些用例,但在本質上都是脆弱且不夠通用的。我們的目标是讓模型能夠自我學習、自我進化,以适應各種復雜多變的場景。
帕特爾:你提到的"将更多内容納入模型本身",能否具體解釋一下,您是如何通過訓練将這些期望的功能融入模型中的?你所説的"納入模型本身"具體指的是什麼?
扎克伯格:以Llama-2為例,它的工具使用功能相對具體和有限。而到了Llama-3,我們欣喜地發現其工具使用能力得到了顯著提升。現在,我們不必再手動編碼所有内容來使其能夠使用谷歌進行搜索,它已經能夠獨立完成這些任務。同樣,在編程、運行代碼以及其他一系列任務上,Llama-3也展現出了出色的能力。一旦我們獲得了這種能力,就可以預見我們接下來可以開始探索哪些新的可能性。我們不必等到Llama-4的出現才開始構建這些能力,因此我們可以提前圍繞它進行各種嘗試和實驗。雖然這些手工編碼的過程可能會使產品暫時變得更好,但它也為我們指明了在下一個版本的模型中應該構建哪些内容的方向。
帕特爾:在開源社區對Llama-3進行的微調中,你最期待看到哪些用例?也許不是對你最有實用價值的那個,而是你最感興趣、最想嘗試的那個。比如,我聽説有人對古代歷史方面進行了微調,使得我們可以直接與古羅馬詩人維吉爾(Virgil)等歷史人物進行對話。
扎克伯格:我認為這類事物的魅力就在于它總能帶給我們驚喜。任何我們認為有價值的特定應用案例,都有可能去嘗試構建。我相信我們會看到更多精簡版本的模型出現。我也期待看到一個參數更少、更輕量級的模型,比如一個只有10億到20億參數的模型,甚至是一個5億參數的模型,看看它們能帶來哪些有趣且高效的應用。如果一個80億參數的模型幾乎與最大的Llama-2模型一樣強大,那麼一個10億參數的模型應該也能在某些領網域展現出其獨特的價值。它們可以用于分類任務,或者用于在人們理解用户查詢意圖并将其傳遞給更強大的模型進行精确處理之前的預處理工作。我認為這将是社區可以發揮巨大作用的一個領網域,幫助我們填補這些模型在應用上的空白。當然,我們也在考慮對這些模型進行精簡和優化,但目前我們的所有GPU資源都主要用于訓練4050億參數的模型。
帕特爾:你之前提到的GPU數量,我記得你説年底前會達到35萬個。
扎克伯格:對,那是我們的總目标。目前,我們已經建立了兩個大型的GPU集群,每個集群擁有約22000到24000個GPU,它們主要用于訓練大型的模型。當然,這些集群還承擔着我們公司其他許多重要的訓練任務,比如Reels模型、Facebook新聞推送和Instagram推送的訓練等。推理對我們來説确實是一個巨大的挑戰,因為我們需要為龐大的用户群體提供服務。與其他從事類似工作的公司相比,我們所需的推理計算與訓練計算的比例可能要高得多,這主要是因為我們所服務的社區規模極其龐大。
帕特爾:我注意到,在你們之前分享的材料中,有一個非常引人注目的點,那就是你們在訓練模型時使用的數據量實際上超過了僅用于訓練時的計算最優數據量。考慮到推理對你們和整個社區的重要性,擁有一個包含數萬億個token的模型确實非常有意義。
扎克伯格:關于700億參數的模型,我們觀察到一個有趣的現象。原本以為随着數據量的增加,模型的性能提升會逐漸趨于飽和。然而,我們訓練了大約15萬億個token後,發現模型仍然在不斷學習。即使在訓練的最後階段,它仍然展現出了強大的學習能力。我們或許還可以繼續給它輸入更多的token,以進一步提高其性能。
但作為公司的經營者,我們需要在某個時刻做出決策:是否應該繼續将GPU資源用于進一步訓練這個700億參數的模型?還是應該轉向其他方向,比如開始為Llama-4測試新的假設?我們需要在這兩者之間找到平衡。目前,我認為我們在這個版本的700億參數模型上已經取得了不錯的平衡。當然,未來我們還會推出其他版本,比如700億參數的多模态版本,這将在接下來的一段時間内與大家見面。但有一點非常令人着迷,那就是目前的模型架構竟然能夠容納如此龐大的數據量。
03 能源瓶頸
帕特爾:這确實引人深思。那麼,對于未來的模型來説,這意味着什麼呢?你之前提及Llama-3的80億參數版本在某些方面甚至超越了700億參數的Llama-2。
扎克伯格:不、不,我可不想誇大其詞。它們的表現其實相當接近,數量級上非常相似。
帕特爾:那麼,我們是否可以期待Llama-4的700億參數版本能夠與Llama-3的4050億參數版本相媲美呢?未來的發展趨勢又會是怎樣的呢?
扎克伯格:這确實是一個大問題。説實話,沒人能确切預測。世界上最難預測的事情之一就是指數級增長的趨勢。它會持續多久?我堅信,我們将會繼續向前邁進。我認為,投入100億美元,甚至1000億美元以上來建設基礎設施是非常值得的。假設這種增長趨勢能夠持續,我們将會得到一些真正令人震撼的成果,從而打造出令人驚嘆的產品。但業内沒有人能确切地告訴你,它一定會以那個速度繼續擴展。從歷史上看,我們總會在某個時刻遇到發展的瓶頸。但如今,人們對這個領網域寄予了極高的期望,或許這些瓶頸會很快被克服。這确實是一個值得我們深入思考的問題。
帕特爾:假設沒有這些瓶頸,世界會呈現怎樣的面貌呢?盡管這似乎不太可能,但如果技術進步真的能夠繼續以這種速度發展下去呢?
扎克伯格:無論如何,總會有新的挑戰和瓶頸出現。在過去的幾年裏,GPU的生產就是一個明顯的問題。即使有錢購買GPU的公司,也往往難以獲得所需的數量,因為供應受到限制。但這種情況似乎正在逐步改善。如今,我們看到越來越多的公司正在考慮投入巨資來建設生產GPU的基礎設施。我認為這種情況還會持續一段時間。
此外,資本投入也是一個需要考慮的問題。在什麼時候,投入更多的資本就不再具有性價比了呢?實際上,我認為在我們遇到資本投入問題之前,能源問題會率先顯現。據我所知,目前還沒有人能夠建造出一個千兆瓦特的單一訓練集群。我們會遇到一些在全球範圍内都會變得日益困難的事情,比如獲取能源許可。這不僅僅是一個軟體問題,它涉及到政府的嚴格監管,我認為這比我們許多技術界人士所感受到的還要嚴格。當然,如果你是從小公司起步的,可能這種感覺并不那麼強烈。但當我們與不同的政府部門和監管機構打交道時,我們需要遵守大量的規則,并确保我們在全球範圍内都做得合規。但毫無疑問,能源方面将是我們面臨的一個主要限制。
如果你談論的是建造大型新發電廠或大型建築,并需要跨越其他私有或公有土地來建設輸電線路,那麼這将是一個受到嚴格監管的項目。你需要考慮的是多年的前置時間。如果我們想要建立一個龐大的設施,為其提供動力将是一個長期而復雜的項目。我相信人們會努力去實現這一目标,但我不認為這會像達到某種人工智能水平、獲得大量資本并投入其中那樣簡單和神奇,然後突然之間模型就會有飛躍式的進步。
帕特爾:在推動人工智能發展的道路上,我們是否會遇到一些連Meta這樣的公司都無法獨自克服的瓶頸?是否存在某些項目,即使是像Meta這樣的公司也沒有足夠的資源去完成?即使你們的研發預算或資本支出預算增加10倍,仍然無法實施?這是否是你心中所想,但鑑于目前的Meta,你們甚至無法通過發行股票或債券來籌集足夠的資金?
扎克伯格:能源問題無疑是其中的一大挑戰。我堅信,如果我們能夠解決能源供應的問題,我們完全有可能建造出比現在規模更大的算力集群。
帕特爾:那麼,這從根本上來説是資金瓶頸的限制嗎?
扎克伯格:資金确實是其中一個方面,但我認為時間也是一個不可忽視的因素。目前,許多數據中心的規模大約在50兆瓦到100兆瓦之間,大型的可能會達到150兆瓦。假設你擁有一個完整的數據中心,并配備了所有必要的訓練設備,你建造了目前技術允許的最大集群。我認為很多公司都已經接近或達到了這樣的水平。但是,當我們談論建造300兆瓦、500兆瓦甚至1吉瓦的數據中心時,情況就完全不同了。目前,還沒有人嘗試過建造1吉瓦的數據中心。我相信這将成為可能,只是需要時間的積累。然而,這不會發生在明年,因為其中涉及的許多事情需要數年時間來完成。從這個角度來看,我認為一個1吉瓦規模的數據中心将需要一個相當于核電站的能源供應來支持模型訓練。
帕特爾:亞馬遜是否已經在這方面有所嘗試?他們似乎有一個950兆瓦的設施。
扎克伯格:關于亞馬遜的具體做法,我并不是非常了解,你可能需要直接向他們詢問。
帕特爾:訓練不一定非得局限在單一地點,對吧?如果分布式訓練是有效的,那麼其實我們可以考慮将它分散到多個地方進行。
扎克伯格:我認為這是一個非常重要的問題,關乎于未來訓練大型模型的方式。從目前的發展趨勢來看,通過推理生成合成數據,再将這些數據用于模型的訓練,似乎是一個很有潛力的方向。雖然目前我還不清楚這種合成數據與直接訓練之間的比例會是多少,但我相信合成數據的生成在某種程度上已經越來越接近推理的過程。顯然,如果這種方式被用于訓練模型,那麼它将成為整個訓練流程中不可或缺的一部分。
帕特爾:所以,這仍然是一個懸而未決的問題,關于如何找到這種平衡,以及它未來的發展方向。那麼,這種趨勢有可能在Llama-3,甚至Llama-4及以後的版本上實現嗎?也就是説,如果你們發布了模型,那些擁有強大計算能力的實體,比如科威特或阿聯酋,他們就可以利用這類模型,使某些應用變得更加智能。
扎克伯格:我完全同意這種可能性。确實,我認為将來會有這樣的動态發展。但同時,我也認為模型架構本身存在某些根本的局限性。以Llama-3為例,盡管我們已經取得了顯著的進步,但我相信其架構仍有進一步優化的空間。正如我之前所説,我們感覺通過提供更多的數據或者進行某些關鍵步驟的迭代,模型的性能還可以繼續提升。
事實上,我們已經看到許多公司基于Llama-2的700億參數模型架構構建出了新的模型。然而,對于像Llama-3的700億或4050億參數這樣的模型,要進行代際改進并非易事,目前還沒有類似的開源模型出現。我認為這是一個巨大的挑戰,但也是一個巨大的機遇。然而,我仍然認為,基于現有的模型架構,人們能夠構建出的東西并不是無限可擴展的。在達到下一個技術飛躍之前,我們可能只能在現有基礎上進行一些優化和改進。
04 AI會在一夜之間失控嗎?
帕特爾:下面讓我們從更宏觀的角度來看,你認為未來幾十年人工智能技術将如何發展?它是否會讓你覺得像另一種技術,比如元宇宙或社交技術,還是你覺得它在人類歷史上具有根本性的不同?
扎克伯格:我認為人工智能将會是非常基礎性的技術。它更像計算機的發明,将催生一系列全新的應用。就像網絡或手機的出現,使得許多以前不可能的事情變得可能,人們開始重新思考這些體驗。因此,我認為人工智能将會帶來類似的變革,但它是一種更深層次的創新。我的感覺是,它就像是從沒有計算機到有計算機的轉變。然而,要準确預測它究竟會如何發展,确實很難。從更長的宇宙時間跨度來看,這一變革将會很快發生,可能就在幾十年内。有些人确實擔心它會迅速失控,一夜之間從某種程度的智能變得極其智能。但我認為,由于存在許多物理限制,這種情況不太可能發生。我并不認為我們會一夜之間面臨人工智能失控的局面。我相信我們将有足夠的時間去适應。但人工智能将真正改變我們的工作方式,為人們提供創新的工具去做不同的事情。它将使人們能夠更自由地追求他們真正想做的事情。
帕特爾:也許不是一夜之間,但從宇宙時間的角度來看,你認為我們可以這樣看待這些裏程碑嗎?人類進化了,然後人工智能出現了,接着它們可能走向銀河系。這可能需要幾十年,也可能需要一個世紀,但這是你眼中正在發生的宏偉計劃嗎?我指的是像計算機甚至是火這樣的其他技術,但人工智能本身的發展是否與人類最初的進化一樣重要?
扎克伯格:我認為這很難判斷。人類的歷史基本上是一部逐漸認識到我們在某些方面并不獨特,但同時又意識到人類仍然非常特别的歷程。我們曾認為地球是宇宙的中心,但事實并非如此,然而人類依然保持着非凡的特質,對吧?我認為人們經常存在另一種偏見,即認為智能與生命在某種程度上有着緊密的聯系,但事實并非如此。我們還沒有對意識或生命有足夠清晰的定義來全面理解這個問題。有很多科幻小説描述了智能生命的創造,這些智能開始展現出各種人類般的行為等。但目前的趨勢似乎表明,智能可以相當獨立于意識、能動性和其他特質存在,這使得它成為一個非常有價值的工具。
05 開源的危險
扎克伯格:預測這些事物随時間發展的方向極具挑戰性,因此,我認為任何人都應避免以教條的方式規劃它們的開發或用途。每次發布新產品時,我們都需要重新評估。我們非常支持開源,但并不意味着我們會公開所有成果。我傾向于認為,開源對社區和我們自身都是有益的,因為這将促進創新。然而,如果某個時刻,這些技術的能力發生了質的變化,而我們覺得開源是不負責任的,那麼我們會選擇不公開。這一切都充滿了不确定性。
帕特爾:當你們研發Llama-4或Llama-5時,有沒有可能出現某種具體的質的變化,讓你們考慮是否應該開源?
扎克伯格:這個問題很難從抽象的角度來回答,因為任何產品都可能存在潛在風險,關鍵在于我們如何有效地管理和緩解這些風險。在Llama-2中,我們已經面臨了一些挑戰,并投入了大量資源來确保它不會被用于不良目的,如暴力行為等。這并不意味着它已經成了智能主體,只是因為它擁有大量有關世界的知識,能夠回答一系列可能帶來風險的問題。因此,我認為問題在于如何識别并緩解其潛在的不良行為,而非行為本身。
在我看來,評估事物的好壞涉及多個維度,很難事先列舉所有可能性。以社交媒體為例,我們已經處理了多種類型的危害行為,并将它們分為18或19個類别。我們建立了人工智能系統來識别這些行為,以減少它們在我們平台上的發生。随着時間的推移,我相信我們會進一步細化這些分類。這是我們一直在努力研究的問題,因為我們希望确保對此有深入的理解。
帕特爾:我認為廣泛部署人工智能系統,讓每個人都有機會使用它們是非常重要的。如果未來的人工智能系統沒有得到廣泛應用,我會感到失望。同時,我也希望更深入地了解如何緩解潛在風險。如果緩解措施主要是微調,那麼開放模型權重的好處在于,人們可以基于這些能力進行更深入的調整。目前,這些模型還遠未達到那個水平,更像是高級搜索引擎。但如果我能向它們展示我的培養皿,并讓它們解釋為什麼我的天花樣本沒有生長以及如何改進,那麼在這種情況下,如何确保安全和有效地使用這些模型呢?畢竟,有人可能會對這些模型進行微調以滿足自己的需求。
扎克伯格:确實,這是一個復雜的問題。我認為,大多數人會選擇直接使用現成的模型,但也有一些心懷不軌的人可能會試圖利用這些模型進行不良行為。因此,這個問題确實值得我們深思。從哲學角度來看,我之所以如此支持開源,是因為我認為未來如果人工智能過度集中化,其潛在風險可能不亞于它的廣泛傳播。許多人都在思考:"如果我們能夠做到這些,那麼這些技術在社會上的廣泛應用是否會成為壞事?"同時,另一個值得思考的問題是,如果一個機構擁有比其他所有人更強大的人工智能,這是否也是一件壞事?
我可以用安全領網域的一個類比來解釋。想象一下,如果你能夠提前了解并利用某些安全漏洞,那麼你幾乎可以輕松地入侵任何系統。這并不僅僅局限于人工智能領網域。因此,我們不能單純依賴一個高度智能的人工智能系統來識别并修復所有漏洞,盡管這在理論上似乎可行。那麼,我們社會是如何應對這一問題的呢?開源軟體在其中扮演了重要角色。它使得軟體的改進不再局限于單一公司的範圍,而是能夠廣泛應用于各種系統,包括銀行、醫院和政府機構。随着軟體的不斷完善,得益于更多的人可以參與查看和測試,關于這些軟體如何工作的标準也逐漸建立。當需要更新時,全世界可以迅速共同行動。我認為,在一個人工智能廣泛部署的世界中,随着時間的推移,這些人工智能系統會逐步得到加固,所有不同的系統都将以某種方式得到控制。
在我看來,這種分布式、廣泛部署的方式比集中化的方式更為健康。當然,各方面都存在風險,但我認為人們并沒有充分讨論這種風險。确實存在人工智能系統被用于不良行為的風險。然而,我更擔心的是,一個不可信的實體擁有超級強大的人工智能系統,我認為這可能是一個更大的風險。
帕特爾:他們會不會因為擁有别人沒有的武器而試圖推翻我們的政府?或者只是制造大量的混亂?
扎克伯格:直覺告訴我,出于經濟、安全和其他多種原因,這些技術最終會變得非常重要和有價值。如果我們的敵人或我們不信任的人獲得了更強大的技術,那麼這确實可能成為一個嚴重的問題。因此,我認為最好的緩解方式可能是推動好的開源人工智能的發展,讓它成為行業的标準,并在多個方面發揮領導作用。
帕特爾:開源人工智能系統确實有助于建立一個更公平、更平衡的競技場,這在我看來是極為合理的。如果這種機制能夠成功運作,那無疑是我所期待的未來。然而,我想進一步探讨的是,從機制層面來看,開源人工智能是如何防止有人利用他們的人工智能系統制造混亂的?比如説,如果有人試圖制造生物武器,我們是否可以通過在全球範圍内進行大量的研發,以極快的速度開發出相應的疫苗來應對?這其中的具體運作機制是怎樣的呢?
扎克伯格:從我之前提及的安全角度來看,我認為擁有較弱人工智能系統的人試圖入侵受更強人工智能保護的系統,其成功率會相對較低。
帕特爾:但是,我們如何确保世界上的所有事情都能像這樣得到妥善處理呢?比如説,生物武器的情況可能并非如此簡單。
扎克伯格:确實,我無法斷言世界上的所有事情都能如此順利解決。生物武器是那些對此類問題深感憂慮的人們所關注的焦點之一,我認為這種擔憂是有道理的。盡管存在一些緩解措施,例如嘗試不在模型中訓練某些知識,但我們必須認識到,在某些情況下,如果遇到了極其惡劣的行為者,且沒有其他人工智能來制衡他們并了解威脅的嚴重性,那麼這确實可能成為一個風險。這是我們必須高度重視的問題之一。
帕特爾:在部署這些系統時,你有沒有遇到過一些出乎意料的情況?比如,在訓練Llama-4的過程中,它可能出于某種原因對你撒謊。當然,對于Llama-4這樣的系統,這種情況可能并不常見,但你有沒有考慮過類似的情況?比如,你會非常擔心系統的欺騙性,以及這個系統的數十億個副本在野外自由傳播可能帶來的問題?
扎克伯格:目前,我們已經觀察到許多幻覺現象。我認為,如何區分幻覺和欺騙是一個值得深入探讨的問題。确實,存在許多風險和需要考慮的因素。在運營我們的公司時,我試圖至少平衡這些長期的理論風險與我認為目前确實存在的實際風險。因此,當談到欺騙時,我最擔心的是有人可能會利用這種技術制造錯誤信息,并通過我們的網絡或其他網絡進行傳播。為了對抗這種有害内容,我們正在構建比敵對系統更智能的人工智能系統。
這構成了我對此事的部分理解。通過觀察人們在社交網絡上造成或試圖造成的不同類型的傷害,我發現其中有些傷害并非極具對抗性。舉例來説,仇恨言論在某種層面上并非高度對抗性,因為人們并沒有因為網絡言論而變得更加種族歧視。在這一方面,我認為人工智能在處理這些問題時通常比人類更為復雜和迅速。然而,我們雙方都存在問題。人們可能出于各種目的做出不當行為,無論是試圖煽動暴力還是其他不當行為,但我們也不得不面對大量的誤報情況,即我們可能錯誤地審查了一些本不應審查的内容。這種情況無疑讓許多人感到困擾。因此,我相信随着人工智能在這方面變得越來越精确,情況将會逐漸改善。
無論是Llama-4還是未來的Llama-6,我們都需要深入思考我們觀察到的行為,而且不僅僅是我們。你選擇将這個項目開源,部分原因也是因為有眾多的研究者也在致力于此。因此,我們希望能夠與其他研究者共享觀察結果,共同探索可能的緩解策略,并在确保一切安全的前提下,考慮将其開源。在可預見的未來,我樂觀地認為我們能夠做到這一點。同時,在短期内,我們也不能忽視人們今天試圖利用模型進行不當行為的問題。即使這些行為并非毀滅性,但在運營我們的服務時,我們也深知一些相當嚴重的日常危害。
帕特爾:我發現合成數據的事情真的非常有趣。使用當前的模型,通過反復利用合成數據,可能會存在一個性能漸近線,這是有理論依據的。但假設這些模型變得更加聰明,能夠利用你在論文或即将發布的博客文章中提到的那種技術,找到最正确的思維鏈。那麼,你為何認為這不會導致一個循環,即模型變得更聰明,產生更好的輸出,進而變得更聰明,如此往復呢?當然,這種變化不會一夜之間發生,但經過數月或數年的持續訓練,模型的确有可能變得更加智能。
扎克伯格:我認為,在模型架構的參數範圍内,這種循環提升是有可能發生的。然而,就目前的80億參數模型而言,我并不認為它們能夠達到與那些擁有數百億參數、并融入了最新研究成果的先進模型相同的水平。
帕特爾:關于這些模型,它們也将是開源的,對吧?
扎克伯格:是的,确實如此。但是,這一切的前提是我們必須成功解決先前讨論過的那些挑戰和問題。我們當然希望如此,但我也深知在構建軟體的每個階段,盡管軟體本身有着巨大的潛力和可能性,但在某種程度上,其運行仍然受到芯片性能的物理限制。因此,我們總是面臨着各種物理層面的約束。模型能夠變得多大,實際上取決于我們所能獲取并用于推理的能量有多少。我對于人工智能技術的未來持非常樂觀的态度,相信它們将繼續迅速發展和改進。與此同時,我也比一些人更為謹慎。我并不認為失控的情況會特别容易發生,但我們仍然需要保持警惕,并認真考慮各種可能的風險。因此,我認為保持開放選擇是非常有意義的。
06 凱撒大帝與元宇宙
帕特爾:好的,讓我們轉向另一個話題——元宇宙。在人類歷史的長河中,哪個時期你最想深入探索?是從公元前10萬年到現在,你只是想一窺那時的風貌嗎?這個探索必須局限于過去嗎?
扎克伯格:确實,我更傾向于探索過去。美國歷史、古典歷史以及科學史都深深吸引着我。我認為,能夠觀察并理解那些重大歷史進步是如何發生的,将是一件非常有趣的事情。然而,我們所能依賴的,只是那些有限的歷史記載。對于元宇宙來説,想要完全重現那些我們沒有記錄的歷史時期,恐怕會非常困難。實際上,我并不認為回到過去會是元宇宙的主要應用之一,雖然這樣的功能在歷史教學等方面可能會很有用,但對我而言,最主要的事情是,無論我們身處世界的哪個角落,都能與他人實時互動、共同存在,我堅信這才是殺手級應用。
在之前關于人工智能的對話中,我們深入探讨了許多背後的物理限制。技術教給我們的一個寶貴經驗是,我們應該努力将更多事物從物理束縛中解放出來,轉移到軟體領網域,因為軟體不僅更容易構建和進化,而且更易于普及。畢竟,不是每個人都能擁有數據中心,但很多人都能編寫代碼、獲取開源代碼,并對其進行修改和優化。元宇宙正是實現這一目标的理想平台。
這将是一個颠覆性的巨大變革,它将極大地改變人們對聚集和互動的認知。因此,人們将不再覺得為了完成許多事情而必須親自聚在一起。當然,我也深信在某些情境下,親自相聚仍然具有無可替代的價值。這并非是一種非此即彼的選擇,元宇宙的出現并不意味着我們要完全放棄面對面的交流。然而,它确實為我們提供了一個全新的維度,讓我們能夠更加便捷、高效地進行社交、建立聯系、完成工作,并在工業、醫學等眾多領網域發揮巨大的作用。
帕特爾:我們之前提到過一件事,你并沒有以十億美元的價格出售公司。對于元宇宙,你顯然也有着堅定的信念,盡管市場對此有所質疑。我很好奇,這種信心的來源是什麼?你説過"哦,我的價值觀,我的直覺",但這樣的説法似乎有些籠統。你能具體説説與你自己有關的某些特質,或許我們能更好地理解你為何對元宇宙如此有信心。
扎克伯格:我認為這涉及到幾個不同的問題。首先,關于是什麼驅動我不斷前進?我們已經讨論了很多主題。我熱愛創造,特别是圍繞人們如何交流、表達自己和工作的創造。在大學時,我主修計算機科學和心理學,這兩個領網域的交集對我來説一直是非常關鍵的。這也是我強烈的驅動力所在。我不知道如何解釋,但我内心深處總覺得,如果我不去創造一些新東西,那我就做錯了什麼。即使在我們為投資1000億美元于人工智能或元宇宙制定商業計劃時,我們的計劃已經相當清晰地表明,如果這些項目成功,将會帶來巨大的回報。
但當然,你不能從一開始就确定一切。人們總會有各種争論和質疑。就像"你怎麼會有足夠的信心去做這件事?"對我來説,如果有一天我停止嘗試創造新東西,那我就失去了自我。我會去别的地方繼續創造。從根本上説,我無法想象自己只是運營某樣東西,而不去嘗試創造我認為有趣的新事物。對我來説,我們是否要嘗試建造下一個東西,這不是問題。我就是無法停止創造。不僅在科技領網域,我在生活的其他方面也是如此。例如,我們家在考艾島建了一個牧場,我親自參與了所有建築的設計工作。當我們開始養牛時,我就想:"好吧,我要養出世界上最好的牛。"然後我們開始規劃,如何建立起我們需要的一切來實現這個目标。這就是我!
帕特爾:我一直對一件事感到好奇:在高中和大學時期,年僅19歲的你就閲讀了大量的古代和古典書籍。我想知道,你從這些書籍中學到了哪些重要的教訓?不僅是你覺得有趣的内容,更重要的是,考慮到你當時所接觸的知識範圍畢竟有限。
扎克伯格:有一件事情讓我深感着迷,那就是凱撒·奧古斯都如何成為皇帝,并努力建立和平。在那個時候,人們對和平并沒有真正的概念,他們理解的和平,只不過是在敵人再次攻擊之前的短暫間歇。他有着改變經濟從依賴雇傭軍和軍事主義到實現正和遊戲的遠見,這在當時是非常新穎的想法。這反映了一個非常基本的事實:人們在當時所能想象到的合理工作方式的邊界。
這個觀念既适用于元宇宙,也适用于人工智能這樣的領網域。許多投資者和其他人難以理解我們為什麼要開源這些技術。他們可能會説:"我不明白,既然開源了,那你們制作專有技術的時間豈不是會縮短?"但我認為,這在技術領網域是一個深刻的觀念,它實際上創造了更多的赢家。我不想過分強調這個類比,但我确實認為,很多時候,人們難以理解構建事物的模型,難以理解這對人們為什麼會是一件有價值的事情,或者為什麼這會是世界上一個合理的狀态。實際上,合理的事情比人們想象的要多得多。
帕特爾:這真的很有意思。我可以分享一下我的想法嗎?可能有些離題,但我覺得,這也許是因為歷史上一些重要人物在年輕時就已經嶄露頭角。例如,凱撒·奧古斯都在19歲時就已經成為羅馬政治界的重要人物,他領導戰鬥,并建立了同盟。我想知道,19歲的你是不是也有過類似的想法:"既然凱撒·奧古斯都做到了,那麼我也能做到。"
扎克伯格:這确實是一個有趣的觀察,它不僅來自豐富的歷史,也與我們美國的歷史相呼應。我很喜歡畢加索説的一句話:"所有孩子都是藝術家,挑戰在于長大後如何保持藝術家的身份。"年輕時,我們更容易擁有瘋狂的想法。在你的生活、公司或你所建立的任何事物中,都存在一種與創新者困境類似的類比。在職業生涯的早期階段,你更容易調整方向,接受新想法,而不會因對其他事物的承諾而受阻。我認為,這也是經營公司的一個有趣部分:如何保持活力,如何持續創新?
07 開源價值100億美元的模型
帕特爾:讓我們重新回到投資者和開源的話題上。設想一下,我們擁有一個價值高達100億美元的模型,且這個模型經過了嚴格的安全評估。同時,評估者們也能對模型進行微調。那麼,你會開源價值100億美元的模型嗎?
扎克伯格:只要這對我們有利,那麼開源就是一個值得考慮的選項。
帕特爾:但你真的會這麼做嗎?畢竟,這是投入了100億美元研發成本的模型,現在卻要将其開源。
扎克伯格:這是一個我們随着時間流逝需要仔細權衡的問題。我們有着悠久的開源軟體傳統。通常來説,我們并不會将產品直接開源,比如Instagram的代碼。然而,我們确實會開源很多底層的基礎設施。比如,我們歷史上最大的開源項目之一便是開放計算項目(Open Compute Project),我們将伺服器、網絡交換機和數據中心的設計全部開源。最終,這為我們帶來了巨大的益處。盡管很多人都能夠設計伺服器,但如今整個行業基本上都以我們的設計為标準。這意味着整個供應鏈都是圍繞我們的設計建立起來的,從而提高了生產效率,降低了成本,為我們節省了數十億美元。這實在是太好了。
開源可以以多種方式幫助我們。其中一種方式就是,如果人們能夠找到更經濟高效地運行模型的方法,那麼這對我們來説将是一個巨大的利好。畢竟,我們在這上面的投入将達到數十億,甚至數百億美元。因此,如果我們能夠提高10%的效率,那麼我們将能夠節省數十億或數百億美元。而且,如果市場上還有其他競争模型存在,我們的開源行為并不會給予某個模型瘋狂的優勢。相反,它将促進整個行業的進步和發展。
帕特爾:你如何看待模型訓練是否會走向商品化的趨勢呢?
扎克伯格:我認為訓練的發展有多種可能性,其中商品化确實是其中之一。商品化意味着随着市場上選擇的增多,訓練的成本将大大降低,變得更加親民。另一種可能性是質量的提升。你提到了微調,目前對于許多大型模型來説,微調的選項仍然相當有限。雖然有些選擇存在,但通常并不适用于最大的模型。如果我們能夠克服這一挑戰,實現更廣泛的微調功能,那麼不同應用或特定用例中将能夠展現出更多樣化的功能,或者将這些模型集成到特定的工具鏈中。這不僅可以加速開發進程,還可能促成質量上的差異化。
這裏,我想用一個類比來説明。在移動生态系統中,一個普遍存在的問題是存在兩家守門人公司——蘋果和谷歌,它們對開發者構建的内容施加限制。從經濟層面來看,這就像我們在構建某樣東西時,它們會收取高額費用。但更讓我擔憂的是質量層面。很多時候,我們想要發布某些功能,但蘋果卻會拒絕,這确實令人沮喪。因此,我們需要思考的是,我們是否正在為人工智能設定一個由少數幾家運行封閉模型的公司主導的世界,它們控制着API,從而決定開發者能夠構建什麼?就我們而言,我可以肯定地説,我們構建自己的模型是為了确保不會陷入這種境地。我們不希望其他公司來限制我們的創新能力。從開源的角度來看,我認為許多開發者也不希望受到這些公司的限制。
因此,關鍵問題在于圍繞這些模型構建的生态系統會呈現出怎樣的面貌?将會湧現出哪些有趣的新事物?它們能在多大程度上改進我們的產品?我相信,如果這些模型的發展最終能夠像我們的數據庫、緩存系統或架構那樣,社區将能夠為其貢獻寶貴的價值,使我們的產品更加出色。當然,我們仍将努力保持獨特性,不會受到太大影響。我們将能夠繼續專注于我們的核心工作,并從中受益。同時,随着開源社區的發展,所有的系統,無論是我們自己的還是社區的,都将得到改進和提升。
然而,也存在一種可能性,即模型本身最終可能會成為產品。在這種情況下,是否選擇開源就需要進行更為復雜的經濟考量。因為一旦選擇開源,就相當于在很大程度上将自己的模型商品化。但從我目前所觀察到的情況來看,我們似乎還沒有達到那個階段。
帕特爾:你期待通過向雲提供商授權你的模型來獲得可觀的收入嗎?也就是説,你希望他們支付費用以便在其平台上提供模型服務。
扎克伯格:是的,我們确實期待與雲提供商達成這樣的授權協定,并期望從中獲得可觀的收入。這基本上就是我們為Llama所設定的許可協定。在多個維度上,我們采取了非常寬容的開源許可策略,為社區和開發者提供了廣泛的使用權限。但我們對使用它的最大公司設定了限制。這樣的限制設定并非出于阻止他們使用模型的目的,而是希望他們在打算直接利用我們所構建的模型進行轉售并從中獲取商業利益時,能夠與我們進行溝通和協商。如果是像微軟Azure或亞馬遜AWS這樣的雲服務提供商,打算将我們的模型作為你們的服務的一部分進行轉售,那麼我們期望能夠從中獲得一定的收入抽成。
帕特爾:你關于權力平衡的觀點非常合理,我們确實需要思考如何通過更好的技術對齊或其他方法來消除潛在的危害。我希望Meta能夠建立一個明确的框架,就像其他實驗室所做的那樣,明确在某些具體情況下,開源甚至潛在的部署都是不可行的。這樣的框架不僅有助于公司為潛在的風險做好準備,也能讓人們對此有所期待。
扎克伯格:你説得對,關于存在性風險的問題确實值得我們深入關注。然而,目前我們更關注的是内容風險,即模型可能被用于制造暴力、欺詐或其他傷害他人的行為。盡管讨論存在性風險可能更具吸引力,但實際上,我們目前更需要投入精力去減輕的是這種更常見的危害。對于當前的模型,甚至可能是下一代模型,我們需要确保它們不會被用于欺詐等惡意行為。作為一家大公司,Meta有責任确保我們在這方面做得足夠好。當然,我們也有能力同時處理這兩方面的問題。
帕特爾:就開源而言,我感到好奇的是,你認為PyTorch、React、Open Compute等開源項目對世界的影響,是否有可能超越Meta在社交媒體方面的影響?我曾與這些服務的用户交流過,他們認為這種可能性是存在的,畢竟互聯網的大部分運行都依賴于這些開源項目。
扎克伯格:我們的消費產品确實在全球範圍内擁有龐大的用户基礎,幾乎覆蓋了全世界一半的人口。然而,我認為開源正成為一種全新的、強大的構建方式。它可能會像貝爾實驗室一樣,最初他們研發晶體管是為了實現長途通話,這一目标确實實現了,并為他們帶來了可觀的利潤。但5到10年後,當人們回顧他們最引以為傲的發明時,可能會提到其他更有深遠影響的技術。我堅信,我們構建的許多項目,如Reality Labs、某些AI項目以及一些開源項目,都将對人類的進步產生持久而深遠的影響。雖然具體的產品會随着時間的推移不斷發展、出現和消失,但它們對人類社會的貢獻卻是持久的。這也是我們作為技術從業者能夠共同參與的、令人振奮的部分。
帕特爾:關于你們的Llama模型,它何時會在你們自己的定制芯片上進行訓練?
扎克伯格:很快,我們正在努力推動這一進程,但Llama-4可能不是首個在定制芯片上進行訓練的模型。我們的策略是先從處理排名、推薦等類型的推理任務開始,比如Reels、新聞推送廣告等,這些任務之前消耗了大量的GPU資源。一旦我們能夠将這些任務轉移到我們自己的芯片上,我們就能将更昂貴的英偉達GPU用于訓練更復雜的模型。我們期望在不久的将來,能夠使用自己的芯片首先訓練一些相對簡單的模型,并最終拓展到訓練這些龐大的模型。目前,這個項目正在順利進行中,我們有一個清晰且長遠的規劃,正有條不紊地推進。
08 假設成為Google+的CEO
帕特爾:最後一個問題:如果你被任命為Google+的CEO,能否帶領它成功?
扎克伯格:Google+?噢,我不知道。
帕特爾:好吧,那麼真正的最後一個問題将是:當谷歌推出Gemini時,你們是否感受到了壓力?。
扎克伯格:問題在于,Google+并非沒有CEO,它僅僅是谷歌公司内部的一個部門。在我看來,對于大多數公司,尤其是達到一定規模的企業而言,專注才是至關重要的。初創公司或許在資金上捉襟見肘,它們正在驗證一個想法,可能并未擁有全部所需資源。但随着業務的發展,企業會跨越某個門檻,開始構建更多的元素,并在這些元素之間創造更多的價值。然而,企業中總會發生一些出乎意料而又令人驚喜的事情,這些都是寶貴的。但總的來説,我認為公司的能力在很大程度上受限于CEO和管理團隊所能監督和管理的事務範圍。因此,對我們來説,保持主要事務的優先地位,并盡可能專注于關鍵事項,是極為重要的。正如風投家本·霍洛維茨(Ben Horowitz)所言:"保持主要的事情才是主要的事情"。(編譯/金鹿)