今天小編分享的科技經驗:AI苦工卷向高學歷,美國博士正在搶走印度人工作,歡迎閲讀。
美國人馬特擁有通信博士學位,他最近喜提一份自由職業:成為 Scale AI 公司的一員,在家訓練 AI 模型。
" 通信博士 "" 訓練 AI 模型 ",馬特是不是成了一名光榮的 AI 程式員?事實并非如此。馬特的工作很無聊:他在 Scale AI 的系統中 " 接活 ",以用户的角度浏覽 AI 模型給用户的各種回復,判斷 AI 有沒有説錯,然後提供反饋。比如為谷歌的 AI 訓練預訂班機,審核哪些 ChatGPT 的答案會得到用户的差評。
Scale AI 自己不生產大模型,它和谷歌母公司 Alphabet、OpenAI、Meta 等眾多 AI 生產商達成合作,為它們提供 " 人類 "。
只不過,來自非洲、印度、菲律賓等地的廉價勞動力,已經不足以滿足客户的需求。Scale AI 已經開始收縮其海外業務,在美國本土雇傭數十萬勞動力,其中不乏像馬特一樣的高知人士。
這家成立了 8 年的大模型數據标注公司,在今年 5 月剛剛完成了 10 億美元 F 輪融資,由 Accel 領投,亞馬遜、英特爾、AMD、思科、Meta、老虎全球基金等全球知名公司跟投。公司預計今年銷售額将超過 10 億美元,使其成為生成式 AI 公司中銷售額排名靠前的公司之一。
而它的最新估值,已經達到了 138 億美元。這放在所有 AI 初創公司中,都是一份不俗的成績,遠遠超過硅谷明星公司 Hugging Face 去年 8 月融資後的 45 億美元估值,更接近埃隆 · 馬斯克(Elon Musk)的 xAI,其最新一輪融資後估值 180 美元。
讓人類給 AI 打苦工的 Scale AI,已經是當下 AI 競賽中很關鍵的彈藥庫。
當我們提到 " 大模型訓練 " 時,會想到的是用數千個先進芯片驅動大模型,讓其分析數百億字節的文本,其實這只是第一步——預訓練。
但僅靠這些,不足以确保像 Anthropic 的 Claude、OpenAI 的 ChatGPT、Meta 的 Llama 和谷歌的 Bard 這樣的系統提供以人類風格編寫的正确答案。
為了實現這一點,需要進行第二步:微調。這就涉及大量的人力,有可能是 AI 生產商在公司内部雇傭,也有可能是來自 Scale、Surge AI、Labelbox、Telus International 等公司。這些公司提供大量的人,為客户的聊天機器人寫下理想的回應,手把手教機器人提供更 " 完美 " 的答案。
為 AI 模型提供數據标注服務的公司并非全新的存在,上一次讓這類公司起飛的風是自動駕駛。
Scale AI 就成立于 2016 年。事實上,Scale AI 從一開始就和 OpenAI 頗有淵源,其孵化于 Y Combinator(下稱 YC)的初創企業賽馬項目,項目還未結束就已經獲得了 YC 的支持。而 YC 彼時的總裁,正是後來聯合創辦了 OpenAI 的山姆 · 奧特曼(Sam Altman)。
不過,彼時 " 千模大戰 " 還未開始,Scale AI 首先趕上的是席卷硅谷的自動駕駛技術熱潮。實現自動駕駛,需要訓練 AI 算法,而當時沒有其他外包公司擁有對自動駕駛汽車的雷達和傳感器生成的三維影像進行數據标注的能力。
Scale AI 的工程師最初花了幾個月,為自動配送初創公司 Nuro 建立了 3D 标注產品。很快,Alphabet 的 Waymo 和通用汽車的 Cruise,甚至是蘋果,都成了 Scale AI 的客户。
在 2017 年底,Scale AI 雇傭了 1000 多名标注員,主要在菲律賓。平均來説,這些合同工的時薪是 1.5 美元,每周工作 10 個小時。
到了 2019 年,OpenAI 也已經成立幾年,并且将方向主要專注在了開發 AI 大模型上,随後成為 Scale AI 的客户。只不過彼時 AI 大模型客户對于 Scale AI 來説并不是關鍵收入來源。
随着自動駕駛技術的熱潮漸漸回落,市場回歸理智,Scale AI 也遭遇了危機。在 2022 年,Scale AI 的收入增長已經下降了 50%,讓投資人頗為失望。
然而,2022 年年底,OpenAI 發布了 ChatGPT,Scale AI 的 " 第二春 " 瞬間綻放。
除了 OpenAI 之外,Scale AI 也與 Meta 和谷歌母公司 Alphabet 達成了圍繞大模型的合作。公司的收入從 2022 年的 2.27 億美元,飙升到 2023 年的 6.8 億美元。
站在風口之上,Scale AI 喊出 2024 年收入增長 206% 的目标,并希望實現盈利。
在這個節點,Scale AI 也開始做出一些改變,來自海外的廉價勞動力只能負擔很基礎的任務,但大模型驅動的產品在寫作、編程、專業知識等方面都開始 " 卷 ",Scale AI 需要更新手裏的 " 雇傭兵 "。
在一份投資者演示文稿中,Scale 説它正在建設的是至關重要的 AI 基礎設施。該公司開始将自己打造成一個 "AI 的數據鑄造廠 ",讓人聯想到半導體公司。
Scale AI 的創始人也開始公開談論持有博士學位的人,或者醫生、律師等在訓練 AI 系統上的貢獻:" 我們需要最優秀和最聰明的頭腦來貢獻數據。"
根據 Rest of World 的報道,Scale AI 最近關閉了肯亞、尼日利亞和巴基斯坦的承包商站點。公司的焦點轉向美國本土,招募高知人士,來幫助訓練大模型的專業知識。
大約有 30 萬人通過 Scale AI 子公司 Outlier 運行的工作群等着 " 派活兒 "。
美國本土的 Scale AI" 雇傭兵 " 并不廉價,平均時薪可以達到 40 美元。不過這份工作仍然擺脱不了 " 苦工 " 的體驗感。
在美國馬薩諸塞州的梅麗莎 · 誇西(Melissa Quashie)就以每個小時 40 美元的薪酬在 Scale AI 接活,她是一位自由職業者和編輯。她的任務包括評估由大模型生成的不同響應,根據模型回答問題的方式以及回答的内容質量來給出評分。
對誇西來説,在 Scale AI 的工作就像是 " 我玩過的最呆的電子遊戲 "。她曾經花了兩個小時編寫一個 " 三天餐譜 ",只是為了給聊天機器人改進答案。
此外,随着 Scale AI 積累大量的勞動力,供求關系已經開始不平衡。很多時候,Scale AI 派發的客户任務已經難以滿足 " 雇傭兵 " 的需求。很多人發現,這份工作雖然時間靈活且薪水誘人,但許多時候都會無事可做。The Information 采訪的 10 位 Scale AI" 雇傭兵 " 中,大部分人都有相同的抱怨。
也許是在 AI 浪潮下公司業務擴展的速度太快,也許是比起勞力們的工作體驗,Scale AI 更專注于服務好客户。總之,Scale AI 也開始暴露其他的問題,除了吐槽派的活不夠做之外,人們也抱怨其培訓不足以及系統經常崩潰。
更惱人的還要數薪酬結算,即便是在美國本土為 Scale AI 提供勞力的 " 高知人士 ",也沒有什麼話語權。開頭提到的博士馬特就表示,他被 Scale AI 無故踢出平台。
薪酬的結算不看工作量,而是要考核質量,而最終解釋權自然歸 Scale AI 所有。而且即便理應收到報酬,也可能因為客户遲遲不确認而沒有着落。
根據工作質量而不是工作量為苦力們結算,這有助于 Scale AI 控制成本,而這對于 Scale AI 來説是現階段的關鍵卡點。
随着公司将焦點從提供廉價勞動力的海外市場轉移到美國,Scale AI 的成本也更難控制。根據 The Information 獲取的财務數據,Scale AI 的毛利率(包括支付給人類苦工的成本),從 2022 年的 59% 下降到了 2023 年的 49%。
與此同時,Scale AI 告訴投資者,它正在努力降低成本。該公司預測,今年将提高毛利潤率 5 個百分點,然後到 2025 年提高到 60%。
公司告訴投資者,它正在通過使用内部工具自動識别 " 高效專家 " 來降低人工訓練模型的成本,以及依靠計算機生成的數據來增加人類工作的效率。
另一個壓縮成本的方式是減少内部員工(和 " 雇傭兵 " 不同,此處指的是在 Scale AI 工作的正式員工),2023 年 2 月,Scale AI 一方面已經看到了 AI 浪潮的來臨,另一方面也看到了宏觀經濟的影響以及硅谷的裁員潮,它抓住機會,也大刀闊斧裁員 20%。
除了盡力壓縮成本之外,Scale AI 也在想方設法拓展業務。
雖然很多員工反對,但 Scale AI 早已把不與政府合作的承諾抛之腦後。最近幾個月,Scale AI 的聯合創始人亞歷山大 · 王(Alexandr Wang)與美國陸軍将領在華盛頓共同登台,公司每年從政府合同中獲得超過 1 億美元的收入。此外,他還前往卡達,與政府官員進行閉門會議,卡達也熱衷于開發自己的大語言模型。
在為 AI 生產商提供大量人力之外,Scale AI 也提供 AI 生成的合成數據集——用 AI 生成的數據,訓練 AI,以滿足 AI 大模型訓練中不斷膨脹的胃口。
現階段 " 高質量的人類 " 依舊是 Scale AI 最賴以生存的 " 資源 ",因此公司也在采取措施維護 " 高質量人類 " 中的那些佼佼者。
在美國德克薩斯州奧斯汀和佛羅裏達州的傑克遜維爾,Scale AI 曾舉辦為期數天的研讨會,邀請幾十名 " 頂級苦力 " 前往參加。
一位參加奧斯汀研讨會的人説,大約有 50 名訓練師參與了一個據悉 Alphabet 的 Bard 聊天機器人相關的項目。他們讨論了每個人為不同提示寫下的回應,并在晚上一起唱卡拉 OK。
在傑克遜維爾,誇西遇到了大學教授、博士生、編劇和播客主持人。" 我們連續工作六個小時,然後喝杯葡萄酒。"
" 每個人都非常興奮地改善大語言模型。但沒有人談論的是,因為我們在做這份工作,誰會失去他們的工作?"
諷刺的是,數以十萬計的人類在為 AI 打工,就是為了讓 AI 的表現越來越好。而當 AI 足夠好的時候,這些苦力也許也是會被首先抛棄的那批人。畢竟如果 AI 能自產自銷,何必依靠每小時需要 40 美元的 " 高知苦力 "?
也許更進一步的問題是,為 AI 販賣人類勞動力的日子還能持續多久,而這也是懸在 Scale AI 頭上的一把劍。