今天小編分享的科技經驗:ChatGPT時代,數據标注員還在搬磚,歡迎閲讀。
肯亞内羅畢,一群年青人擠在逼仄的辦公室,埋頭在電腦上閲讀一段段來自大洋彼岸 OpenAI 的英文字元。
他們工作的 9 小時中,要閲讀、标注 150-200 段文字,每段文字在 100-1000 個單詞之間。而這群人的薪水是每小時 1.32-2 美元。
當你和 Bard 和 ChatGPT 聊天時或許并不知道,它給出的每一個機智答案背後,都凝聚着無數數據标注員的血汗。
很少有人關注标注員,也很少有人深究他們的工作。然而,标注員是 AI 產業鏈極其重要的一環。在他們一次次枯燥、乏味的工作後,AI 模型變得越來越聰明。這群人有不同的工資和待遇,共同點是重復着同一份機械、辛勞的工作。他們就是 AI 時代的流水線工人。
近日,谷歌一份内部檔案曝光。檔案顯示,Bard 的标注員要在 3 分鍾内審閲、标注完 Bard 的回答。這些數以千計的外包工,在 deadline 重壓之下吃力地閲讀自己完全不熟悉的專業文字,一個小時掙 14 美元。
" 人們感到害怕、壓力大、掙得太少,而且完全不知道正在發生什麼。" 一位外包标注員這樣形容自己的生活。
數量上百萬的标注員遍布全球,很多都是外包工,在零工經濟中賺取微薄的薪水。他們參與每一輪 AI 浪潮,又離台前光鮮性感的故事極其遙遠。行業人士為 ChatGPT 和大模型将如何革新世界侃侃而談,而這群标注員生活卻沒有任何改變,他們仍然 " 隐身 ",甚至生存狀況更糟糕。
大戰之下的小兵
谷歌正處于久違的危機中。在生成式 AI 競賽中,谷歌已然落後于 OpenAI。
被颠覆式創新扔到大潮之後的恐懼籠罩谷歌,以至于内部一度發布極其罕見的紅色警報(red code )。CEO Sundar Pichai 親自上陣,全權負責 AI 業務。
在 2 月季度财報的電話會議上,Pichai 告訴投資者:" 接下來你們會很快看到谷歌的動作。"
接着,它們匆忙推出聊天機器人 Bard,5 月又發布了大語言模型 PaLM 2。
谷歌急迫地上馬新項目,對 Bard 迭代心急如焚,最終的結果就是壓力轉移到最底層的數據标注員身上。
有很多個谷歌的合同工説,自從谷歌開始加入 AI 軍備競賽,他們的工作幾何增長,内容也更復雜。這群标注員要處理藥物劑量説明和法律文書等等專業檔案,時間只給了 3 分鍾,而他們根本沒有經過相關知識的培訓。
這種有時間限制,又要求精準的工作讓人一直神經緊繃。标注員們的勞動伴随着恐懼,當然會影響工作質量。在一份員工提交的報告中,他們寫道:如果一直要求他們這樣求快,Bard 會變成一個危險和充斥着錯誤信息的產品。
然而,在白熱化的競争中,谷歌無暇顧及數據标注員的感受。他們受雇于 AI 數據訓練公司澳鵬(Appen)和埃森哲,和谷歌切身利益沒有太大關系。
AI 是個徹頭徹尾的全球化產業。澳鵬的正式員工只有 1600 人左右,而外包員工數量高達上百萬。這家位于澳大利亞悉尼郊區的公司伴随 AI 行業崛起成長為明星,一年收入 6 億澳元。
可以預想,這一次生成式 AI 的狂歡會催生對标注員更龐大的需求,澳鵬也會從中分得更多利潤。
只是,無論 ChatGPT 迭代多少代,硅谷大廠市值上漲多少倍,最底層的标注員不會得到太多好處。
我們可能擺脱标注麼?
标注員的工作是純粹的人類勞動。他們要比較兩則新聞,評估哪條新聞相關性更高。他們也要判斷 AI 給出的答案中有沒有 " 一本正經胡説八道 " 的事實性錯誤。标注員們都有本守則,會從 6 個角度指導他們做出判斷。
以目前 AI 的技術水平,根本無法離開真人訓練。AI 标注其實就是不斷地動用人類主觀性做出常識判斷。
AI 行業其實是一個勞動密集型行業,即便在大模型時代也是如此。
國家之間發展不平等的現狀客觀存在,所有勞動密集型行業要獲得超額利潤,必須全球分工。
對當地人來説,這種全球分工其實不是壞事。OpenAI 合作的外包公司 Sama 總部雖然位于舊金山,但它的員工來自烏幹達、肯亞和外包大國印度。在肯亞,這些标注員工的工資為每個月 2.1 萬肯亞先令(約合 1158 元),算當地普通工人的平均水平,而且坐辦公室,不用做體力活。
SAMA 公司員工,圖片來自官網
澳鵬這樣的公司會很精明地将工資定在最低工資基準以上,而且還會給一個月 70 美元的獎金。這對當地人來説是筆不錯的收入。
在加爾各答郊區,穆斯林女性因為全球分工獲得了工作機會。她們給亞馬遜、微軟、eBay 等等訓練 AR 算法和自動駕駛數據。
一些中國年輕人則很歡迎這樣的工作。在貴陽市百鳥河數字小鎮,數字标準員中會有剛從高職學校畢業的學生,一個月掙 1500 元。比起送外賣、當服務員,他們其實更喜歡坐在辦公室訓練 AI。
作者項飚曾經很客觀地評估過這種共生關系:" 由于 IT 行業的勞動密集型的特征,如果沒有一個巨大的、額外的勞動力儲備,該行業或許根本無法快速發展,由此無法向當地工人提供現有的就業機會。"AI 需要發展中國家的廉價标注員,而标注員們也需要這份門檻不高的工作維生。他們從來不是受害者,也不是需要人同情的弱者,而是一群努力、勤奮工作的普通人。
當然,我們不能因此将低工資、高壓力的工作合理化。國家和國家之間的不平衡也不是壓榨标注工人的借口。即便只是自私地為了 AI 學習數據的質量,這些吝啬的科技公司也應該給标注工人更好的待遇和工作環境。
AI 催生了明星公司、百萬富翁,它還将改變各行各業,產生難以想象的收益。只是,這些宏大的願景和坐在烏幹達辦公室埋頭苦幹的标注員無關。當某一天,AI 進化到不需要标注員時,這群從來不被承認的功臣又會被毫不留情地掃去角落。
" 我告訴我的朋友和家人,谷歌、亞馬遜、蘋果等公司的工程師就像人工智能嬰兒的親生父母和私人教師,而我就是清掃他們的育嬰房并給他們洗衣服的女傭之一。" 一位标注工這樣形容自己的工作。
或許,即便我們不可能短期内改變經濟、知識結構的區網域不平等,起碼可以看見他們,衷心認可他們的價值,承認他們在 AI 時代的不可或缺。