今天小編分享的科技經驗:大模型狂歡,富士康工人流向AI标注廠:用青春喂養AI,最後又被AI淘汰,歡迎閱讀。
本文來源:時代财經 作者:徐曉倩
圖源:pixabay
今年上半年,一線城市的科技圈被人工智能激活了。
文心一言、通義千問、光年之外等大模型一波接着一波地輸送熱度,手握頂級資源的大佬們站在這場盛會的核心地帶,他們相繼發出英雄帖,有關大模型人才的争奪也擺上了牌桌。
作為與 AI 產業鏈緊密相扣的一環,距離北京 500 公裡的山西太原數據產業基地卻波瀾不驚,這裡聚集了上千名人工智能标注師。他們談論的話題停留在項目進度、拉框達标率和一日三餐。
" 熱鬧是他們的,我們只有數不盡的拉框。" 一位數據标注師向時代财經說道。
在數據标注公司老板何晴記憶裡,熱鬧發生在四五年前。人工智能的春風第一次刮向這個中西部城市,敏感的商人開始劃地盤、招人,向人工智能源源不斷地提供 " 養料 "。他們大多是人工智能的門外漢,因為突如其來的龐大用工需求,與前沿科技產生了奇妙的聯結。
" 當時很多老板把自家人全都拉過來,随便動動手指都能賺到錢。" 何晴聽說過數據标注行業内不少振奮人心的消息——有人在三個月内收入百萬,也有人搶到的訂單能排到第二年。
但這樣的好日子正在逐漸遠去。
體面的 " 流水線 "
上午 8 點 45 分,黑壓壓的人流堵在了電梯口,只有三分之一的人擠上了第一趟電梯,所有人最終的目的地都在 6 樓。
電梯門緩緩打開,人群一下子向四面八方散開,走進一個個看不出任何差别的辦公室—— 100 平米左右的空間擺滿了上百台電腦,主機、滑鼠、鍵盤線密密麻麻纏繞在員工腳邊。
" 只要順着門牌号,一家家問過去,全是做數據标注的。" 園區内底樓的商販如此形容道。
這座吸納近千人的數據标注基地像是藏在園區内的隐秘網吧,坐在電腦前的人熟練地點擊着鍵盤和滑鼠,一平方米左右的桌子被體積龐大的電腦霸占。
正在工作中的數據标注師 圖源:時代财經攝
唯一能彰顯個性的,是戴在頭上五彩缤紛的耳機,他們有着一個共同的身份:數據标注師。
滑鼠在左右鍵來回敲擊,螢幕上的圖片跟着放大縮小,遊標飛快地描繪出一個個大小不同的框框 …… 重復的動作持續半小時後,美玲稍稍扭了一下脖子,脊椎處的骨頭發出咯吱咯吱的聲音。
" 新人熬過第一周就行了,做熟練了上手很快。" 美玲一邊仍繼續盯着螢幕,一邊對時代财經說道,第一周就放棄的人高達 30%。
每隔兩周,領班周姐就會帶着十幾個新人開啟學徒生涯,這樣重復無聊的工作勸退了不少年輕人。
兩年前,美玲從幼師轉型成了一名數據标注師。她的老家——呂梁的工作崗位很少,電話銷售是其中一個比較體面的歸宿,如今在人工智能浪潮的影響下,數據标注師為縣城女性提供了另一種選擇。
半年前,由于标注基地的變動,美玲從老家來到了省會太原。" 自動駕駛、人臉識别哪一個不需要大規模标注員的參與。" 她流露出驕傲的神情,在家裡人看來,坐在辦公室操作電腦、月收入超過 3000 元,待遇已經超過縣城大多數工作了。
2005 年,計算機視覺專家朱松純從美國回到故鄉湖北鄂州,創辦了蓮花山研究院,并由此組建了中國最早的大數據标注團隊。随後,數據标注廠逐漸在二三線城市生根,河北、河南、山東、山西等地區出現產業集群地。
通過重復的标籤訓練,讓人工智能走到 " 覺醒 " 時刻,在美玲看來,這和之前的幼師工作一樣。
數據标注是人工智能產品誕生的第一個環節,接下來,還要經歷模型訓練與優化、模型管理、推理應用等。喂養人工智能產品需要數以億計的數據,這些數據會最先流向 " 美玲們 " 的電腦。
不過,美玲對 " 高科技 " 的幻想,在重復機械的滑鼠聲中一點點被打碎。她測算過,1500 個框是每天工作量的極限,一旦越過這條警戒線,眼球就會一陣陣酸痛。
下班後,即便對着電視機,她看到的也是一片斑駁的馬賽克,像極了一張張放大後需要标注的模糊圖片。
" 隔壁座位上總是陌生的面孔,同事之間很少交流。" 工作了一年半後,在同一基地上班的吳霞還沒有習慣辦公室的沉默。
大專畢業後,原本她跟着同學一起進廠,後來因為項目變動、同學離職,她成了 " 獨行俠 "。工作一開始,辦公室就變成了自動化流水線啟動的 " 車間 ",冷冰冰的工業化氣息,沒有多少人情味。
單獨計件、不需要團隊協作是數據标注行業的特性之一,由此形成不同于普通白領的管理方式。
在這裡,标注師沒有固定的工位,而是根據項目變動随機分配幾百号人的流向。最長的項目 2-3 個月,短期項目只有 2-3 天,十幾個人的項目小組設定一個管理員,時刻緊盯每個人的工作進度。
标注師也不會把精力用于經營同事關系,計件工種講究效率和專注度,時間和金錢挂鉤,要完成平均标準的 1000 個框,意味着平均每分鍾要完成 2 個框。
" 跟别人說話的間隙,就會少賺好幾框的錢。" 美玲說道。
富士康工人流向标注廠
在數據标注園區内,還零散分布着技術研究院和留學生創業基地。在孟然看來,這些 " 高端 " 崗位都離他很遙遠。
上大學前,他沒有離開過老家臨汾,大學畢業後,家裡人希望他不要離開本省。基地兩公裡以外,是富士康太原科技工業園。這個廠區吸納了當地最活躍的用工人群,巅峰時期,有近 6 萬人活動在廠區的流水線上。
不管如何折騰,大學生孟然的求職流動半徑從沒超過 5 公裡。他曾經從數據标注基地二期搬到三期;在正式成為數據标注師之前,隔壁的富士康曾是他燃燒青春的地方。
距離數據标注基地不到 2 公裡的富士康園區 圖源:時代财經攝
孟然曾經連續兩個假期進廠賺錢,每次在拿到一筆大幾千元的報酬後,便匆匆離開。
每到寒暑假,富士康園區門口都站滿了拎着大包小包行李的大學生,所有人的目标都指向了全年最高的返費和小時費。" 大家都是過來賺快錢的,旺季一過就打包走人,工廠忙起來太辛苦了,很難長期堅持幹下去。"
孟然不喜歡富士康的工作氛圍。進入車間前,要把電子設備上交,每天面對的的只剩下着裝相似的趕工人潮和蕭瑟冷峻的廠房。當遇到脾氣暴躁的班組長時,每天受到劈頭蓋臉的謾罵也是家常便飯。
伴随着生產線啟動的轟鳴聲,工人需要不停安裝某個零件,這樣的動作往往要持續 10 個小時以上。在完全封閉的空間内,連出神都是奢侈的事情。等到領班稍微放松管理,孟然才敢和身邊的工友聊上幾句話。
2018 年,在旁邊的數據标注基地落成後,孟然的工作有了第二種選擇。僅僅在只隔了一條街的距離外,就有一個更舒适的工作唾手可得。
王菲曾是富士康的招聘專員。工廠淡旺季和人員變動,加上模糊的返費報酬和經常變卦的收入,讓她經常陷入和打工者的無止盡拉扯中,标注師對她來說是更好的選擇。
" 前幾年數據标注門檻低、單價高,每個月能保持 4000 元收入,而且做的項目都是大廠有關的業務,比較有保障。" 王菲見過有不少熟練工離開基地另謀出路,但又兜兜轉轉回來的。
不少标注師有着和孟然相似的工作軌迹,電子廠的工作經歷是他們簡歷的共同點,數據标注工廠成為他們離開電子代工廠的下一站。
用工數量大、收入可觀、操作簡單的共同點,無形中搭起了一座兩公裡的天橋,将兩座超級工廠連接在了一起。
消失的項目和公司
對于标注師來說,一個直觀的感受是:好日子快到頭了。
單價幾毛錢的項目不見了,一個标注框的價格卷到了幾分錢;簡單的平面描點拉框消失了,取而代之的是需要多維度标注的點雲項目;正式員工逐漸從項目組離開,性價比更高的實習生撐起了一半以上的用工量。
數據标注公司老板何晴長達半年沒有來過基地,她逐步減少了對公司的投入。
去年下半年開始,她的團隊再也沒能接到客單價高的項目,客戶賬期也從三個月拖到了半年。" 很多現金流不夠、不具備墊資能力的小廠倒閉了,我們的團隊成員也少了三分之一。"
三年前,标注框一度點燃了李薇的熱情,慢熱、不擅長溝通的她感覺自己找到了 " 天選 " 工作。
李薇接過單價為 0.25 元的項目,效率高的時候,她一天能拉框 1200 個,一個月賺近 8000 元," 為了能多賺一些錢,有人買來主機在家開工,任何人只要做得熟練了,都會收入變多 "。
和其他人一樣,李薇隐隐覺得淘金時代結束了。
公司啟動了全新的項目,呈現在眼前的不再是真實世界的路況圖,而是由成千上萬個綠色的、紫色的、藍色的點構成的模型圖,一張完工的圖片中包括近百個标注框,而一整套題又是由幾十張只有細微差别的圖片構成的。
復雜的操作界面 圖源:受訪者提供
" 需要反復在平面圖和 3D 切換,一些被遮擋住的畫面得靠腦補,邊框精确度也要求控制在 0.01 米,工作性價比越來越低了。" 只要與要求的範圍偏差多出 1 毫米,就會被審核無情地打回去。
數據、算力、算法是人工智能的三大基石,數量越多、質量越高的數據,往往能夠訓練出更加成熟的大模型,表現在标注師的工作上就是不斷被拔高的精确度。
" 這幾天又在調整規則,精确度要求提高到 80% 以上。" 精确度成了标注師的 " 死穴 ",也是他們抱怨時出現的高頻詞匯。
一張标注完成的圖片還要經過審核、質檢等 2-3 個環節,否則不能進入結算周期。
有時候,吳霞感覺自己像被困在復雜的迷宮裡,怎麼都出不去。她曾被一個新項目磨了近一周——一邊上交題目,一邊被不斷打回,這讓她陷入焦慮。" 如果題目被打回的頻次太多,就會被分配給其他人,前面的精力全白費。"
孟然的焦慮則是另一種。從去年 8 月開始,他的工作變得清閒起來,過去 5 分鍾内積壓上萬的數據量,現在半個小時也不會有負載紅線。
" 可能是平台數據量變少了,也有可能是機器審閱的效率提高了。" 孟然的不安全感很快得到了印證,由于工作量被迫減少,他每天的收入從一兩百元降到了幾十元。
一場淘汰賽在各大代理商中蔓延開來。孟然見過有團隊一夜之間解散,十幾名被拖欠薪資的員工把公司告到勞動局;情況稍微好一點的,會連同電腦和員工轉讓給下一個代理商。
" 保險起見,還是要去人員規模超過 30 人的團隊。" 這是孟然給新人的忠告。
标注師正退出歷史舞台
熬過了一周的培訓期、挺過了半個月的生手期,今年 5 月,身在湖南的曉婷終于适應數據标注師身份,卻見證了公司的快速下墜、直至消亡。
" 入職一個月,公司就撐不下去了,老板請大家吃了散夥飯,但工資還要等幾個月再發。" 在曉婷看來,當前數據标注行業遍布 " 地雷 ",風險遠大于收益。
無論是數據标注的創業者,還是數以萬計的标注師,都無法回避一個事實:在大模型施展拳腳的舞台上,人工數據标注逐漸無足輕重。
和美玲想象的幼師工作不一樣的是:學生不會那麼快搶走老師的工作。如今,被标注師哺育起來的大模型技術正迅速反哺數據标注流程。
以特斯拉為例,其自 2018 年以來不斷發展自動标注技術,從 2D 人工标注轉為 4D 空間自動标注。技術的進步,吞噬了人工标注的操作空間,2021 年特斯拉人工标注團隊超過 1000 人,2022 年則裁員超過 200 人。
其他車企公司包括小鵬汽車和毫末智行也紛紛推出自動标注工具。毫末智行 CEO 顧維灏公開表示,目前獲取車道線、交通參與者和紅綠燈信息,人工标注成本約每張圖 5 元,而毫末 DriveGPT 的成本僅為 0.5 元。
2019 年,在一線城市從事 AI 數據訓練師吳迪便預感到自己職業生涯的天花板,他所在公司負責研發電商平台智能客服項目。比他設想的進度更快,不到一年,他負責的數據标注 10 人團隊便被全部砍掉,只保留了零星運營人員。
" 項目不斷成熟的那天,就是我們不被需要的時候了。"
大模型的進化像是一條奔騰不息的河流,總在某一個瞬間奇襲,把人工團隊甩在身後。
在蘇黎世大學今年 3 月份的一份調查報告中,研究人員通過實測發現,ChatGPT 在 15 項标注任務中的處理能力高于眾包人員。
今年 4 月初,在校醫學生李捷在一個月内完成了某大廠在醫藥領網域的文本标注,該項目将用于提供智能診斷對話服務,這也讓李捷第一次感受到大模型進化的速度。
" 一開始,我們不斷給平台投喂分類醫學名詞,到了第二周,系統就能自動實現基本的名詞分類了,而且正确率超過 90%。"
在山西太原,基地領班周姐開始勸新人接手難度更高的項目,因為公司很難再承受項目一次次被擱置的壓力。" 目前越簡單的标注業務利潤越薄,有的項目做到一半就黃了,人力成本完全覆蓋不了項目的收益 "。
一位數據标注行業招聘人士告訴時代财經,今年以來,招聘門檻逐漸從專科生向大學生傾斜。" 之前對标注師基本沒有經驗要求,現在很多公司都希望新員工可以直接上手做項目,這樣能減少前期的培訓成本。"
目前,智能标注能大致捕捉到物體的基本形狀和位置,但是在精準度上,仍然落後于專業的标注師。
沒有人知道智能标注會在什麼時候迎來大爆發,但一種不安全感始終伴随着李薇。每當她打開新項目頁面,代表智能标注的紅框總是率先跳出來,仿佛無時不刻地提醒螢幕前的人:
終有一天,它會取代她的位置。
(文中受訪者皆為化名。)