今天小編分享的科技經驗:數據标注工:訓練AI,被AI替代,歡迎閲讀。
增長和淘汰同時進行。
作者|馬慧
編輯|栗子
前景和覆滅同時存在,數據标注從業者代延從未如此矛盾。
30 歲的内蒙古人代延在今年初創業,組建了一個近 30 人的線上标注團隊。此前代延曾在數據标注的眾包平台做了兩年。可以稱為是 " 熟工 " 的他,對眼下的局面既期待又緊張。
他從年初就關注到 ChatGPT。從 AI 企業注冊量的粗暴增長上,代延看到了 AI 的行業爆火與數據标注的創業機會。天眼查數據顯示,僅今年一季度就新增注冊 17 萬家人工智能相關企業,目前總計已有 267 萬家。
他想象着自己能跟随行業共進,公司未來能發展到 100 人的規模。但眼下的現狀卻難以支撐他的期盼:數據标注的圈子很快被衝破——大量标注需求、标注工人和中間商一同湧入,單價更低了。
就像工程隊接觸不到有建築需求的甲方,只能從承包方手上接項目一樣,代延接觸的工價因項目層層轉手越壓越低。他拒絕幹一天只能拿到 30 元的标注項目。
與此同時,代延還面臨着标注業沒有職業晉升、沒有合同保障、被拖款也投訴無門的窘迫。他自嘲:" 我們就是新時代的數據民工。"
但這并不是問題的全部。更大的問題在于,自動化标注也正在吞噬他們手上僅有的項目。由代延這樣的數據标注員訓練的 AI,正在人類監督中自我學習,進行自标注。
自動化标注将極大減少企業成本,也成為數據标注市場上最被看好的方向。
代延不得不為 "AI 可能完全取代人 " 做準備。他帶着團隊同時做文本标注類别的教輔标注和 3D 點雲标注項目。一個是文字,一個是圖片視頻。代延做好了一個項目如果被 AI 颠覆,就立馬帶着團隊轉型去另一個領網域的打算。
此外,團隊人數也要精簡。代延劃掉了腦海中想象的百人公司規模。他認為最終或許只會保留 20 人的熟手團隊。
這些由數據标注員一手訓練的AI,一邊讓他們夢想着賺得更多,同時逼着他們做好被颠覆的打算。
1. 标注,讓 AI 睜眼看世界
為了讓機器像人一樣理解文字、語音、圖片,人類創造了一個機器的學習鏈條:采集物理世界的實物影像和聲音,對數據進行标注、清洗,将數據轉換為一串串代碼後輸送給機器。
AI 學者認為,三歲嬰兒通過眼睛 " 拍攝 " 了數億張圖片,反復認識世界。所以只要給機器灌輸足夠多的數據,也能讓機器從學會識字、認句子,最終理解語言背後的深意。
标注圖集 ImageNet 上有 1500 萬張圖片,這個數據集幫助無數 AI 企業獲得在計算機視覺上的突破,比如人臉識别、搜圖看看。
為了搭建 ImageNet,全球 167 個國家的近 5 萬名數據标注工一起标注了兩年半,他們都來自眾包平台 Mechanical Turk。
标注要求十分簡單,MTurk 常見的工作内容就是區分照片的顏色,或者對影像中出現的動物進行分類,或是用一個個方框框定選定對象,标注其名稱:這是蛋糕、這是汽車、這是一朵雲等等。
圖 / 整數智能
該平台上的 20 萬名零工分布在人力成本低廉的非洲和東南亞,甚至形成了特色「數據标注村」。他們标記的數據支撐着科技企業在 AI 上的探索。
而中國的上百萬名标注員分布在貴州、山西、山東、河南等省份的二三線城市,并逐步向人力成本更低的縣城滲透。他們或是依賴線上眾包平台,或是加入線下的數據标注公司和标注基地。
标注内容根據場景區分為文本、影像和語音,對應着幫助機器獲得識字、識圖和聽聲音的功能。
早期的标注項目集中在互聯網企業,主要标注語音和文本。現在則轉向自動駕駛企業标注由激光雷達掃描獲得的 3D 場景,比如點雲标注;或是更垂直的文本和語音标注方向:幫助教育公司的大模型提供教輔類标注數據;或是為醫療機構的大模型提供校對後的醫療數據。
當 AI 邁入 2.0 時代,ChatGPT 驚豔了投資者、企業家和創業者,大家對 AI 的期待已經不僅僅是死板地識别文本、語音和圖片的信息了。人們還希望 AI 能像人一樣真正理解事物之間的聯系,識别微小的區别和動作背後的情緒,主動地分辨和搜集信息。
比如讓自動駕駛汽車區分前方是一個空扁的塑料袋,而不是一塊顏色體積相近的石頭;讓遊泳池旁的攝像頭不再只是記錄泳池旁發生了什麼,而是理解發生了什麼,在有人溺水時發出警報。
這些依然需要依賴數據标注,并且對标注提出更高的要求——更垂直、更精确、更節約。
标注市場的熱潮也由此開始。
2." 訂單多到做不過來 "
很難有數據直接説明新的标注需求激增,但這并不難判斷。因為僅 2023 年一季度,中國就新增了 17 萬家人工智能企業,而只要是用到 AI 的公司,就勢必有數據标注的需求。
需求很快傳導至數據标注市場。在數據标注從業者聚集的貼吧内,一天能刷新出十幾條項目招人的帖子,包括且不限于文本标注、錄題審核、無人機售賣視頻标注、2D 檢測杆、3D 點雲等從文本到圖片視頻的标注項目。
一位從業多年的數據标注工作者察覺到,今年的無人車标注項目有所增加,而由 AI2.0 熱催生的垂直領網域大模型創業,讓原本沒落的文本标注項目細分至不同賽道,也增加了小眾的數據标注的需求。
在需求的推動下,成立新團隊淘金的不止代延。山東東營的張唯在去年底也開始投身數據标注創業,半年發展為一個十幾人的小團隊。依靠當地政府的補貼和扶持,張唯的公司不僅獲得免費的辦公室,政府還幫忙拉通甲方資源。
項目訂單不少,從最初十幾萬的項目到最近的 40 萬訂單,緊迫的交付任務讓張唯更積極地尋找标注工:前幾天,張唯僅一天就添置了 6 台電腦。
在河南鄭州,一家做數據标注的眾包平台正遷移至能容納百人的兩層辦公樓。它們在門口招牌、辦公室裏都寫上公司的定位:"AI 人工智能大數據研發基地 "" 重復的數據清洗,是為了你的 AI 更智能 "。
" 标注項目訂單多到做不過來。" 其負責人説。
一家數據标注公司的喬遷儀式現場
圖片來源 / 受訪對象提供
熱錢也久違地進入了标注公司的口袋。數據标注龍頭海天瑞聲,在今年的 3~5 月股價最高漲了 4 倍。
根據 36 氪消息,今年以來 B 輪及以前的十餘家數據标注平台,集體迎來了接近 100% 增幅的高估值。從去年下半年開始,自動标注公司陸續獲得新融資。
2022 年 9 月,博登智能獲得千萬元融資;12 月,星塵數據完成 A 輪融資 5000 萬元,相距上一次 2018 年 6 月獲得融資已經時隔 4 年半。
2023 年 4 月,數據标注解決方案公司「恺望數據」獲得新一輪戰略融資;6 月,AI 數據公司「整數智能」獲得數千萬 Pre A 輪融資。
他們鬥志昂揚地打出替代人工标注的口号:" 重構數據标籤生產 "" 自動化產線 + 規模化人力 "" 打破自動駕駛标注的手工模式 "。
顯然,資本市場也正重新關注這個新興領網域。
3. 更卷,也更嚴格
數據标注的鏈條由三部分組成。
上遊:1~150 人的數據标注公司、線上散兵和小作坊。
中遊:數據服務商,一類是承接上下遊的中介方眾包平台,一類是企業為穩定投入產業而選擇自建标注基地。
下遊:科技公司、行業企業、AI 公司、科研部門,在 2018 年左右以互聯網企業為主導,現在轉至車企、自動駕駛企業。
行業普遍采取分包模式,即先由甲方企業發标,第三方服務商參與競标,競标成功後進入企業的供應商梯隊,其中核心供應商能享受優先任務選擇權和更多訂單。
企業對核心供應商的要求是擁有至少 30 人的交付團隊,成熟的訂單交付經驗,建立培訓體系、把控交付質量和數量的能力。穩定的生產團隊,最終導向讓公司更有競争力的低報價。
然而,管控團隊帶來的低價優勢已然被打亂。" 今年競标慘烈!" 一位服務商告訴「甲子光年」," 一個項目我們報 200 元,有人報 80 元一天。"
最終項目由報價低的團隊拿下,最後卻回到更成熟的團隊手上。" 他們完不成又被甲方轉回給我們,但價格已經上不去了。"
由于代延的線上團隊不直接接觸甲方。所以市面上多級分包層層壓價的混亂局面,讓他們倍感壓力。
數據标注是資源型行業,誰能拿到和甲方的合作誰就有優勢。代延透露,一些個體注冊公司後,謊稱有 40-50 人的專業團隊,以極低的價格參與投标,拿下項目後,拆抽成 4-5 份分給不同的團隊,小團隊再往下分,層層抽傭,中間商賺到差價,分給數據标注工的計件價越來越低。
只要有人接盤,就會一直螺旋向下。
「甲子光年」得到的一份價格表顯示,從 2D 标注到 3D 激光點雲标注,标注項目單價一般為 0.5~1.5 元 / 框。代延曾接到過打了對折的單框價," 至少轉過四五手了 "。
單價内卷直接導致标注人員的薪資縮水。代延和團隊屬于半全職狀态,團隊成員多為寶媽、大學生、自由職業者和職高學生,每天拉框 6 小時。保持着這樣的狀态,代延在 2022 年疫情期間,每月有 4~5 千元的收入。
" 有電腦、有電就能操作 ",這是數據标注招人貼中常見的吸引人入行的話。過去,這一度是數據标注行業最顯著的優勢。但今天這種優勢卻讓整個行業陷入内卷。現在代延每月收入只有 2~3 千元。
雖然收入降低,但工作量并沒有下降。恰恰相反,數據标注的工作更加復雜與細致。
數據标注的資深從業者們更懷念互聯網時期的标注市場:單框價格高 3 倍,項目量大。一個 60~70 人的團隊,能拿到月入 30 萬的業績。" 現在市場上都是產值(單人每天标注產生的價值)不到百元的項目,以前一天大幾百。" 一位從業者説。
那時的項目操作簡單且沒有要求,比如給無人車做 2D 場景标注,對圖片中的車輛拉框時,只要能框住就行,沒有要求。
但現在不同," 貼合度 " 是甲方最看重的驗收标準。" 去年還要求誤差在 5~7 毫米,今年就要 3~5 毫米了。誤差要求越來越小。" 代延説。
人工智能學者吳恩達多次強調,有标注的高質量數據才能釋放人工智能的價值,高質量數據越多,人工智能的發展就會越快。
在無人車的标注數據中,表現為矩形框與标注對象的貼合度,貼合度越高算法精度越高,算法對車輛的控制越精準。
高質量的文本标注項目,表現為語義理解的正确性、答題的正确率等。正确率越高,被訓練的大模型越聰明。
熟手才能保證數據交付又快又好。代延曾經讓一個新手參與核驗 ChatGPT 做完的數學題是否完整、邏輯是否正确、語言能否被小學生理解。新手标注的 7500 個數據因正确率太低,被甲方要求返工,代延和同事花了十幾天才糾正完。
數據标注越來越不是一個沒門檻的活。復雜的語音标注,醫療、法律、金融等專業數據集标注生產,更需要有學科知識儲備的專業人才做專業标注。
代延認為,以無人車項目為例,新人成為 2D 标注熟手需要做 3 個月,成為 3D 熟手需要練習 4~6 個月。
這種練習是指,訓練拉框的精确度,用滑鼠在電腦的标注頁面一氣呵成拉出一個矩形框,能準确蓋住标注對象,不踩線、不漏點,甚至是嚴絲合縫。
圖 / 數據标注熟手指出标注中的問題
只是,當機器開始自學,替代人為機器做标注,人們花費時間訓練的技能還有意義嗎?
4. 替代危機
代延意識到 AI 在靠近,是從前段時間做的圖片标注項目中。
這是一個代延做了兩年的老項目——識圖。數據标注工需要識别圖片中的文字并打印出來,價格是 8 毛 / 張。代延标注的數據,被喂入了識圖模型中。現在,這一模型已經熟練地識别圖片中的文字。代延的标注工作開始被縮減為訂正和審核。難度下降了,标注單價也下跌了。
被人類用标注訓練的AI,正在替代人力的标注工作。在蘇黎世大學的調查報告中,研究人員通過實測發現,ChatGPT 在 15 項标注任務中的處理能力高于眾包人員。大模型嵌入眾包平台的進度條也被拉快了。洛桑聯邦理工學院之後的研究發現,已有超過 30% 的眾包标注者在處理文本标注時使用了大模型。
AI 無疑比人工更省時省力:研究人員表示,ChatGPT 的部門成本只相當于 MTurk 的 1/20。
代延也做好了這條業務線随時會被 " 更完善的 AI" 取代的準備。他把未來押寶在更有技能要求的自動駕駛标注中。
但自動駕駛标注也正被 AI 侵入。相比人工的拉框方式,自動化标注只需要内置大模型,進行參數設定後,原本需要手動标注的矩形框會自動生成。目前唯一的問題是,生成的矩形框有踩線、貼合度太低等質量問題,需要人工逐一檢驗。
效率的提升讓車企驚喜。理想在使用大模型 2.0 進行自動化标定,效率是人的 1000 倍;特斯拉一直在積極推進自動标注的進展,比如在 2022 年 6 月裁撤了 200 名為特斯拉标注視頻,以改進輔助系統的美國員工,因為特斯拉的自動标注能力大幅改善,标注 10000 個不到 60 秒的視頻,只需要大模型運行一周,而不再需要人工标注幾個月。
AI 數據公司整數智能的創始人林群書説,越來越多的車企和 AIGC 企業采用大模型產品做自動化标注,營收正在大幅增長。他們最新的動作是在新加坡建立研發分部。
但對于自動化标注的增長,第三方服務商沒那麼樂觀。河南一家眾包平台的項目經理説,自動化标注還不能取代 60% 以上的标注需求,只能作為輔助标注工具,處理單一或特定數據,提升人效。
另一家數據标注公司的產品經理認為,自動标注只能過濾簡單的基礎數據,還不能像人一樣從復雜有争議的場景中精确識别物體。這也是數據标注市場,如今依然是以自動駕駛标注數據為主導的原因。
不過大家也認同,未來的數據标注将從重人力轉向重技術的趨勢。
總之,不是被同行 " 卷死 ",就是被技術 " 卷死 "。但坐以待斃肯定不行,數據标注的第三方公司在尋找未來的出路。
代延的計劃是緊跟市場,保持警惕,随時裁員,同時向做自動化标注工具的方向發展。一家眾包平台的創始人在和同行交流時説,未來不能堆人力,要有研發能力。
對于個人呢?行業裏流傳的職場路徑是,新手标注工——熟手标注工——标注項目管理員 / 經理——甲方公司數據分析師,最終實現月薪上萬的晉升。
代延認識的數據标注工沒人在朝這個方向走,他們要麼停留在原地,要麼退出,最好的情況是建立自己的标注團隊,像代延這樣,不過他也沒有覺得更輕松。
一邊是 AI 風口帶來的項目需求增長,一邊是更混亂的競價、更低的人均產值和正迅速成長的 AI。兩種情緒是交織的,AI 會帶來無限機遇,AI 也會淘汰 " 我們 "。
(應受訪對象要求,文中名字均為化名)
封面:數據标注從業者在講解數據标注,圖片由受訪者提供
END.
>