今天小編分享的财經經驗:ChatGPT背後的打工人,月薪3000,歡迎閱讀。
人工智能訓練師工作的背後,藏着哪些隐秘的故事?
作者 | 徐倩影
題圖 | 視覺中國
2023 年第一季度,國内多家互聯網企業相繼推出類 ChatGPT 產品。
復旦大學邱錫鵬教授團隊發布國内第一個對話式大型語言模型 MOSS,邀公眾參與内測;百度推出類 ChatGPT 產品 " 文心一言 ";秘塔科技自研 LLM 大模型 " 對話寫作貓 " 已正式上線 …… 且不說產品的體驗感如何,它們均提醒了中國 AI 企業必須加速推進。
當一眾互聯網大佬紛紛表示要在 ChatGPT 風口尋求新的機會時,作為人工智能下遊的數據标注行業從業者,楊科琪明顯感受到公司業務量出現了短期增長。但這種增長量是否會持續?他無法判斷,至少到目前為止,國内做 AI 的公司有很多,但能夠盈利的卻少之又少。
早在 2017 年,伴随無人駕駛與阿爾法圍棋(AlphaGo)帶來的 AI 浪潮,數據标注行業逐漸進入大眾視野。同年,國務院發布《新一代人工智能發展規劃》,明确新一代人工智能發展三步走戰略目标,人工智能上升為國家戰略層面。
圖源:圖蟲創意
2019 年,即人工智能訓練師被納入國家職業分類目錄的前一年,楊科琪和朋友在中國西北的一個小縣城開啟了 AI 數據服務生意。楊科琪說:" 實際上,職業培訓與做業務是兩回事,在數據标注公司,聰明、用功的人學習一周就能上手。" 在他看來,數據标注是一份門檻低且又有些枯燥的工作,但這并不影響其成為時下中國部分縣城流行的職業之一。
2020 年,楊科琪離開了初創公司,進入一家專業 AI 數據服務提供商企業。在他看來,數據标注行業必定要走向專業化與職業化的發展方向。
以下為楊科琪的自述。
是安逸還是無趣?
1000 個工位,1000 台電腦,目前有 800 位人工智能訓練師,他們每天坐在電腦前畫框、放大畫面、調整框線、提交審核 …… 這裡有空調、有網絡,每個人有不到 2 平方米的辦公區網域。
目前,我們最大的業務是無人駕駛項目,标注員根據系統給出的方框,用滑鼠細化一輛車的大體輪廓,然後将圖片放至最大,細心調整車輛邊緣的框線,再勾選螢幕左上角的車輛屬性。
所謂人工智能訓練師就是讓汽車在行駛過程中自動識别馬路。如果只是将視頻傳給計算機,計算機是無法識别的,需要大量的标注員将視頻中的道路框出,再交給計算機,計算機多次接收此類信息後,才能逐漸學會在視頻和照片中識别出道路。
圖源:視覺中國
今年 3 月,德勤中國發布的《人工智能基礎數據服務白皮書》顯示,人工智能基礎數據服務下遊應用占比中自動駕駛占到 52%。随着自動駕駛 AI 算法的更新迭代及模型訓練數據量的指數級增長,技術迭代帶來數據需求 " 大爆發 "。相比其他項目,自動駕駛業務的持續性更好,而且服務周期也比較長。
人工智能的三大基石是數據、算力與算法。我們數過羊、數過木頭,還數過鐵塊,涉及的行業有醫學類、安防類、現在的自動駕駛等,還接過看手相的一個項目,甲方要求我們給手掌上的各種手紋進行标注,很多員工都開始研究手相,挺好玩的。一般而言,視覺類的内容要做到機器準确識别,至少需要 10 萬張圖片。對于 AI 產品,數量越多、質量越高的數據,往往越能夠訓練出更 " 聰明 " 的模型。
标注員一天的工作内容就是畫框線,根據項目的難易程度,一個框 3 — 8 分錢,工作日 8 小時要畫 2000 個框以上,人均月收入在 3000 — 4000 元。
2023 年 2 月 16 日,陝西省榆林市清澗縣,工作人員在進行數據标注。/ 視覺中國
以我們公司為例,人員流動率在 30% — 40%,因為工作比較簡單,每天 8 小時坐在電腦前,做着重復性工作,對于有的人而言是一份還算安逸的工作,但對另一些人而言就顯得非常枯燥和無趣。
一個 AI 產品的誕生一般需要經歷數據準備、模型訓練與優化、模型管理、推理應用等 4 個模塊,在國内已經形成了非常成熟的全產業鏈。目前,我所在的公司在做的就是數據準備,包括數據生產、數據清洗、數據标注三大方面。像我們這種布局在縣城的數據标注公司,一般主要負責數據清洗和數據标注。清除模糊的圖片、噪聲太多的語音、錯誤的文本内容後,我們再進行畫框線和數據标注,根據甲方的不同需求進行操作。
技能等級認定中的初級工
根據《人工智能訓練師國家職業技能标準(2021 年版)》的定義,人工智能訓練師是使用智能訓練軟體,在人工智能產品使用過程中進行數據庫管理、算法參數設定、人機互動設計、性能測試跟蹤及其他輔助作業的人員。
在我看來,雖然标注員也被稱為人工智能訓練師,但如果按照去年發布的《關于開展新職業技能等級認定工作的通知》的内容,标注行業内的人工智能訓練師在技能等級認定中應該屬于初級工,在其之上還有 4 個更高的職業技能等級。
其實,拿證和做業務真是兩回事。考取職業證書,按照職業教育的要求需要上滿 60 個課時,課程中會系統學習人工智能的概念、未來的發展方向,以及相對完整的知識構架邏輯。但是在标注行業,在數據标注公司,聰明、用功的人學習一周就能上手,只要會使用标注工具就能勝任。
标注行業作為勞動密集型產業,運作模式主要有兩種。一種是專業 AI 數據服務提供商自己雇人自己做;另一種是他們接到業務後發包出去,使用更具性價比的人員或公司。我所在的公司也屬于後者," 層層發包 " 在标注行業比較常見。
2019 年 7 月 31,貴州銅仁。"AI 豆計劃 " 的學院在萬山區人工智能產業扶貧孵化空間練習數據标注。/ 視覺中國
數據标注發展初期,就是由 " 眾包 " 模式而興起,當時有很多眾包平台,需求方項目要求有大量兼職人員接單,和目前的美團模式差不多。當年,我們的初創公司也是利用信息差,從數據标注平台接單,在市場上找更便宜的人力資源完成任務,但随着數據标注從野蠻生長階段進入規範化發展階段,市場上的兼職人員正在減少。越來越多的兼職業務正在被像我們這樣的縣城标注公司替代。
2019 年,我剛剛創業時,知道數據标注的人不多,這行屬于剛剛興起。現在,這行的入門門檻變高了,參與的人也越來越多,市場壓價現象很普遍,與剛入行時相比,價格下降了 30% 左右,我個人覺得數據标注市場已經有點 " 紅海 " 了。
目前,大部分互聯網企業都在自建基地,比如百度、阿裡巴巴、京東等互聯網大廠在全國都建立了基地,從而獲得政策扶持、租金減免等條件。
人工智能的下一站是縣城
人工智能訓練師流行于縣城?我覺得很正常。目前,國内标注行業的價格戰愈演愈烈,在質量、效率不斷提高的情況下,各大公司拼的無疑就是價格。随着行業的發展,甲方需要不斷尋求價格更低的生產力區網域,所以各大 AI 數據服務企業轉戰縣城非常正常。
在縣城辦公,房租、人力成本相對較低,同時互聯網企業确實可以解決一部分人的就業和收入問題。目前,百度擁有行業内最大的自建标注團隊,在山東濟南、山西臨汾、重慶奉節、四川達州、甘肅酒泉、江西新餘等 10 個地區有自建标注基地。
2022 年 2 月 21 日,陝西省銅川市宜君縣。人工智能訓練師張文濤正在做地圖數據标注工作。/ 視覺中國
除此之外,政府補貼也是相關企業選擇縣城的主要原因。2023 年 1 月,貴陽市人民政府網發布的《貴陽鼓勵企業吸納就業政策》中提到,貴陽市符合條件的小微企業、民營經濟組織和社會組織吸納高校畢業生就業的,給予 800 元 / 人的一次性吸納就業補貼及一定額度的創業擔保貸款。
數據标注作為勞動密集型產業,當企業更多地選在三四線城市落地,當地政府看重的則是產業化的基地建成後,帶動當地就業、促進當地經濟發展。智研咨詢發布的《2022 — 2028 年中國數據标注與審核行業投資策略探讨及市場規模預測報告》中提到,随着人工智能成為國家發展戰略,其勢頭銳不可當,預計 2028 年我國數據标注與審核行業市場規模将達 262.74 億元。
不久前,Meta 發布了史上首個影像分割基礎模型—— SAM(Segment Anything Model)。有人認為,這代表着計算機視覺領網域的 GPT-3 時刻已經到來。有人說這一模型會替代大量的标注員,我個人認為在數據處理的精度方面,人類無法被替代,至少目前不會,畢竟對于 AI 產品而言,數據越精準,模型才會越精準。
ChatGPT 在社交媒體上引起了巨大的話題度後,國内多家互聯網企業相繼推出類 ChatGPT 產品。對我們而言,短期内 AI 企業對數據标注的需求量還會增加,畢竟數據标注在整個前期產品開發的過程中時間占比可能在全周期的 20% — 30% 之間,目前這一塊的數據确實需要大量的人去做。但是,随着平台标注自動化和預識别的發展,未來一部分标注員可能會被淘汰。
未來,數據标注這行一定會向着規範化和職業化發展,因為需求方的類型和要求會增多,也會涉及各個領網域的專業性方面。比如醫療,如果沒有醫學常識很難做好标注;金融數據也是如此,看不懂财報,就沒辦法做标注。
(應受訪者要求,文中楊科琪為化名)
運營:嘻嘻,排版:韓博菲
原标題:" 賽博流水線 " 裡不被看見的一群人
本文首發 634 期《逃離工位》
點擊封面購買雜志
讀完點個【在看】