今天小编分享的科技经验:大模型狂欢,富士康工人流向AI标注厂:用青春喂养AI,最后又被AI淘汰,欢迎阅读。
本文来源:时代财经 作者:徐晓倩
图源:pixabay
今年上半年,一线城市的科技圈被人工智能激活了。
文心一言、通义千问、光年之外等大模型一波接着一波地输送热度,手握顶级资源的大佬们站在这场盛会的核心地带,他们相继发出英雄帖,有关大模型人才的争夺也摆上了牌桌。
作为与 AI 产业链紧密相扣的一环,距离北京 500 公里的山西太原数据产业基地却波澜不惊,这里聚集了上千名人工智能标注师。他们谈论的话题停留在项目进度、拉框达标率和一日三餐。
" 热闹是他们的,我们只有数不尽的拉框。" 一位数据标注师向时代财经说道。
在数据标注公司老板何晴记忆里,热闹发生在四五年前。人工智能的春风第一次刮向这个中西部城市,敏感的商人开始划地盘、招人,向人工智能源源不断地提供 " 养料 "。他们大多是人工智能的门外汉,因为突如其来的庞大用工需求,与前沿科技产生了奇妙的联结。
" 当时很多老板把自家人全都拉过来,随便动动手指都能赚到钱。" 何晴听说过数据标注行业内不少振奋人心的消息——有人在三个月内收入百万,也有人抢到的订单能排到第二年。
但这样的好日子正在逐渐远去。
体面的 " 流水线 "
上午 8 点 45 分,黑压压的人流堵在了电梯口,只有三分之一的人挤上了第一趟电梯,所有人最终的目的地都在 6 楼。
电梯门缓缓打开,人群一下子向四面八方散开,走进一个个看不出任何差别的办公室—— 100 平米左右的空间摆满了上百台电腦,主机、滑鼠、键盘线密密麻麻缠绕在员工脚边。
" 只要顺着门牌号,一家家问过去,全是做数据标注的。" 园区内底楼的商贩如此形容道。
这座吸纳近千人的数据标注基地像是藏在园区内的隐秘网吧,坐在电腦前的人熟练地点击着键盘和滑鼠,一平方米左右的桌子被体积庞大的电腦霸占。
正在工作中的数据标注师 图源:时代财经摄
唯一能彰显个性的,是戴在头上五彩缤纷的耳机,他们有着一个共同的身份:数据标注师。
滑鼠在左右键来回敲击,螢幕上的图片跟着放大缩小,游標飞快地描绘出一个个大小不同的框框 …… 重复的动作持续半小时后,美玲稍稍扭了一下脖子,脊椎处的骨头发出咯吱咯吱的声音。
" 新人熬过第一周就行了,做熟练了上手很快。" 美玲一边仍继续盯着螢幕,一边对时代财经说道,第一周就放弃的人高达 30%。
每隔两周,领班周姐就会带着十几个新人开启学徒生涯,这样重复无聊的工作劝退了不少年轻人。
两年前,美玲从幼师转型成了一名数据标注师。她的老家——吕梁的工作岗位很少,电话销售是其中一个比较体面的归宿,如今在人工智能浪潮的影响下,数据标注师为县城女性提供了另一种选择。
半年前,由于标注基地的变动,美玲从老家来到了省会太原。" 自动驾驶、人脸识别哪一个不需要大规模标注员的参与。" 她流露出骄傲的神情,在家里人看来,坐在办公室操作电腦、月收入超过 3000 元,待遇已经超过县城大多数工作了。
2005 年,计算机视觉专家朱松纯从美国回到故乡湖北鄂州,创办了莲花山研究院,并由此组建了中国最早的大数据标注团队。随后,数据标注厂逐渐在二三线城市生根,河北、河南、山东、山西等地区出现产业集群地。
通过重复的标签训练,让人工智能走到 " 觉醒 " 时刻,在美玲看来,这和之前的幼师工作一样。
数据标注是人工智能产品诞生的第一个环节,接下来,还要经历模型训练与优化、模型管理、推理应用等。喂养人工智能产品需要数以亿计的数据,这些数据会最先流向 " 美玲们 " 的电腦。
不过,美玲对 " 高科技 " 的幻想,在重复机械的滑鼠声中一点点被打碎。她测算过,1500 个框是每天工作量的极限,一旦越过这条警戒线,眼球就会一阵阵酸痛。
下班后,即便对着电视机,她看到的也是一片斑驳的马赛克,像极了一张张放大后需要标注的模糊图片。
" 隔壁座位上总是陌生的面孔,同事之间很少交流。" 工作了一年半后,在同一基地上班的吴霞还没有习惯办公室的沉默。
大专毕业后,原本她跟着同学一起进厂,后来因为项目变动、同学离职,她成了 " 独行侠 "。工作一开始,办公室就变成了自动化流水线启动的 " 车间 ",冷冰冰的工业化气息,没有多少人情味。
单独计件、不需要团队协作是数据标注行业的特性之一,由此形成不同于普通白领的管理方式。
在这里,标注师没有固定的工位,而是根据项目变动随机分配几百号人的流向。最长的项目 2-3 个月,短期项目只有 2-3 天,十几个人的项目小组設定一个管理员,时刻紧盯每个人的工作进度。
标注师也不会把精力用于经营同事关系,计件工种讲究效率和专注度,时间和金钱挂钩,要完成平均标准的 1000 个框,意味着平均每分钟要完成 2 个框。
" 跟别人说话的间隙,就会少赚好几框的钱。" 美玲说道。
富士康工人流向标注厂
在数据标注园区内,还零散分布着技术研究院和留学生创业基地。在孟然看来,这些 " 高端 " 岗位都离他很遥远。
上大学前,他没有离开过老家临汾,大学毕业后,家里人希望他不要离开本省。基地两公里以外,是富士康太原科技工业园。这个厂区吸纳了当地最活跃的用工人群,巅峰时期,有近 6 万人活动在厂区的流水线上。
不管如何折腾,大学生孟然的求职流动半径从没超过 5 公里。他曾经从数据标注基地二期搬到三期;在正式成为数据标注师之前,隔壁的富士康曾是他燃烧青春的地方。
距离数据标注基地不到 2 公里的富士康园区 图源:时代财经摄
孟然曾经连续两个假期进厂赚钱,每次在拿到一笔大几千元的报酬后,便匆匆离开。
每到寒暑假,富士康园区门口都站满了拎着大包小包行李的大学生,所有人的目标都指向了全年最高的返费和小时费。" 大家都是过来赚快钱的,旺季一过就打包走人,工厂忙起来太辛苦了,很难长期坚持干下去。"
孟然不喜欢富士康的工作氛围。进入车间前,要把电子设备上交,每天面对的的只剩下着装相似的赶工人潮和萧瑟冷峻的厂房。当遇到脾气暴躁的班组长时,每天受到劈头盖脸的谩骂也是家常便饭。
伴随着生产线启动的轰鸣声,工人需要不停安装某个零件,这样的动作往往要持续 10 个小时以上。在完全封闭的空间内,连出神都是奢侈的事情。等到领班稍微放松管理,孟然才敢和身边的工友聊上几句话。
2018 年,在旁边的数据标注基地落成后,孟然的工作有了第二种选择。仅仅在只隔了一条街的距离外,就有一个更舒适的工作唾手可得。
王菲曾是富士康的招聘专员。工厂淡旺季和人员变动,加上模糊的返费报酬和经常变卦的收入,让她经常陷入和打工者的无止尽拉扯中,标注师对她来说是更好的选择。
" 前几年数据标注门槛低、单价高,每个月能保持 4000 元收入,而且做的项目都是大厂有关的业务,比较有保障。" 王菲见过有不少熟练工离开基地另谋出路,但又兜兜转转回来的。
不少标注师有着和孟然相似的工作轨迹,电子厂的工作经历是他们简历的共同点,数据标注工厂成为他们离开电子代工厂的下一站。
用工数量大、收入可观、操作简单的共同点,无形中搭起了一座两公里的天桥,将两座超级工厂连接在了一起。
消失的项目和公司
对于标注师来说,一个直观的感受是:好日子快到头了。
单价几毛钱的项目不见了,一个标注框的价格卷到了几分钱;简单的平面描点拉框消失了,取而代之的是需要多维度标注的点云项目;正式员工逐渐从项目组离开,性价比更高的实习生撑起了一半以上的用工量。
数据标注公司老板何晴长达半年没有来过基地,她逐步减少了对公司的投入。
去年下半年开始,她的团队再也没能接到客单价高的项目,客户账期也从三个月拖到了半年。" 很多现金流不够、不具备垫资能力的小厂倒闭了,我们的团队成员也少了三分之一。"
三年前,标注框一度点燃了李薇的热情,慢热、不擅长沟通的她感觉自己找到了 " 天选 " 工作。
李薇接过单价为 0.25 元的项目,效率高的时候,她一天能拉框 1200 个,一个月赚近 8000 元," 为了能多赚一些钱,有人买来主机在家开工,任何人只要做得熟练了,都会收入变多 "。
和其他人一样,李薇隐隐觉得淘金时代结束了。
公司启动了全新的项目,呈现在眼前的不再是真实世界的路况图,而是由成千上万个绿色的、紫色的、蓝色的点构成的模型图,一张完工的图片中包括近百个标注框,而一整套题又是由几十张只有细微差别的图片构成的。
复杂的操作界面 图源:受访者提供
" 需要反复在平面图和 3D 切换,一些被遮挡住的画面得靠腦补,边框精确度也要求控制在 0.01 米,工作性价比越来越低了。" 只要与要求的范围偏差多出 1 毫米,就会被审核无情地打回去。
数据、算力、算法是人工智能的三大基石,数量越多、质量越高的数据,往往能够训练出更加成熟的大模型,表现在标注师的工作上就是不断被拔高的精确度。
" 这几天又在调整规则,精确度要求提高到 80% 以上。" 精确度成了标注师的 " 死穴 ",也是他们抱怨时出现的高频词汇。
一张标注完成的图片还要经过审核、质检等 2-3 个环节,否则不能进入结算周期。
有时候,吴霞感觉自己像被困在复杂的迷宫里,怎么都出不去。她曾被一个新项目磨了近一周——一边上交题目,一边被不断打回,这让她陷入焦虑。" 如果题目被打回的频次太多,就会被分配给其他人,前面的精力全白费。"
孟然的焦虑则是另一种。从去年 8 月开始,他的工作变得清闲起来,过去 5 分钟内积压上万的数据量,现在半个小时也不会有负载红线。
" 可能是平台数据量变少了,也有可能是机器审阅的效率提高了。" 孟然的不安全感很快得到了印证,由于工作量被迫减少,他每天的收入从一两百元降到了几十元。
一场淘汰赛在各大代理商中蔓延开来。孟然见过有团队一夜之间解散,十几名被拖欠薪资的员工把公司告到劳动局;情况稍微好一点的,会连同电腦和员工转让给下一个代理商。
" 保险起见,还是要去人员规模超过 30 人的团队。" 这是孟然给新人的忠告。
标注师正退出历史舞台
熬过了一周的培训期、挺过了半个月的生手期,今年 5 月,身在湖南的晓婷终于适应数据标注师身份,却见证了公司的快速下坠、直至消亡。
" 入职一个月,公司就撑不下去了,老板请大家吃了散伙饭,但工资还要等几个月再发。" 在晓婷看来,当前数据标注行业遍布 " 地雷 ",风险远大于收益。
无论是数据标注的创业者,还是数以万计的标注师,都无法回避一个事实:在大模型施展拳脚的舞台上,人工数据标注逐渐无足轻重。
和美玲想象的幼师工作不一样的是:学生不会那么快抢走老师的工作。如今,被标注师哺育起来的大模型技术正迅速反哺数据标注流程。
以特斯拉为例,其自 2018 年以来不断发展自动标注技术,从 2D 人工标注转为 4D 空间自动标注。技术的进步,吞噬了人工标注的操作空间,2021 年特斯拉人工标注团队超过 1000 人,2022 年则裁员超过 200 人。
其他车企公司包括小鹏汽车和毫末智行也纷纷推出自动标注工具。毫末智行 CEO 顾维灏公开表示,目前获取车道线、交通参与者和红绿灯信息,人工标注成本约每张图 5 元,而毫末 DriveGPT 的成本仅为 0.5 元。
2019 年,在一线城市从事 AI 数据训练师吴迪便预感到自己职业生涯的天花板,他所在公司负责研发电商平台智能客服项目。比他设想的进度更快,不到一年,他负责的数据标注 10 人团队便被全部砍掉,只保留了零星运营人员。
" 项目不断成熟的那天,就是我们不被需要的时候了。"
大模型的进化像是一条奔腾不息的河流,总在某一个瞬间奇袭,把人工团队甩在身后。
在苏黎世大学今年 3 月份的一份调查报告中,研究人员通过实测发现,ChatGPT 在 15 项标注任务中的处理能力高于众包人员。
今年 4 月初,在校医学生李捷在一个月内完成了某大厂在医药领網域的文本标注,该项目将用于提供智能诊断对话服务,这也让李捷第一次感受到大模型进化的速度。
" 一开始,我们不断给平台投喂分类医学名词,到了第二周,系统就能自动实现基本的名词分类了,而且正确率超过 90%。"
在山西太原,基地领班周姐开始劝新人接手难度更高的项目,因为公司很难再承受项目一次次被搁置的压力。" 目前越简单的标注业务利润越薄,有的项目做到一半就黄了,人力成本完全覆盖不了项目的收益 "。
一位数据标注行业招聘人士告诉时代财经,今年以来,招聘门槛逐渐从专科生向大學生倾斜。" 之前对标注师基本没有经验要求,现在很多公司都希望新员工可以直接上手做项目,这样能减少前期的培训成本。"
目前,智能标注能大致捕捉到物体的基本形状和位置,但是在精准度上,仍然落后于专业的标注师。
没有人知道智能标注会在什么时候迎来大爆发,但一种不安全感始终伴随着李薇。每当她打开新项目页面,代表智能标注的红框总是率先跳出来,仿佛无时不刻地提醒螢幕前的人:
终有一天,它会取代她的位置。
(文中受访者皆为化名。)