AI數據告急，大廠盯上廉價年輕人

今天小編分享的科技經驗：AI數據告急，大廠盯上廉價年輕人，歡迎閱讀。

為了拿到新數據、訓練 AI 大模型，字節等互聯網大廠正在親自下場，以單次 300 元不等的價格招募 "AI 錄音員 "，定制語料庫。

坐落于北京大鍾寺的字節辦公樓，集中了字節的抖音業務團隊和火山引擎業務團隊，從年初便開始招募素人為豆包大模型錄音。兩人結組、單次 3 小時，包括 80 分鍾的自由聊天，有提示詞的 60 組對話，單次結算金額為 300 元。

長達 3 小時的錄音，有至少 2 名字節員工全程陪同。" 對話不能水時長，要有内容和信息，質量太差會酌情扣款 "，" 不能修改提示詞，大模型理解不了 "。從晚上 6 點到 9 點，字節員工在錄制過程中的指令，則更多透露着對于錄音質量的關注。

圖注：大鍾寺錄音室内部圖

實際上，成都、太原、貴州等二線城市，早已成了字節、百度、阿裡等大廠的 AI 數據外包之城。" 去年，數據标注、方言朗讀，專科生就能做。現在招的都是 211、985 的實習生帶外包。" 某大模型產品經理表示。

在 9 月剛剛推出視頻大模型的 MiniMax，其創始人闫俊傑告訴字母榜，在上海，除了語料公司的高質量數據之外，MiniMax 也會采購一些平台化數據。

數據、算法和算力是 AI 大模型的三大支柱，其中數據是大模型進行訓練的根基。但由于互聯網數據散布在不同平台，并被重重壁壘所環繞，AI 大模型可以用來訓練的公開數據正在走向枯竭。

6 月，研究機構 Epoch AI 發布了一項新研究預測，可用于 AI 語言模型公開訓練的數據，将在 2026 年到 2032 年間，被科技公司耗盡。而早在 2023 年 5 月，OpenAI 首席執行官阿爾特曼便公開承認，AI 公司在不久的将來會耗盡互聯網上所有的數據。

如何尋找高質量的新數據 " 喂養 " 大模型，成了所有 AI 大模型團隊的共同難題。

由于存在擅自使用第三方數據的嫌疑，一些大公司屢屢陷入糾紛。8 月，OpenAI 被超過 100 位 YouTube 主播集體訴訟，指控其擅自轉錄了數百萬個 YouTube 視頻來訓練大模型。英偉達、蘋果、Anthropic 等巨頭也涉及其中。

對于大廠而言，擁有自己的閉源高質量數據，才能保證喂養大模型的數據時效性和質量。而跳過品控不穩定的第三方平台，試圖親自下場為 AI 寫 " 劇本 "，或許是大模型廠商們的一條新路子。

今年初，在小紅書等平台上，悄悄出現了标價 300 元一次的 AI 錄音兼職。

相比起 BOSS 直聘等平台 30-55 元時薪的 AI 錄音兼職，300 元單次、錄制地在北京大鍾寺的所謂 " 頭部大廠錄音兼職 " 顯得頗具誘惑力。

8 月，通過微信被拉到錄音群内時，字母榜（ID: wujicaijing）發現群内已經有了 200 多名等候錄音的人。由于規定為 2 人一組錄制對話，時間長達 3 小時，進群後，" 找搭子 "" 有人和我一起錄嗎？" 的微信消息彈出的最多。

而實際上，300 元一次，做 AI 錄音員，" 給 AI 寫劇本 " 并不輕松。

首先在錄音前，所有人都必須上傳一段 2-3 分鍾的對話錄音做 " 樣音 "，字節的審核人員要通過樣音的效果來決定是否通知兼職錄音。而這個過程會有 3 名員工負責審核，其中 2 名員工審核都通過，才能直接預約錄音時間，如果不通過，還有交叉審核。

在樣音二審過後，張雪在提交樣音的第二周預約了晚上 6-9 點的錄音時間。而在群聊内，不少人都被卡在了樣音環節，" 審核老師喜歡能聊的，愛聊的。" 情緒高昂的對話，内容有主題，讓更多的人卡在了篩選的第一道門檻。

圖注：大鍾寺錄音群

圖源：字母榜截圖

錄制當晚，張雪隔着錄音室的透明玻璃坐在椅子上，調節到語音能夠被清晰錄入的最佳位置，通過耳機收聽字節員工的指令。

第一個環節，就是兩人 80 分鍾的無主題自由聊天。而字節人員的要求，則是聊天不能是 " 片湯話 "，要有内容，同時每個話題都不能超過 10 分鍾，并且不能出現大段大段的獨白，要保證是相對平均的對話狀态。

張雪和搭檔在錄音室内隔着巨大的頭麥對談，盡量不停頓地談話 80 分鍾。同時，還要盡量克制身體不能亂動，發出咳嗽聲、笑聲等擾亂錄音質量的聲音。

為了保證語音質量，字節人員通過耳機不時插入，提示出現了雜音要重新錄制，或者聊天 " 不自然，引導痕迹過重 "，也要重新錄制。高質量語音的标準是聊天自然、話題連續，情緒積極但不能搶話，還要有内容、不流水賬。經過反復重調，第一個環節就花費了近 2 個小時的時間。

而到了第二個環節，要錄制有提示詞的 60 組對話。盡管有了劇本可供參考，但作為 AI 錄音員，張雪不僅要根據情境編對話，還要保證嚴格的對話模式，即上一組對話是 A 結束收尾，那麼下一組對話必須由 B 開始。

同時，為了适應大模型的調試需求，每一次的指令都必須清晰明确地說出提示詞，" 可以詳細一些嗎？可以更詳細一些嗎？可以再詳細一些嗎？" 而在耳機内，字節人員也明确表示，劇本都可以改，但只有提示詞不能動，換個說法，AI 就可能難以識别。

為了保證錄音質量，錄音不清晰、吞字或者情緒不足，都會重新錄制。等錄制結束，張雪離開大鍾寺，時間已經走到了晚上近 10 點。而一次 3 小時的錄音，字節人員一天要錄制 3 場，每周的日程幾乎都是滿的。

除了北京，字節已經在上海、杭州、重慶、南京、成都、天津等多個城市招募錄音員。

對于渴求新數據的大模型廠商們來說，" 砸錢拿數據 " 的操作并不新奇。

2023 年，随着 AI 大模型成為新風口，大廠們不僅直接通過第三方公司購買數據，也創造出了 " 大數據标注師 "、"AI 編輯 " 等外包崗位。

2023 年，小語種專業的阿琳，在考研期間就通過 BOSS 直聘等網站，開始為大模型 " 打工 "。

通過一家叫做 "X 數據 " 的公司，阿霖為大模型圖片識别的文字内容做驗收，即檢驗大模型圖片識别後的小語種文字是否與圖片一致。按照 " 一個詞或一句話算一個核算框，一個框算 1 毛錢 " 的價格，核算幾百條，阿霖一次能賺幾十元。

到了今年，阿霖同樣通過第三方的數據公司接單，做翻譯類的 AI 數據标注，價格漲成了 1 元多一條。但要人工判斷大模型翻譯出的法語等小語種是否準确，标注員不僅要找出錯誤之處，還要用不同的顏色，對 5-6 個大模型的翻譯内容進行标注。" 有時看一條得花 10-15 分鍾 "。

為 AI 打工之後，阿霖也發現，這些大模型，一旦脫離了原本小語種的教科書語料庫，對于社交平台新的用詞，或者小眾人群的慣用詞，即自身的數據庫沒有收錄，大模型就開始降智，" 受限于版權，學不到新的文本内容，翻譯效果也受影響。"

除了第三方外包公司，大廠也建立起了自己的數據基地。

例如，百度的數據基地分布在如南昌、陽泉、太原、貴州等非一線城市，并在這些城市完成數據标注、方言朗讀等數據的采集，只需 " 招一些當地的專科生，會操作電腦就行。月工資也往往在 3000-5000 元之間。" 美團也早就有了自己的駐廠 AI 訓練師。

不過，相比起舍得砸錢的大廠，大模型四小龍們想要拿到高質量數據，難度高了不少。

" 核心的閉源高質量數據，往往都已經被大廠壟斷，AI 創業公司，甚至是 AI 四小龍，都可能只能拿到邊緣數據。"某大模型廠商的算法人員 Leo 告訴字母榜。

由于高質量數據能夠顯著提升模型效果，因此，在開源的公開數據數據之外，大模型廠商們為了實現技術迭代，需要更高質量的數據完成訓練。但這些數據往往被大公司把握，如國内的新聞數據掌握在騰訊、字節等大廠内部，海外則由 Common Crawl、GDELT、The Pile 等占據。

在海外，即便是 YouTube，也在 6 月底宣布，将向頂級唱片公司提供許可協定，以換取版權音樂用于訓練。OpenAI 一直在與 Politico、《大西洋月刊》、《時代》、《金融時報》等新聞出版商達成付費協定，使用并引用它們的新聞資料。

當關鍵數據主要掌握在 " 渠道方 " 内部，比如騰訊、字節和 Meta 等公司，關鍵用戶數據早在移動互聯網時代被瓜分完畢，要想實現技術突圍，AI 四小龍首先就得交一筆不小的 " 數據費 "。

對于廠商們來說，行至大模型創業下半場，" 大數據幻覺 " 也是大模型集體降智、測不出 9.11 和 9.9 哪個大的原因之一。

當字母榜在 MiniMax 的海螺 AI 内輸入 " 一個小女孩懷裡抱着一只布偶貓 "，耗時 2 分鍾，生成的 6 秒視頻内，小女孩抱貓咪的手指細節豐富，只是懷裡抱着的，并非是一只布偶貓。

面對生成結果，MiniMax 的視頻大模型員工解釋，" 這是因為用于訓練大模型的數據，在貓咪的綁定圖片裡，并沒有布偶貓。"

當模型生成的内容與現實世界事實或用戶輸入不一致，即大模型出現幻覺，開始 " 胡說八道 "。對于渴望新用戶的大模型廠商而言，生成效果顯然決定了產品是否有機會出圈。

" 輸入的指令是提取 8 月所有娛樂新聞，結果 AI 生成的是 2019 年 8 月的娛樂新聞内容。" 在使用某頭部大模型產品時，忠實用戶孔昉已經抓到了好幾次 AI" 胡言亂語 " 的瞬間，或是編纂出根本不存在的引用文獻，或是不能理解近兩年的新概念，這讓孔昉對大模型產生了信任危機。

現在，孔昉會同時用 2-3 個不同廠商的大模型 " 跑 " 同一個問題，然後交叉對比，對于時間、數量、文獻等關鍵信息，也會通過搜索引擎二次确認，" 現在 AI 生成很像抽卡，效果不可控，而且還容易智障。" 孔昉無奈道。

而高質量數據或将逐漸耗盡，想要解決 " 大模型幻覺 " 問題，拿什麼數據來 " 喂養 " 大模型，顯然頗為關鍵。

某接近百度的人士告訴字母榜，大模型廠商們都會通過三方公司直接購買數據，省時省力但并 " 不省事 "，就是因為購買來的數據，無論是文本、錄音還是視頻，質量都是不可控的。

對于積極發展 B 端客戶的頭部大模型而言，針對某個客戶，更個性化地定制大模型成為如今大廠 AI 業務主要的收入來源。但想要訓練出這樣個性化的模型，就需要相應高标準篩選下的數據來 " 喂養 "，甚至根據不同階段大模型的學習效果，進行數據需求的調控，" 不是随便買一堆語音來，大模型就能學會的 "。

在某三方數據工作做過 AI 翻譯的阿霖也發現，" 作為提供數據的甲方，她所在的公司似乎并不真的關心大模型生成的語音質量。"

對于專攻法語、西班牙語等小語種的阿霖來說，她需要為甲方同時對比 5-6 個大模型将小語種語音翻譯成文字的生成效果，但只需要粗略得打分，對于生成的 5-6 份文字，到底有哪些細節的語言差異，能夠如何改進，三方公司并不會詢問，" 漠不關心 "。

而缺乏高質量數據，或許也正是不少用戶表示 " 用哪家的大模型生成的内容都差不多 " 的原因，也正是用戶一旦 " 一家大模型收費，就直接換另一家 " 的根因。

對于用戶而言，宣稱追趕 OpenAI，在技術上持續迭代的國產大模型，或許并無實質差異，也談不上成為忠誠用戶，這也給急着商業化的大模型廠商們蒙上了一層淡淡的陰影。

因此，即便親自下場 " 為 AI 編劇本 " 費時費力又費錢，字節也趟出了一條新路子。而可以預見的是，為了解決商業化和用戶拉新的關鍵問題，大手筆咬牙 " 買數據 "，恐怕将成為大模型廠商們的新賽點。

（文中阿霖、孔昉、張雪為化名）