今天小編分享的互聯網經驗:100%本科學歷,百度招募數百名數據标注員,“投喂”文心一言大模型,歡迎閱讀。
文|林炜鑫
編輯|鄧詠儀
當下,大模型正處在產業落地前期,高質量的數據,是大模型實現產業化的關鍵要素,也将使大模型與人類價值觀、思維方式不斷對齊,更加可用。
近日 36 氪了解到,位于海口市秀英區的百度智能雲(海口)人工智能基礎數據產業基地正式啟動運營,這是百度智能雲與海口市政府合作共建的國内首個大模型數據标注中心,未來将為各行各業提供大模型數據服務。
百度智能雲海口人工智能基礎數據產業基地
百度智能雲數據标注基地業務產品負責人胡馳表示,為提高數據标注的質量和效率,百度智能雲自主研發了大模型數據标注平台,支持從大模型微調、強化學習到模型評估的數據生產閉環。結合平台獨有的人機協同标注、多輪智能審核等智能化工具,可大幅提升數據标注的產能和質量,同時幫助企業實現降本增效。
為保障數據标注質量,百度智能雲還搭建了全流程數據服務人才梯隊。海口數據标注基地現擁有數百名專職大模型數據标注師,标注師的本科率達到 100%。
" 和傳統的數據标注師要求不同,大模型标注師都需要本科以上學歷,我覺得主要是因為大模型數據涉及的知識面很廣,評判标準復雜,非常考驗标注師的語言理解能力和邏輯推理能力。在入職的前兩個月,公司會對我們進行集體培訓和考核,通過考核後才能正式上崗。" 百度智能雲大模型數據标注師王潔玉說。
據了解,百度智能雲沉澱了多領網域專家資源,針對來自不同行業的數據服務需求,百度智能雲可快速搭建專家團隊,對特定領網域的任務提供監督微調和強化訓練數據,保證數據交付質量,目前已覆蓋計算機、法律、醫療等領網域。
百度智能雲海口人工智能基礎數據產業基地作業區
此外,百度智能雲還組建了專業的數據咨詢團隊,從前期的數據收集、數據清洗,再到數據管理、數據回流,可為企業提供全流程的咨詢服務,幫助企業在智能化轉型過程中少走彎路。
數據安全始終是重中之重。胡馳表示,百度智能雲不僅可提供高安全性的端到端數據服務,标注平台還支持私有部署,通過與基地資源聯動,為客戶提供多樣化的數據安全方案。
" 大模型标注基地重點要評估三大指标:高效标注工具、高端人才梯隊、高級别數據安全,只有三管齊下,才能為大模型提供好的數據。" 胡馳說。
海口市秀英區委常委、常務副區長石晟屹表示,海口人工智能技術數據產業基地的落成,在不到一年的時間,已經帶動近千人的大學生就業,對培育本地的數字經濟人才做出了突出貢獻。在未來三到五年,基地新增就業有望突破 5000 人規模。
據悉,百度智能雲在全國已與各地政府合作共建十餘個數據标注基地,累計為各區網域提供超過 11000 個穩定就業崗位,間接帶動 50000 人就業,培育數萬名 AI 數據人才,同時吸引孵化優質企業超 200 家。
除了落地十餘個數據标注基地,解決大數據問題之外,百度智能雲在陽泉、福州、天津、濟南、沈陽等地建設了多個智算中心,解決大模型所需的算力問題。
百度智能雲方面表示,這些分布在全國各地的 " 智能新基建 ",已經将強大的 AI 能力凝聚在 " 千帆大模型平台 " 上,目的就是幫助企業一站式的解決大模型開發和應用過程中面臨的所有問題。
百度陽泉智算中心
今年 8 月,百度智能雲宣布,千帆大模型平台更新,接入包括文心一言、Llama 2 全系列、ChatGLM2-6B 等在内的 33 個國内外最主流的大模型,成為國内擁有大模型最多的平台。據了解,百度智能雲将在 9 月全面更新大模型服務。