今天小編分享的科學經驗:最近頒發的“吳文俊獎”,見證了中國AI走向產業之路,歡迎閱讀。
" 任何足夠先進的技術,初看起來都與魔法無異 " ——這是著名科幻作家克拉克總結的第三定律。
今年以來 ChatGPT 掀起的智能互動變革,大語言模型的智能湧現能力,在很多人眼裡,真的就像魔法一樣。
當然,大家心知肚明,技術世界裡哪有什麼秘訣和魔法,還不是一行行代碼、一個個日日夜夜、一次次的 bug 調優迭代,最終讓技術創新像魔法一樣出現,驚豔世人。
所以,在如火如荼 " 大煉模型 " 的時間節點上,比起技術的玄妙,我們更關心那些 " 高大上 " 的技術,究竟是如何被打磨出來的,又會怎樣改變我們的生活與工作?
要弄懂這一點,就需要了解技術的真實進展與發展脈絡。于是,我們想到了 " 吳文俊獎 "。
如果你關注 AI 領網域的硬核技術,一定對 " 吳文俊獎 " 不陌生。
2011 年,中國人工智能學會發起設立的 " 吳文俊人工智能科學技術獎 ",是我國智能科學技術領網域唯一依托社會力量設立的科學技術獎,也被譽為 " 中國智能科技最高獎 "。
十二年來,吳文俊獎激勵着扎扎實實的個人、技術和項目,同時作為一扇視窗也展現着中國 AI 的發展方向和探索成果。
在 " 吳文俊獎 " 科技進步獎的名單中,我們看到了一個與類 ChatGPT 技術同出一源(NLP)、又獨辟蹊徑的項目——任務型智能對話互動關鍵技術及大規模產業應用,由京東的何曉冬博士團隊研發。
簡單來說,這是一個由語言模型、影像生成、數字人等多種能力構成的技術群落,并實現了從學術界到產業界的落地。
如果我們想了解智能對話的 " 魔法 ",以及正在真實發生的產業變局,這些具體而真實的場景、人、技術和創新,是一個非常好的切面。
登上吳獎獎台的技術
也是你我身邊的 " 魔法 "
吳文俊人工智能科技進步獎是頒給底層技術的,而相比復雜艱深的學術名詞、函數公式,普通讀者更關心的是,這些底層技術究竟是怎樣從吳獎獎台,來到你我身邊,變成日常生活中的 "AI 魔法 " 的?
這一次,京東何曉冬博士團隊,告訴了我們答案。
在訪談現場播放了一段枸杞帶貨的視頻,視頻中人物的形象、腳本、語音和動作全部都是 AI 生成的。
這種高真人還原度的 AI 應用,正是基于獲得吳文俊獎的京東雲智能互動技術體系打造的。
何曉冬博士透露,京東一直持續技術投入,在 AI 領網域沉澱出的綜合性應用平台就是 " 言犀 "。
開放式閒聊,用戶對技術的包容度很高,即便系統犯錯,用戶也可能會覺得有趣。但在言犀面對的任務型對話場景中,用戶都會帶着解決復雜問題的明确目的。以應用最廣的零售場景為例,他們需要智能客服精準解答售前咨詢、退換貨、配送等各環節的問題,這時候系統犯錯,就是 " 火上澆油 "。
所以," 言犀 " 的語音生成、情緒感知、多輪對話決策推理等核心技術,必須滿足真實場景的嚴苛需求。
(京東雲 " 數字人 ")
為此,京東雲在技術上進行了大量創新:
1. 知識指導的多模态可控對話生成。就拿數字人直播來說,要還原真人的表現力,做到惟妙惟肖的語氣、口音,對技術的先進性要求很高。京東雲言犀團隊提出了多顆粒度韻律增強的語音合成技術,提高語音的韻律豐富度和可控性。同時,提出了知識融合的預訓練語言模型和多模态可控對話文本生成模型,提升生成文本的專業度豐富度。這樣,一個 AI 科學家也能在數字世界裡,一秒化身 " 養生專家 ",頭頭是道地提供相關領網域知識。
2. 極簡條件下智能行為感知與數字外觀重建。說實話,數字人帶貨的視頻很難分辨出是 AIGC,其中一個原因就是生成的動作自然、合理," 不像假的,再看看 "。這源于言犀團隊與清華大學等一起提出的一系列高精度人體外觀感知與重建方法,達到國際領先水平,算法效率提升了 1 個數量級,可以在極簡條件下進行人體重構,應用于數字人互動服務場景。
3. 多輪對話決策推理。在實際場景中,數字人主播可以跟真人消費者進行復雜的互動和講解,那麼問題來了,現實中的人會有口語化、不規律停頓等情況,如果 AI 在用戶思考的時候就盲目打斷,把對話接過來,很可能讓用戶不高興,這就不夠智能了。何曉冬博士介紹到,智能對話的本質是決策,AI 要能夠以毫秒為部門,進行綜合性、多模态的判斷,然後決定什麼時候切進去、什麼時候繼續等待。針對人 / 機話語權決策等問題,言犀團隊提出了多輪對話決策推理等技術,打造了國際領先的解決方案,此前還曾獲得國際競賽 Wikihop、HotpotQA 冠軍。
登上吳文俊獎領獎台的 " 技術魔法 ",背後是一件件源于扎實應用場景,具體而真實的創新,也在 2022 年 7 月通過了中國人工智能學會組織的科技成果鑑定,組委會做出了 " 該項目技術復雜,研制難度大,創新性強,項目成果整體處于國際先進水平 " 的評價。
京東魔術師
一群 AI 人的 " 側寫 "
在訪談現場,我們見到了言犀團隊的多位成員,一番對話後,我願稱他們為——京東 " 魔術師天團 "。
為什麼這麼說?其實,在國際賽事上刷榜的國内團隊很多,但能讓技術真正創造產業價值與社會效益的團隊,真是鳳毛麟角。
在吳文俊獎的最終答辯環節,面對院士專家組成的評審團,何曉冬博士分享了一個現實案例:去年北京市有 2600 萬通 "96010" 電話,是借助言犀的人工智能對話技術打出去的。而這些工作,如果沒有用 AI,需要 1 萬名社區人員不停地打好幾個月。
技術成果的規模化應用,產生了重大的經濟和社會效益,也是評委們認可的要點。
這種将技術價值與產業價值 " 合二為一 " 的能力,正是源自京東雲言犀團隊的全員 " 魔術師 ",看似神奇的成果背後,是日復一日的苦練鑽研,以及想用技術創新推動產業躍遷那份心意,最終點亮了 AI 魔法。
" 學術 " 與 " 產業 " 是 " 兩層皮 ",這個問題一直困擾着全球學術界和工業界的眾多研究者。即學術成果和落地應用之間,很難達到一體化,要麼學術成果難以落地,要麼落地之後效果不好,成了 " 買家秀 " 和 " 賣家秀 " 的區别。但在京東,好像這個問題并不存在。
我們訪問了幾位團隊成員,從他們口中找到了技術的產業落地 " 之所以是京東 " 的答案。
1. 嚴謹态度。技術創新必須經由實踐效果的檢驗。何曉冬博士透露,今年言犀要發布一個千億級大模型,但内部非常嚴肅看待這次技術革命,做大模型不是為了好玩,也不是發個產品就可以了,而要在京東核心關鍵的場景上有比較好的實踐效果後,才能讓合作夥伴落地使用。
2. 深入業務。吳友政博士在自然語言處理、人機對話、語音識别、機器翻譯等前沿技術研究和產品研發方面成果斐然,他介紹到,京東雲言犀團隊做的很多技術突破瓶頸,目标就是解決京東復雜的、真實的、大規模場景中的問題,要求算法同學們都要深入業務,而不是在實驗室做模型。所以,2018 年產業互聯網還沒有那麼火熱的時候,言犀就已經在 B 端智能領網域進行了探索,了解每個業務的痛點,和業務同學梳理出真正的問題是什麼,用最終的業務指标去衡量技術先進性。
3. 擁抱用戶。在交流中,幾位技術人員都提到了一個 " 人 " ——用戶。
語音合成領網域的張政臣博士說,技術攻堅中最大的困難,就是用戶明顯感覺到 " 你這個技術不行啊 ",最開心的時候,是聽到大家說," 我跟何博士很熟,剛才那段生成對話居然沒有聽出來 "。
陳蒙博士負責人機對話,最典型的落地場景就是智能客服,京東零售有幾千個品類,每個店鋪賣的東西不一樣,智能客服要針對不同品類來回答用戶的售前售後問題,陳蒙博士說:" 實際應用時,不是每家企業都有 GPU 卡,還要考慮不增加企業的成本,還能有比較好的初始效果,這就要求我們提高模型的泛化能力。"
語音識别方向的範璐博士,一個核心任務就是理解用戶說話的情緒,來理解客戶到底在什麼階段有什麼需求,從而做出更準确的決策判斷,來提供更好的服務。他直言:" 做技術的人要理解用戶的問題,去找解決問題的錘子,而不是拿着錘子找釘子……當用戶反饋說,我們的一些產品真的幫助到了他,感到了關懷和溫暖,我感覺加過的班都值了。"
魔術師的帽子裡,有抽不盡的彩帶,飛翔的白鴿,只為了讓觀眾驚豔、笑出聲來。對于用戶來說,京東雲的技術人員,正是在產業裡制造神奇的魔術師,讓艱澀的技術和枯燥的代碼,轉變成產業應用的繁花似錦、用戶指尖的靈機一現。
產業 AI
一個關乎中國的遠大前程
狄更斯在《遠大前程》中,展現了時代轟然向前對個人的成長和經歷,會產生巨大影響。這與我們當下所處的時代變遷,何其相似?
今年以來,互動方式的變革,讓絕大多數人都感受到了人工智能洶湧澎湃的力量。沒有人會懷疑,智能技術正在快速重構一切,關乎一個人、一家企業乃至一個國家的遠大前程。
何曉冬博士坦言,AI 正在帶來新的生產力,幫助商業效率進一步提升。
而在這個确定的未來中,一家企業需要具備怎樣的基礎能力?
何曉冬博士覺得,答案是 " 產業 AI"。
何曉冬博士很清楚,一項新技術要從學術界抵達產業,真正發揮效用,中間存在無數限制和困局。
他說:" 人的終極三問——我是誰,從哪來,要到哪去,放在 AI 這就是要思考,智能是什麼,智能的脈絡和智能體能為現實世界帶來什麼。" 科學家做研究,解決第一個問題很容易,造出一個 " 智能機器 ",但落地到物理世界的時候,未必能解決每個具體場景和從業者的痛點。何曉冬博士說到:" 我最近五年在京東做‘產業 AI ’,覺得這個路子是值得持續挖掘的,技術能深入到社會和經濟領網域,真正減輕客服等工作人員的負擔,提高生產效率。"
這五年,也是京東雲成長的五年,已經探索出了一條產業 AI 的路線圖:
以技術為起點,建立完善可用的技術底座。
一方面,解耦京東技術與服務能力,京東雲将數智供應鏈場景中成長出的 AI 能力,服務千行百業。此外,始終搶先布局,針對大模型等新技術一直在布局,比如百億級模型 Vega,在全球機器翻譯比賽上獲得了多個第一名,體現了京東在大模型方面的技術積累和技術實力。
以產業為終點,服務傳統實體行業。
何曉冬博士提到,技術落地最大的困難就是,很多科學家覺得有價值的事情,對行業來說沒有解決内部痛點。自己前 20 年做技術,能消除學術和產業的鴻溝,是他加入京東後非常欣慰的事。
比如對消費者來和對用戶來說,直接使用智能互動技術,是很難的,而京東憑借自身零售、物流、產銷等業務能力,可以将整個業務系統串聯起來,同時将京東内部實踐錘煉出的 AI 能力,進行成本、效率、體驗的再優化,然後對外賦能。
言犀智能人機互動平台,就是技術規模化賦能實體行業的載體,整合了過往產業實踐和技術積累,在每天上千萬人次多輪對話互動服務中持續迭代,產業服務能力突出。
比如政務領網域,京東雲将言犀的新一代人機協同技術全面注入政務熱線服務,幫助東莞 12345 熱線,進行了智能化更新。東莞 12345 熱線 2022 年全年話務受理量從 270 萬通升至 581 萬通,在工單自動轉寫、精準派單、智能知識庫聯想等能力的加持下,接通率由 40% 升至超 90%,等候時長由 80 秒壓至 30 秒,工單平均辦理時長由 12.6 天壓至 4.3 天,滿意率升至 96.8%。在保定,借助京東雲的對話分析技術,保定 12345 實時預警研判出多起覆蓋升學、食品安全、營商環境等方面潛在群體事件……
企業服務領網域,直播已經成為各大企業觸達潛在消費者、擴展品牌知名度的重要渠道,某頭部 3C 品牌就借助言犀數字人產品,定制了自己的 IP 形象,實現了非真人時間段的快速開播。目前,數字人主播的每日成交金額最高達到真人主播的 2.3 倍,每小時成交金額占真人 45%,但成本不到真人的十分之一,幫助品牌服務好消費者,同時降本增效。
AI 的技術起點與產業終點之間,需要深度應用、不斷打磨,京東雲有一群将 AI 學術與產業緊密結合的技術人,願意深耕每一片產業熱土。
不斷聆聽來自產業和用戶的聲音,徹底改變那些沉澱已久的頑疴,這是京東雲能持續讓技術在產業領網域中產生價值的重要原因。
今天,AI+ 產業已經上升為國家戰略和社會的共同期待,但想讓 AI 真正為行業帶來價值,惠及千家萬戶,僅僅有宏大的願景與美好的希冀遠遠不夠,将學術聖殿與產業土壤鏈接到一起,才有完整的 " 產業 AI",才能回答人生的 " 終極三問 "。
從京東雲言犀團隊的獎杯裡,我們可以讀到產業 AI 的春華秋實,理解技術走向物理世界的因果。
每一個神奇時刻的背後,其實沒有 " 銀彈 ",沒有奇迹,只有踏踏實實深入 AI 世界深處的人與故事。
>