今天小編分享的科技經驗:這些 AI 產品,正在打破 4.3 億人的障礙,歡迎閲讀。
之前我們寫過一篇文章——《别再問我聾人為什麼要去音樂節了》,科普了海外音樂節的特别崗位:手語翻譯員。
聽障人士雖然聽不見或者聽不清音樂,但他們可以通過手語翻譯員感染力極強的手部動作、面部表情、肢體語言,感受到音樂的律動、氛圍的熱烈。
這可能是健聽人意想不到的手語場景。其實無論線上線下,需要手語翻譯員的地方還有很多,然而僧多粥少。
英國人 Sally Chalk,2002 年開了一家英國手語翻譯公司,經過 20 年的經營,公司規模可觀,預約手語翻譯員的時間也縮短到了 30 分鍾,但她還是不滿足。
聽障人士能不能馬上獲取手語翻譯,就像在視頻網站打開字幕一樣?
她的答案是,讓 AI 加入進來。
從線上到線下,應該讓聽障人士多用「母語」
2022 年,Sally Chalk 開了一家新的初創公司—— Signapse,專注開發生成式 AI 手語翻譯軟體,将書面文本實時翻譯為美國手語和英國手語。
今年 5 月,Signapse 拿到了 200 萬英鎊的種子輪融資,其中 50 萬來自英國政府。
他們瞄準的一個線下場景,是火車站、機場等交通樞紐。
美國的辛辛那提 / 北肯塔基國際機場,已經和 Signapse 合作,在螢幕上投放美國手語,提供歡迎、安全、出發、到達等信息。
AI 是如何發揮作用的?Signapse 基于大型手語數據集,并通過生成對抗網絡(GAN)和深度學習技術,創造了逼真的、翻譯盡可能準确的虛拟手語翻譯員。
這些虛拟形象基于真人手語翻譯員,每次被商用時,真人都會拿到抽成。
考慮到機場的目的地、出發時間、站台号碼經常變動,通過與交通數據集成,Signapse 的手語翻譯可以做到實時更新。
同時,Signapse 沒有忽視線上的需求,也為網站和視頻流媒體提供手語翻譯。
盡管 YouTube 等網站都有隐藏式字幕了,但相比字幕,聽障人士往往更喜歡手語,因為手語具有獨立于其他語言的語法結構和表達形式,會讓他們的上網體驗更好。
你應該有注意到,提到手語時,我們會用美國手語、英國手語的説法。就像全世界的口語和文字互不相通,手語也包羅萬象。
聯合國統計,全世界大約有 7000 萬人将手語作為主要的交流形式,全世界使用的手語有 300 多種不同類型。僅在美國,就有 50 萬人使用美國手語。
所以,Signapse 目前所做的其實也很有限,只覆蓋到了使用美國和英國手語的少部分人,以及有限的垂直場景。過去兩年,Signapse 每天創建約 5000 個英國手語交通公告。
Signapse 希望,未來他們的服務可以更加普适,拓展到教育等場景,也更加個性化,支持用户自定義虛拟手語翻譯員的外觀。
一方的水土養一方的 AI,國内大廠也有類似的手語產品。
AI 手語主播們,曾經出現在騰訊的王者榮耀直播間、華為的開發者大會。
2022 年冬奧會,央視新聞和百度智能雲曦靈聯合打造的 AI 手語主播上線,天津理工大學聾人工學院參與了手語語料标注。
而在 AI 手語主播背後,百度智能雲曦靈的 AI 手語平台,還能滿足醫院、車站、銀行等不同場景的快速手語翻譯需求,和 Signapse 英雄所見略同。
更絲滑的出行、更沉浸的觀看體驗、更無障礙的服務 ......
如果説手語翻譯的改進空間比海更深,至少聽障人士獲取公共信息的方式,正在被 AI 改變,持續地泛起可見的浪花。
手語界的多鄰國們
聽障人士也要「聽」音樂?聽障人士看文字是不是就夠了?這是典型從健聽人的邏輯出發考慮問題。
其實,我們應該反過來問:音樂節怎麼讓聽障人士也能有參與感?互聯網怎麼讓聽障人士有更愉快的衝浪體驗?
所以,不是某個人流如織的車站多出了一塊螢幕,而是那塊螢幕本就該出現在那裏。
更多公司、更多個體正在借助技術的力量,讓手語變得越來越有存在感。
讓健聽人學習手語,就是其中一種比較容易想到的思路。
PopSign 是一款邊玩邊學手語的 app,使用 AI 手語模型,由 Google、羅徹斯特理工學院、佐治亞理工學院合作開發,可在 Android 和 iOS 上使用,最主要的用户群體是聽障孩子的健聽父母。
吸取背單詞從「abandon」(放棄)開始、也以放棄終結的教訓,PopSign 不是無聊地播放手語視頻,而是用小遊戲增強學習手語的興趣和信心,和瘋狂催你打卡的多鄰國異曲同工。
想做手語界「多鄰國」的,還有一家叫作 SLAIT 的美國公司。他們提供的也是沉浸式的互動課程和測驗,如果你做對了,AI 導師會給予你實時反饋,提供适量情緒價值。
不過,教手語只是 SLAIT 退而求其次的選擇,一開始他們想做的,其實是實時視頻聊天和翻譯的 AI 手語工具。
但巧婦難為無米之炊,SLAIT 是個小團隊,沒有足夠的數據,也沒有足夠的資金,比起直接翻譯手語句子,教單個手語詞匯更加簡單,但同樣有價值。
翻譯手語的辛苦活,就交給财大氣粗的巨頭們解決了。
2023 年 8 月,聯想巴西開發了一款基于 AI 的實時聊天翻譯 app,用來翻譯葡萄牙語手語,未來計劃覆蓋到全球更多手語。
當聽障人士對着設備的攝像頭打手語,算法會即時将其翻譯成葡萄牙語文本,傳送給另一端的接收者。
這樣的工具應該多多益善,恰好和手語教學服務互補,讓聽障人士站在更主動的位置,更多地成為對話的發起方。
Google 則更加產品導向,發起了 2023 年 Kaggle AI 手語識别競賽。
這場競賽的主題很有意思——參賽者們基于聽障人士自拍得到的 300 多萬個手指拼寫字元,構建使用智能相機快速跟蹤手指、手掌和臉部的手指拼寫模型。
手指拼寫屬于手語的一種,使用手指的不同形狀和位置來表示字母。對于很多殘障人士來説,使用手指拼寫,比在智能手機的虛拟鍵盤上打字快得多。
所以,改進手語識别、構建手指拼寫模型,是為了讓聽障人士可以直接用更擅長的手語,而不是打字和説話,在手機上使用搜索、地圖、短信等功能。
更進一步,這也有助于開發手語轉語音的應用,打破聽障人士無法用語音召喚數字助理的僵局。
或者説,很多語音優先的產品,從一開始就沒有考慮不善口語的用户,是時候補上漏洞了。
Google 首席無障礙研究產品經理 Sam Sepah,在接受福布斯采訪時提到,他們的目标是,讓手語成為使用 Google 產品時的通用語言選項。
其實,這也應該是整個互聯網的目标——讓手語成為數字世界的通用語言。
多鄰國作為一款語言學習軟體,為每個人提供了平等的受教育機會。而 AI 手語產品們讓人感覺到的是,本不該有的限制正在解除,哪裏都可以互通有無。
AI 越強大,越要珍視人性
5 月,GPT-4o 發布時,一個 Demo 視頻很打動人,GPT-4o 充當了眼睛,讓視障人士也能「看到」周圍的環境。
視障人士從 AI 口中知道,白金漢宮上空飄揚着旗幟,河裏的鴨子悠閒地嬉戲,出租車就要到達跟前,他的嘴角随着 AI 的歡快語調而上揚。
俗話説技術打開了新世界的大門,是否可以反過來理解,殘障人士們原本生活在一個不為他們設計的世界?
世衞組織數據顯示,全球 4.3 億人需要通過康復治療解決殘疾性聽力損失。手語翻譯的數量遠遠不夠,在美國,聽障用户與美國手語翻譯員的比例大約為 50 比 1。
所以目前來説,AI 手語只是起到補充和錦上添花的作用,還不到「搶飯碗」的地步。
以上提到的 AI 手語產品,基本都是小規模的、垂直的、扎根特定地區的,彌補真人翻譯不可及的地方。
上個月,我還看到了一款很酷的 AI 手語產品。
羅格斯大學、卡内基梅隆大學等幾所大學的研究人員,将公開手語視頻處理成包含 8 種手語的數據集,訓練了 SignLLM ——第一個多語言手語生成模型。
覆蓋多種手語,可以通過文本提示詞生成手語,那不是太方便了嗎?但研究人員説了,請外界不要誇大他們的研究成果,演示視頻并非模型的直接輸出,實際制作起來仍然很麻煩。
同時,也有聽障專家站出來表示,這些視頻的手語翻譯質量參差不齊,有的讓人半懂不懂,有的完全理解不了,而且缺乏面部表情,項目有潛力,但還要改善。
最重要的是,要讓聽障用户參與,發表他們的意見,共同完善產品,因為「沒有我們的參與,就沒有關于我們的決策」。
一個微妙的感受是,無障礙產品似乎很難做得「性感」。
它們往往沒法像大模型和 AI 硬體的發布一樣讓人心神激蕩,總是和你説,功能有哪些,服務于誰,希望以後可以做到更好,不會「貪多嚼不爛」。
并且在風投的眼裏,它們也是小眾的、潛力未知的、未必有投資回報的。
但「AI 教母」李飛飛曾説,AI 是為了幫助人,AI 越強大我們越要珍視人性。
所有人都應該不怕錯過班機,所有人都應該可以和產品互動,所有人都應該享受音樂節。
那些曾經不被看到的、聽到的也該被技術的光芒照耀。打個共鳴的響指吧,讓更多人的需求被滿足,更多人的能力被增強,讓我們得到更多,失去更少。