這些 AI 產品，正在打破 4.3 億人的障礙 - 大酷樂

今天小編分享的科技經驗：這些 AI 產品，正在打破 4.3 億人的障礙，歡迎閲讀。

之前我們寫過一篇文章——《别再問我聾人為什麼要去音樂節了》，科普了海外音樂節的特别崗位：手語翻譯員。

聽障人士雖然聽不見或者聽不清音樂，但他們可以通過手語翻譯員感染力極強的手部動作、面部表情、肢體語言，感受到音樂的律動、氛圍的熱烈。

這可能是健聽人意想不到的手語場景。其實無論線上線下，需要手語翻譯員的地方還有很多，然而僧多粥少。

英國人 Sally Chalk，2002 年開了一家英國手語翻譯公司，經過 20 年的經營，公司規模可觀，預約手語翻譯員的時間也縮短到了 30 分鍾，但她還是不滿足。

聽障人士能不能馬上獲取手語翻譯，就像在視頻網站打開字幕一樣？

她的答案是，讓 AI 加入進來。

從線上到線下，應該讓聽障人士多用「母語」

2022 年，Sally Chalk 開了一家新的初創公司—— Signapse，專注開發生成式 AI 手語翻譯軟體，将書面文本實時翻譯為美國手語和英國手語。

今年 5 月，Signapse 拿到了 200 萬英鎊的種子輪融資，其中 50 萬來自英國政府。

他們瞄準的一個線下場景，是火車站、機場等交通樞紐。

美國的辛辛那提 / 北肯塔基國際機場，已經和 Signapse 合作，在螢幕上投放美國手語，提供歡迎、安全、出發、到達等信息。

AI 是如何發揮作用的？Signapse 基于大型手語數據集，并通過生成對抗網絡（GAN）和深度學習技術，創造了逼真的、翻譯盡可能準确的虛拟手語翻譯員。

這些虛拟形象基于真人手語翻譯員，每次被商用時，真人都會拿到抽成。

考慮到機場的目的地、出發時間、站台号碼經常變動，通過與交通數據集成，Signapse 的手語翻譯可以做到實時更新。

同時，Signapse 沒有忽視線上的需求，也為網站和視頻流媒體提供手語翻譯。

盡管 YouTube 等網站都有隐藏式字幕了，但相比字幕，聽障人士往往更喜歡手語，因為手語具有獨立于其他語言的語法結構和表達形式，會讓他們的上網體驗更好。

你應該有注意到，提到手語時，我們會用美國手語、英國手語的説法。就像全世界的口語和文字互不相通，手語也包羅萬象。

聯合國統計，全世界大約有 7000 萬人将手語作為主要的交流形式，全世界使用的手語有 300 多種不同類型。僅在美國，就有 50 萬人使用美國手語。

所以，Signapse 目前所做的其實也很有限，只覆蓋到了使用美國和英國手語的少部分人，以及有限的垂直場景。過去兩年，Signapse 每天創建約 5000 個英國手語交通公告。

Signapse 希望，未來他們的服務可以更加普适，拓展到教育等場景，也更加個性化，支持用户自定義虛拟手語翻譯員的外觀。

一方的水土養一方的 AI，國内大廠也有類似的手語產品。

AI 手語主播們，曾經出現在騰訊的王者榮耀直播間、華為的開發者大會。

2022 年冬奧會，央視新聞和百度智能雲曦靈聯合打造的 AI 手語主播上線，天津理工大學聾人工學院參與了手語語料标注。

而在 AI 手語主播背後，百度智能雲曦靈的 AI 手語平台，還能滿足醫院、車站、銀行等不同場景的快速手語翻譯需求，和 Signapse 英雄所見略同。

更絲滑的出行、更沉浸的觀看體驗、更無障礙的服務 ......

如果説手語翻譯的改進空間比海更深，至少聽障人士獲取公共信息的方式，正在被 AI 改變，持續地泛起可見的浪花。

手語界的多鄰國們

聽障人士也要「聽」音樂？聽障人士看文字是不是就夠了？這是典型從健聽人的邏輯出發考慮問題。

其實，我們應該反過來問：音樂節怎麼讓聽障人士也能有參與感？互聯網怎麼讓聽障人士有更愉快的衝浪體驗？

所以，不是某個人流如織的車站多出了一塊螢幕，而是那塊螢幕本就該出現在那裏。

更多公司、更多個體正在借助技術的力量，讓手語變得越來越有存在感。

讓健聽人學習手語，就是其中一種比較容易想到的思路。

PopSign 是一款邊玩邊學手語的 app，使用 AI 手語模型，由 Google、羅徹斯特理工學院、佐治亞理工學院合作開發，可在 Android 和 iOS 上使用，最主要的用户群體是聽障孩子的健聽父母。

吸取背單詞從「abandon」（放棄）開始、也以放棄終結的教訓，PopSign 不是無聊地播放手語視頻，而是用小遊戲增強學習手語的興趣和信心，和瘋狂催你打卡的多鄰國異曲同工。

想做手語界「多鄰國」的，還有一家叫作 SLAIT 的美國公司。他們提供的也是沉浸式的互動課程和測驗，如果你做對了，AI 導師會給予你實時反饋，提供适量情緒價值。

不過，教手語只是 SLAIT 退而求其次的選擇，一開始他們想做的，其實是實時視頻聊天和翻譯的 AI 手語工具。

但巧婦難為無米之炊，SLAIT 是個小團隊，沒有足夠的數據，也沒有足夠的資金，比起直接翻譯手語句子，教單個手語詞匯更加簡單，但同樣有價值。

翻譯手語的辛苦活，就交給财大氣粗的巨頭們解決了。

2023 年 8 月，聯想巴西開發了一款基于 AI 的實時聊天翻譯 app，用來翻譯葡萄牙語手語，未來計劃覆蓋到全球更多手語。

當聽障人士對着設備的攝像頭打手語，算法會即時将其翻譯成葡萄牙語文本，傳送給另一端的接收者。

這樣的工具應該多多益善，恰好和手語教學服務互補，讓聽障人士站在更主動的位置，更多地成為對話的發起方。

Google 則更加產品導向，發起了 2023 年 Kaggle AI 手語識别競賽。

這場競賽的主題很有意思——參賽者們基于聽障人士自拍得到的 300 多萬個手指拼寫字元，構建使用智能相機快速跟蹤手指、手掌和臉部的手指拼寫模型。

手指拼寫屬于手語的一種，使用手指的不同形狀和位置來表示字母。對于很多殘障人士來説，使用手指拼寫，比在智能手機的虛拟鍵盤上打字快得多。

所以，改進手語識别、構建手指拼寫模型，是為了讓聽障人士可以直接用更擅長的手語，而不是打字和説話，在手機上使用搜索、地圖、短信等功能。

更進一步，這也有助于開發手語轉語音的應用，打破聽障人士無法用語音召喚數字助理的僵局。

或者説，很多語音優先的產品，從一開始就沒有考慮不善口語的用户，是時候補上漏洞了。

Google 首席無障礙研究產品經理 Sam Sepah，在接受福布斯采訪時提到，他們的目标是，讓手語成為使用 Google 產品時的通用語言選項。

其實，這也應該是整個互聯網的目标——讓手語成為數字世界的通用語言。

多鄰國作為一款語言學習軟體，為每個人提供了平等的受教育機會。而 AI 手語產品們讓人感覺到的是，本不該有的限制正在解除，哪裏都可以互通有無。

AI 越強大，越要珍視人性

5 月，GPT-4o 發布時，一個 Demo 視頻很打動人，GPT-4o 充當了眼睛，讓視障人士也能「看到」周圍的環境。

視障人士從 AI 口中知道，白金漢宮上空飄揚着旗幟，河裏的鴨子悠閒地嬉戲，出租車就要到達跟前，他的嘴角随着 AI 的歡快語調而上揚。

俗話説技術打開了新世界的大門，是否可以反過來理解，殘障人士們原本生活在一個不為他們設計的世界？

世衞組織數據顯示，全球 4.3 億人需要通過康復治療解決殘疾性聽力損失。手語翻譯的數量遠遠不夠，在美國，聽障用户與美國手語翻譯員的比例大約為 50 比 1。

所以目前來説，AI 手語只是起到補充和錦上添花的作用，還不到「搶飯碗」的地步。

以上提到的 AI 手語產品，基本都是小規模的、垂直的、扎根特定地區的，彌補真人翻譯不可及的地方。

上個月，我還看到了一款很酷的 AI 手語產品。

羅格斯大學、卡内基梅隆大學等幾所大學的研究人員，将公開手語視頻處理成包含 8 種手語的數據集，訓練了 SignLLM ——第一個多語言手語生成模型。

覆蓋多種手語，可以通過文本提示詞生成手語，那不是太方便了嗎？但研究人員説了，請外界不要誇大他們的研究成果，演示視頻并非模型的直接輸出，實際制作起來仍然很麻煩。

同時，也有聽障專家站出來表示，這些視頻的手語翻譯質量參差不齊，有的讓人半懂不懂，有的完全理解不了，而且缺乏面部表情，項目有潛力，但還要改善。

最重要的是，要讓聽障用户參與，發表他們的意見，共同完善產品，因為「沒有我們的參與，就沒有關于我們的決策」。

一個微妙的感受是，無障礙產品似乎很難做得「性感」。

它們往往沒法像大模型和 AI 硬體的發布一樣讓人心神激蕩，總是和你説，功能有哪些，服務于誰，希望以後可以做到更好，不會「貪多嚼不爛」。

并且在風投的眼裏，它們也是小眾的、潛力未知的、未必有投資回報的。

但「AI 教母」李飛飛曾説，AI 是為了幫助人，AI 越強大我們越要珍視人性。

所有人都應該不怕錯過班機，所有人都應該可以和產品互動，所有人都應該享受音樂節。

那些曾經不被看到的、聽到的也該被技術的光芒照耀。打個共鳴的響指吧，讓更多人的需求被滿足，更多人的能力被增強，讓我們得到更多，失去更少。