AI又一突破，“眼神打字”更快更省力，研究登上Nature子刊

今天小編分享的科技經驗：AI又一突破，“眼神打字”更快更省力，研究登上Nature子刊，歡迎閱讀。

因漸凍症（ALS）等病症而無法言語或打字的人群不容忽視，他們在日常溝通交流中面臨着巨大障礙，急需有效的輔助手段來打破溝通壁壘。

盡管輔助性 / 替代性溝通（AAC）設備及眼動打字技術雖能提供一定支持，但頻繁的按鍵操作極易導致眼疲勞和時間成本，嚴重阻礙了運動障礙患者進行自然流暢的對話以及充分表達自我，進而影響生活質量。

為解決這一問題，來自谷歌的研究團隊及其合作者開發了一個由大語言模型（LLM）驅動的用戶界面（UI）—— SpeakFaster。

據介紹，SpeakFaster利用經過微調的 LLM 和會話語境，能以極高的準确率将高度縮略的英文文本（僅為單詞首字母，必要時還會添加字母和單詞）擴展為所需的完整短語，幫助 ALS 患者眼動打字按鍵次數減少了 57%，文本輸入速度比 baseline 提高了 29-60%。

相關研究論文以 "Using large language models to accelerate communication for eye gaze typing users with ALS" 為題，已發表在 Nature 子刊 Nature Communications 上。

這些結果表明，通過大幅提高文本輸入速度并減少身體壓力，SpeakFaster 可以幫助嚴重運動障礙患者更準确、更高效地交流，使他們能夠更充分地參與對話，從而提高獨立性、社會參與度、自我表達能力和生活質量。

讓漸凍症患者更好地溝通

SpeakFaster 提供了一種基于人工智能（AI）的方法，将 LLM 與專為縮寫文本輸入而設計的 UI 結合。

具體而言，研究團隊首先對 SpeakFaster 的 UI 進行了設計，從而确保其允許輕松輸入和優化縮寫，保證用戶始終能夠傳達他們想要的信息，即使初始預測不是他們想要的。

他們此前證明，經過微調的 LaMDA（64B 參數）可以将單詞首字母形式的縮寫（例如 "ishpitb"）擴展為完整短語（例如 "I saw him play in the bed"），在提供對話上下文（即另一位說話者的輪次）時，準确率高達 77%。無法找到精确匹配的情況往往發生在更長、更復雜的短語上。

圖｜SpeakFaster UI 中縮寫文本輸入的主要互動途徑：僅首字母路徑。

雖然很有希望，但實際的解決方案需要确保用戶在初始縮寫擴展（AE）失敗的情況下能夠随後輸入任何任意的短語，即用戶在 UI 中永遠不會遇到 " 死胡同 "。因此，他們開發了一個 UI 和兩個底層微調的 LLM，作為完整、實用的解決方案。

其中，KeywordAE 能夠擴展混合首字母和完整或部分拼寫單詞的縮寫。KeywordAE 模型還能夠擴展僅由首字母組成的縮寫，因此提供了此前他們工作功能的超集。

圖｜KeywordAE UI 途徑。

FillMask 則能夠在周圍單詞的上下文中提供以給定首字母開頭的備選單詞。兩個模型均使用從四個公共英語對話數據集中合成的大約 180 萬個獨特的三元組 { 上下文、縮寫、完整短語 } 進行微調。

圖｜FillMask UI 路徑。

為了形成通往微調 LLM 的通道，他們還設計了一個具有三個路徑的 UI，即 Initials-only AE、KeywordAE 和 FillMask，以支持完整的縮寫文本輸入體驗。

Initials-only AE 是 SpeakFaster UI 中所有短語輸入工作流程的共同起點。在三個路徑中，它涉及的按鍵和眼動點擊次數最少，僅首字母路徑就足以滿足簡短和可預測的短語。當用戶輸入縮寫時，UI 在每個按鍵後自動觸發對 KeywordAE LLM 的調用，包括用戶鍵入的縮寫以及所有之前的對話輪次作為 LLM 的輸入。每個調用返回基于對話上下文和縮寫的 top-5 最有可能的選項，這些選項在 UI 中呈現給用戶浏覽和選擇。

如果通過僅首字母路徑沒有找到預期短語，那麼 SpeakFaster UI 提供了兩種替代 UI 路徑來幫助用戶找到預期短語。

第一種替代 UI 路徑是 KeywordAE，允許用戶拼寫多個單詞。每次按鍵後都會自動觸發對 KeywordAE 的調用，而每次調用後，UI 将呈現 KeywordAE LLM 返回的最新 top-5 短語擴展。

第二種替代 UI 路徑是 FillMask，這是從找不到精确預期短語的失敗中恢復的另一種方法。與 KeywordAE 不同，FillMask 僅适用于擴展中的非常少（通常是單個單詞）單詞不正确的情況。

KeywordAE 和 FillMask 是兩種替代互動模式，用于從通過僅首字母路徑無法獲得預期短語中恢復。在當前研究中，SpeakFaster UI 允許用戶在使用 KeywordAE 模式後使用 FillMask 模式，這對于在難以預測的短語中找到正确的單詞很有用。

圖｜由 KeywordAE 和 FillMask 輔助的短語輸入模拟策略。

這樣一來，當使用 SpeakFaster 時，用戶首先輸入他們想要的短語中單詞的首字母。然後，經過微調的 LLM 會預測整個短語，并根據這些首字母和對話上下文顯示最可能的短語。如果所需短語不在選項中，用戶可以通過拼出關鍵詞或選擇替代詞來優化預測。這種方法大大減少了所需的按鍵次數，從而加快了溝通速度。

之後，為評估 SpeakFaster UI 界面節省用戶操作動作的大致上限，研究團隊開展了模拟實驗。他們使用 Turk Dialogues 語料庫，模拟了三種不同的用戶互動策略：

策略 1：使用首字母縮寫進行 AE，如果失敗則使用 KeywordAE 進行迭代拼寫，直到找到匹配的短語。策略 2：與 Strategy 1 相同，但每當最佳匹配短語候選詞中只剩下一個錯誤單詞時，就使用 FillMask 進行替換。策略 2A：Strategy 2 的變體，更積極地使用 FillMask，即在最佳選項中剩下兩個或更少的錯誤單詞時立即使用。

與 Gboard 的預測 baseline 相比，SpeakFaster 在三種策略下都實現了顯著的按鍵節省。在 Strategy 2 下，使用 KeywordAE v2 模型，SpeakFaster 實現了 0.657 的按鍵節省率（KSR），比 Gboard 的 KSR（0.482）高出 36%。這表明，利用 LLM 的上下文感知能力和 FillMask 的詞替換功能，可以在很大程度上提高文本輸入效率。

模拟結果還表明，SpeakFaster 在提供 5 個最佳短語選項的情況下表現最佳，并且對話上下文對于 LLM 的預測能力至關重要。

圖｜模拟實驗結果表明，SpeakFaster UI 可大幅節省按鍵。

除了模拟實驗外，研究團隊還進行了用戶研究，從而測試 SpeakFaster 的有效性。

研究團隊測量了動作節省（與要輸入的完整字元集相比節省的按鍵次數）、實用性（每分鍾的打字速度）和SpeakFaster UI 的可學習性（人們需要多少練習才能習慣使用該系統）這三個指标以評估 SpeakFaster 界面。

在運動節省指标方面，與傳統 baseline 相比，SpeakFaster 為 ALS 眼動用戶和非 AAC 參與者提供了大量按鍵動作節省。對于非 AAC 用戶，SpeakFaster 在腳本場景中可實現 56% 的按鍵節省，在非腳本場景中可實現 45% 的按鍵節省。對于 ALS 眼動用戶，SpeakFaster 還在腳本階段顯著節省了按鍵。

圖｜左圖：非 AAC 用戶的 KSR。右圖：ALS 眼動用戶的 KSR。橙色和紫色條顯示使用 SpeakFaster 系統時的 KSR，藍色和綠色條顯示使用 baseline 智能鍵盤時的 KSR。

在實用性指标方面，對于非 AAC 用戶來說，整體文本輸入速度與傳統打字速度相當。然而，在針對一位 ALS 眼動用戶的實驗室研究顯示，SpeakFaster 使腳本階段的打字速度提高了 61.3%，非腳本階段的打字速度提高了 46.4%。

圖｜左圖：對于非 AAC 用戶，腳本階段和非腳本階段的整體文本輸入速度沒有出現顯著變化。右圖：對于 ALS 眼動用戶，SpeakFaster 顯著提高了腳本階段和非腳本階段的速度。

除了節省動作和提升打字速度外，學習曲線和所引入的認知負荷也是評估打字系統和 UI 的關鍵指标。雖然與非 AAC 用戶相比，ALS 眼動用戶在使用 SpeakFaster 時最初的學習曲線略慢，但只需 15 個練習對話，ALS 眼動用戶就能達到舒适的打字速度。

圖｜通過為非 AAC 用戶提供 6 個練習對話和為 ALS 眼動用戶提供 15 個練習對話，參與者能夠學習 SpeakFaster 系統達到每分鍾 20-30 個單詞的舒适打字速度（顯示在 y 軸上）。

雖然各項實驗表明 SpeakFaster 幫助嚴重運動障礙患者實習高效交流方面具有獨特優勢，但目前該研究還存在有模型語言單一、短語長度受限、服務成本高昂以及研究樣本量較少等局限。

AI 正在改善殘障人士生活

SpeakFaster 并非首個致力于改善殘障人士生活的 AI 項目。

2019 年，BrightSign 推出了一款基于 AI 的智能手套。該手套内置預定義手語庫，能将手勢轉化為語音，結合機器學習算法，可讓讓聽力或語言障礙者雙向交流、獨立與他人直接溝通，行動受限者如中風患者或聽力喪失老人也可使用。

2021 年，加州大學舊金山分校 Chang Lab 團隊首次用腦機接口幫助一位癱瘓超過 15 年的失語男子 BRAVO1 恢復了 " 說話 " 能力。該研究通過在被試者大腦内植入電極的深度神經讀取技術幫助被試者實現腦與設備的信息交換，從而恢復其與世界溝通的能力。（點擊查看詳情）

2024 年，OpenAI 推出了 Voice Engine 模型的小規模預覽成果。該模型使用文本輸入和單個 15 秒音頻樣本來生成與原始說話者非常相似的自然語音，已經幫助一名因血管性腦腫瘤而失去流利語言能力的年輕患者恢復聲音。（點擊查看詳情）

2024 年，北卡羅來納州立大學與北卡羅來納大學教堂山分校的蘇浩教授團隊提出了一種在計算機仿真環境中通過強化學習來讓機器人學習控制策略的新方法，有望極大地提高老年人，行動障礙人士和殘疾人的生活質量。

相信在不久的将來，AI 将進一步改善殘障人士的生活。