今天小編分享的互聯網經驗:如何解決大模型“胡説八道”?擴大模型可解釋邊界,從指令數據到求解增強,歡迎閲讀。
"Anthropic Claude2.1 已經把幻覺發生幾率降低了 50%,但從實現原理上,模型設計就是為了生成,一定會胡説八道。"
" 幻覺不是一個孤立問題,它不光跟模型結構有關,還跟數據、訓練方式有關。當所有因素綜合在一起,才能有效緩解幻覺問題。不過我覺得幻覺很難説根本性解決掉,它畢竟到現在位置屬于概率模型。"
" 可以通過有效的 Prompt 來減少幻覺,Prompt 來自用户有時會存在誤導或惡意,就需要在應用層面提供語意理解和改寫。也可以制定相應安全機制,将惡意誘導排除在外。"
" 現在市面上有了檢索增強 RAG,微調 Finetune,以及控制輸出和輸入的工具,都是在減少幻覺。服務商做這件事情,也需要長期的 AI 工程化經驗。"
最近一段時間,钛媒體與大量 AI 從業者溝通中發現:大模型幻覺,已經成為阻礙企業應用的嚴重缺陷性問題,這也導致大模型在實際應用中無法用起來。
2022 年末,ChatGPT 作為一款自動化互動式聊天機器人的出現,給業界啓發,由此帶動了後來自然語言處理領網域的解題思路。
只不過,外界一開始所忽視的是,這款聊天機器人最早被命名為 ELIZA,其目的是模拟一位心理診療師,通過接受用户的輸入(這個過程稱為 " 理解用户意圖 "),然後巧妙地輸出讓用户保持參與的回復。
但由于大語言模型(LLM)的訓練語料是來自于互聯網、書籍、文章等海量數據,雖然機器人展示出了比較高的上下文理解能力,但其局限性從其出生就一直攜帶:僅限于語料知識,且往往會生成一些與事實不符或毫無根據的結果,甚至編造出一些參考文獻,無意中傳播出錯誤信息。其核心就在于,大模型本身是黑匣子,基于統計學邏輯,同時會結合提示工程、學習指令數據,生成盡可能與上下文語法語義一致的結果。
最先進的 AI 模型也容易説謊
OpenAI 的研究人員在近期報告中指出,即使是最先進的 AI 模型也容易產生謊言,它們在不确定的時刻往往表現出捏造事實的傾向。而這尤其在需要多步驟推理的領網域尤為嚴重,因為一個邏輯錯誤就足以影響全局。
一個臭名昭著的例子,是谷歌 Bard 關于韋伯望遠鏡的説法。
當輸入 " 可以告訴我 9 歲的孩子,有關韋伯望遠鏡有哪些新發現嗎?" 谷歌 Bard 回答是:" 韋伯望遠鏡拍攝了太陽系外行星的第一張照片。"
其實,該回復其實是錯誤的。據 NASA 稱,第一張系外行星影像于 2004 年拍攝,韋伯望遠鏡直到 2021 年才發射。
钛媒體摘取了 TechTarget 上有關幻覺的分類表述,目前來看主要有以下幾類:
句子矛盾。
⠀提示:" 用四言句式寫一段話描述風景。"
輸出:"The grass was green.The mountains were blue.The river was purple.The grass was brown."(草是綠色的。山是藍色的。河流是紫色的。草是棕色的。)
與提示矛盾。句子與生成該句子的提示詞矛盾。
⠀提示:" 給我侄女寫一張生日賀卡。"
輸出:" 周年紀念快樂,爸爸媽媽!"
與事實矛盾。将虛構信息呈現為事實。
⠀提示:" 説出美國的三個城市。"
輸出:" 紐約、洛杉矶、多倫多。"
不相關或随機性。生成與輸入或輸出無關的随機信息。
⠀提示:" 請描述下倫敦。"
輸出:" 倫敦是英國的一座城市。貓每天至少需要喂一次。"
值得一提的是,生成式 AI 這件事兒的難點,不光在文字生成,同樣也存在于一開始的影像生成領網域。
對抗 AI 幻覺,從 GAN 就已經開始
2017 年前後,GenAI 使用最多的算法還不是 GPT,而是對抗生成網絡 GAN(Generative Adversarial Networks)。即讓兩個神經網絡相互 PK,從給定的訓練數據集生成更接近人類真實的影像。當年你看到過的,生成漫畫臉 / 表情、人體姿勢生成、風景合成、老照片修復等場景,都應用自 GAN 的不同變種。
但此算法有個問題,由于是根據給定數據集,生成的内容只會模仿,無限接近于真實,無法真正突破。
GAN 的缺點被後來的擴散化模型 Diffusion 克服。其原理類似于給照片去噪點,通過學習去噪過程來理解一張有意義的影像是如何生成的,因此 Diffusion 模型生成的圖片相比 GAN 模型精度更高,更符合人類視覺和審美邏輯,同時随着樣本數量和深度學習時長的積累,模型展示出對藝術風格較好的模仿能力。
從 Disco Diffusion,到 2023 年大火的 Stable Diffusion、DALL-E2、MidJourney 等,都是基于 Diffusion 改造而來,為圖生圖或文生圖應用的典型代表。
最近,OpenAI 提出了對抗 AI" 幻覺 " 的新策略,即獎勵每個正确的推理步驟,而不是簡單地獎勵正确的最終答案。這種方法被稱為 " 過程監督 ",旨在操縱模型提示分解為步驟的方法。
導致 AI 模型產生幻覺有若幹因素,其中包括訓練數據有偏見、訓練數據量不足、訓練數據過度拟合、上下文理解有限、領網域知識缺乏等等。
解決大模型的幻覺問題,其實一直是擺在明面的問題。钛媒體梳理了目前正在應用或研發的企業公開的不同解法。
數據增強
從源頭上,對訓練數據抓起,是多數企業在嘗試的事情。原因在于,數據質量包括源數據存在偏見或錯誤信息,或訓練數據量不足,會導致模型對其所訪問的數據理解有限而導致幻覺。高質量的訓練數據或添加領網域知識,可有助于阻止模型生成不準确或誤導性的結果。
用户理解增強
同時,對上下文缺乏理解。如果輸入提示詞不清楚、不一致或有矛盾的描述,也可能會產生脱離上下文或不相關的内容。用户也可以不斷完善,通過使用清晰且具體的提示詞,以及多 shot 提示,即提供所需輸出格式或上下文示例,進一步引導模型達到預期結果,或者增加過濾和排名策略,調整參數,控制輸出結果的随機性。
檢索增強
大模型所需要的知識并不能只在用户提示詞階段獲取。傳統方式上,AI 神經網絡是通過微調模型來适應特定上下文場景或專有領網域信息。盡管基于指令數據的微調技術很有效,但對計算的消耗非常大,且需要匹配實時專業知識,以适應不斷變化的輸出,這種方式其實靈活性不高。
2020 年,Facebook AI 部門自然語言處理研究員 Lewis 等人在論文中提出的檢索增強生成(RAG),将生成器與外挂知識庫用檢索器結合起來,從而更易獲取實時信息。這個過程不影響底層模型的推理能力,在訓練期間習得的知識以神經網絡權重保存,一些非參數知識則保存在向量數據庫等外挂知識庫中。
用個形象點的比喻,就是讓大模型進行開卷考試,可以攜帶課本、筆記等參考資料,用于查找相關信息答案。開卷考試的理念是,重點測試學生的推理能力,而不是記憶特定信息的能力。而用户查詢和檢索到的信息也被填充到提示模板中,幫助 Prompt 提供更強的上下文答案。
大模型的產業實踐,機會先行
值得關注的是,目前大模型已經在走入一些傳統行業,這其中就包括工業制造領網域。且不論制造業數據基礎和應用場景的準備不足,由于制造業對于決策的解釋和可解釋性要求較高,特别是在關鍵決策和質量控制方面,大模型通常被認為是黑箱模型,難以解釋其決策過程和推理邏輯。這可能并不符合制造業的要求。
某電力自動化全球企業最近分享的實踐是,将運籌求解 + 深度學習結合起來進行使用,首先在智能排產環節,不只是在用運籌優化求解器的算法,甚至包括一些啓發式的算法。把優化求解類的問題,會通過深度學習求一個初始解,然後再給到求解器做一個精确解。
受制于基礎模型,大模型無法自我排查錯誤,幻覺問題在當前解決還無法根本消除。但產業界的嘗試已經在説明,人工智能應用的成長,也需要先找場景,再根據技術的發展修正模型。
(本文首發钛媒體 APP,作者 | 楊麗)