創造力不存在了，AI的創新能力要比人類強？

今天小編分享的互聯網經驗：創造力不存在了，AI的創新能力要比人類強？，歡迎閱讀。

圖片來源 @視覺中國

文 | 追問 nextquestion

長久以來，人類将創造力視為自己的特性，認為它是區分機器與生命的一條明顯界線。然而，随着人工智能技術的迅猛發展，特别是大型語言模型如 ChatGPT 的出現，這條界線正在逐漸模糊。

在最近發表在 Scientific Reports 的一項研究中，來自阿肯色大學的科學家們将人類與 AI 在創造力方面進行了直接比較。他們利用了包括替代用途任務（AUT）、後果任務（CT）和發散性聯想任務（DAT）在内的多項測驗，旨在評估參與者在發散性思維上的表現。令人驚訝的是，結果顯示，在控制 AI 與人類生成想法的數量相同時（即回應流暢性），AI 在各項測試中顯示出的創造性都超過了人類。

▷論文：Hubert, Kent F., Kim N. Awa, and Darya L. Zabelina. "The current state of artificial intelligence generative language models is more creative than humans on divergent thinking tasks." Scientific Reports 14.1 ( 2024 ) : 3440.

這項研究通過 Prolific 在線平台招募了 151 名人類參與者，并利用 ChatGPT-4 創建了同等數量的 AI 參與者。研究采用了三種主要的創造力測量方法：替代用途任務、後果任務和發散性聯想任務。

在替代用途任務中，參與者需觀察一些日常物品（如 " 叉子 " 和 " 繩子 "），并想出這些物品可能的創造性用途。答案将根據數量（流暢性）、獨創性以及每個有效答案的詳細程度來進行評分。後果預測任務要求參與者想象一個假設情景（例如，如果人類不再需要睡眠，會發生什麼？），并在限定時間内盡可能多地預測其後果。而發散性思維任務則要求參與者列舉出盡可能多的不同名詞。這些測試共同目的在于從流暢性、獨創性和詳細程度三個維度評估參與者的開放式思維能力。

為了公平比較人類與 AI 的創造力，研究人員在發散性思維任務中控制了雙方想法生成的數量。具體而言，研究人員首先設定了明确的任務要求，比如在替代用途任務中，參與者需要為特定物品（如 " 繩子 " 或 " 叉子 "）想出盡可能多的創造性用途。人類參與者完成任務後，研究人員記錄了他們的流暢性得分，即每人產生的獨特答案的數量。然後，當 GPT-4 執行相同任務時，研究人員确保 AI 生成的答案數量與人類參與者相匹配。這樣，通過控制流暢性，研究人員能在相同基礎上更準确地比較雙方在獨創性（每個回答的獨特性）和詳細程度（回答的詳細程度）上的表現，進而評估其創造性潛力。

人類參與者通過 Qualtrics 在線問卷平台提交回答，而 AI 參與者的回答則是通過人工輔助生成的。最後，研究人員利用開放創造性評分工具（OCS）和語義距離評分工具，對所有有效回應進行了客觀的評分和分析，從而評估了獨創性和詳細程度。

▷使用語義距離對人類和 GPT-4 樣本的替代用途任務、後果任務和發散關聯任務響應的原創性的描述性統計。

結果表明，在替代用途任務中，人類和 GPT-4 的流暢性得分分别為 6.94（SD=3.80）和 7.01（SD=3.81），差異不顯著。但在原創性方面，GPT-4 在 " 叉子 " 和 " 繩子 " 兩個提示下的表現均優于人類。特别是在 " 叉子 " 提示下，GPT-4 的原創性顯著高于人類。此外，GPT-4 在回應的詳細程度上顯著超過人類，例如在替代用途任務中，GPT-4 的詳細得分為 15.45（SD=6.74），遠高于人類的 3.38（SD=2.91）。

在後果任務中，人類和 GPT-4 在流暢性上無顯著差異，但 GPT-4 在 " 不再需要睡眠 " 和 " 用手行走 " 兩個提示下的原創性更高。而回應的詳細程度上，GPT-4（M=38.69）也顯著高于人類（M=5.45）。

在發散性聯想任務中，盡管人類在獨特單詞的數量上領先（人類獨特單詞數為 651，占比 87.03%，而 GPT-4 為 220，占比 69.40%），但 GPT-4 在語義距離得分上更高，分别為 84.56（SD=3.05）和 76.95（SD=6.13）。

可以說，AI 在所有發散性思維的測量維度上都會優于人類參與者。特别是在控制了回答流暢性之後，AI 在原創性和詳細程度上的表現尤為突出。比如，在替代用途任務中，AI 在原創性和詳細程度上的得分明顯高于人類。在後果任務和發散性聯想任務中，AI 同樣展現出更高的創造性，這一點通過語義距離得分的統計分析得到了證實。

盡管這項研究展現了 AI 在發散性思維任務上的顯著潛力，但也存在一些問題和局限性。首先，全面評價創造力不僅需要考慮到原創性，還要考慮到想法或產品的實用性和适宜性。但評價适宜性時需要考慮到許多因素，如社會文化和歷史背景。然而，研究中使用的語義距離得分并未涉及這些因素，而是反映了看似相關（或無關）想法之間的相對距離。因此，這些結果僅反映了發散性思維的一面，并不能全面代表 AI 在創造力方面的優勢。

此外，研究發現，相較于人類，GPT-4 在回答中使用了更高頻率的重復詞匯，雖然人類回答的詞匯範圍更廣，但這并未必導致更高的語義距離分數。這一發現強調了靈活思考可能是人類中心發散性思維的強項。更值得注意的是，AI 在詞匯選擇上雖然更集中，但這種集中可能更有助于提高原創性。例如，AI 能夠使用非具體物品的詞匯（如 " 自由 "、" 哲學 "），而人類在生成具體可觀察的想法時可能受到固定思維的限制。這種生成列表之間的差異可能會使 AI 表現出更多的原創性。

面對機器的出色表現，我們不禁反思，創造力到底是什麼？它是心靈深處偶爾迸發的靈感之光，還是能夠被算法和數據精确模拟的技術？

盡管這項研究向我們展示了 AI 在發散性思維方面的顯著潛能，但真正的創造力遠不止于產生創新思想那麼簡單。它還涉及将這些思想實現為有深遠影響的創作，解決現實世界問題的實踐能力。因此，AI 與人類創造力的較量還遠未塵埃落定。更可能的是，在未來，我們會看到更多由人工智能和人類共同創造的傑作，開啟一個全新的協同創造的舞台。