创造力不存在了，AI的创新能力要比人类强？

今天小编分享的互联网经验：创造力不存在了，AI的创新能力要比人类强？，欢迎阅读。

图片来源 @视觉中国

文 | 追问 nextquestion

长久以来，人类将创造力视为自己的特性，认为它是区分机器与生命的一条明显界线。然而，随着人工智能技术的迅猛发展，特别是大型语言模型如 ChatGPT 的出现，这条界线正在逐渐模糊。

在最近发表在 Scientific Reports 的一项研究中，来自阿肯色大学的科学家们将人类与 AI 在创造力方面进行了直接比较。他们利用了包括替代用途任务（AUT）、后果任务（CT）和发散性联想任务（DAT）在内的多项测验，旨在评估参与者在发散性思维上的表现。令人惊讶的是，结果显示，在控制 AI 与人类生成想法的数量相同时（即回应流畅性），AI 在各项测试中显示出的创造性都超过了人类。

▷论文：Hubert, Kent F., Kim N. Awa, and Darya L. Zabelina. "The current state of artificial intelligence generative language models is more creative than humans on divergent thinking tasks." Scientific Reports 14.1 ( 2024 ) : 3440.

这项研究通过 Prolific 在线平台招募了 151 名人类参与者，并利用 ChatGPT-4 创建了同等数量的 AI 参与者。研究采用了三种主要的创造力测量方法：替代用途任务、后果任务和发散性联想任务。

在替代用途任务中，参与者需观察一些日常物品（如 " 叉子 " 和 " 绳子 "），并想出这些物品可能的创造性用途。答案将根据数量（流畅性）、独创性以及每个有效答案的详细程度来进行评分。后果预测任务要求参与者想象一个假设情景（例如，如果人类不再需要睡眠，会发生什么？），并在限定时间内尽可能多地预测其后果。而发散性思维任务则要求参与者列举出尽可能多的不同名词。这些测试共同目的在于从流畅性、独创性和详细程度三个维度评估参与者的开放式思维能力。

为了公平比较人类与 AI 的创造力，研究人员在发散性思维任务中控制了双方想法生成的数量。具体而言，研究人员首先设定了明确的任务要求，比如在替代用途任务中，参与者需要为特定物品（如 " 绳子 " 或 " 叉子 "）想出尽可能多的创造性用途。人类参与者完成任务后，研究人员记录了他们的流畅性得分，即每人产生的独特答案的数量。然后，当 GPT-4 执行相同任务时，研究人员确保 AI 生成的答案数量与人类参与者相匹配。这样，通过控制流畅性，研究人员能在相同基础上更准确地比较双方在独创性（每个回答的独特性）和详细程度（回答的详细程度）上的表现，进而评估其创造性潜力。

人类参与者通过 Qualtrics 在线问卷平台提交回答，而 AI 参与者的回答则是通过人工辅助生成的。最后，研究人员利用开放创造性评分工具（OCS）和语义距离评分工具，对所有有效回应进行了客观的评分和分析，从而评估了独创性和详细程度。

▷使用语义距离对人类和 GPT-4 样本的替代用途任务、后果任务和发散关联任务响应的原创性的描述性统计。

结果表明，在替代用途任务中，人类和 GPT-4 的流畅性得分分别为 6.94（SD=3.80）和 7.01（SD=3.81），差异不显著。但在原创性方面，GPT-4 在 " 叉子 " 和 " 绳子 " 两个提示下的表现均优于人类。特别是在 " 叉子 " 提示下，GPT-4 的原创性显著高于人类。此外，GPT-4 在回应的详细程度上显著超过人类，例如在替代用途任务中，GPT-4 的详细得分为 15.45（SD=6.74），远高于人类的 3.38（SD=2.91）。

在后果任务中，人类和 GPT-4 在流畅性上无显著差异，但 GPT-4 在 " 不再需要睡眠 " 和 " 用手行走 " 两个提示下的原创性更高。而回应的详细程度上，GPT-4（M=38.69）也显著高于人类（M=5.45）。

在发散性联想任务中，尽管人类在独特单词的数量上领先（人类独特单词数为 651，占比 87.03%，而 GPT-4 为 220，占比 69.40%），但 GPT-4 在语义距离得分上更高，分别为 84.56（SD=3.05）和 76.95（SD=6.13）。

可以说，AI 在所有发散性思维的测量维度上都会优于人类参与者。特别是在控制了回答流畅性之后，AI 在原创性和详细程度上的表现尤为突出。比如，在替代用途任务中，AI 在原创性和详细程度上的得分明显高于人类。在后果任务和发散性联想任务中，AI 同样展现出更高的创造性，这一点通过语义距离得分的统计分析得到了证实。

尽管这项研究展现了 AI 在发散性思维任务上的显著潜力，但也存在一些问题和局限性。首先，全面评价创造力不仅需要考虑到原创性，还要考虑到想法或产品的实用性和适宜性。但评价适宜性时需要考虑到许多因素，如社会文化和历史背景。然而，研究中使用的语义距离得分并未涉及这些因素，而是反映了看似相关（或无关）想法之间的相对距离。因此，这些结果仅反映了发散性思维的一面，并不能全面代表 AI 在创造力方面的优势。

此外，研究发现，相较于人类，GPT-4 在回答中使用了更高频率的重复词汇，虽然人类回答的词汇范围更广，但这并未必导致更高的语义距离分数。这一发现强调了灵活思考可能是人类中心发散性思维的强项。更值得注意的是，AI 在词汇选择上虽然更集中，但这种集中可能更有助于提高原创性。例如，AI 能够使用非具体物品的词汇（如 " 自由 "、" 哲学 "），而人类在生成具体可观察的想法时可能受到固定思维的限制。这种生成列表之间的差异可能会使 AI 表现出更多的原创性。

面对机器的出色表现，我们不禁反思，创造力到底是什么？它是心灵深处偶尔迸发的灵感之光，还是能够被算法和数据精确模拟的技术？

尽管这项研究向我们展示了 AI 在发散性思维方面的显著潜能，但真正的创造力远不止于产生创新思想那么简单。它还涉及将这些思想实现为有深远影响的创作，解决现实世界问题的实践能力。因此，AI 与人类创造力的较量还远未尘埃落定。更可能的是，在未来，我们会看到更多由人工智能和人类共同创造的杰作，开启一个全新的协同创造的舞台。