万恶的Deepfake，为什么百禁不绝？

今天小编分享的科学经验：万恶的Deepfake，为什么百禁不绝？，欢迎阅读。

在国庆假期期间，网友恶搞的雷军 AI 配音突然爆火，引发了诸多争议。AI 造假音视频，似乎已经成为一个无法关闭的潘多拉魔盒。在更早之前，韩国爆发的 Deepfake 危害事件就曾引发全球关注。根据相关报道，最初是由多名韩国女性通过社交平台，披露了传播 Deepfake 换脸不雅视频的事件。随后，有越来越多的危害事件与受害人被爆出。

根据社交媒体流传的受 Deepfake 影响名单，有超过百所韩国中小学以及国际学校出现相关问题。有韩国官员表示，受害者可能达到 22 万人。

这里大家可能会有这样一个疑问：为什么多年来人人喊打的 Deepfake 反而愈演愈烈？

要知道，早在 2017 年 Deepfake 刚刚出现的时候，仅仅几天就遭到了全球范围的合力封杀，包括但不限于主流社交媒体的严格封禁。此后，多个国家与地区采用了立法的形式，严禁利用 Deepfake 以及其他 AI 换脸技术侵犯他人肖像权与隐私权。

危害难以杜绝，是因为 Deepfake 技术高深，让人防不胜防吗？

答案刚好相反，Deepfake 难以禁止的原因，恰恰在于其过分简单，只需要简单的技术资源就能造成巨大的破坏性影响。

而这些资源，在今天的互联网环境下能够轻而易举地获取。

我想，我们没有必要从人性和动机上讨论为什么有人制作和传播 AI 换脸视频。只要违法成本够低，这种行为就必然无法杜绝。作为普通人，我们也难以从立法和执法的角度探讨如何打击 Deepfake。我们能做的，是审视进行 Deepfake 的真实情况，进而考虑如何增大违法难度，压缩这种行为的生存空间。

Deepfake 被很多媒体称作 " 人类最邪恶的 AI 技术 "。这种描述有其合理性，但也客观上对 Deepfake 进行了妖魔化、神秘化的修饰，让不了解的人将其与黑客、勒索病毒、暗网等关键词联系起来，认为其非常隐秘而高深。

事实恰恰相反，Deepfake 的危害性与破坏性，恰恰在于其操作简单。近乎没有任何技术学习门槛，同时其所需要的每一步帮助，都可以在公开的互联网环境中堂而皇之地获取。

试想一下，韩国的 22 万名受害者，不可能都是某几个技术大牛进行的施暴。当普通人可以随时随地，没有成本地作恶，恶意才真正难以被遏制。

之所以这样说，是我们必须先了解 Deepfake 的具体流程。一般来说，使用 Deepfake 进行 AI 换脸，需要经历以下几个步骤：

1. 准备 Deepfake 相关軟體，或者找到具有类似功能的在线 AI 开发平台。

2. 准备要进行人脸替换的视频，对视频进行照片化切图。

3. 挑选出若干照片中要替换的人脸并进行操作。俗称切脸，提脸。

4. 将准备好的照片进行覆盖，进而进行模型训练。这一步对于缺乏技术功底的人来说，大概率需要预训练模型来辅助训练。

5. 训练完成，生成视频。

从这个流程中我们可以总结出，想要进行一次有危害性的 Deepfake 最多只需要四件东西：AI 换脸軟體、预训练模型、被换脸的视频、受害人照片。

获取这些东西过分容易，就是 Deepfake 百禁不绝，反而流毒更广的核心原因。

我们可以来分步骤看看，Deepfake 的 " 作案工具 " 究竟来自哪里。讨论这些的原因绝不是希望普及相关知识，而是希望指出互联网环境下，留给 Deepfake 作恶者的机会与漏洞究竟在哪里。这些漏洞不被斩断，仅凭道德层面的号召倡议，或者对 AI 换脸视频的技术识别，是断然无法组织别有用心者的。

首先，AI 换脸必然需要受害人的照片。根据相关技术社区的分享，最初版本的 Deepfake 大概需要 50 张、多角度、高清晰度的照片，才能实现较为自然的视频合成。但经过几年的迭代，目前只需要 20 张左右的照片就可以实现。

试想一下，对于稍微有社交媒体分享习惯的朋友来说，20 张照片被盗用简直是轻而易举。

加上一段很容易找到的不雅视频，一场无妄之灾可能就此开启。

唯一可能给不法者造成阻碍的，是 AI 换脸依旧需要比较好的显卡来进行训练加速，但中高端的游戏显卡也已经完全足够。

获取成本为 0 的不法軟體，技术成本为 0 的操作难度，构成了 Deepfake 真正恐怖的地方。

到以上为止，如果是一个有 AI 技术能力的人，已经获得了全部进行 Deepfake 施暴的前提条件。但对不太了解 AI 技术的人来说，还有一个关键需求，就是获取预训练模型。

预训练模型，是 AI 开发的一个基本机制。由于大部分 AI 模型的前置训练任务是相同的，因此开发者倾向将相同的部分进行预训练，在同类任务中作为公用底座来使用。而在 AI 换脸任务中，由于难以掌握训练方法，大部分新手训练出的 AI 换脸模型会出现贴脸不自然，严重掉帧等现象。这时候就需要使用预训练模型进行训练，从而在提升模型精度的同时，也降低模型训练所需时间。

按理说，作为非技术人员的普通人，应该较难获得预训练模型来进行 Deepfake 吧？