今天小编分享的科技经验:SpaceX天才实习生课余用AI破解上古卷轴,获Nature头版关注,欢迎阅读。
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
Nature 官网头版,最新刊发的是最新考古成果,轰动全球的成果——
时隔 2000 年,上古卷轴(赫库兰尼姆卷轴)的神秘面纱,终于被揭开!
而且,这项研究还是 AI 完成的,背后的背后则是一名年仅 21 岁的天才少年,马斯克点赞的 SpaceX 实习生。
不同于一般的密码破解,分析这份卷轴之难,无异于解读一本 " 无字天书 " ——
因为在公元 79 年,这组卷轴在一次火山爆发中被烧成了碳,1752 年才被挖掘出土。只要稍有不慎,脆弱的卷轴就会分分钟变成残片,想要通过物理方式展开,难如登天。
直到今时今日,三名大学生,终于借助 AI 的力量,成功破译了其中的段落,打开了全新的考古研究范式。
他们通过给卷轴拍摄 CT 影像并借助机器学习技术分割识别,把卷轴中的 2000 余个字元,揭示开来。
这一消息也迅速引发了全球轰动,目前为止,浏览量已经超过了 1500 万次,转评赞接近 6 万。
马斯克也给三人团队点了赞,表示这实在是泰裤辣。
DeepMind 的创始人 Demis 也大为赞叹,还表示自己已经迫不及待地想要读一读这段神秘的文字了。
那么,这份神秘的卷轴是如何一步步被破译的呢?
不用打开,也能破译内容
交出这份成果的,是三名学生组成的队伍,他们分别是:
Youssef Nader,来自埃及,在德国柏林的一家院校攻读博士
Luke Farritor,SpaceX 实习生,在内布拉斯加大学林肯分校计算机专业读本科
Julian Schilliger,瑞士苏黎世联邦理工学院机器人专业硕士
想要在没有损伤的前提下破译这团被烧成碳的卷轴,打开看几乎是不可能的。
1865 年,有人尝试用物理方式把卷轴打开,结果以失败告终,一部分卷轴直接成为了碎片。
此后近两百年,便再也没有人敢尝试物理展开了。
直到 2019 年,肯塔基大学 EduceLab 的 Brent Seales 教授通过粒子加速器给卷轴拍摄了分辨率高达 4μm 的三维 CT 影像。
Seales 教授的博士生 Stephen Parsons 长期致力于使用机器学习模型检测 CT 影像中的墨水,他利用已经展开的部分带有可见墨水的卷轴碎片,建立了一个 ground-truth 数据集。
网友们对此事展开了热烈讨论,并通过一场播客中传到了 Luke 的耳朵。
这引起了他极大兴趣,开始利用空余时间训练机器学习模型,以便对墨迹进行分析。
最终,Luke 的模型成功分析出了卷轴中肉眼不可见的符号,并发现了一个完整的单词。
这个词是希腊语的 "ΠΟΡΦΥΡΑ Ϲ "(小写:πορφυ ̣ ρ ̣ ας ̣,拉丁转写:porphyras),意思与 " 紫色 " 相关。
这一发现,让他成为历史上第一个从赫库兰尼姆古卷内部读出整个单词的人。
Youssef 是第二个破译出这个单词的人,他采用了不同的方法,但得到了内容相同且更为清晰的结果。
也正是看到 Youssef 提交的结果之后,专家们对 Luke 的发现,更加确认了。
Julian 则参与研发了 EduceLab 的 3D 模型分割工具 Volume Cartographer。
Volume Cartographer 将三维 CT 影像沿卷轴展开,并映射到了二维平面,为 Luke 和 Youssef 的破译工作奠定了基础。
此后,Julian 又提出了新的分割方法 ThaumatoAnakalyptor,通过重新分割的方式对已破解区網域进行了验证,并探索了更多未知片段。
此后,为了更快破译出更多内容,三人组成了超级团队,最终成功解读出了 2000 多个字元。
他们使用了三种不同模型架构进行了分析,之间的结果可以相互印证,墨水检测程式代码还直接在 GitHub 上做了开源。
他们分析出的这两千多个字元,位于其中一卷的结尾,篇幅大约是该卷的 5%,内容被认为与伊壁鸠鲁哲学有关。伊壁鸠鲁(Epicurus)是古希腊哲学家,主要关注个人的幸福和心灵的平静,但讲理性、在自然科学领網域提出了原子论,对后世的伦理学和心理学发展都产生了重要影响。
而在这个卷轴的两个连续片段中,作者提及了商品(例如食物)的可获得性(availability)是否以及如何影响它们能带来的快乐(pleasure)。
所以这次考古发现,实际上或许能进一步帮助了解古人对于世界的认知和探究。
一场挑战赛,三名学生,500 万奖金
而让这三名学生走到一起的,是一场名为 " 维苏威火山 " 的挑战赛。
在 Stephen 建立了数据集之后,硅谷企业家、GitHub 前 CEONat Friedman 对此产生了浓厚兴趣,并出资赞助了这场比赛。
主办方于去年 3 月公布了评选标准,参赛者需要破译至少 4 个段落,每个段落 140 个字元,其中至少 85% 的字元可恢复。
当时,专家组普遍认为一年之内有人挑战成功的概率还不到三成,但结果却出乎意料——
据介绍,比赛的消息发布后他们收到了许多作品,直到 ddl 之前几分钟还有团队交出成果。
经过为期一个月的审查,这份包含了 2000 个字元的文本,被认定破译成功。
这三位获奖者将瓜分 70 万美元的奖金,折合人民币 500 多万。
此外,还有三个团队因提交的结果具有显著可读性,获得了二等奖,这三个团队将各获得 5 万美元的奖励。
其中就包括谷歌华人工程师 Shao-Qian Mah 所带领的团队。
下一步,比赛主办方希望在一年的时间内破译四组卷轴的 90%,后续比赛信息也将在 3 月份公布。
当然,这样的挑战赛奖金只是一方面,更重要的是展现了如何用 AI 解决各行各业挑战的可能性和可行性,包括考古这样的学科。
或许你也有所耳闻,更早之前,AI 对于甲骨文的研究也开始了。你要还知道其他的项目?也欢迎分享分享~~