21岁大学生揭开2000年前古卷之谜：用AI重现“消失的”文字

时事新闻2023-10-16 16:09:03无忧百科

2000 多年前“消失的”古卷文字，如今被 AI 重现了。

近日，一名 21 岁计算机科学专业的学生利用人工智能（AI）技术在未打开的赫库兰尼姆古卷中发现了第一个单词。

他就是内布拉斯加大学林肯分校的 Luke Farritor，他开发了一种机器学习算法，可以检测卷起的纸莎草纸上的希腊字母，其中包括 πορphiυρας（porphyras），意思是“紫色”。

Luke 通过利用表面纹理的微妙、小范围差异来训练神经网络并突出墨水，成功破译并读取 4 平方厘米区域内的 10 多个字符，赢得了 4 万美元的 First Letters 大奖。

图｜Luke Farritor 的第一份提交材料

意大利那不勒斯大学的纸莎草学家、审查 Farritor 研究成果的学术委员会成员 Federica Nicolardi 表示：“当我看到第一张图像时，我感到震惊，我实际上可以从卷轴的内部看到一些东西。”

赫库兰尼姆古卷是庞贝古城附近一座私人图书馆中收藏的古代卷轴，因公元 79 年维苏威火山喷发而被掩埋并碳化。近 2000 年来，这座唯一幸存的古代图书馆一直被埋在地下 20 米厚的火山泥下。18 世纪，它们被挖掘出来，虽然在某种程度上得到了保存，但非常脆弱，如果处理不当就会变成灰尘。

如何阅读无法打开的卷轴？数百年来，这个问题一直没有答案。

2019 年，肯塔基大学 EduceLab 的 Brent Seales 教授在粒子加速器中对赫库兰尼姆古卷进行了成像，生成分辨率高达 4 µm 的 3D CT 扫描。他的团队还扫描并拍摄了带有可见墨水的分离卷轴碎片，从而提供了地面真实数据集。Seales 教授的研究生 Stephen Parsons 致力于使用机器学习模型从 CT 扫描中检测墨水，并在分离的碎片上取得了成功。

图｜根据分离片段的真实数据训练机器学习模型

这一成功引起了科技企业家 Nat Friedman 和 Daniel Gross 的注意，他们发起了维苏威火山挑战赛以加速这一进展。他们于 2023 年 3 月发起了一场公开竞赛，除了 70 万美元的大奖外，还为开源工具和技术的开发颁发了几个较小的奖项。

后来，一小群研究团队开始使用最初由 EduceLab 构建并由社区改进的工具来绘制卷轴的 3D 结构。到今年七月，数百平方厘米的古卷被分割并被“几乎压平”。

八月初，前 JPL 初创公司创始人 Casey Handmer 写了一篇博客文章，讲述自己发现了一种看起来像墨水的“裂纹图案”。Casey 是 2000 年来第一个在未打开的卷轴中发现墨水和一封信的人。

图｜显示墨水位置的注释

Luke Farritor 是一名大学生，同时也是 SpaceX 暑期实习生，他从 Dwarkesh Patel 接受 Nat 的播客采访中听说了维苏威火山挑战赛。

他看到的 Casey 裂纹模式在 Discord 中被讨论，并开始在深夜训练关于裂纹模式的机器学习模型。随着每一个新裂纹的发现，模型都会得到改进，在卷轴上就可以显示出更多的裂纹。

Luke 发现了几十个墨迹笔画以及一些完整的字母，可以将其标记并用作训练数据。不久之后，卷轴就露出了肉眼看不见的裂纹痕迹。很快，这些痕迹开始形成字母和实际单词的暗示。

与此同时，另一位参赛者、柏林的埃及生物机器人研究生 Youssef Nader 则采取了不同的方法。受到 Casey 和 Luke 发现的激励，他筛选了 Kaggle 上墨水检测奖的获奖作品，该奖的重点是改进 Stephen Parsons 在分离片段中的机器学习方法。他使用域转移技术使这些模型适应卷轴：对卷轴数据进行无监督预训练，然后对片段标签进行微调。

他提交了“墨水检测后续奖（Ink Detection Followup Prize）”的想法并获得了一个小奖。几周后，Youssef 向第一封信奖提交了自己的作品。他看到了 Luke 在 Twitter 和 Discord上分享的早期结果，并决定关注卷轴中的同一区域。

图｜Youssef Nader 最终提交的材料