管海粟:AI辅助破译甲骨文 让“冷门”不冷
发布时间:2024.05.27

来源:新闻中心 编辑:左盈 浏览次数:

新闻网讯(记者 左盈)3000多年前的文字,AI如何辅助破译?甲骨文遇见现代科技,如何让“冷门”不冷?我校未来技术学院2021级本科生管海粟,提出一种新的甲骨文辅助破译方法。近日,他的独立一作论文被自然语言处理领域国际顶级会议ACL 2024主会接收。甲骨文和人工智能会“碰撞”出怎样的火花?一起来看他的故事。


1203C


一拍即合,开启探索之旅


自1899年甲骨文被发现,迄今已有不重复的单字约4500个,其中已破译约1600个,仍有大量的甲骨文等待破译。有学者曾说“释出一字,好比发现一颗新的行星”,可见研究古文字的重要性和难度。


大二时,管海粟加入了软件学院白翔教授创建的本科生创新团队,进行科研初步探索。在团队里,他认识了从事人工智能视觉与自然语言处理领域研究的刘禹良老师。因对古文字研究很感兴趣,管海粟当即选择加入其课题组,开启用人工智能辅助破译甲骨文的探索之旅。


在老师的指导下,管海粟花了两周时间收集整理国内外该领域的研究文章进行学习。他发现,现有绝大多数人工智能研究主要集中在对已破译甲骨文文字的识别和检测上,而利用人工智能辅助破译未知甲骨文文字仍然是一个未充分开发的领域。


是否可以通过生成模型模拟甲骨文演变成现代汉字的过程来辅助破译?管海粟向白翔、刘禹良两位老师提出设想,并询问可行性。在得到老师们的支持后,他与课题组另外4位同学合作,分别尝试用不同路径探索辅助未知甲骨文破译的方法。


174D1


对于人工智能模型来说,数据集十分重要,而现有的甲骨文开源数据集存在类别缺失或者样本稀少等问题,课题组成员在商量后,决定主动开发尽可能全面的甲骨文数据集。


2023年暑假,课题组前往“甲骨文的故乡”河南安阳,到殷墟遗址和中国文字博物馆进行调研,深入了解甲骨文的起源与发展。期间,他们还与安阳师范学院的甲骨文专家展开交流,会后收到了院方推荐的甲骨文相关书籍和数据网站。


1E35B


返校后,课题组成员协作搭建数据集,并将《甲骨文字编》《西周金文字编》《春秋文字字形表》《战国文字字形表》等电子书和“殷契文渊”“国学大师”等网站的信息整理录入。


“我主要整理了3本书,共有近2500页,需要将书中的古文字单独裁出来作为模型训练的样本,这个过程中需要一边校对文字录入的准确性,一边完善数据库的算法。”管海粟说,在录入过程中,他有时也会猜想甲骨文的含义,到现在已经认识了近百个甲骨文文字。


暑假过后,课题组成员成功构建了甲骨文开源数据集HUST-OBC和EVOBC,分别包含了1600余类别甲骨文文字、13000余类别甲骨文演变阶段中产生的其他文字,为后续研究提供样本支撑。


助力“冷门绝学”焕发新活力


九月开学后,管海粟开始着手训练利用扩散模型辅助破译甲骨文的模型OBSD,专注找寻辅助破译的“最优解”。




输入甲骨文文字图像,利用第一个模型使其通过不同文字阶段演变逐步变化为近似现代汉字的图像,再用另一个扩散模型将生成的图像进行矫正,使其更加符合现代汉字的逻辑结构和书写规范……管海粟用几个月的时间训练和优化模型,使得模型可以结合古文字演变规律预测甲骨文文字图像在现代可能呈现的字形,从而为甲骨文文字破译提供一定的线索。


研究期间,管海粟还与课题组其他成员合作,共同获得基于条件扩散模型的甲骨文辅助破译方法、基于分类模型的甲骨文辅助破译分类方法及系统等方面的4项国家专利。同时,他们协作设计了基于人工智能的多途径辅助破译系统Open-Oracle,为古文字爱好者和相关研究者提供相应服务。



目前该网站共有五大功能,包括部首拆分、文字演变、自然语言处理等方向。后续,该网站也将聚焦甲骨文大众化,致力于产出甲骨文数字动画生成、甲骨文表情包、甲骨文Chat和甲骨文元宇宙等一系列甲骨文衍生项目。


“团队成员都是抱着浓厚的兴趣在自发主动地做着每一项工作,交代给他们的任务总能完成得超出我的预想。”刘禹良说。


在挑战极限中收获成果


在研究过程中,有两件事令管海粟印象深刻。


在开始准备投出论文时,导师建议细打磨缓投稿。在经历过无数次修改之后,文章最终选择投稿到更契合主题的自然语言处理领域国际顶级会议ACL。“ACL会议对论文的要求比原准备投稿的会议高得多,且一年只会收录一次论文,在短时间内对论文进行整体调整难度很大。”管海粟说,在导师的鼓励下,他选择接受挑战。


寒假期间,管海粟全身心投入到模型测试和论文优化中。“大年初一时,测试的实验结果出来了,证明我们的模型与其他模型相比达到了较为先进的破译精度,感觉努力没有白费。”


17179


  在今年4月,管海粟收到ACL会议的邮件,三位审稿人共提出了近60条问题,包括对模型本身的疑问、对甲骨文背景和中国现代汉字演化等方面的问题。而回复时间只有4天,为更好地向审稿人介绍甲骨文和此次的研究,他“极限”整理相关材料,打磨对审稿人的英文回复内容,并与导师反复交流修改,最终通过审稿人审核。



“他思维严谨客观,并且能做到知行合一,这是一个‘科研新人’身上非常难能可贵的品质。”刘禹良这样评价。


5月16日,管海粟的独立一作论文成功被ACL 2024主会接收。“距离初次接触甲骨文这个研究方向刚好一年,很荣幸能用一年不长的时间,做出一些很有意义的事。”


为文化传承贡献青春力量


全国大学生数学竞赛一等奖、全国大学生数学建模竞赛一等奖、国家奖学金、校三好奖学金、两项省级大创……这三年,管海粟获得了许多奖项,而荣誉的背后离不开他扎实的专业基础。


中学时期的管海粟在数学方面就表现出色,曾获全国高中数学联赛重庆市一等奖,高考数学成绩为148分。来到华中科技大学后,他顺利通过考核,进入未来技术学院本硕博实验班。


998F


在这里,他继续巩固基础学科知识,拓展专业学习,将理论知识与科研内容相结合,不断提升独立思考的能力。“科研实践可以帮助我逐渐理解一开始不明白真正用途的数学理论,而这些理论也可以反过来对我的研究工作进行创新指导。”管海粟说,沉下心来多思考、多琢磨,也是他灵光闪现的秘诀。


1D174


“寄蜉蝣于天地,渺沧海之一粟。”这是管海粟最喜欢的一句诗词。在他看来,让迄今三千多年的古老文字焕发新的活力,个人的力量可能十分有限,但自己还是想继续钻研探索,努力为人工智能辅助甲骨文破译提供更好的方案,为甲骨文的保护和传承贡献华科大智慧。

学校微博
单周单篇点击量排名