阿里巴巴|阿里的“扫地僧” 2年“抄”了20万页古籍( 二 )


聚类和人工标注,不仅完成了每一类文字的认字过程,还收获更多新的训练样本,可以继续喂给机器学习 。
一般来说,数据越多,越有利于模型的训练 。但古籍里有很多异体字、生僻字,出现概率极低,根本无法寻觅这么多的样本 。
所以团队想到了让机器自动生成样本 。使用字体迁移方法来使合成数据,机器自动为每个字合成几个新的样本,确保单字样本量达到10个 。这样,就有足够数据训练少样本识别模型 。
得到少样本识别模型之后,就能投入使用,把第一步全书检测获得的所有图片进行重新标注 。不同于上一轮聚类+人工打标,这次是识别模型的自动标注,如果识别打标的数据与前一轮聚类的结果一致,就可以认为这张图片当前标签是对的 。如果不一致,那就让这个字回到聚类步骤,继续迭代 。
从聚类打标到少样本模型打标走完一轮,全书70%左右的文字可以被打上正确的标签,余下的30%,从头开始再来一遍,第二轮迭代,又能解决余下文字中的70% 。
经过两轮迭代,一本书的91%的文字可以被打上正确的标签 。
【阿里巴巴|阿里的“扫地僧” 2年“抄”了20万页古籍】
阿里巴巴|阿里的“扫地僧” 2年“抄”了20万页古籍
文章图片
它们不仅沉淀为了机器的字典,也是更丰富的训练数据 。通过前期一本书、一本书地学习,产生的训练数据越来越多,机器的认字能力也越来越强 。
最后,就是训练最终模型,能对100本以上的书进行批量识别的单字分类模型 。这个模型一出手,对批量数据的识别准确率就高达96% 。随着模型的优化和迭代,目前系统对20万页古籍的整体识别准确率已经达到97.5% 。今后,AI学到的数据越多,模型的进化程度也会越高 。
阿里巴巴|阿里的“扫地僧” 2年“抄”了20万页古籍
文章图片
回到模型“养成”环节,AI识别完绝大部分文字,剩下的需要人工专家补充标注 。
那么问题又来了AI怎么知道哪一部分是识别好的,哪一部分是需要交给人类专家的呢?
这个时候,主动学习算法出场了 。通过它,机器自己就能找出那些它识别不了的文字,交给人类来做最后一步工作 。
以往,人工标注通常需要“两录一检”以达到99.97%的出版要求 。
以一本100万字的古籍为例,如果全靠专家录入,每人1000字/天,需要1000天 。
达摩院的古籍识别算法,用AI替代人工,在两个环节大幅压缩了专家标注工作量 。
在机器为主进行识别的97.5%的内容中,约有1%(1万字左右)需要专家录入;机器不能识别的余下2.5%(2.5万字)的文字,全部交给专家做后期标注 。
两部分相加,人工的工作量占全书的3.5%(3.5万字),还是按照一人1000字/天算,需要35天 。因此,相比人工专家录入,百万字书籍的数字化工作量从1000天降低到了35天,效率比人工专家录入方案提升近30倍 。
阿里达摩院的AI古籍识别算法,为中华古籍的回归提供了另一种可行可期的思路 。
不简单的工作
2年,20万页,平均下来每天280页 。
再细算一下,每个小时就是11页,还得是在不吃不喝的那种情况 。
这对于用传统方式“复现”古籍来说,简直是mission impossible 。
为什么这么说?
举个“人工录入”的例子,便一目了然 。
在乾隆皇帝执政期间,便组织过一次对《四库全书》的编撰 。
《四库全书》共包含3500种书、7.9 万卷、3.6万册,总字数多达8亿 。
而当年参与次项目的人数则多达3800人,包括纪昀等360多位高官、学者 。
但即便如此人力之下,也是耗时15年才完成 。
然而量大,并不是这个工作的唯一难点 。
非常直接的一个问题,便是“理科生”和“文科生”之间的碰撞 。
阿里达摩院、四川大学历史文化学院,双方在各自的领域都堪称是专家级别 。
但之于对方的领域呢?说是小白也不足为过了 。
而且AI技术、古籍文化,还都属于上手门槛很高的那种 。
为此,双方可谓是恶补知识短板 。
历史学家、文献学家,要去学习计算机、AI相关的基础知识,要了解用AI技术识别古籍到底是怎样一个过程 。
而阿里达摩院的工程师们,也花费了相当多的精力,去学习历史相关知识 。
例如古籍的版本、雕版、印刷、装帧、内容,还包括古文字、古代文化知识等等 。


推荐阅读