阿里巴巴|阿里的“扫地僧” 2年“抄”了20万页古籍
阿里达摩院,一个正儿八经搞AI的地方 。
但偏偏“扫地僧”们干起了文绉绉的工作:研究古籍 。
他们将流散海外的珍贵古籍善本以数字化的形式请回故土 。
第一批达20万页 。
文章图片
△宋百家诗存
当理科生干起了专业文科生的工作,会擦出怎样的火花?
古籍为何“出海”,又如何“回来”?
关于这个故事,很精彩,也很有意义 。
古籍为何外流?
1860年(清咸丰10年),五千年文明古国此刻风雨飘摇 。
北有英法联军捣毁圆明园,逼迫中国签下《天津条约》、《北京条约》 。
南有太平军进入杭州,藏有《四库全书》的“南三阁”之一杭州文澜阁,次年毁于战乱 。
阁圮而书散,无数经典,从此淹没在历史中 。
文澜阁遭遇“灭顶之灾”后,杭州藏书家丁申、丁丙兄弟在逃难途中无意间发现文澜阁《四库全书》残编 。
相传,丁式兄弟买包子时,偶尔发现包食物的纸,“皆四库书也”,大惊 。
于是他们开始紧急救书,上下打点,四处寻访 。
经历这轮战乱,文澜阁本《四库全书》的四分之一被丁氏兄弟抢救,四分之三消散飘零,不知所踪 。
直到将近100年后的1950年代,清代曹庭栋辑纂的《宋百家诗存》 (卷七),出现在美国加州大学伯克利分校东亚图书馆 。
而这本《宋百家诗存》,正是丢失的文澜阁本《四库全书》之一 。
目前有线索可查的,只能明确伯克利东亚图书馆从日本三井文库购得这批古书 。
这类古书文物到底经历了怎样的颠簸流离,如今已不可考 。
据不完全估计,近代散居海外的中国古籍超过40万部、400万册,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等等 。
如今山河无恙,但流散海外的古书典籍,却成了中国文学、历史研究,以及传统文化传承难以弥补的遗憾 。
“再现”20万页古籍
大约两年前,阿里巴巴联合四川大学、美国加州大学伯克利分校,共同发起一项公益项目汉典重光,寻觅那些流散在海外的中国古籍,借助达摩院的AI技术,用数字化的方式让它们回归故土 。
而鲜有接触古籍的达摩院“扫地僧”们,一开始还不知道AI录入古书是多么有挑战的任务 。
OCR(光学字符识别),其实是一种常用的计算机视觉技术,经常被用来识别文字,比如证件、票据、电商平台的商品图片等 。
但是,我们生活中常见的OCR,绝大部分是针对现代汉字,而且还是印刷字体,把这样的系统直接拿来用在古书上,根本行不通 。
首先,古籍文字的类别极其庞大 。现代汉语常用字不过6000多个,常见印刷体,算法能够覆盖到的文字基本上在2万字以内 。
但是据估计,古籍文字多达几十万 。
为什么古籍上面有如此多的字?
古籍上面每个字都有不同的写法 。比如一个“郷”有各种写法 。
文章图片
此外,还有字体的变化 。在雕版印刷古籍中,即使是同一拓片在不同季节、气候、地点印出的书也完全不同,而那些人工抄录的古书,更是千人千面 。
每一个字形,即使表意可能相同,对于AI来说,也是一个需要重新学习记忆的新知识 。
第三,古书版式复杂 。除了不同于如今的从右到左,从上到下的排版,在每行字中间还常常夹有批注,这就使得常规使用的行识别方法失效 。
文章图片
△古籍版式复杂
最后,由于年代久远,古书保存状况也各有不同,在AI看来,纸张破损、污渍等等相当于大量的人为噪声 。
而达摩院,专门为古籍识别开发出了新的系统的 。
主要分为两大步,一是聚类数据生产识别,二是主动学习数据生产识别 。用到了单字检测、无监督图像聚类、少样本分类、主动学习等一系列机器学习方法 。
首先是全书检测,把古籍正文中的每个字都抠出来,作为单独的一张图 。
其次是聚类 。
文章图片
一本古籍总字数可能有10万字,但其中有很多字是重复的,比如“之、乎、者、也”,聚类所做的事就是让机器自动把字形笔画一致的字归为一类,接着再由人工进行标注 。也就是说,原来要人工标注全部10万字的书,经过聚类,只需要对全部二三千字类进行标注,一类字只标注一次 。
推荐阅读
- 骁龙8|发布至今没对手!摩托罗拉edge X30降至2899元:最便宜的骁龙8
- 贾跃亭|首台FF 91装配完成 马上量产!贾跃亭称比法拉利等快的多 200万买吗?
- Mate|曝支持5G的华为Mate 40E Pro下月卖!麒麟9000L备货极少
- 阿里巴巴|阿里又一款APP被阉割:旺旺群聊月底关停下线
- 诈骗|120万粉丝的缅甸网红李赛高被戳破!警方:真实身份是诈骗团伙
- 游戏|《艾尔登法环》IGN 10分:FS社最具野心的作品
- 猝死|28岁的工程师离世在冬夜:网传字节跳动又有员工送医院急救
- 发动机|三缸机的“病” 为何要用四缸机来治?
- 大脑|科学家首次记录到人去世前15分钟脑电波:揭示大脑最后的想法
- 气球|花3年搞出气球的一千种死法 这操作把我看害怕了
