互联网时代的文字错讹( 三 )

实际上 , 互联网时代的文字错讹 , 除了繁简转换之误 , 还有不少新的衍生类型 。 例如 , 因电脑、手机输入法产生的错讹 。 现今最常用的是拼音输入法 , 由于输入拼音后在候选项里会有多组备选字词 , 在选取时因操作不慎或者判断失误 , 会导致文本中音近讹字的出现 。 同样 , 使用形码输入法 , 如五笔字型输入法 , 以及手写输入法等 , 会导致形近讹字的出现 。

此外 , 还有一类非常特殊的错讹 , 因九宫格输入而产生 。 九宫格是手机拼音输入法最常用的一种键盘布局 , 将ABC……XYZ等26个字母分布在8个键位上 , 这样一来 , 比如拼写“早上”和“晚上”是完全相同的键位 , 在备选词里又毗邻 , 容易导致“早”“晚”混用的情况 , 这类不涉及汉字形音义关系的错误关联在传统书写中不会发生 。

再如 , 因OCR(Optical Character Recognition , 光学字符识别)产生的错讹 。 OCR的原理就是通过扫描纸本等载体上的文字 , 确定其形状 , 然后根据计算机程序进行匹配识别转译成字符 。 简而言之 , 就是把图像上的文字转换成文本字符 。 OCR软件在许多领域应用广泛 , 如果识别的对象本身是规范的排版文本 , 识别率非常高 , 人工校读也简便易行 。 但是在涉及古籍文本时 , 就容易发生形近而讹 , 加之人工校读不仔细 , 会遗患无穷 。 比如几年前 , 在全国各地售卖糖炒栗子的包装上 , 常会看到板栗简介中援引《诗经》的“树之棒果” , “棒果”是“榛栗”之讹 , 通过查检发现 , 这可能是某篇学术论文在OCR时发生的错误 , 导致网上关于板栗的简介以讹传讹 , 最终传播到了大众生活中 。


推荐阅读